【Dataiku】OVAイメージを利用した環境セットアップ
【FDUA】第2回 金融データ活用チャレンジ参加にあたり、Dataikuの環境整備をしたので、備忘録として記事しました。
ちなみに「Dataiku」との出会いは、、、
メルカリで定期的にポチポチして買ってきた(タイトル写真にある)、うちにある機械学習の本たちを何とかせねば。。。と遭難しかけて、社内コンペでGoogleColabで試したりしてもやもやしていたところ。。
これイイじゃん、と出会ったのが「Dataiku」です。
本って、やろうやろうと積むだけで業務なりなかなかタイミングなくて写真みたいに本棚も遭難状態になりがち、出会って、MLOpsがこんな簡単に、さらにオンプレで出来るんだというのが衝撃的でした。
何がスゴイって、5ステップでテレビショッピング並の速さ!!
①Dataikuインストール済ゲストイメージ入手
Dataikuのサイトにある 仮想イメージファイル「ova」をダウンロード
②仮想基盤入手
VirtualBox or VMPlayerの好きな方を選んでダウンロード&インストール。
③Dataikuゲストイメージ起動
①でダウンロードしたovaをダブルクリックして起動
④Dataikuユーザ登録
しばらくして起動したら http://localhost:10000にアクセスしてユーザ登録
⑤ハイこんにちは 「Dataiku」です。。
これで利用できるようになります。
自分はバリバリ開発というよりアプリエンジニア&インフラよりなのですが、実際に使ってみると、MLOps環境の殆どが無料で使えて、クラウドだと課金問題があるし、、、本当にこんな素晴らしいMLOps環境が無料で使えてよいの?と思ったりして感動しています。
今回は、VMPlayerを使ったセットアップですが、何かのお役に立てたら幸いです。ちなみにVer12.5.1でゲストOSはCentOS7が利用されており、CUIで構成されているのですが、Dataikuを使いながら、オンラインミーティンなども一緒にするとなると結構、CPU,メモリは利用しますので、快適に使うにはディスクは最低30GB程度の空、メモリは16GB程度、CPUコアはたくさんあった方がよいです!
①Dataikuインストール済ゲストイメージ入手
下記サイトから、DataikuのVMゲストOSイメージを入手します。
2024.2月現在、日本語対応した12.5.x以降がおすすめです。
開発したプロジェクトはExport & Importで移行可能なので定期的に作り直す運用もありかもしれません。
②仮想基盤入手
VMPlayerですと下記サイトがわかりやすいかもです。
VMware Workstation(仮想環境)のセットアップ手順 #Linux - Qiita
https://qiita.com/WhizOwl/items/ce699f6f4366465dbe2e
③Dataikuゲストイメージ起動
VMPlayerをセットアップしたらovaファイルをクリックします。
クリックすると、VMPlayerでovaファイルの展開場所、仮想マシン名の入力画面が表示されるので、適時情報を入れて、ゲストイメージをローカルPCに展開します。細かい作業の方法は記事スペース上割愛します🙇♂️
ちなみに展開されたゲストイメージのメモリは4G、CPUは1コアですが、いろいろするには厳しいと思いますのでご利用環境で増やしてください。
④ユーザ登録
この辺りも指示に従います。
これで利用できます!
ちなみに最低限の環境セットアップをすると便利になります。
自分は下記を設定しました。
(i)GUIの日本語化
(ii)sudoのパスワードレス化
(iii)open-vm-toolsのインストール
(iv)ネットワーク接続系の変更
(v)IPアドレス・ホスト名変更
(vi)PCのhosts ファイルに Dataiku のホスト名追記
(i)GUIの日本語化
各ユーザのプロファイルから変更します。
手っ取り早く、下記へアクセスして、Langurageを変更、保存します。
http://ログインしたURL(例:19.168.1.123:10000など)/profile/
プロフィールページから遷移すると日本語化されています。
(ii)sudo をパスワードレス
sudoコマンドを実行される度にパスワード入力が面倒で、サクッとできるところで対応します(もっと良い方法があるかと思いますが)。
下記コマンドで編集
sudo visudo or
vi /etc/sudoers (こっちが楽?) で編集します。
# User privilege specification
root ALL=(ALL:ALL) ALL
dataiku ユーザに sudoパスワードなし権限を付与 したいので追加します。
dataiku ALL=(ALL:ALL) NOPASSWD: ALL
(iii)open-vm-toolsのインストール
VMPlayer のシャットダウンを管理したいので、open-vm-toolsを入れて、いきなり電源OFFするのを止めて、シャットダウン処理の対応します。
open-vm-toolsを入れます
VMware ESXi上のCentOS6にopen-vm-toolsをインストール #vmware - Qiita
https://qiita.com/khayama/items/0b508c43af50b92f65f5
[dataiku@localhost ~]$ sudo yum -y install open-vm-tools
Loaded plugins: fastestmirror
Loading mirror speeds from cached hostfile
* base: ftp.tsukuba.wide.ad.jp
* epel: repo.jing.rocks
* extras: ftp.tsukuba.wide.ad.jp
* updates: ftp.tsukuba.wide.ad.jp
Package open-vm-tools-11.0.5-3.el7_9.9.x86_64 already installed and latest version
Nothing to do
上記インストールしてリブートすればOKです。
(iv)ネットワーク接続系の変更
VMPlayerの無償版はネットワークの管理ツールがついていないので、ネットワーク接続先を調整した方がよいことがあるかもしれません。
手元では、直接接続「ブリッジ」に変更し、自宅内で管理しやすくします。
上記設定にすれば、家庭内LANでDHCP接続、固定IPに変更も可能出来ます。
(v)Dataikuのホスト名、IPアドレスを変更
参考までにIPアドレス、ホスト名の変更してアクセスしやすくします。
変更は、sudo nmtui を利用して GUIで編集すると楽ですよ。
上記例でいくとBridge接続時は、自宅のホームルーターの19.168.x.xのネットワークアドレスで自動でIPが変わります。起動の度にIPが変わる可能があると面倒なのでIPバッティングしないよう固定IPに変更します。
下記は 19.168.1.123 に変更する場合(19.168.1.1 はホームルータアドレス)
「Edit a connection」 でネットワーク関連の変更、
「Set system hostname」はホスト名の変更になります。
ホスト名をリネームする場合は、以下となります。
再起動も早いので、
rebootコマンドでゲストOSを再起動したら反映されます。
ちなみにここまでくれば、
設定したIPに ssh経由でターミナルソフト(TERATERMとか)接続確認して追加すると管理が楽になります。
TeraTermですと下記のようにsshで接続します。
Terminalソフトで接続すると、入れればコピペも楽なのでおすすめです。
(vi)PCのhostsファイルに Dataikuのホスト名を追加
DataikuゲストOSで変更したホスト名でアクセスしたい場合
Windowsであれば、C:\Windows\System32\drivers\etcにある
hostsファイルにIPアドレス、ホスト名を追記します。
※C:\Windows\System32\drivers\etc\hosts に設定するため、
管理者権限がない場合、アクセス権の一時的な変更が必要です
hostsファイルを更新したら再起動して、ホスト名でアクセスできることを確認します(nbtstatコマンドでもOKです)。
設定反映後にhttp://dataiku:10000 でアクセス出来ればOKです!
以上です。
みなさんの参考になったら幸いです。