![見出し画像](https://assets.st-note.com/production/uploads/images/171697382/rectangle_large_type_2_98ea78817f91a6b0dedd57ef94404762.png?width=1200)
[ソフタスグループ連携]データサイエンス・機械学習 (ML) プラットフォーム構築【九州ソフタス×北陸ソフタス】
2024年夏頃、北陸ソフタスのインフラ構築部門の管理職の皆様を、九州ソフタスの全社員集会にお招きした際に『これからネットワークやサーバの仕事を協業できるといいですね!』と、両社の今の強みや業務案件など情報交換をしました。
そういった経緯もあり、2024年10月に北陸ソフタスよりKubernetesを使ったシステム構築案件がありますが対応できますか? と連携のお話をいただきました。 その時点では九州ソフタス内では業務としての経験はなく、ソリューションサービス部の一部の社員が検証のために動かしている程度でした。
北陸ソフタスへは、自己学習程度の知識ではあるが技術はあるため対応は可能、案件として受託し経験を積んでいきたいと返答しました。
しばらくして、無事に案件とし成立したと連絡をもらい北陸ソフタスが携わる案件へ九州ソフタスとして参画することとなりました。
お客様はとある大学の情報系学部であり、Kubernetes、JupyterHub、そして Kubeflow を組み合わせ、データサイエンスや機械学習 (ML) のプラットフォームを構築する案件であることがわかりました。Kubernetesだけではなく、JupyterHub、Kubeflowを組み合わせたプラットフォームだとわかった時点で、業務としては未経験のチャレンジ要素が追加され、プロジェクトメンバーは少し不安げな様子がうかがえました。
アプリケーションのセットアップだけではなく、ネットワーク接続、サーバハードウェア設計や配線やマウントを伴う設置作業、加えてLDAPなどによる認証環境、既存設置のNFSとの連携など様々な技術要素が複合した案件となりましたので、九州ソフタスのソリューションサービス部と基盤開発グループのそれぞれの技術と経験を組み合わせることで実現可能であると判断し、部門を跨いでプロジェクトチームを結成しました。
システムの構成概要はこのような感じです。
![](https://assets.st-note.com/img/1737864490-zOCvnaV6GJWK0TM9B3IgiUDs.png?width=1200)
サーバ3台(マスターノード、CPUworkerノード、GPUworkerノード)によりKubernetes Clusterを構成し、JupyterHub、Kubeflowをサービス提供します。
お客様へ納品するサーバ機器の到着まで1か月程時間があったため、それまでに社内にあるサーバをかき集めて検証環境を構築しました。
さすがにGPUサーバはありませんでしたので、CPUサーバで代用し環境を構築、動作検証を進めました。しかしながら余っているサーバではCPU 、メモリリソースが不足していたため、Kubernetes、JupyterHub、Kubeflowのセットアップまではできましたが、完全な動作確認はできずセットアップの手順確認までとなり、サービスとしては「動くはず」となりました。
実際の本番サーバが到着してから、お客様環境への設置までの予定期間が営業日ベースで30日程度ということもあり、本番サーバへの構築中に進捗停滞する可能性があることは事前に潰しておきたいとプロジェクトチームより、次の3点申し出がありました。
GPUサーバを含めたKubernetes Clusterの動作検証
PODが想定動作をするか検証
お客様環境設置後、トラブル等があった際のデバッグ環境もあった方が良い
この点については、AWSで構成することで対応可能であるため、さっそくAWSへの環境構築と開始しました。 さすがに一度構成している環境だということもあり、3日程度で環境構築を終え、動作確認を進めることができました。
ただし、仕事から帰るときはインスタンスを止めて帰ることを徹底してもらいました。過去の別案件でAI関連のサービス利用した際に、1週間で10万円の利用料となったことがありました。AWSは利便性が高いですが、使い方によってはコストオーバーとなることもあるので、作業進捗とバランスをとって進めてもらいました!
これは本件で使ったアカウントの実際のコストです。いろいろ工夫は必要ですが、AWSの環境をうまく使うことで、このくらいのコストで業務進捗できるので、やはり活用しない手はないですね。
![](https://assets.st-note.com/img/1737864502-94wCExeV8ItB6F2mOKzadhp7.png?width=1200)
12月初旬 予定よりも早く本番サーバが着荷しました。早めに構築開始できると喜んでいたのですが、ここでサーバへの電源投入ができないトラブル発生!200Vの電源が必要であることは事前に聞いており、コンセント形状についても把握して、事務所の空きブレーカーの電源工事を行い準備していたのですが、取り付けたコンセントボックスの形状と、サーバに同梱されていたケーブル形状があっていないことが判明しました。
![](https://assets.st-note.com/img/1737864510-cdXR9fz7ysJxhmBHAoZKYPWS.jpg)
原因は、電源工事を依頼したところとの認識ずれがありました。。。あまり見ない形状のコンセントですし、工事を依頼した業者の方も初めて見るコンセント形状だとも言っていたので、もう少し話を詰めておけばよかったと反省しました。
コンセントボックスの取り寄せ取り付けの時間は待っていられないため、コンセントの変換コネクタを見つけ発注!ですが、到着まで7日~14日かかるとamazonのカートに表示され、、、
変換コネクタが届くまでAWSでの環境構築と動作検証をじっくり進めることができ、本番サーバでの作業開始前に、準備万端整えることができたので結果として良かったのかもしれません。
12月中旬に本番サーバへ無事に電源を投入し、この記事を書いている頃は構築作業も大詰めとなっています。
![](https://assets.st-note.com/img/1737864517-Ke4OyhNblRw2HzjJGAE7qDL5.jpg)
(作業が終わったらケーブルだけ取り外せるようにしてもらっています)
![](https://assets.st-note.com/img/1737864526-pZIRgoqbBOLfa8EWSxUj4r21.jpg?width=1200)
サーバは床に並べて作業しています。
この記事が公開される頃は、お客様環境へ設置し、現地での接続設定やシステム調整、動作確認を行っている頃だと思います。
無事に現地作業が進むことを願いながら、この記事を書かせてもらいました!
今回のように北陸ソフタスで提案した企画への必要技術が、我々にとってチャレンジの機会になることもグループ連携の大きなメリットだと感じることができました。
また、本件をモデルに多くの大学、教育機関へデータサイエンス・機械学習 (ML) プラットフォームの企画提案につなげていければ、さらにグループ連携の効果を大きくしていけると感じています。
まずは、本件を無事に納品できるように!
文:九州ソフタス 忽那有記