データサイエンティストとして活躍したい学生が今すぐクラウドを使うべき3つの理由
こんにちは、株式会社アトラエの小倉です。wevox という事業部でインフラエンジニアとして活動しています。
私はもともとデータサイエンティストとして今の会社へ入社しています。そのことを面接や面談で学生さんに話すとこのような質問を頂くことが多いです。
• データサイエンティストになるにはどんなことを勉強したらいい?
• 実際のデータサイエンティストってどんな仕事?作業?
私の現在の本業はインフラエンジニアなので、(シーンを限定した上で)クラウドを活用するといいですよ、実際にクラウドを活用しますよ、という話をしますが、「クラウドとデータサイエンスをどういう風に組み合わせるんですか?」「料金はやっぱり高いんですよね?」というような質問を更に受けることも多いです。
よく考えてみると学生生活でクラウドサービスを利用することはほぼ無いし、知るきっかけもないなと思いました。一方で現在、アトラエ含む多くの企業ではクラウドの活用がガンガン進んでいます。ここのギャップを埋めたいと思ったことがこの記事を書くことになったきっかけです。
この記事ではデータサイエンティストとして活躍したいと思っている学生の皆さんに AWS(Amazon Web Service)や GCP(Google Cloud Platform)、Azure(Microsoft Azure) などクラウドを今すぐ活用して欲しいと考える理由について書いていきます。
クラウドとは?何ができるの?
いきなりクラウドと言われても「クラウドとは何なのか」「クラウドを使って何ができるのか」と感じると思うので、先にこのことについて説明していきます。
ここでいうクラウドサービスとは AWS や GCP や Azure などのクラウドコンピューティングサービスを指します。
弊社をはじめ多くのベンチャー企業やスタートアップ企業が積極的にクラウドを導入しており、最近では大手企業も大規模に取り入れ始めている印象です。
簡単にいうと我々がwebサービスを利用するかのような気軽さでサーバーやストレージ、ネットワークを構築・撤去・増減することができるサービスのことをクラウドといいます。ポチポチとクリックするだけです。
クラウドと対局に語られるのがオンプレミスという概念です。物理的にサーバーを保持することを指します。オンプレミスでは非常に高い固定費とリスクを以ってサーバーを物理的に保持していました。
近年の技術の発展により、クラウドで出来ることが増えてきています。スタートアップやベンチャーは人に対してやることが多く、なかなかサーバーの構築や管理にまで行き届かないことが多いです。以前は web サービスを提供するためにオンプレで管理するしかありませんでしたが、今やクラウドという選択肢をとることでよりメインとなるビジネスに集中しやすい環境を作れるようになっています。
非常に簡単に且つコスト安でサーバーの設定や管理が出来るものがクラウドです。一見データサイエンティストには関係なさそうに思えますが、ここから今すぐクラウドを使うべきと考える理由について説明していきます。
1. 自身のデータサイエンティストとしての活動の生産性を大幅に上げるから
クラウドサービスを上手く利用することができると、ご自身の現在の作業効率を何倍にもできるはずです。しかも無料で、です。
例えば自身のラップトップで機械学習モデルの学習や推論をしてみることを考えてみましょう。こんな経験ありませんか?
• 大量のデータを扱うとPCが音を立てフライパンのように熱くなる。そして遅い。
• 研究室の GPU サーバーのスペックがイマイチ。自宅でGPU を使いたいが高くて購入できない。
• 手元の Jupyter を使ってモデルが完成した!web サービスとして公開したいが何をやっていいか分からないし大変そう。
これらの悩みの多くはインフラストラクチャーが原因です。クラウドと上手く付き合うことが出来ればこれらの課題は解決できます。
例えば GCP の AI Platform Notebooks というサービスがあります。このサービスは GCP が提供する JupyterLab です。ラップトップで Jupyter Notebook や Jupyter Lab を利用するのとほぼ同じインターフェイスで利用可能です。
ラップトップの Jupyter と異なる点の1つが、CPU やGPU やメモリといったコンピューティングリソースの増減をボタンひとつで操作できることです。自前でサーバーを調達したりメンテナンスしたりする必要もないですし、長い時間待つこともありません。遅くても5分ほどで構築が完了します。またスペックの変更はもちろん、不要になった際のサーバーの削除もワンクリックで出来ます。
料金のことを気にされている方も多いと思いますが各クラウドプロバイダからは無料枠が提供されています。GCP は基本的に毎月各サーバーの利用閾値を超えない限り課金されることは無いですし、一定期間内有効な $300 分のクレジットを配布しています。もちろんAWS や Azure も無料枠を設けています(個人的に ML 系を試して見たいと思う学生さんにオススメは GCP です)。
各クラウドでは他にも便利なサービスを多く提供しています。無料の範囲内で利活用できるサービスもたくさんあります。
今現在、生産性を上げられる余地があると思っている人はもちろん、どんなサービスが自分の生産性を上げてくれるかまだわからない人も是非クラウドサービスを検討してみてください。
2. 実務に必要なエンジニアスキルを身につけることができるから
一般社団法人 データサイエンティスト協会では、データサイエンティストに必要なスキルを「サイエンス」「エンジニア」「ビジネス」と3つに整理しています。
一見すると「サイエンス」スキルに加えて「エンジニア」スキルの習得が難しいと思ってしまいますが、クラウドサービスを利用すれば比較的簡単に両方を習得できると考えています。
各クラウドサービスでは、2つのスキルの境界部分を埋める素晴らしいサービスを多く提供しています。GCP の AI Platform や AWS の Sagemaker はデータサイエンティストがインフラ層を強く意識せずに、データ取得からサービス化までの一連の作業を簡単にさせるサービス群を提供しています。
今、クラウドの世界ではサーバーレス化・マネージド化が激しく進みインフラの価値の幅が変化しています。 インフラ層のサービスは一般に複雑で幅広い知識が求められることが多いため、データサイエンティスト含め多くの開発者が触れることを避けたがります。各クラウドプロバイダはここに目をつけて誰でも簡単にインフラを操作できるようにしたり、インフラを全く意識させないようなサービスを提供したりしています。
サーバーレス(Severless) … サーバーの構築や管理をすることなく、サーバー上でプログラムを実行できるような仕組みのこと。利用者はプログラムを書くことに集中することができる。
マネージド(Managed) … サーバーの構築や管理含めサービス提供の本質的な作業と付随する作業をクラウド側で吸収してくれるような仕組みのこと。サーバーレスよりもより広範な概念。
クラウドから提供されているデータサイエンティスト向けのサービスを利用することでエンジニアの要素も同時に身につけることができます。
最近世の中を見ていて、データサイエンティストにもエンジニアの知識が少しずつ求められるようになっている印象を受けます。データサイエンティスト自身がエンジニアとしての考え方や能力を持つことで事業のスピードが一気に加速するためです。完璧に使いこなす必要はなく、「知っている」「以前使ったことがある」というだけでも仕事で貢献できる分野だと思っています。
活躍しているデータサイエンティストが「サイエンス」「エンジニア」「ビジネス」の3つを高いレベルで持っているとすると、2つのスキルを身につけられるクラウドは、最適な学習対象なのではないでしょうか。
3. データサイエンティストの今後の未来を予測できるようになるから
少し寄り道をさせて下さい。ここ数ヶ月で多くの素晴らしい AI サービスが世の中に登場しています。そしてそれらは多くの人の働き方を抜本的に変えうるものです。
例えば GPT-3 というものが2020年7月に OpenAI から発表されました。以下はわかりやすくまとめて下さっている記事です。
また GCP からも AutoML と呼ばれるサービスがリリースされ、界隈ではかなり注目を集めています。簡単に言うと「データだけくれれば、モデル選定やチューニングを含めて Google がベストなものを選んで最強のモデル作っておくよ!」というトンデモサービスです。
これ系のサービスは手軽な代わりにパフォーマンスが微妙なイメージがありますが、 なんと2019年の Kaggle のコンペで2位を獲得しています。
何を伝えたかったかというと、今がまさにデータサイエンティストにとっての過渡期であるということです。
データ分析や機械学習等のタスクも職人芸が不要なようにデザインが進みクラウド側に統合されています。
他にも各クラウドプロバイダでは API 形式で色々なサービスを提供しています。画像認識、音声認識、自動翻訳、生成。ものによっては人間が丹精込めたモデルよりも簡単に、精度高く web サービスとして提供できてしまいます。
さて、この現状を踏まえてデータサイエンティストは何ができるでしょう?何をするべきでしょう?
今後のデータサイエンティストの役割がどのようなものになっていくか、どのような人が活躍できるかは私も分かりません。ただし予測はできます。それは私がデータサイエンティストと一緒にクラウドを活用しつつ議論を重ねているからです。
誰よりも活躍したいと思っている人にとって、その職業の今後の未来に意見を持つことは、就職活動を含め今後のキャリアを進める上で重要な能力なはずです。
多くの学生さんが現在、重要とされているスキルを身につけることに注力します。これ自体は素晴らしいことです。ただしそのスキル自体が必要なのではなくアウトプットが本質的には重要であり、課程や手段(=スキル)はクラウドによって代替されはじめています。
だからこそ、今後何が必要とされるかに意見を持ち、突き進む力が重要だと思っています。
各クラウドを利用すればここまで説明したサービスを直感的かつ安価に活用することができます。まだまだかなと思っているサービスや機能も、使ってみると考えが変わるかもしれません。
最後に
ここまでデータサイエンティストとして活躍したい学生さんが今すぐクラウドを使うべき3つの理由を書いてきました。ここで述べたことが誤解を招かないようにいくか補足を入れていきます。
全ての企業や人がクラウドを使うべき?
答えは No です。「銀の弾丸はない」と一般に言われるように、クラウドにすれば万事解決!オンプレはオワコン!とは言えません。
クラウドのいい面のみ説明してきましたが、デメリットもありますしそれを含め使わない方がいいケースもいくつかあります。ただし技術の発展に伴い強力な選択肢の1つになっています。
企業においてはチームで開発することがほとんどなので、クラウドなどの技術をなんでも好きに使えるわけではありません。そのためその制限があまりない(と思われる)学生さんに、今のうちに使ってい欲しいと思っています。
データ分析のスキルや研究活動には意味がない?
これも No です。逆にむしろそのスキルや研究の経験が重要になってくると思いますので、自信を持って今の作業や研究、好きなことに没頭して下さい。
クラウドの性質上、サービスやツールがますますブラックボックス化していきます。便利ではあるものの、「正しく利用できているか」「このツールはそもそも信頼できるか」を判断できなければ本当の意味で使いこなせることはないでしょう。
研究では基本的に原理に近いところから学習を進めるはずです。そこが廃れることはないです。ただ、上記までで述べてきたように学生時代にクラウドのことや実務でどのように使われているかを知っておくことも十分価値のあることだと思っています。
クラウド破産の可能性に備える
「クラウド破産」という言葉があります。クラウドは誰もが簡単に操作や管理ができる反面、その手軽さゆえあっという間に料金を爆発させることがあります。
上の記事は利用者全員に十分ありうることです。ドキュメントを読み進めたり、複雑なことをしなければ大丈夫だと思いますが、このようなケースもあることを認識しておきましょう。
最後まで読んでくださりありがとうございます。株式会社アトラエでは一緒に夢に向かって突き進んでくれる仲間を募集しています。Twitter からも気軽にどうぞ!
新卒の応募はこちら (QRコードです)
中途も募集しております!