見出し画像

「データ×未来創造/社会課題」の分野で国内NO.1を目指す!データ・アルゴリズム開発の裏側(後編)

こんにちは、アスタミューゼnote編集部アスタミューゼ公式@twitterです。
アスタミューゼの根幹であるデータチームとアルゴチームのみなさんをお招きして開催した、初のオンライン座談会(後編)をお届けします。


改めてメンバー紹介

大澤理恵/@osawa/データアルゴ開発のボス
中塚祐喜/@nakatsuka/機械学習エンジニア
佐川 慎一/@sagawa/データエンジニア
山口尚登/@gucchi/データエンジニア
モデレーター大谷/@tani/note編集部中の人

note編集部は会議室でワイワイ開催しています

@tani
前編ではアスタミューゼが力を入れている領域や案件の概要についてお伺いしました。後編ではメンバーのみなさんにより具体的なお話をお伺いできればと思います。早速ですが、大規模データベースを実際にお客様に提案されるまでにデータチーム・アルゴリズムチームでどういったことをされているのでしょうか。

@osawa
データチームではグラントや特許などのデータの収集からデータサイエンティストやアナリストが分析しやすい形への整備までを一貫して行っています。世界中のデータを横並びで分析するための英語翻訳や、データ処理の高速化や自動化なども行っています。アルゴリズムチームは、データチームが整備してくれたデータを活用して、クライアントの課題を解決するための分析手法を考え、手を動かして実装するということをやっています。ざっくりした説明なので詳細はメンバーから聞いてください(笑)

@nakatsuka
全ての案件についてアルゴリズムチームが入っているというわけではなく、なるべく一度作った分析手法については、コンサルタントチームやアナリストの方でも使えるように工夫しています。一方、大規模なデータを使って、簡単には見つけられないような傾向や特徴をつかむとなると、やはりデータサイエンティストの力が必要不可欠なので、どんなことに課題を感じているのか、どんな結果があると嬉しいのかを自分でクライアントにヒアリングしながら手法を考えていますね。

約10億件のデータを扱い、プロセス自動化を目標に。

@tani
データチームのみなさんもクライアントMTGに同席することもあるのでしょうか。

@gucci
データチームがクライアントMTGに同席することはほぼないですね。僕たちは縁の下の力持ちなので特定の案件に入るということはしていません。とにかく形式が異なる様々なデータを分析可能な状態に整備していくというのがデータチームの主なタスクになります。本当にいろんな形式があって。拡張子の違いだけでも山ほどありますし、HTMLだけでも構造がそれぞれのサイトで違っていますので、適切なデータモデリングをした上で、適切にパースしていかないと最終的にきちんと分析ができるデータにはならないんです。

@tani
@gucciさんは最近では具体的にどういった業務をされていますか。

@gucci
今は特許検索用のデータベースを手直ししているところです。このデータベースは社内にいる専門アナリストがよく使っているものなんですが、アスタミューゼの分析をより強力にするためには足りない情報や機能があるので、今後は更新頻度を上げてより使いやすいものに進化していければと考えています。国によって特許項目は様々あるんですが、まず共通化できる部分を探して整理する。そして、各国が独自に出している項目についても最終的に分析できるようにしなくてはならないので、1つ1つ潰していく作業なんかはなかなか骨が折れますね。生データと向き合いすぎて、気づいたら今日コード全然書いてないという日もあったりします。

@sagawa
ごめん、僕は毎日コード書いてます(笑)

@gucci
人によって違いましたね(笑)@sagawaさんは自動化やパイプライン開発をメインでされていますよね。

@sagawa
そうですね。比較的大規模なデータで、普通に処理しようとするとめちゃめちゃコストがかかってしまうので、DataProcやDataflowなどのGCPのマネージド・サービスを使って分散処理したり、、パフォーマンスを出すためにDWHにデータを寄せたりして、工夫しながら開発しています。大体今だと10億件くらいのデータ量を扱っていて、少人数のチームなので人間がやる処理を可能な限り、自動化する、そして、空いた時間で新しいサービスを検討したり、モダンな開発環境に変えていったりということはどんどんやっていきたいですね。

論文など複合的なデータソースならではのアルゴリズム開発の魅力とは

@tani
これまで@nakatsukaさんが思い入れのある分析や案件などはありますか?

@nakatsuka
そうですね。案件の詳細については機密情報なのでお話できないのですが、クライアントが欲しい情報がネトストに近いような分析があって僕的には面白かったですね。

@osawa
ネトスト?あ、ネットストーカーね(笑)

@nakatsuka
公開情報に含まれる優秀なイノベータとか研究者を集めて可視化していくという分析だったのですが、人や法人のトレーシングをして比較できるのは興味深かったです。あとはこの案件に限らずですが、論文や特許などの扱うデータがテキストやグラフだったり複合的なので、色んな分析手法を考えたり、様々な実装が可能だったりするところはエンジニアリング的な面白さはありましたね。

@tani
アスタミューゼはいわゆるログデータではなくてテキストデータが多いのも特徴だと思いますが、その部分についての面白さというのもありますか?

@nakatsuka
機械学習という視点では、データの種類が違っても使う技術が似通ってくる部分はあります。色んな種類のデータソースに応じたデータの前処理やタスクの設計を工夫する面白さはありますね。

@sagawa
一般的に事業会社でデータ処理というと、構造化データといってある程度出力の形が決まったログデータを保存したり加工したりすることが多いんです。アスタミューゼの場合は自然言語やテキストデータなどの非構造化データを収集して保存していくので、データエンジニアからするとその差は大きくて難易度があがりますね。

@gucci
1つのカラムに入るデータ量が相当大きくなりますもんね。

@sagawa
そうそう、そこの難しさを楽しいと感じるのはデータエンジニアならではですかね。特に僕自身は、非構造化データは初めてだったので正直戸惑うことも多いんですけど、だったらこういう風に工夫してみようとか色々試行錯誤しながらやっています。

@nakatsuka
そうなんですね。他社の事例を見ていると、データサイエンティストとしてはテキストデータや画像データも結構多いですよ。ただ論文とか特許とかにあるグラフっぽいデータなんかは実社会で応用例が出てくるのは比較的珍しくて、他の事業会社で扱うことは少ない方だと思います。

@sagawa
へえ~~~~~!視点が違って面白いですね。

@osawa
確かにネットワークデータを対象とした事例は、他のデータサイエンティストの求人なんか見てもそんなに出てないですよね。あとデータのコンビネーションなんかがアスタミューゼならではだと思います。

@tani
ネ、ネットワークとはなんでしょうか・・・?(すみません、ついていけていません・・・汗)

@nakatsuka
SNSをやっている会社を想像してもらうといいと思います。この人とこの人が同じ会社で繋がっていて・・・みたいな。国内だと画像やテキストの分野と比較すると、あんまり多くはないですね。アスタミューゼでは、例えば論文で言うと、論文の中に引用情報ってたくさんあるんですよね。なのでそういったところから、この論文とこの論文は引用関係がありますよといった形でまず繋げていって、その繋がりの関係も分析していくといったことをしています。

@tani
イメージしやすいです!こういうのですね・・・!

@tani 脳内イメージ

多様な専門家や多様なデータに触れることで成長できる環境

@tani
これまでみなさんのお話をお聞きして、共通して知的好奇心が強く難しいことにチャレンジしていくというマインドをすごく感じました!

@nakatsuka
知的好奇心が強い人は確かに社内に多いですよね。社内にアカデミア出身の方も多く、良い意味で変わり者が多いのも刺激的です。僕は事業会社出身でそういう人はまわりにいなかったので、色んなバックグラウンドの方と議論できるのは楽しいです。

@sagawa
源さんとか南極にいた人だからね、普通出会わない(笑)

そういう僕や@gucciなんかはもともと理系ですらなくて異業種からやってきてるけど、アカデミア出身だけじゃなく、色んなバックグラウンドの人がいて、それぞれがお互いのよい部分を認め合っているなと感じますね。あとは扱っているデータが特殊なので、知的好奇心が高くないと続かないと思います(笑)

@osawa
アカデミア出身の多様な専門家・戦略ファーム出身の方・事業会社出身の方・省庁出身の方など、コンパクトな組織であるにもかかわらず、本当に社内にいる方のバックグラウンドはみなさん面白いですよね。リソースが少ない状況ではありますが、こういったメンバーだからこそ、それぞれが独自の視点で優先順位を把握しながらslackで密にコミュニケーションを取りあったり、多様なデータやそれぞれの知識に触れる事で成⻑する事ができる環境があるのだと思います。

おわりに

@tani
今回初の試みでしたが、巨大なデータベースを支えてくださっているデータ・アルゴリズム開発の裏側をお伺いすることができました。アスタミューゼではデータエンジニア・機械学習エンジニアについても一緒に働いてくださる仲間を募集しておりますので、よろしければ現場のメンバーとカジュアルにお話したいという方がいらっしゃいましたらコーポレートサイトからお問い合わせください!
(この記事に「スキ」を押してくださるとnote編集部が大喜びしますので、あわせてお願いいたします!)