ワードクラウドで振り返る白金鉱業.FM(2023年)
株式会社ブレインパッドでデータサイエンティストをしているasanoです。
この記事はBrainPad Advent Calender 2023 25日目の記事シリーズ2です。
※シリーズ1はpodcastでも度々論文解説をしている金さんが「データサイエンティストの情報収集から発信までの流れ」について書いているので併せてお楽しみください!
データサイエンスやAIの話題を中心に雑談するPodcast番組「白金鉱業.FM」も気づけば公開エピソードが70回を超えていました!👏 (Apple Podcast / Spotify でも配信中です)
白金鉱業FMってなんぞや?という方や、いくつかのエピソードは聴いているけど…という方に向けて直近10回のエピソードを振り返れるブログを書きました!
各エピソードの感想などを #白金鉱業fm でポストしていただけると泣いて喜びます!
※ 本記事は初代パーソナリティである吉田勇太 | ystdtさんの記事 が元ネタとなる2023年リバイバル版です
ワードクラウドってなんぞや?
Podcastの更新をX(Twiiter)でお知らせするときにシズル感を持たせたく、白金鉱業.FMでは毎回"ワードクラウド"という画像を作成して添付しています。
「ワードクラウド」とは、文章などから頻出する単語を取り出し、出現頻度が大きい単語ほど大きく表示する文章の可視化方法です。
白金鉱業.FMではPodcastの音声データをOpenAIのWhisperで文字起こしをしたのちに毎回ワードクラウドを作成しています。
その回の主題となる単語が大きく表示されるためPodcastを視聴しなくても(なんとなく)どんな会話内容なのかを知ることができます。
技術的に興味がある方はコードをご覧ください。
このブログでは各エピソードごとのワードクラウドを紹介しながらどんな内容だったのかをざっと紹介したいと思います!
タイトルかワードクラウドをクリックすると音源に飛ぶことができます。
68. まだまだ続くよ白金鉱業FM!ChatGPTをはじめとした「基盤モデル・大規模言語モデル 社内タスクフォース」の話!
ブレインパッドでは2023年3月時点で基盤モデル・大規模言語モデル(生成AI)に関する社内タスクフォースを約50人のメンバーで推進し、技術調査やビジネス適用などのWGに分かれてそれぞれ活動をしています。
このタスクフォースのリーダーである辻さんからはErasing Concept from Stable Diffusion(生成されることが望ましくない「概念」を消し去る学習手法)を、超頼れるメンバーの金さんからはLLM全般について調査したA Survey of Large Language Modelsの論文を紹介していただきました。
この記事を書いている2023年12月現在も形式をアップデートしながらタスクフォースを継続しており、ブレインパッド社のブログで技術調査や論文などの解説をしています!
ぜひこちらもご覧ください。
また、吉田さんからasanoにバトンタッチして初めての回であるため冒頭でその経緯についても触れています。
69. 非・卒業講演 〜なぜ我々はブレインパッドを卒業しないのか〜
ブレインパッド社のデータサイエンティストの内池さんが企画したイベント「非・卒業講演」について企画の経緯や思い、当日の感想などを語っていただきました。
ブレインパッドでは卒業、つまり転職をするときに卒業公演というものをする文化があります。
よくよく考えると卒業する理由を語る機会はたくさんありますが、卒業しない方の理由に関して積極的に語られる機会はなかなかなく、思ってても語る機会がないだけで「卒業しない」っていう選択をしている積極的な理由ってたくさんあるはず。
それをちゃんと聞いておかないとバランスが悪い!と思い、企画されたとのこと。
つまり卒業しない理由について順に発表者が語っていくという企画になります。
2023年3月31日、企画当日はオンライン・オフライン併せて約80人の社員が参加しみんなで素敵な年度末を過ごせました。
70. LLM回2回目!ChatGPTプラグインとクレームっぽい名前の論文?そして世界中でバズったDrag Your GANなど!
またまた辻さん・金さんをお呼びして生成AIについて語っていただきました。
社内タスクフォースは「LLM/Generative AIに関する研究プロジェクト」という名称で会社公式でも発表済みで、その活動のアウトプットとしてブレインパッドの公式ブログにて毎週技術調査や論文解説などのアウトプットをしています。
金さんからは当時始まってすぐのタイミングでChatGPTのプラグインについて解説、ほかにもプロンプトエンジニアリングの論文、Inverse Scaling Law(クレームっぽい名前?)の論文について解説していただきました。
辻さんからはDrag Your GAN(ハンドルポイントとターゲットポイントをクリックするだけで、画像を生成する技術)について解説していただきました。
元論文や公式ブログのリンクはpodcastのshownotesに貼っていますのでぜひご覧ください!
71. データ分析における「品質を考える会」 ~ 品質はコミュニケーション
ブレインパッド社のデータサイエンティストである川崎さん、中道さんをお呼びして「データ分析プロジェクトにおける品質」について語っていただきました。
お二人は社内で「品質を考える会」と称して品質担保のノウハウを継続的にためながらその体系化に取り組んでおり、この収録ではデータ中心のアプローチであるデータセントリックに通ずるようなお話をしていただきました。
現場間溢れる内容でメンバー・PMなどのレイヤーに関わらず聴いていただける回となっており、間口の広さのおかげか直近10回の中で最も再生されているエピソードです。
72.「学習と推論の時間を劇的に減らせる?QLoRA」と「ユーザープライバシー保護に使いたいMachine Unlearning」の話
お馴染み、辻さん、金さんをお呼びしての論文解説回です。
辻さんからは。LLMの台頭で量子化や低ランク学習が注目されていることを背景に4ビット量子化したLLaMAモデルをベースに、Low-rank adapterを用いて微調整を行う手法であるQLoRAについて、
金さんからは学習済みモデルから学習データのサブセットの影響を除去するMachine Unlearningについて解説していただきました。
大規模モデルの発展が進む中でプライバシー保護のために再度ゼロから学習するコストなどを払うことも難しくなっている背景があり、今後も注目していきたいです。この配信の後にKaggleでも「顔画像から年齢を予測するモデル」の特定の訓練データを忘れさせるコンペ」が開かれました。
また、冒頭で社内のLLMプロジェクトについて振り返りをしています。
2023年12月現在も継続してアウトプットしていますので、下記の記事一覧なども参考にぜひ会社の公式ブログも併せてご覧ください!
73.言語モデルは中間部分を見ていない?「Lost in the Middle」とテキストデータのaugmentation?「GReaT」の話
おなじみ辻さん・金さんの論文解説回です!
辻さんからLost in Middleについて解説いただきました。
名前の通り、大規模言語モデルは長い入力コンテキストを与えても中間はうまく扱えていない。入力コンテキストの最初と最後はうまく拾ってこれますが、真ん中でダラダラ書いてるところに関して情報を取ってこいって言ってもまったくうまくとれない。という主旨の論文です。
金さからはICLR 2023 posterにも取り上げられたGReaTことGeneration of Realistic Tabular dataに関してです。
大規模言語モデルを使ってテーブルデータを生成できるかという論文です。自分は「テーブルデータのaugmentation」という表現がしっくりきています。
辻さんが「そのうち言語モデルで欠損値処理をする世界観がくるかもね」というようなコメントをしており、着眼点がめちゃくちゃおもしろいなと思って聴いていました。
そのうちABテストなども実際にやらなくてもメタシミュレーションにできる日がきたりするのかな、、、なんて思いを馳せる回でした!
74.勉強会が盛んな組織を作る「b2b」の紹介 その2 ~ FY2023の勉強会を振り返る
ブレインパッドでは年間300回以上の社内勉強会(通称b2b)が実施されています。同社のデータサイエンティストである仁さんと直近1年の勉強会について振り返りました。
社内勉強会は盛んですがフィードバックする仕組みが弱いため、b2b awardというのを2人で企画し、社内でアンケートをとりました。その結果をそれぞれハード・ソフトスキルや若手部門などの観点で多くの人にスポットライトがあたるように賞賛する、というイベントをしました。
このイベント自体、社内からポジティブなフィードバックをもらえたので企画者として嬉しかったです。
社内勉強会の雰囲気が伝わる回になっていると思います。スキームなども含めて参考になれば幸いです。
余談ですがこの回は仁さんとasanoで話が盛り上がりすぎて約60分収録したのですが「アローの不可能性定理は名前からしてカッコイイ」などの話で脱線が過ぎたので編集で30分におさめました。
75.バンダイナムコネクサスのデータマネジメントについて(外部ゲスト回:BNXデータマネージャー井村さん)
特別ゲストとしてバンダイナムコネクサス(BNX)社のデータマネージャである井村さんをお呼びしてホールディングスにおけるデータマネジメントの推進や実務、データインフラセクションの成り立ちなどについてお話いただきました。
BNXさんはバンダイホールディングスの各社の分析部隊ではできない「会社横断」の分析も担っており、その実現のためにも井村さんが所属されるデータインフラセクションがあります。
データサイエンティストや各会社の現場担当者の方とのコミュニケーションを重ね、徹底的にドキュメントを残しデータマネジメントを推進する。そんな生々しい大変さとやりがいが伝わってくる回でした。
私自身データマネジメントに興味があり、その領域で有名なBNXさんに語ってもらいたいと思っていたので実現して嬉しかったです。
手前味噌ですが、そもそもデータマネジメントってなんぞや?という方向けに布教記事を書いてますのでもしご興味ございましたらお目通しください。
完全に余談ですが、↑の記事は社内勉強会(b2b)で共有した内容になります。
76.ブレインパッドのインターンの紹介(データサイエンティストコース)
データサイエンス部署の副統括をしている原さんと、データサイエンス案件をやりながらインターンのフォロワーもしている新卒3年目の中島さんとインターンについて紹介しました。
インターンでは学生の方に全6日間で最初2日はSQLなどの研修をし、残り4日で分析模擬プロジェクトを通して短期間で課題設計、分析、最終報告までそのすべてを担当していただきます。
本当に実務に近い内容になっており、インターンに参加いただける場合はもちろんですが、この回を聴いていただくだけでもブレインパッドでの仕事の一例をイメージできると思います。
ちなみに自分はフォロワーでないときもインターンの現場によく顔を出すので、今後参加される方はぜひよろしくお願いします笑
77.となりのデータ分析屋さんコラボ回!事業会社のデータサイエンティスト&アナリストのキャリアについて(DeNA & ソフトバンク)
データサイエンスpodcast、となりのデータ分析屋さんとのコラボ回です。
亮さんとたっちゃんさんをお呼びして受託分析、事業会社のデータサイエンティストのキャリアなどについて話しました。
普段、向こうの番組では話さないようなDeNAのデータアナリスト、ソフトバンクのデータサイエンティストとしてのお話を聞けました。
お二人とも気さくでモデレータ力が高く、さすがpodcasterでした。
コラボ回なのでasanoも「となりのデータ分析屋さん」に出演しています。
ひたすらブレインパッドの宣伝をしていますが、新卒課題図書の仕組みや勉強会のスキームなどは参考になる部分もあるかと思いますのでぜひお聞きください。
ポジショントークですが、やはりブレインパッドは圧倒的に成長できる環境だし、データ活用の促進を通じて持続可能な未来をつくる会社だと思いました
さいごに
直近10回のエピソードをワードクラウドとともに振り返りました!
その前も面白いエピソードばかりなので、こちらもぜひお聞きいただけますと幸いです。
少しでも白金鉱業.FMのことを知ってもらえたら嬉しいです!
おまけ
白金鉱業のOBメンバーの吉田さん、にのぴらさんがpodcastを始めているのでこちらもぜひお楽しみください!
個人的に好きなエピソードを貼っておきます。
以上!
最後までお付き合いいただきありがとうございました!