見出し画像

YANS2023に発表者&スポンサーとして参加しました

こんにちは、Money Forward Labの山岸です!
Money Forward Lab(以下Lab)は、マネーフォワードのValueの1つだった「Technology Driven」 (現在はTech&Designに変更)を体現し、さらなるデータの可能性を追求するために設立された、社内研究組織です。
私はコンピュータでテキストを扱う技術である自然言語処理(NLP)の研究員として、社内の課題解決・新規技術の研究などを行なっています。
この記事では、2023年8月に東京で開催されたNLP若手の会シンポジウム(YANS2023)の参加報告と、当社が出したスポンサーブースの様子の報告をします。


学会プロフィール

  • 学会名: NLP若手の会シンポジウム(YANS2023)

  • 会期: 2023/08/29 - 31(ハッカソン1日 + 本会議2日)

  • 会場: 浅草橋ヒューリックホール

  • ページ: https://yans.anlp.jp/entry/yans2023

論文になる前の本当に萌芽的な研究を発表して、コメントもらったり意見交換したりするためのシンポジウムです。若手(〜35歳前後?)が集まってワイワイする、かなりゆるい雰囲気の会でした。
私個人はYANS2018以来の参加でした。マネーフォワードとしては初参加・初スポンサーとなりました。


発表に関して

Money Forwardからは、CTO室 AI推進部のインターンの満石さん、同部署の23新卒の竹下さんと、Labの山岸(僕)の3名が発表しました。

  • [S1-P07] text embeddingを用いたデータ作成支援の検討, 満石風斗, 安立健人, 狩野芳伸 (静大)

  • [S4-P10] 機械学習モデルを用いた構造化文書からの情報抽出, 竹下虎太朗, 安立健人, 狩野芳伸 (静大)

  • [S5-P09] 財務諸表と仕訳データを用いた増減要因の説明文生成の初期検討, 山岸駿秀, 貞光九月, 北岸郁雄

Lab 山岸の発表

財務諸表に対するコメント生成のかなり萌芽的な研究を発表しました。
企業では会計監査などのために増減分析という、ある2期間の金額の変化やその理由を調べる作業を実施します。財務諸表を見れば増減傾向はわかりますが、その理由はわかりません。財務諸表の元になった仕訳を見れば理由はある程度分かりますが、膨大すぎて分析しきれません。
本研究では、この効率化を目指して、財務諸表の数値情報とその元になった仕訳を使い、変動傾向とその理由を説明する文の生成を検討しました。

発表をする山岸。Slackアイコンにしているぬいぐるみをぶら下げています

専門用語が多くてとっつきにくい発表だったとは思うのですが、Fintech × LLMに興味がある人や、表データ × LLMに興味がある人に多数お越しいただきました。今後のためになるコメントも多数いただき、感謝しております。
表データをLLMとどう組み合わせるかは、LLMを使ったdata2text(数値データや表データなどから文を生成する技術)の発展を考える上で重要になると思っています。
財務諸表のコメント生成には、LLMが数値計算が苦手であることや、あまり重要でない特徴にフォーカスして説明することなど、表データの難しさがまだまだ残っています。今後解決しないといけない課題です。

AI推進部 満石さんの発表

機械学習モデルを作るためには、入力データと「こう予測・変換してほしい」というデータ(教師データ)のペアが必要です。これをブラックボックス最適化という手法を使って自動で作ろう、というのが研究の目的です。
まだあまりうまくいっていない段階での報告だったのですが、学生さんを中心に多くの方にお越しいただいているようでした。

インターンの満石さんの発表の様子。多くの方に囲まれて堂々と発表していました。

AI推進部 竹下さんの発表

OCR(文字が映った画像をテキストデータに起こす技術)は、書類のレイアウト情報を完全に読み込むことが難しいです。
竹下さんは、機械学習モデルが書類から「発行日付はこれ」「総額はこれ」といった情報を抽出するには、人間と同じようにレイアウト情報を理解できるとよいと考え、従来のOCRテキストから機械学習モデルで情報抽出を行う方法と、画像から直接情報抽出を行える機械学習モデルによる方法を比較検討しました。後者のモデルは情報抽出の際にレイアウト情報を意識している可能性も示唆していました。
チラ見した感じでは、企業の方から質問が大量にあったような印象でした。

23年度新卒の竹下さんの発表の様子。発表時間中ずっと賑わっていました。

ハッカソン

8/29(初日)には、ハッカソンが開かれました。私はリーダーボードハッカソンに参加したので、その報告をします。アプリ開発のハッカソンも同時並行で実施されていて、そちらも楽しそうでした。
リーダーボードハッカソンの概要は以下の通りです。

  • サイバーエージェントさんの広告文生成データセット[三田+, NLP2023]を使用(下図参照)

  • 生成までの過程でOpenAI APIを使い、他の処理はColabのCPU環境で実施すること。

  • 事前にランダムで手配された4人チームで実施する

  • 4時間で手法検討、実装、文生成、発表資料作成まで全て実施すること


広告文生成データセットのタスクは、ユーザの検索クエリとLanding Pageのテキストから広告文を生成することです。
例えば下の図では、「クラウド 会計ソフト」が検索クエリ、「クラウド、マルチデバイスなのでテレワークでも作業可能!…」という文がLanding Pageのテキストです。これを元に、青字で表示されている「無料の会計自動化ソフト」を生成することが目的です。

2023/09/05 Google検索の結果

解法

以下の通りにしました。4時間でデータ作ってfine-tuningするのは大変でしたが、なんとか仕上げられました。

  • 広告文は短文かつキャッチーさが求められる → 川柳っぽい要素を取り入れた文を生成させてみよう

  • GPT-3.5のfine-tuningを使う

  • 検索クエリに関係する川柳をネットから拾ってきて、学習データに使った

    • 学習データは「50件作って試そう」とのOpenAI公式サイトの記載に基づいて作成しました。

    • ほとんどの作業時間をデータ作成に費やしました

結果、僕のチームは審査員特別賞を受賞できました!
審査委員 三銃士の東北大 横井先生からは「短時間でデータセット作ってfine-tuningまで試すのは狂っていてよい」との講評もいただきました。嬉しいコメントをいただき、ありがとうございました。


スポンサーブース

3月に参加したNLP2023に引き続き、シルバースポンサーとしてスポンサーブースも出しました。社内の他のメンバーにもきていただき、マネフォのML / NLP利活用についてご紹介しました。
YANS2023全体の参加者が約300人である中、70名以上の方にお越しいただけました!

初日。左から技術広報のあちゃさん、竹下さん、満石さん、山岸(僕)、協力者の安立さん
2日目。左はLabのwelldan川上さん。洗濯できなかったので僕だけマネフォの白Tを着ていました

アンケートやノベルティ配布なども実施しました。
アンケートは要するに「money forwardを固有名詞として取り出したかったのだが、それがうまく取り出せないときどうする?」という質問でした。
個人的には「辞書を入れる」しかないと思っていたのですが、真面目半分、大喜利半分でみなさん答えていただいて、ありがとうございました!

「MoneyといえばForwardだろ、と思われるくらいビッグになる」から「社名を変える」まで、
多種多様なご回答ありがとうございました

さいごに

3月のNLP年次大会のときも思いましたが、LLMブームなどもあり、新たにNLPを始めた方が増えていると感じました。NLP界隈には昔から新規参入者を暖かく迎える風土があるのですが、その魅力がYANS2023でも発揮されていました。暖かい雰囲気を作ってくださった運営のみなさま、ありがとうございました!
また来年も参加できるように、研究開発を続けていきます。


Money Forward Labでは、一緒にお金のメカニズムを解き明かすための研究をしてくれる仲間を募集しています。
秋 / 冬にインターンを実施する予定ですので、気になった学生さんはぜひご登録ください。

カジュアル面談も実施しておりますので、お気軽にご連絡ください。


この記事が気に入ったらサポートをしてみませんか?