LLM Lounge by Masuidrive #3 in Shibuya 参加レポ
7/20に開催された、Masuidriveさんが主催するLLM Lounge by Masuidrive #3に参加してきました。
今回話した内容をまとめていきます。
AITuberの展望
エンタメという視点からAITuberを見ると、現在のライブ配信では限界があり、ショートやゲーム実況など、もっと幅広く展開しなければいけないという話がありました。
また、これらを実現するにはLLMでは工数がかかりすぎる(もっと早く実現したい)という問題があり、行く行くはキャラクターIPを展開する一つの形態という形に落ち着くのかな、とのこと。
AIエージェントの普及に向けて
AIエージェント、またはAIキャラクターをより一般に普及させるには、触れ合う機会を増やすことが重要とのこと。AlexaやSiriは身近なデバイスに組み込むことで普及した好例といえるでしょう。官公庁のインフォメーションや、市街地マップの案内にAIキャラクターを導入していくのも良さそうです。
自分の投稿
『LLMファインチューニングのためのNLPと深層学習入門』
思っていたより読んでくださった方が多く、びっくりしました。『CVMLエキスパートガイド』は、文章は難解ですが関連情報へのリンクも豊富で、ぜひおすすめしたいサイトです。
Twitterに、読んだ記事をツイートしたのが割と様々な方の目に留まっているようで、これまたびっくりしました。元々自分へのメモのつもりだったのですが、情報収集の一助になれば幸いです。
要約タスク
rinna3.6Bをフルファインチューニングし、要約タスクに適応させようとしていましたが、ハイパーパラメータの設定、特にバッチサイズとepoch数に問題があるのではという助言をいただきました。今後、dropout率の調整も兼ねてトレーニングを進めていきたいと思います。ハイパラ探索結構きついんだよな・・・
実験時はエントリ数約7000で、
バッチサイズ4、dropout_rate 0.3、epoch数3
バッチサイズ4、epoch数2(epoch=3.0からEval_lossが急増する)
の2つの設定で実験していました。
バッチサイズは32~64程度でやるべきかもしれないとのこと。epoch数も増やさないといけないかもしれません。
また、現在は770Mのパラメータ数を持つretrieva社のT5-large-longが一番良好な結果を出していますが、文章の繰り返しが発生しがちという問題があります。そこで、T5-Flanを試してみてはどうかとのこと。
(日本語で学習したやつあるのかな?)
そして、LoRAはトレーニングするパラメータ数が少ないため、データセットが小さいならフルファインチューニングよりもLoRAのほうが適しているとのこと。やはりフルファインチューニングにも事前学習同様、パラメータ数 x 20程度のトレーニングトークン数が必要なのでしょうか。
LangChain
LangChainやllama-indexなどを使用している方々に話を聞いたところ、LangChainは更新頻度が速すぎて逆に使いにくい、という感想を持っている方が多い印象でした。関数呼び出しの形式が変わったりなど、下位互換性が無いような話も出ました。
llama-indexはLangChainほど更新頻度が速くないため、llama-indexを使用している人もいました。
実際どんな部分に使用しているかを聞いたところ、主にEmbedding、次にMemoryといった感じでした。また、各機能の連携や処理フローにLangChainを使用しない、と判断した人が多いようです。その理由として、次の2点が挙げられていました。
LangChain系のライブラリは中身がブラックボックス化しやすい
LangChainは使わない機能もセットでロードするので、不都合がある
できるだけLangChainに頼らないようにし、本当に必要な部分だけ使う、といった利用をされている方が多いように感じました。
LLM
ローカルLLM
今話題のllama-2は、QLoRAで日本語を話せるようになるのではないかとのこと。しかし、事前学習で英語以外の言語がほとんど(各言語0.1%)含まれていないため、せいぜいCALMレベルになるのではないかとの意見もありました。
Japanese MPT-7Bについても話したかったのですが、ほとんど誰も手を付けてない様子。自分で試すしかないのか・・・?
GPT-4
GPT-4の性能劣化について、プロンプトドリフト(今まで機能していたプロンプトの応答がある日突然変化する現象)のせいではないかとのこと。ファインチューニングによって、従来まで正常だった口調が、意図しない方向に勝手に寄ってしまうなどの応答の変化を経験したことあるとの声もありました。
参加メンバー(or話題)固定化問題
常に似通ったメンバーで集まると、外部からの刺激に欠けてしまう問題があります。この状態が長く続くと、界隈内での活動、いわゆる「同人活動」に落ち着いてしまい、更なる発展と普及が見込めなくなってしまいます。
今までのクラスターからどう抜けるか、そして外部の界隈からどうLLM界隈に引っ張ってくるかをもっと積極的に考えた方が良いのではないかとのこと。
おわりに
今日のLLM Loungeは、LangChainや参加するイベントの話、そしてAITuberの動向など、様々な話題が聞けて面白かったです。
ちょっと気を抜くとすぐにオフラインイベントへの参加を遠慮してしまいがちなので、気をつけたいですね。オフラインで受ける刺激や得る知見、コミュニティへのつながりは決してオンラインでは得られないものなので。
非常に有意義な時間でした。
次回も都合が合えば参加したいと思います。
それでは。
この記事が気に入ったらサポートをしてみませんか?