12 Days of OpenAI: Day 2 専門家だけを集めてベータテストを始めるだと!? もう、一般ピーポーは、「なんか難しいことしてんなぁ・・・」状態(^^;
午前3時に起きた足立明穂ですw ええ、12 Days of OpenAIの2日目です。
終わった後に、「つぎは、月曜日の午前10時に」って表示されて、土日の深夜は解放されてほっとしていますw
で、2日目ですが、現時点(日本時間午前4時半。追加されたので、下に追記しておきます)で、動画がアップされてないので、あれこれ駆使して自動翻訳して理解したレベルなんですが(てへっw)、ぶっちゃけ
賢い人たちの言うてることは、凡人には分からんわ!!
でした(^^;
しかも、専門家に向けて、新しいChatGPTを使うモニター募集までしてます。とてもじゃないけど、応募できない(^^;
https://openai.com/form/rft-research-program/
もう、ChatGPTさんに教えてもらわないと、何を言ってるのかさっぱりわからん(^^;
例によって、ライブの内容は、ChatGPTさんにまとめてもらったので、記事の最後にアップしておくので、興味のあるかたは、そちらを。
※ライブ動画が公開されたので、追記しておきます。
ファイン・チューニング( Fine Tuning )ってなんだ?
今回のテーマは、強化学習を利用したファインチューニングの話。あ、もう、遠い目をしたでしょ?w
なんとか分かりやすく説明する、いや、ChatGPTさんに説明してもらうので、読んでみてくださいなw
今回の内容を中学生にもわかるように説明してほしいんだけど、まず、従来のFine Tuningってのがどういうことなのか教えて
なんとなくわかったと思いますが、ノーマル(?)のChatGPTだと、さまざまなことを広く浅く知っている状態(と、言っても、かなりのレベルだけどねw)。
で、ここに、特定の分野の学習データをたくさん学習してもらって、専門家になってもらうってことですね。ただ、そのためには、めちゃくちゃたくさんの学習データが必要になるということがあります。
余談ですが、ChatGPTさんの回答を見て『すげーーー!』って思うけど、これは、桁違いに大量の文章を読み込むことができるから。
これって、理論的には、「できるかもねー」っていうことは分かっていたんだけど、実際にやろうとすると、とんでもない数のコンピュータと、びっくりするほどのデータが必要だった。
言い換えれば、巨額な投資が必要なのですね。
で、コンピュータの性能が桁違いに上がっていったことや、インターネットやSNSによって、デジタル化された文章・写真・動画が、これでもか!というほど存在するようになったということがあって、投資額も10年前に比べれば、ゼロが2つも3つも違うような状態になったのです。(って言っても、桁違いな投資であることには違いないけどw 天文学的な数値から、地球1周の計測できるぐらいになった。いや、よけいに分かりにくいか ^^;)
でもって、それをやってみようとした人たちが出てきて、ChatGPTさんに代表される生成AIブームになったのですね。
さて、ファイン・チューニングでは、AIを専門家にするということなんだけど、専門家のデータが大量に必要になる。
そりゃ、大学や研究所には、論文や専門書はあるけど、専門家は、どんどん細分化していきます。
例えば、スィーツ(え?w)。
昭和な時代は、アイスクリームって言えば、アイスキャンディーと、カップに入ったアイス、そして、ソフトクリームと言われるウズマキのやつぐらいしかなかった。しかも、バニラのみw
しかし、今は、コンビニでも、20種類ぐらい売ってますよね? チョコやオレンジ、抹茶に、マンゴー、レモン・・・・・
どんどん細分化しています。
アイスクリームという分野の中で、細分化されていって、抹茶という新たな専門分野が出てきています。そして、「抹茶アイスクリーム」というジャンルに絞り込んでいくと、日本にしかないから、データがすごく少なくなるんですw
このように、AIを専門家に仕立てようとすると、学習データを大量に用意しなければならいんだけど、それをやろうとすると、そもそも研究者のデータが少ないってことになってしまうのですよね。
そこで、つぎに、強化学習ということが出てきます。
強化学習って?
では、さっそく、ChatGPTさんに教えてもらいましょうw
なるほど。では、次に、強化学習について、分かりやすく教えて。
ちょっとわかりにくいかもしれないけど、AIが自ら試行錯誤することで、少ないデータでも学習効果を大きくすることができるってことがポイントです。
ChatGPTさんが説明してた部活の例のように、例えば、サッカーの試合を、何回もやって、パスがうまくいくとき、途中でボールがとられてしまうとき、ゴールが決まるとき、失敗するときなど、いろいろな「経験」をする。
そして、うまく行く方法を自ら編み出していくのですね。
で、ここで重要なのは、「コーチの役割」。これに尽きます。
ただ、むやみやたらに、何百回もサッカーの試合をしても、強くはなりません。コーチがついて、しっかりと、「方向性を示す」ことが重要です。「固まりすぎているから、お互いに距離をとってパスを通せ」とか、「相手の強い選手には2人張り付け」とか、アドバイスがないと無駄なことを繰り返します。
これと同じように、AIの強化学習では、「ごほうびを最大化」が重要なポイントになります。
え? 「AIって、おやつをあげると喜ぶの?」って?w
まあ、仕組み的にはそうなのですが、単純には点数をつけます。そして、AIには、点数が高くなるように、試行錯誤させます。
先のサッカーなら、ゴールして決めれば10点、パスが通れば3点、相手のパスをカットすれば5点といった点数をつけていくのです。そして、この点数が最大になるように、何度も試行錯誤させていきます。
こうやって、強化学習を行っていきます。
んじゃ、今回のOpenAIが発表した新技術はどこがすごい?
さて、ファイン・チューニングと強化学習は、すでにある技術。これを組み合わせたことで、もっとお手軽に専門家のAIを作っちゃえ!ってのが、OpenAIの新たな技術。
って、言われても、よーわからんので、ChatGPTさん、お願いします!w
ファイン・チューニングと強化学習については、わかりました。では、今回の新技術の強化学習を応用したファインチューニングであるってのを分かりやすく教えて! ここが一番知りたい!!
最後の「AIに自分で考えさせる新しい勉強法」って言われると、ワクワクすると同時に、ゾクッとするところもありますが(^^;
楽しく学べるように、ChatGPTさんに物語を作ってもらいましたw
ファイン・チューニングと強化学習については、わかりました。では、今回の新技術の強化学習を応用したファインチューニングであるってのを分かりやすく教えて! ここが一番知りたい!!
どうですか?w かなり分かりやすくなったのでは?w
「でも、これが、どう役に立つの??」
って、思ったでしょ!w
これ、劇的に便利になるのですよ!!!
今年の夏ごろから言ってましたが、来年は、それぞれの人にカスタマイズされたAIを使うよになります。これが、マジで、実現しますよ!
専門家のAIを作るってことは、「あなたに関する専門家AI」でもあるのです。
あなたの体験や経験、日々の行動などを学習して、「あなたが理想とする未来の自分になるように」アドバイスしてくれるようになります。日々の食事から、服装、メールやSNSの投稿文章、写真撮影、どんな人と会えばいいのか・・・
え? 怖い?w
ライブ動画最後のクリスマス・ジョーク
ライブ動画の最後に、クリスマス・ジョークがありました。
最後にクリスマス・ジョークがあったけど、その会話を教えて
かしこな人たちのジョークは、わからんわwwww
ChatGPTさんのざっくりまとめ!
動画で何を話してるのか気になると思うので、ChatGPTさんにまとめておいてもらいましたw
以下は、動画の要約です。
1. 概要
テーマ: OpenAIの新技術「Reinforcement Fine Tuning (RFT)」。
目的:
AIモデルを特定のタスクや専門分野に最適化する。
強化学習(Reinforcement Learning)を活用して、モデルの推論能力を向上。
背景: RFTは、OpenAI内部でGPT-4のようなフロンティアモデルをトレーニングする際に使用された技術。
2. 技術の詳細
従来のFine Tuningとの違い:
従来のFine Tuning: データに基づき、モデルが特定の形式やスタイルを模倣する。
RFT: モデルが新しい問題解決の方法を学習し、論理的に推論できるようにする。
強化学習の仕組み:
モデルがタスクを実行する際に「考える余地」を与え、答えを評価。
正しい答えを強化し、間違った答えを抑制。
少数の例(10〜12個)でもモデルが新しい領域に適応可能。
3. 具体例と応用
法律分野:
Thomson Reutersとの提携で、法律アシスタント「Co Counsel AI」を開発。
複雑な法律文書の分析や専門家の作業を支援。
医療分野:
Berkeley Labとの共同研究で、遺伝性疾患の診断支援にAIを活用。
患者の症状データから、関連する遺伝子を特定するモデルを構築。
科学論文から得た約1100例のデータを使い、強化学習で精度を向上。
その他の分野:
科学研究、AIの安全性、バイオインフォマティクス、法務、ヘルスケアなど。
4. デモンストレーション
トレーニングプロセス:
データセット(JSONL形式)をアップロードし、モデルをFine Tune。
グレーダー(自動採点システム)を使用してモデルの出力を評価。
結果の可視化:
Fine Tuning後、モデルの精度が向上。
Fine Tunedモデルが、従来のモデル(例: GPT-4ベース)を超える性能を発揮。
5. 発表の目的
プログラム拡大:
Alphaプログラムを通じて、研究者や企業にRFTを提供。
2024年に正式リリース予定。
期待:
参加者がRFTを活用して、独自の専門分野にAIを適応させる。
ユーザーが新しい応用例を発見し、AIの限界を押し広げる。
6. 締めくくり
研究と実社会への応用:
この技術が、科学、法務、医療、教育などの分野で革命を起こす可能性。
AIの可能性を現実世界で活用することを目指す。
ユーモラスなエンディング:
「モデルが木を認識できず、サンタのソリが木に衝突する」というクリスマスジョークで終了。
2日目にして、レベル高すぎ!www
最後まで読んでいただいて、ありがとうございます!
この記事のスキをクリック、コメントをいただけると、励みになります!!
応援、よろしくお願いします!