見出し画像

12 Days of OpenAI: Day 2  専門家だけを集めてベータテストを始めるだと!? もう、一般ピーポーは、「なんか難しいことしてんなぁ・・・」状態(^^;

午前3時に起きた足立明穂ですw ええ、12 Days of OpenAIの2日目です。

終わった後に、「つぎは、月曜日の午前10時に」って表示されて、土日の深夜は解放されてほっとしていますw

で、2日目ですが、現時点(日本時間午前4時半。追加されたので、下に追記しておきます)で、動画がアップされてないので、あれこれ駆使して自動翻訳して理解したレベルなんですが(てへっw)、ぶっちゃけ

賢い人たちの言うてることは、凡人には分からんわ!!

でした(^^;

しかも、専門家に向けて、新しいChatGPTを使うモニター募集までしてます。とてもじゃないけど、応募できない(^^;

https://openai.com/form/rft-research-program/

誰が応募すべきですか?

私たちは、研究機関、大学、企業、特に現在専門家が主導する複雑なタスクの狭いセットを実行しており、AIの支援から恩恵を受けるであろう企業に応募することを推奨します。 法律、保険、医療、金融、工学などの領域で有望な結果が得られています。強化ファインチューニングは、結果が客観的に「正解」であり、ほとんどの専門家が同意するようなタスクを得意としているからです。

DeepL先生の翻訳w

もう、ChatGPTさんに教えてもらわないと、何を言ってるのかさっぱりわからん(^^;

例によって、ライブの内容は、ChatGPTさんにまとめてもらったので、記事の最後にアップしておくので、興味のあるかたは、そちらを。

※ライブ動画が公開されたので、追記しておきます。


ファイン・チューニング( Fine Tuning )ってなんだ?

今回のテーマは、強化学習を利用したファインチューニングの話。あ、もう、遠い目をしたでしょ?w
なんとか分かりやすく説明する、いや、ChatGPTさんに説明してもらうので、読んでみてくださいなw

今回の内容を中学生にもわかるように説明してほしいんだけど、まず、従来のFine Tuningってのがどういうことなのか教えて

**従来のFine Tuning(ファインチューニング)**を中学生にも分かりやすく説明すると、以下のようなイメージです:

そもそもFine Tuningって何?

AIはもともと色々なデータで訓練されていて、なんとなく色々なことができるようになっています。でも、学校の授業みたいに、**「特定の科目やテーマをしっかり勉強して詳しくなる」**のがFine Tuningです。

例え話で説明

AIの基本状態: 本をたくさん読んで何でも少し知っているけど、どれも深くは知らない子。
Fine Tuning: その子に「数学」だけを特訓して、「数学の問題ならどんな問題でも解ける!」というレベルにすること。


具体的にはどうするの?

データを用意する:
例えば、「こういう質問をされたら、こう答える」という例をたくさん用意。
これをAIに見せる。
AIに学ばせる:
AIはそのデータを使って、「このテーマではこう答えればいいんだな」と覚える。
結果:
AIがそのテーマに特化して、より正確で役に立つ答えが出せるようになる。


従来のFine Tuningのポイント

AIに模倣させる: AIは与えられたデータを元に、「こういう感じで答えればいいんだ」と学びます。
例えば、「質問の言葉遣いに合わせて丁寧な言葉で返す」といったこと。
制限がある:
AIは教えられたパターンを真似することは得意だけど、自分で新しい考えを作ったり、難しい推論をしたりするのは苦手。

つまり、従来のFine Tuningは、AIが「特定のテーマやスタイル」をしっかり覚えて、それに特化するのを助ける方法なんだよ!

なんとなくわかったと思いますが、ノーマル(?)のChatGPTだと、さまざまなことを広く浅く知っている状態(と、言っても、かなりのレベルだけどねw)。

で、ここに、特定の分野の学習データをたくさん学習してもらって、専門家になってもらうってことですね。ただ、そのためには、めちゃくちゃたくさんの学習データが必要になるということがあります。

余談ですが、ChatGPTさんの回答を見て『すげーーー!』って思うけど、これは、桁違いに大量の文章を読み込むことができるから。

これって、理論的には、「できるかもねー」っていうことは分かっていたんだけど、実際にやろうとすると、とんでもない数のコンピュータと、びっくりするほどのデータが必要だった。

言い換えれば、巨額な投資が必要なのですね。

で、コンピュータの性能が桁違いに上がっていったことや、インターネットやSNSによって、デジタル化された文章・写真・動画が、これでもか!というほど存在するようになったということがあって、投資額も10年前に比べれば、ゼロが2つも3つも違うような状態になったのです。(って言っても、桁違いな投資であることには違いないけどw 天文学的な数値から、地球1周の計測できるぐらいになった。いや、よけいに分かりにくいか ^^;)

でもって、それをやってみようとした人たちが出てきて、ChatGPTさんに代表される生成AIブームになったのですね。

さて、ファイン・チューニングでは、AIを専門家にするということなんだけど、専門家のデータが大量に必要になる。

そりゃ、大学や研究所には、論文や専門書はあるけど、専門家は、どんどん細分化していきます。

例えば、スィーツ(え?w)。

昭和な時代は、アイスクリームって言えば、アイスキャンディーと、カップに入ったアイス、そして、ソフトクリームと言われるウズマキのやつぐらいしかなかった。しかも、バニラのみw

しかし、今は、コンビニでも、20種類ぐらい売ってますよね? チョコやオレンジ、抹茶に、マンゴー、レモン・・・・・

どんどん細分化しています。

アイスクリームという分野の中で、細分化されていって、抹茶という新たな専門分野が出てきています。そして、「抹茶アイスクリーム」というジャンルに絞り込んでいくと、日本にしかないから、データがすごく少なくなるんですw

このように、AIを専門家に仕立てようとすると、学習データを大量に用意しなければならいんだけど、それをやろうとすると、そもそも研究者のデータが少ないってことになってしまうのですよね。

そこで、つぎに、強化学習ということが出てきます。

強化学習って?

では、さっそく、ChatGPTさんに教えてもらいましょうw

なるほど。では、次に、強化学習について、分かりやすく教えて。

**強化学習(Reinforcement Learning)**を中学生にも分かりやすく説明すると、以下のようなイメージです:

強化学習って何?

AIが、**「試行錯誤を通じて、どうすれば一番いい結果になるのかを学んでいく方法」**のことです。つまり、AIが何か行動をして、良い結果を得たら褒めて、悪い結果を得たら教え直す、という感じ。


例え話で説明

ゲームをしているAI:
例えば、AIが「迷路からゴールを目指すゲーム」をプレイしているとする。
初めはどっちに進めばいいか分からず、適当に動く。
試行錯誤する:
ゴールに近づくと褒められる(得点をもらう)。
壁にぶつかると注意される(得点が減る)。
学んでいく:
何度もプレイして、「この方向に進むとゴールに近づけるな!」と学んでいく。
最終的に、「最短でゴールにたどり着く方法」を見つけ出す。


強化学習の仕組み

エージェント(AI):
実際に行動するAIのこと。
環境:
AIが試行錯誤する場(例えば、迷路やゲーム)。
報酬:
良い行動をしたときにもらえる「ごほうび」。
例えば、「ゴールに近づく」や「正しい答えを出す」とポイントをもらえる。
目的:
できるだけたくさんの報酬をもらえるように、行動を改善していく。


ポイント
試行錯誤が大事:失敗しても、その経験を元に賢くなっていく。
ごほうびを最大化:AIは「どうすれば一番いい結果になるか」を考えるようになる。
自分で考える力をつける:教えられた通りに動くだけじゃなく、「どうすれば良いか」を自分で推測する。


身近な例で強化学習を考える

部活の練習:
初めはルールもよく分からないけど、練習して上手くいくとコーチに褒められる。
褒められたプレイを繰り返していくうちに、どうすれば勝てるか分かってくる。
自転車に乗る:
初めは転んで失敗するけど、成功すると「できた!」という達成感(報酬)が得られる。
失敗と成功を繰り返して、最終的に上手に乗れるようになる。


強化学習は「経験から学ぶ」方法なんだ。AIも人間と同じように、失敗しながら成長する仕組みを使っているんだよ!

ちょっとわかりにくいかもしれないけど、AIが自ら試行錯誤することで、少ないデータでも学習効果を大きくすることができるってことがポイントです。

ChatGPTさんが説明してた部活の例のように、例えば、サッカーの試合を、何回もやって、パスがうまくいくとき、途中でボールがとられてしまうとき、ゴールが決まるとき、失敗するときなど、いろいろな「経験」をする。

そして、うまく行く方法を自ら編み出していくのですね。

で、ここで重要なのは、「コーチの役割」。これに尽きます。

ただ、むやみやたらに、何百回もサッカーの試合をしても、強くはなりません。コーチがついて、しっかりと、「方向性を示す」ことが重要です。「固まりすぎているから、お互いに距離をとってパスを通せ」とか、「相手の強い選手には2人張り付け」とか、アドバイスがないと無駄なことを繰り返します。

これと同じように、AIの強化学習では、「ごほうびを最大化」が重要なポイントになります。

え? 「AIって、おやつをあげると喜ぶの?」って?w

まあ、仕組み的にはそうなのですが、単純には点数をつけます。そして、AIには、点数が高くなるように、試行錯誤させます。

先のサッカーなら、ゴールして決めれば10点、パスが通れば3点、相手のパスをカットすれば5点といった点数をつけていくのです。そして、この点数が最大になるように、何度も試行錯誤させていきます。

こうやって、強化学習を行っていきます。

んじゃ、今回のOpenAIが発表した新技術はどこがすごい?

さて、ファイン・チューニングと強化学習は、すでにある技術。これを組み合わせたことで、もっとお手軽に専門家のAIを作っちゃえ!ってのが、OpenAIの新たな技術。

って、言われても、よーわからんので、ChatGPTさん、お願いします!w

ファイン・チューニングと強化学習については、わかりました。では、今回の新技術の強化学習を応用したファインチューニングであるってのを分かりやすく教えて! ここが一番知りたい!!

新しい技術である「強化学習を応用したファインチューニング(Reinforcement Fine Tuning, RFT)」を、中学生にも分かりやすく説明します!


RFTってどんな技術?

簡単に言うと、 **「普通のファインチューニング(AIに特定のデータを学ばせる方法)」**と **「強化学習(試行錯誤で学ぶ方法)」**を組み合わせたものだよ。

普通のファインチューニングでは、AIが「教えられたこと」をただ覚えるだけだったけど、RFTではAIが自分で考える力を身につけることができるんだ!


どういう仕組みなの?

AIがタスクに挑戦
例えば、患者の症状から「原因となる遺伝子」を特定するような難しい問題を解く。
普通のファインチューニングでは「こう答えればいいよ」と模範解答を教えるだけだった。
AIに自由に考えさせる
RFTではAIが答えを考える「時間」と「自由」を与える。
AIが試行錯誤で答えを出し、どう考えたのかも含めて結果を出す。
答えを評価する(報酬を与える)
AIの答えを**「正しいかどうか」**で点数(報酬)を与える。
正解に近い答えは「よくやった!」と褒めて報酬を増やす。
間違った答えは「ここが違うよ」と教えて報酬を減らす。
学習する
AIは「どうすれば良い答えが出せるか」を自分で考え直して、次の挑戦で改善していく。


どんな良いことがあるの?

少ないデータでも学習できる
普通のファインチューニングだと、何千〜何万ものデータが必要だった。
RFTでは「10〜12個の例」でも、AIが効率よく学んでいける。
より賢くなる
普通のファインチューニングではAIが「真似するだけ」だったけど、RFTではAIが「新しい考え方」を学べるようになる。
例えば、患者の症状から遺伝子を推測する際、「なぜこの遺伝子だと思うのか」を説明できる。
いろいろな分野で使える
医療、法律、科学研究などの専門的な分野で、普通のAIではできなかった複雑なタスクを解決できる。


身近な例で説明すると…

普通のファインチューニング:
先生が「こういう問題にはこう答えなさい」と答えを教えて、それをただ覚えるだけ。
RFT:
先生が「自分で考えて答えてみて」と言い、正解なら「それでいいよ!」、間違いなら「この部分を直そう」とフィードバック。
自分で考える力がつくから、教科書にない問題でも解けるようになる。


例: 遺伝性疾患を診断するAI
普通のファインチューニング:
遺伝子と症状の関係をただ暗記する。「この症状ならこの遺伝子だ」と覚えるだけ。
RFT:
AIが「この症状はどうしてこの遺伝子が原因なんだろう?」と考え、自分で理由を作って答える。
正しい答えにたどり着く方法を学び、応用力がつく。


まとめ

RFTは、**普通のファインチューニングの「覚える力」**に加えて、
**強化学習の「考える力」**を組み合わせることで、
AIが自分で推論し、新しい問題にも対応できる能力を持つようになる画期的な方法だよ!

だから、今回の技術は「AIに自分で考えさせる新しい勉強法」と考えると分かりやすいかもしれないね!

最後の「AIに自分で考えさせる新しい勉強法」って言われると、ワクワクすると同時に、ゾクッとするところもありますが(^^;

楽しく学べるように、ChatGPTさんに物語を作ってもらいましたw

ファイン・チューニングと強化学習については、わかりました。では、今回の新技術の強化学習を応用したファインチューニングであるってのを分かりやすく教えて! ここが一番知りたい!!

物語: 水泳先生と生徒AIの強化学習レッスン

登場人物先生(トレーナー): 水泳が大得意で、生徒に泳ぎ方を教えるプロ。
生徒(AI): 泳いだことがないけど、練習を通じて「自分で考えて泳ぎを学ぶ」ことが目標。


1. 最初の挑戦: 泳げないAI

先生: 「さあ、まずプールに入って泳いでみよう!ゴールまで行けたらポイント(報酬)をあげるからね!」

生徒AI: 「えっ?泳ぎ方分からないけど、とりあえず進む方向を決めて足をバタバタさせてみます!」

結果: 生徒AIは、うまく進めず水を飲んでしまう。

先生: 「うーん、水を飲んじゃったね。それはちょっと間違いだったからポイントはゼロ。でも大丈夫!次に試せる方法を考えてみよう!」



2. 試行錯誤: 少しずつ改善

生徒AIは次の挑戦で考える。

生徒AI: 「じゃあ、今度は腕も動かしてみるよ!バタ足と組み合わせたら進めるかも?」

結果、少し前に進むことに成功!

先生: 「いいぞ!ちょっとだけゴールに近づいたね!だから1ポイントあげる!その腕の動き、良い考えだったよ。」

生徒AI: 「よし!もっと腕を強く動かしたらどうなるかな?」



3. 大きな進歩: AIが学びを活かす

次の挑戦では、生徒AIが「バタ足+腕の動き」を強化して、さらに進む。

生徒AI: 「やった!ゴールの半分くらいまで行けたよ!この動き、かなり良い気がする!」

先生: 「素晴らしい!5ポイントあげるよ!でも、ちょっと足のタイミングがバラバラだから、そこを直せばもっと速く泳げるはずだよ。」



4. 最終成果: 自信を持つAI

何度も挑戦して失敗や成功を繰り返した後、生徒AIは「腕と足のタイミングを合わせて泳ぐ」ことを学び、ついにゴールに到達!

先生: 「完璧!ゴールに到達したね!10ポイント!君はもう泳ぎの達人だ!」

生徒AI: 「やった!次は背泳ぎにも挑戦してみたいな!自分で新しい泳ぎ方を考えてみるよ!」



物語のポイント
最初は失敗を恐れない:
AI(生徒)は間違えることで「何がダメだったか」を学ぶ。
先生(トレーナー)は優しくフィードバックを与える。
成功体験を積み重ねる:
良い動きをしたら「褒める(報酬)」ことで、その動きを強化。
「こうすれば良いんだ!」とAIが自分で気づく。
最終的にAIが自立する:
AIは「正解」を覚えるだけでなく、「自分でどうすればいいか考える力」を身につける。
水泳だけでなく、新しい泳ぎ方や環境にも応用できるようになる。


この物語とRFTの関係

この物語の中で、先生のフィードバック → RFTの「報酬とペナルティ」。
生徒AIの試行錯誤 → RFTでAIが自分で新しい考え方を学ぶプロセス。
ゴール達成後の応用力 → RFTでAIが新しいタスクにも対応できる応用力を身につける。


つまり、RFTはAIに「泳ぎ方(問題の解き方)」を教えるだけでなく、「自分で考えてどんな水(新しい問題)でも泳げるようにする」ための方法なんだよ!

どうですか?w かなり分かりやすくなったのでは?w

「でも、これが、どう役に立つの??」

って、思ったでしょ!w

これ、劇的に便利になるのですよ!!!

今年の夏ごろから言ってましたが、来年は、それぞれの人にカスタマイズされたAIを使うよになります。これが、マジで、実現しますよ!

専門家のAIを作るってことは、「あなたに関する専門家AI」でもあるのです。

あなたの体験や経験、日々の行動などを学習して、「あなたが理想とする未来の自分になるように」アドバイスしてくれるようになります。日々の食事から、服装、メールやSNSの投稿文章、写真撮影、どんな人と会えばいいのか・・・

え? 怖い?w

ライブ動画最後のクリスマス・ジョーク

ライブ動画の最後に、クリスマス・ジョークがありました。

最後にクリスマス・ジョークがあったけど、その会話を教えて

クリスマス・ジョークの会話

話者 3:
「さて、毎年恒例ですが、クリスマスにちなんだジョークを一つご紹介します。私たちはサンフランシスコに住んでいますが、最近では自動運転車が流行っていますよね。実はサンタさんもこの流れに乗ろうとして、自動運転のソリを開発しているんです。でも、どうしても木を認識できなくて、ソリが木にぶつかってばかりいるらしいんですよ。」

話者 1:
「へえ、それは困りましたね。なんで木を認識できないんですか?」

話者 3:
「それは……モデルに木を(pine to)学習させるのを忘れたからです!」

話者 1:
「……おお、そうきましたか(笑)! では、次回もお楽しみに。今日はこれで終わりです!」



ジョークの解説ジョークのポイントは「pine」という言葉にかけたダジャレです。
「pine」には「松の木」という意味があります。
同時に「pin(データを固定する/学習させる)」の音に似ており、「モデルに木(pine)を学習させなかった」という技術的な笑い話にしています。


技術プレゼンの締めくくりとして、少しリラックスしたユーモアで終わらせた形ですね!

かしこな人たちのジョークは、わからんわwwww

ChatGPTさんのざっくりまとめ!

動画で何を話してるのか気になると思うので、ChatGPTさんにまとめておいてもらいましたw

以下は、動画の要約です。


1. 概要

  • テーマ: OpenAIの新技術「Reinforcement Fine Tuning (RFT)」。

  • 目的:

    • AIモデルを特定のタスクや専門分野に最適化する。

    • 強化学習(Reinforcement Learning)を活用して、モデルの推論能力を向上。

  • 背景: RFTは、OpenAI内部でGPT-4のようなフロンティアモデルをトレーニングする際に使用された技術。


2. 技術の詳細

  • 従来のFine Tuningとの違い:

    • 従来のFine Tuning: データに基づき、モデルが特定の形式やスタイルを模倣する。

    • RFT: モデルが新しい問題解決の方法を学習し、論理的に推論できるようにする。

  • 強化学習の仕組み:

    • モデルがタスクを実行する際に「考える余地」を与え、答えを評価。

    • 正しい答えを強化し、間違った答えを抑制。

    • 少数の例(10〜12個)でもモデルが新しい領域に適応可能。


3. 具体例と応用

  • 法律分野:

    • Thomson Reutersとの提携で、法律アシスタント「Co Counsel AI」を開発。

    • 複雑な法律文書の分析や専門家の作業を支援。

  • 医療分野:

    • Berkeley Labとの共同研究で、遺伝性疾患の診断支援にAIを活用。

    • 患者の症状データから、関連する遺伝子を特定するモデルを構築。

    • 科学論文から得た約1100例のデータを使い、強化学習で精度を向上。

  • その他の分野:

    • 科学研究、AIの安全性、バイオインフォマティクス、法務、ヘルスケアなど。


4. デモンストレーション

  • トレーニングプロセス:

    • データセット(JSONL形式)をアップロードし、モデルをFine Tune。

    • グレーダー(自動採点システム)を使用してモデルの出力を評価。

  • 結果の可視化:

    • Fine Tuning後、モデルの精度が向上。

    • Fine Tunedモデルが、従来のモデル(例: GPT-4ベース)を超える性能を発揮。


5. 発表の目的

  • プログラム拡大:

    • Alphaプログラムを通じて、研究者や企業にRFTを提供。

    • 2024年に正式リリース予定。

  • 期待:

    • 参加者がRFTを活用して、独自の専門分野にAIを適応させる。

    • ユーザーが新しい応用例を発見し、AIの限界を押し広げる。


6. 締めくくり

  • 研究と実社会への応用:

    • この技術が、科学、法務、医療、教育などの分野で革命を起こす可能性。

    • AIの可能性を現実世界で活用することを目指す。

  • ユーモラスなエンディング:

    • 「モデルが木を認識できず、サンタのソリが木に衝突する」というクリスマスジョークで終了。


2日目にして、レベル高すぎ!www

最後まで読んでいただいて、ありがとうございます!

この記事のスキをクリック、コメントをいただけると、励みになります!!

応援、よろしくお願いします!

いいなと思ったら応援しよう!