OpenAI o1はどんなアカデミック用途に向いているか？

2024年9月15日 07:22

OpenAI o1の概要

2024年9月13日にリリースされたOpenAI o1は、OpenAIが強化学習を用いて開発した最新モデルです。主な特徴として、複雑な推論を行うための長い思考連鎖を内部で生成し、より論理的で正確な回答を提供します。現在、o1-previewとo1-miniの2つのバージョンが提供されています。o1-miniはo1-previewよりもはるかに小型で高速ではあるものの、Coding等ではo1-miniの方が優れているようです。o1-miniは特ににSTEMへの応用に最適化されているということです。

OpenAI o1-mini is optimized for STEM applications at all stages of training & data. It has limitations of world knowledge. Check our research blog post for more details. https://t.co/QdMzqKUykY
— Hongyu Ren (@ren_hongyu) September 13, 2024

OpenAI o1：何が新しく、何が変わらないのか

OpenAI o1の最大の特徴は、複雑な推論を行うための「長い思考連鎖」を内部で生成する能力です。しかし、興味深いことに、通常の文章生成タスクにおいては、先代モデルのGPT-4oとほぼ同等の性能を示しています。
実際、OpenAIが公開した比較データを見てみると：

https://openai.com/index/learning-to-reason-with-llms/

個人的な文章作成：GPT-4oとほぼ互角
テキスト編集：GPT-4oとほぼ互角
コンピュータプログラミング：GPT-4oをやや上回る
データ分析：GPT-4oをやや上回る
数学的計算：GPT-4oを大きく上回る

つまり、論文や報告書の執筆といった「通常の」アカデミックライティングにおいては、OpenAI o1は特筆すべき進歩を見せていないのです。

OpenAI o1の実力：期待と現実

研究アイデアの精緻化とFuture Directionsの提示

OpenAI o1の特筆すべき強みの1つは、研究アイデアの論理的精緻化と、研究結果から導き出される具体的なFuture directionsの提示能力にあると思います：

論理的分析と関連性の解明:
- 既存の概念や研究結果を深く分析し、多層的な関連性を明確化
- 散在する情報を統合し、現在の研究と将来の方向性を体系的に結びつけ
- 研究の波及効果や長期的影響を論理的に予測し提示
学際的アプローチと革新的提案:
- 異分野の知識を有機的に結合し、学問の境界を越えた研究テーマを具体化
- 抽象的アイデアを実行可能な研究計画に変換し、包括的な提案を生成
- 潜在的課題や必要リソースを予測し、理論的根拠を伴う革新的方向性を提示
長期的研究ビジョンの構築:
- 個々の研究を広範な科学的・社会的文脈の中で位置づけ
- 短期的成果と長期的目標を結びつけ、一貫した研究ストーリーを構築
- 漠然としたアイデアから具体的な研究計画まで、論理的に発展させる

これらの能力により、OpenAI o1は「分析的な思考パートナー」として機能し、人間の創造性を論理的に補完します。

ただし、初期段階のアイデア発散には従来モデルが適している可能性があります。研究プロセスの各段階に応じて適切なAIモデルを選択することが重要です：

初期ブレインストーミング：従来モデルでアイデアを幅広く発散させる
アイデアの精緻化と具体化：OpenAI o1を用いて、アイデアを論理的に分析し、実行可能な研究計画に落とし込む。
Future Directions提示：OpenAI o1を活用して、研究結果から論理的に導き出される将来の研究方向性を具体的に提示する。

新規アイディアの生成には以下のプロンプトを使用してみてください。実用レベルにはなりませんがClaude、Geminiに比べて若干良い提案をしてくれる気がします。10個に1つくらいはいいアイディアが出ると思います。

文献レビューにおける性能

コンテキストウィンドウの制約: OpenAI o1のコンテキストウィンドウはGPT-4oと同じようです。そのためGeminiなどのより長いコンテキストを扱えるモデルと比較すると、大量の論文を一度に処理する能力に制限があるようです。
要約と要素抽出: 論文の要約や主要要素の抽出においては、従来のモデルと比較して顕著な進歩は見られません。ただし、特定の分野や複雑な論文に対しては、より深い理解を示す可能性もあるのかもしれません。また 文字数や単語数を指定した要約に関しては、シンプルなプロンプトで非常に効果的に機能します。例えば、「この論文を300単語で要約してください」といった指示に対して、従来モデルに比べて文字数、単語数の制約は守ってくれることが多いです。

ChatGPT-4o1ですが文字数制限や単語数制限のある要約には強い模様

オーバーキル感はありますが... https://t.co/w338BjdRR9
— 限界助教|ChatGPT/Claudeで論文作成と科研費申請 (@genkAIjokyo) September 14, 2024

これらの観察から、OpenAI o1は文献レビューにおいては積極的な使用は勧められず、ClaudeやGeminiを活用するのが効果的だと考えられます。

データ分析での可能性

複雑なデータセットの探索: 大規模で複雑なデータセットの初期探索やコーディングにおいて、OpenAI o1は有用な支援を提供する可能性があります。
統計的手法の提案: 適切な統計手法の選択や分析プロセスの設計において、OpenAI o1は有益な提案を行えることが観察されています。

ただし、現時点ではOpenAI o1はファイル入力を受けつけないので解析のcodingを提案してもらって、別の実行環境を用意して解析する必要があります。（こちらは私自身では未検証です）

That feeling when ChatGPT o1 accomplishes in 1 hour what took you about a year in your PhD: https://t.co/jG7UxEUT12
— Dr. Kyle Kabasares (@AstronoMisfit) September 15, 2024

OpenAI o1の天文物理学への応用例として、ある研究者のPh.D.論文の方法セクションのみを入力として与えたところ、約6回のプロンプトでブラックホール質量測定のための複雑なコードを生成しました。生成されたコードは研究者本人が10ヶ月かけて開発したものと同等の機能を持ち、約200行という効率的な実装を実現しました。この事例は、O1-previewが専門的な科学分野においても高度なコード生成能力を持つことを示しています。（元のコードがGithubで公開されていたので学習データに含まれていた可能性も否定できません）このように論文の方法セクションから新規の手法を実装する手助けになりそうです。

査読プロセスにおける役割

他のモデルとの比較: OpenAI o1の出力結果は、私が個人的に査読能力が一番高いと考えているClaude 3.5 Sonnetと比較しても、顕著な差異が見られませんでした。（GPT-4oよりは改善していると思います）

これらの観察から査読のプロセスには純粋に論理的な思考が必要とされる部分は、意外と少ないのではないかという気がしました。理論の飛躍を指摘したり、用いられている手法が適切かどうかなどは別に論理が必要というよりはある程度知識やパターン認識に基づく気がします。GPT-4o1は査読についてはClaude3.5が使えない環境であれば選択肢になると思います。

論文執筆支援

ゼロショット論理展開: 事前情報なしに論理的な文章（例：ディスカッションセクション）を生成する能力は、OpenAI o1の強みだと思います。しかし他のモデルでも、適切な方向性や参考資料を与えれば、同様に論理的な文章を生成できる場合が多いです。
ハルシネーションのリスク: 事前情報なしで生成された内容には、事実誤認のリスクがあるため、人間による慎重な確認が必要なので手間が増えてしまいます。Sakana.aiのAI Scientistでは文章を先に書かせて後でその文章に対応する参考文献を見つけさせていましたがそのような書き方であれば良いのかもしれません。

以上から論文執筆はDiscussionなどで論理的なストーリーが自分で考えられない場合に手伝ってもらうのは良いかもしれませんが、それが自分でできる場合は方針を示せば下書きの作成は他のモデルに任せても全く遜色ないと思います。

結論：OpenAI o1の実践的な活用法

OpenAI o1は確かに特定の領域で高い能力を示していますが、アカデミックな環境では「有用な補助ツール」として位置づけるのが適切でしょう。その活用には、以下の点に注意が必要です：

タスクの選択: OpenAI o1の強みを活かせるタスク（複雑な推論、初期のアイデア生成など）に焦点を当てる。特に、1週間で30回という厳しい使用制限があるため、最も価値のある問い合わせや分析に使用を限定することが重要です。
他のモデルとの使い分け: 文献レビューなど、特定のタスクでは他のAIツールとの併用を検討する。

最後に強調しておきたいのは、OpenAI o1の最適な使用方法（プロンプティングのベストプラクティスなど）については、まだ私も完全には理解していない部分が多いということです。したがって、本記事で述べた分析は現時点での観察に基づくものであり、今後の実践を通じて更新される可能性もあります。

こちらChatGPTの基本から仕事への応用まで書かれたNote深津さんのChatGPT本。生成AIへの導入としてとてもわかりやすい本だと思います。

査読のやり方を知ることで論文のアクセプト率を上げることができます。以下の教科書がおすすめです。

OpenAI o1は どんなアカデミック用途に向いているか？