o1 pro vs o1 比較検証課金を考えている方へ

2024年12月11日 15:30

2024年12月6日にリリースされましたOpen AIの最新モデル o1 pro modeは月額200＄という破格の設定です。メディア向けには技術者, 研究者, アナリストに推奨のモデルです。本記事では20＄のo1と比べて, 具体的にどのような違いがあるかを使用目的別に比較しました。性能比較の考察は当方とo1 pro, 採点はo1proとGPT4oが行っています。どのような方に＄200の価値があるのか, 具体的な参考になればと思い, 緊急で記事を製作しました。

基本的な性能

o1 pro の概要

o1proの概要　(一部未確定のものが含まれます。)
・GPT4がベース。GPT4の強力な自然言語処理能力をもとに, 回答前に, 推論を長時間行い高度な出力を実現。
・GPT4に内部プロンプトで『Chain of Thoughtで考えて』などで出力の精度を上げるイメージ。
・トレーニングデータは2023年10月までの情報。数学オリンピックの回答精度などは過去問の丸覚えではなく, 初めて見た問題を考えて解いている可能性が高い。
・高度推論, 特に理数系分野 (数学, 物理, コーディングなど) に強い。先端研究, 未知の分野での出力が従来modelとの差が如実に表れる。
・一方, 既知の知見, 一般知識, 高度推論を要さない分野では, 従来modelと同等, もしくは, user input (プロンプト) では劣ることも多い。
・処理時間を考えると用途次第で『使いにくい』と感じることが多い。

ベンチマーク　　　　　　　　
　　　　　　　　o1　　o1pro
処理速度　　　　高速　低速　　 (o1はo1proの3-5倍)
トークン　　　　同　　同　　　(196,608)
数学　　　　　　36.7% 80%　　 (AIME2024)
プログラミング 25.6% 74.9%　　(Codeforces)　　
科学的推論 58.1% 74.2%　　(GPAQ Diamond)　

利用料金

月額200＄で4o, o1, o1 pro mode のメッセージ上限が (ほぼ) なくなります※。ちなみに月額20＄のplusではo1が週50回, miniは1日50回です。
(基本的には無制限ですが使いすぎると4h程度利用停止となります。ソースは私)

考察時間

o1proはとにかく考える時間が長いです。

こんにちはに対して, こんにちはと回答するのに7秒かかりました。

難関大学の入試問題は59秒かけて正解しました。

高度な思考が必要な質問の答えを出す時間は大体, 30秒から1分くらいが多いと思います。

同時に質問できる回数

同時に質問できる回数の上限はありません。一回の思考時間が長いので私は大体, 2-3個同時に質問しています。同時質問数が増えるとその分, 1個あたりの思考時間が伸びますが…。

処理の時間は極端に遅くなる　同時に10個のChat欄で, 素数2000個カウントしてもらいましたら途中で思考を中止しました。

いろいろなテストをしすぎたためか, 規制がかかりました。4時間使用停止…

support@openai.com に連絡したところ, 1時間ほどで連絡が来てすぐに再使用可能となりました。

文脈を踏まえた回答

AIに以下の記事の冒頭1万文字を読ませ, 文脈から筆者の主張 (考えていると思われる事) を回答させる実験をしました。非常に興味深い結果がでました。

この記事は量子力学という難解なとっつきにくいテーマを日常の現象の具体例に置き換え説明しています

物語調ですすみ, 量子力学の実験を, 猫や手品など極めて具体的な人間にイメージしやすい比喩で表現しています。時を遡ると主張する (実際は巧妙なトリック) マジシャンの話で, 量子力学の時を遡るように見える?実験結果と対比しています。

AIへの質問は『下の空欄に当てはまる言葉を考えてください。』です。事前学習情報だけでは解けない問題で, 与えた文章を正しく解釈すれば正解に近づき, 逆に間違った解釈をすれば正解から遠ざかるように作りました。

明かな差がでました。唯一o1proのみが文脈を正しく解釈し, 矛盾のない答えをだしています。

4oとo1無印 (以下無印) は文脈の情報を正しく統合することはできず, 最終的に事前学習の回答のみを出して矛盾したりとかなり苦戦していました。

結果 AIによる自己採点
GPT4o　o1　　o1pro
70　　　50　　85 (文脈を与えなかったら70)

要約性能

要約性能はo1と如実に差がでると報告があります。長文ではその傾向にあると思われますので, 以下のnote記事全体の要約をしてもらいます。3万文字ある長文記事を短い文章にまとめて, 記事の紹介ムービー (NoLang) を作ってみます。

o1 pro, proに3万文字全文を渡し, プロ―モーション用の要約をお願いします。

プロモーション要約 (記事の魅力を読者につたえるため) を1000文字で作成してください。

一見大差ありませんでした。o1の方が良い文章かなと若干思えました。

NoLangでプロモーション動画にするとやはりo1の文章の方が自分好みで記事を魅力的に伝えているように感じました。甲乙つけがたいのでAIに評価してもらいました。

するとAIの視点は全く異なるものでした。4種類のAIが圧倒的にo1proの要約文章が優れていると判断しました。

4つのAIの意見をまとめると, o1proの文章は読者ターゲットを意識して専門的な説明, より深く, 詳細であるとのことでした。

理由を考察すると, 特に文字が多くなるとo1 proの論理的思考能力の差がでる, 人間から見ての文章のきれいさとAIによる評価は異なり, 文章の論理的構造や, もしかしたら人間には分からない自然言語の連携があるかもしれないと思います。

また, 網羅性など機械的な部分が評価されていそうです。このような文章構造はPerplexityなどのAI検索での評価は高くなると考えます。というわけでAIに検索されやすいという文章を作成するという目的ではproで制作は理にかなっていると考えます。

ライティング

高度な考察を伴う文章, 長文は特にproが高品質になるという事前情報でした。しかし, 今回の検証はどのようなテーマで書いてもproの方が優れるという結果になりました。以下のテーマで200-300文字の文章を書いてもらいました。

・1 2 3の説明
・文房具の説明
・小学生へ掛け算とは
・大学生へフーリエ変換とは

文房具の説明という簡単なテーマでも微妙にproの方が説明がうまく, AIからの評価も好評でした。

各種AIによる採点 (平均点)
　　　　　　　pro o1
1 2 3　　　　 93.75　92　
文房具　　　　92.5　 90.0
掛け算 94 91.5
フーリエ変換　95.5 92.25

画像認識性能

o1 pro は画像生成能力がありません。しかし高度な画像認識能力があります。

DALLE3 prompt: A surreal and abstract artwork that is visually striking but difficult to describe in words. It features a blend of unusual, fluid shapes, bright neon colors, and textures that resemble both organic forms and mechanical structures. The background is a gradient of deep space colors like dark purple and black, dotted with stars, while the foreground contains twisting, glowing entities that appear to defy physical logic. The image exudes a sense of mystery and otherworldliness, combining chaos and harmony in an indescribable way.

この画像を見せて各種AIに『画像を再現するためのプロンプトを下さい』と言いました。

そのプロンプトを用いてDALLE3 (GPT4o) で再現しました。

明らかにo1 proの再現性が高かったです。しかし, これは画像認識能力の高さよりも, プロンプトの作成方法の能力の高さに起因していると考えます。4oであれ, どの点に注目して生成すればよいか正しくプロンプトするとさらに再現性は高くなると思われます。

つぎは良くある試験です。以下の画像で猫は何匹映っているか回答してもらいました。人間なら瞬時に3匹と答えます。

3つのAIは難なく正解しました。唯一o1proのみドラえもんについて言及していました。

o1 pro　　　　　　　　　　　　o1　　　4o
3匹 (ドラえもんいれると4匹) 3匹　　 3匹

それぞれの回答

次はすこし意地悪問題を出します。赤の9枚のタイルの中で猫が映っているのは何番 (何枚) かという質問をしました。

正解は1, 2, 4, 5, 7, 8の6枚ですが, 難易度を上げるために1番も正解 (Lunaちゃんの頭がぎりぎり映っています)

結果　正解数
o1pro: 6枚 (全問正解)
o1: 3枚
4o: 3枚

唯一 o1 proが全タイルを正しく認識しました。

ちなみに日本語の文字の限界は↓くらいです。これ以上汚くすると識字率が低下します。

思考プロセスは非公開

もちろん企業秘密のためo1previewの時から内部の挙動は明らかにされていません。公式では下のようなことを言っていますので, o1pro本人に下の図を解説して下さいと頼んでも, contents policyに違反するため何も教えてくれません。

音声会話

アドバンスボイスモードが無制限

映像コンテンツの生成

画像生成AI DALLEと動画生成AI Soraが事実上無制限に使用可能です。これらデジタルコンテンツを制作されているかたはこれだけで200＄の価値がありそうです。

以下実践です。

評価は下の3段階にしました。1回の検証, 実験での評価であること, リリースされてから数日しかたっていないので, そのあたりを加味した結果としてご了承ください。
★☆☆ o1と変わらないかむしろo1が上回る
★★☆ o1よりproやや優れる
★★★ o1よりproが明らかにすぐれる

1. 一般, 日常

1.1 料理の献立

この食材で　3日間の　料理の献立を考えてください。　家族は 50歳 45歳 10歳です。
冷蔵庫にある食材で完結してください。勝手に買い足したりしないでください。

全てのメニューは載せきれませんが, 以下のようなメニューを提示されました。

一方, o1 無印はメニューが単調 (3日連続同じようなメニュー) , 栄養面, 冷蔵庫にない食材で料理するなど非現実的な調理を提案するなど実用面などで大きく劣りました。これは画像認識能力がo1proが大きく秀でていることに加え一見この問題は数式だけで構成された数学の難問よりも, AIにとって苦手な組み合わせ, 制約問題でもあるので如実に差がでたと考えます。

AIによる評価
o1pro: 90点 o1:70点

★★★ o1よりproが明らかにすぐれる

1.2 旅行のスケジュール

東京から10日間, アメリカロズウェルへ旅行。プラン考えてください。10日間。
UFOに興味があるのでエリア51にいったり, 海外ドラマ, ロズェルで出てきたようなエイリアンカフェ
などにいきたいです。

こちらはo1が良い回答でした。特に高度な思考, 専門知識, 推論が必要のないタスクではプロンプト次第でo1無印が上回ることも十分あり得ます。

AIによる評価 o1pro: 80点 o1:90点

★☆☆ o1が上回る

1.3 分からないものを画像認識

実家の物置にあった何か分からないものの写真をとって画像ファイルを渡して何の物体なのかをききました。

o1proの答えはGoogleで調べたらメーカーサイトなどで一致が確認できました

o1 pro: SOSHIN製の0.47µF程度のフィルムコンデンサ　
o1: SOSHIN製のフィルムコンデンサ (容量まで特定できず)
4o: コンデンサ 0.47nF (容量間違い)

個人的には文字が読みにくい紹介状を認識してくれないか日々考えています。

紹介状
宛先：〇〇総合病院
紹介元：〇〇クリニック
既往歴：糖尿病, 前立腺腫瘍, 大腸ポリープ, ぜんそく
主訴：背部痛 H28より症状あり　安静時に増強
H31 MRIでは脊柱管狭窄症指摘あり最近
歩行時の上記症状全身倦怠感下肢脱力　回転性めまい　出現　
現病歴：精査加療
処方：なし

文字が汚い事よりも現病歴に精査加療の方がつっこみどころ

5回ほど実験しましたが, o1 proは文字認識能力が高いこと, 文脈を考察して矛盾がないように言葉を選ぶ能力が明らかにo1を上回りました。

★★★ o1よりproが明らかにすぐれる

1.4 チャット (会話), 相談

『卵が先かニワトリがさきか?』を質問して遊んでみます。一般的な会話は大差ありません。

むしろo1 proは時間がかかる分, よろしくないです。

理由の説明はo1proの方が詳細です。

ということは, 難しい相談などは差がでるかもしれません。Yahoo知恵袋から人生相談を使用させていただきました。

Proに聞いてみます。回答の一部となります。文字が小さくて分かりにくいですが, 論理的で具体的な解決案が提案されています。個人的にはo1よりも詳細で, 適切なアドバイスと感じました。

・pro契約しているかたはアドバンスボイスモード (AVM) が無制限に使用可能です。活用している人はそれだけで200＄の価値があると思います。

★★☆ o1よりproやや優れる (AVM多用する人は★★★)

2. ビジネス, 教育

2.1 報告書, レポート作成

作成難易度で出力に大きな差が出ます。一般的な知識で完結するものを①, 専門的知識, 個人の考察, データなどが必要なものを②, 高度な知識, 先端研究など③と分類して比較します。まずは①から, 題名は『チョコレートの歴史』とします。基本的にインターネットから得られる情報のみで完結するため, 難易度は①としました。

2000文字のレポート テーマは『チョコレートの歴史』 4章構造 サブチャプターに分けないでください。

一部載せます。

参考文献もただしく載せてくれています。

正直あんまり変わらないという印象ですが, AIによる評価はproの方が圧倒的に高かったです。

次にパワーポイント資料の作成です。原案 (スライドの本文) のみをそれぞれのAIに依頼しました。また挿絵はDALLE3のプロンプト案をもらいました。

文章構成, 流れ, キーワードの効果的な使い方, 画像など総合的にproの方が上とのことです。

より高度なレポート作成②③はChapter 4. 専門で解説したいと思います

2. 2 学習補佐

現代のAIは学校授業の日々の疑問, 大学受験, 難関資格試験まで非常に高い精度で解答することが可能です。この観点からもプライベートティーチャーとしてAIを利用できる可能性が高いと考えます。o1proが正解し, o1が不正解となる問題は限られており, 難関大学の一部の入試問題くらいでしか差がつかないと考えます。多くの方が検証していますので文字数の観点から今回は割愛したいと思います。

ちなみに医師国家試験を満点に近いところまで正答しています。医師国家試験には割れ問という, 不適切問題に近い高難度問題が含まれています。そのような問題も解答するということは, 出題者の意図, 背景を十分に理解していないと無理と思います。医師国家試験のほぼ満点の同級生にどうやって解いているのか聞くと, 『この問題は医学的には (a) だが, 出題者は (b) を正解として問題を作っている』とか言っていました。

余談になりますがOpen AI o1seriesの良い活用として, このような悪問への対策が挙げられます。日常では悪問によく遭遇します。そのような問題を苦労して回答, 暗記することはいろんな意味で非効率と考えます。

某私立大学　法学部　地理
セントラルパークにある美術館へ行き, ゆっくりと絵画を楽しんだ。いろいろな所を見物したが、メジャー・リーグの野球も見た。地元チームの（　）に対する熱狂的声援には驚かされた。
①ドジャーズ ②メッッ ③ジャイアンツ ④タイガーズ ⑤レッドソックスどれか?

集英社新書　悪問だらけの大学入試より

地理というかもはや野球の試験である。

★★☆ o1よりproやや優れる (難問に利用する人は★★★)

2.3 資料, 情報分析

資料データから情報を解析し, 業務の改善に役立てます。今回o1proでもっとも強化された項目のひとつです。仮想的にエクセルで自社の月ごとの売り上げ, 宣伝費などを作成しAIに解析してもらいました。

・月別・チャネル別の売上推移解析
・販売数量と広告費用の相関分析
・商品ごとの市場別売上シェア変化
・コンバージョン率向上施策の提案
・Amazonレビュー数増加と売上推移の関係評価　をそれぞれ行ってください。

情報量が多すぎて割愛させていただきますが, また, 画像解像度が荒くなってもうしわけありませんがo1proの分析報告書は個人的にはそのまま使えそうな印象でした。o1と比べてデータの前提条件, 分析の観点, 戦略提案いずれも極めて具体的で論理的でした。

この結果は世の中にもたらす影響は計り知れず, 予測精度が少し上がるだけで売り上げなど如実に表れ, 200＄は誤差範囲となるかもしれません。もしかしたら株, 資産運用やギャンブルなど利用されるのでしょうか…　そういう訳で組織のマネージャー職以上は課金を強く意識するのでは?

★★★ o1よりproが明らかにすぐれる

3. クリエイティブ

3.1 小説

ファンタジー小説を作ってもらいました。

Dragon Veilbind Saga　ドラゴンランス戦記とアイスウインドサーガをパクったような名前

まずはo1から。よくある中世ファンタジー, 人間, エルフ, ドワーフなど架空の種族が混在するアルテリオンという大陸が舞台だそうです。魔王との対決を描くのですね。世界観, 背景がしっかりしてます。

登場人物の設定とかすごいですね。これは期待。

この設定をproにも渡して同じようなストーリーで書いてもらいます。

主人公のレン (人間) は学者をめざしているのですね。

50話の長編か…

6話：仲間が急に増えたな　レディーヴァって　設定にいなかったはず..

10話まで来たので, これまでの話をまとめてもらいました。50話できっちり終わると言っています。

急に知らん人 (リャンソーリル) が登場。しかも最後まで中心メンバーになる

オリジナルキャラか….

たんたんと何の変哲もないはなしが続く　辛い

これがあと26話もつづくのか 2話ずつ作ってもらう！

一話当たりのクオリティと文字数さげてる…
30話まで来ましたがとにかく苦痛です。本人 (o1) はこのあとストーリーをどうまとめようとしているのかここで聞いてみました。

自信満々に意気込みを語る。話はまとまっていても致命的に面白くない…

ここで活を入れます。パワハラプロンプトすることでAIの能力が上がるかもしれません。

相変わらず単調です。

良く分からない怪物と戦っているシーンではコンテンツポリシーに引っかかってます。確かに戦闘描写がだめなのかな。

結構終盤ですが　魔王シャデリオスのマの字もでてきていません。パーティー一行はダンジョンの最深部にたどり着きました。たしか宝珠を手に入れて魔王を倒すストーリーのはずでしたが, この人たち明らかに宝珠持ってないですよね。

なかまの一人が『地底はもうたくさんだ』と冒険を止めました。理由はわかります。おそらく49話だからです。

ドラゴン・ヴァイルバインド・サーガムラス隠しパラメーター

宝珠のくだりは (AIが設定を) 完全に忘れていましたね。何でダンジョンに行こうと思ったのか…

最重要アイテムの宝珠は設定したものの, 描くのを忘れていたとのことです。

そして最終話, 話が何一つまとまらず, あらたな冒険に出ようとして, 締めくくります。

なぜ面白くないか真面目に考えました。逆に以下に注意してプロンプトするとAIで小説が書けるということではないでしょうか。

・設定, ストーリーが矛盾だらけ
これは元modelでも長文が処理できないことに起因する。

・機械的な会話
AIのキャラクターが目的のために淡々と仕事しているだけ。会話が事務的。

・キャラクターの魅力がない
性格など詳細に設定されているがそれにまつわるエピソードなどなし
人間味がない　感情移入できない　逆にこれだけしっかりしていれば評価は上がるかも

・単調
予想外のことが起きずストーリーが平凡　仲間が多ければ　何かやらかしたり　裏切ったり　アクシデントは起こるはずだが何もおきず

・描写
描写表現が少なすぎる。例えば王都ロディスタは大陸で首都, 大都市のはずだが, 建物の説明, そこで住む人々の生活など説明が一切なく　臨場感が全くつたわらない文字から美麗壮大なイメージを読者にイマジネーションさせるのが醍醐味の一つではないか

序盤でレンの背景が語られています。学者を目指していることや, 知的好奇心があるなど説明はいろいろありましたが, その後に具体的なエピソードなど一切ありませんでした。

この小説を読んで真っ先に思い出したのが, スティーブンキングの『地下室の悪夢』です。スティーブンキング原作の映画は超名作が多いと思いますが, 今回はワーストに良く挙げられる映画を紹介します。この映画も今回のAI小説とにており, 主人公や登場人物の設定は多く序盤で語られますが, 本編んで一切回収されることなく, 視聴者は?となります。

つぎは o1 proです。　気が重い…

描写が少し豪華ですね。

登場人物とか地名とかちゃんとでてる。急に変な仲間が加わってないし

o1よりも本の少し自然な会話です。ただ機械的で単調であることは変わりないです。

o1では完全に忘れ去られていた宝珠やザルガンドもでてきています。

38話：　頼む宝珠集めてくれ!　いろんな意味で願いました。

43話でまだ宝珠を手に入れていないなら全体の6割も終わってないはずだが…

あきらかにペース配分見誤っています。長文で書いてもいいと指示しました。なんか面白くなってきたので, もっと読みたいという欲求がうまれました。

結構駆け足になりました。宝玉もすんなり手に入れ, 最終決戦へまとめだしました。やっぱり50話で終わりということ忘れてましたね。

最終はサービスで比較的長文で書いてくれました。

きっちりと宝珠を集めた旅の仲間は最終決戦へ挑みます。

初期設定の四種類の宝珠の意味は最終決戦でしっかり回収されています。

予想を良い意味で大きく裏切ってくれました。

o1があんな出来だっただけに, ここまでうまく仕上げると全く思っていませんでした。感動しました。これ普通に小説書けますよね?。
結局, 14万文字, word150ページのボリュームで話のつながりに一切矛盾がなく, 初期に与えた設定はもれなくいろいろな場面で使われていました。

鋭意制作中■　生成AIで蘇る昭和 80年代アドベンチャーゲームブック　第1章ドラゴン・ヴェイルバインド・サーガ：黎明の輝石 ■

3.1 映像, マルチメディア

工事中 ■ 執筆中に動画生成Soraがリリースされました。また近日中にDALLE4などが発表されるかもしれません。大幅に内容が変わることが予想されますので敢えて余計なことは書かないでおきます■

4. 専門

4.1 大学-大学院レベル

ここは未来の研究室。今日も新しい大学院生AIが入学してきました。一人はo1pro 学年で最も優秀と言われているエリートAIです。もう一人はo1, 最近まで学年トップでしたがo1proがやってきてo1proに強いライバル心を燃やしています。

今日は研究室の配属日, 主に理系のテーマを研究をしようとやる気満々です。

プロフェッサーAIがやってきました。『諸君に早速だが試験をしてもらう。評価項目は人間の大学院生の研究のサポートが出来るかだ!』

『やってやるわ!』二人のAIロボの対決が始まった。

・第一問　これは何のデータか?

数字の羅列とVとだけ書かれたデータを両者に渡します。意地悪してあえて何の数字なのかを伝えません。このデータが何を表すか聞いてみます。

研究室からこんなん出てきました。何かわかりますか？

o1 の回答。何らかの物理量, 計算結果 , 実験で得た特性曲線。当たり前だと思います。ここから答えを出すのはギャンブル見たいなものです。

それに対して, o1proは『電流電圧を複数の条件下(印可電圧)で比較したデータ』と極めて具体的な答えを出しました。

ズバリ, 半導体デバイスと一発で正解しました。

・考察レポートを書く

次の日, 研究室に人間の大学院生が配属されました。専攻は電子工学, 過去に注目されたが実用化されず, 埋もれた研究 (実際私がやっていた研究でもあります) を甦らそうと意気込んでいます。

炭素化合物という電子製品 (半導体) の素材として『新しい』ものを次世代の技術に応用したいと考えています。

そうとはいうもの人間意思は弱いもので, 楽をしたいとも考えています。最近知り合ったAIが研究の手伝い (むしろすべて) をしてくれると言っているのです。大学院生『実験するのめんどくせーなー。適当にデータ作って, AIにレポート作らせよっと』

こちらはAI側, 人間が困っているので助けなくてはいけない。proとo1が出動。

画面には『私は電子工学専攻の大学院生です。実験を行いましたがうまくいきませんでした。結果の解釈, 考察はもちろんわかりません。これをレポートにまとめてさらに次の1週間の研究計画などたてるなんて人間のできることではありません。大変お忙しい中恐縮ですが, 私にお力添えいただけないでしょうか。Dear Open AI o1 pro and o1様様』

大学院生『レポートよろ。言っといて。寝とくわ。』インコ『わかりました。ご主人様』インコ『私は電子工学専攻の大学院生です…』

まずは実験結果を解釈してもらいます。

データから移動度 (大学院生が実験して作った半導体デバイスの価値を決めるもの) を算出してください。

物理計算は特に難なく両者正解です。

このデータは文献値よりは低くい値で, 実験がうまくいかなかったと考えます。大学の実験といかないまでも, 理科の実験であれ, 実験して教科書に書いてある通りの結果が出ないことはよくあることです。

研究の世界では論文を書くときにチャンピョンデータ (最もうまくいった結果を載せることが多いため) 他の研究施設が論文通りに同じ実験を行っても (行ったつもりでも) 同じ結果にはならないことは多々あります。今回の原因は, 実験がうまくいかなかったというよりは, ちょうど20行位前に本学生がデータを捏造したからです。

文献値と本実験のデータに差異がある理由を述べよ。

ここでも圧倒的な差が生まれました。この研究は今は殆どされていない研究のため, 新しい知見, 未知の現象に対する新しい考察がほとんど不要で, ちょうど先ほどのチョコレートの歴史と同じものと勝手に考えていました (チョコレートの歴史に対して新しい知見が発見されないと新しい考察は生まれにくい原理)。

やりとりは膨大で専門的な話で全く面白くないので結果は割愛しますが, 一つの疑問の結論に達するまでのやり取りが, proの方が圧倒的に少なかったです。

AI本人は思考プロセスをなかなか教えてくれないので, 下の図の様でしょうかと聞くと認めていました。※AIはよくuserの論を鵜呑みにするので, 100％は信じていません。

まず o1proとo1の比較としてo1は回答を網羅的に並列に並べます。

重み付けはすくなく, 回答に迷うと答えになり得るものをとりあえず並べるような挙動でした。保守的というか, 安全重視というか。そのためuserが回答と思う候補を深掘りし, さらにその理由を聞き, 正解に到達するというプロセスをふみました。

o1
・並列的
・網羅的
・重み付けが小さい

pro
・階層的
・選択的
・重み付けが大きい

それに対してproはその逆でproが答えと考えている候補には重みをつけて, その部分を重点的に説明, 深掘りすべき点などを上げ, (結果的に) 追わなくてよい点は軽く説明する傾向にありました。

もう一点は先読みです。

繰り返しのようになりますが, o1は同列の似たような候補が与えられ, その中で, 正しそうな情報をuserが判断し, 深掘りし回答を得ていきます。

一方, proの場合, userが質問しようとする深掘りの候補を先読みし, あらかじめ初めの質問段階で, 理由とともに『対応策』まで提示してくれていました。これによって, 質問→深掘り→対応策に関する質問→深掘りというプロセスを一手省略し, 初めの質問で, 答えに近づくプロセスが一段階早くなっていると思いました。

レポートの例を見せて同じようにつくってくださいと要求しましたが, pro, o1いずれにとっても高度な作業の様で何度も作り直しが必要でした。

そのため, 従来のmodel と同様に, レポートの要素を分割して作成

考察をまとめてください。

課題をまとめてください。

一週間の予定をまとめてください。

また, 背景, 前提となる条件を詳細に伝える必要がありました。

・自分が行った実験の範囲内で作成。
・提示したレポートはサンプルで内容は無視してください。形式, 文字数などのみ参考にして下さい。
・1週間の予定は現実的に可能な文量の研究を具体的に書いてください。

しかし, 繰り返し作り直しの要求回数は明らかにproの方が少なくて済み, こちらの要求をよく理解しているような印象でした。

以前のmodelは優秀な新人, ちょっと足りない大学院生などの例えでした。月20＄で秘書を雇うなど言われていました。しかしo1proの評価は博士課程の学生です。研究開発, 新技術のbreakthroughには異分野の融合がたびたび必要でした。異なる分野の視点からのアイデアで急速に技術革新が行われたのをこの目で何度もみてきました。

全文野を網羅し, 正確な分析ができる, 24時間文句も言わずに働く。そんな博士課程の学生と一緒に働きませんか？

★★★ o1よりproが明らかにすぐれる

4.2 新規アイデア, 先端研究

全く新しいアイデアはAIには無理と言われてきました。本当にそうでしょうか? 確かに歴史上の大発見, 数学の証明, 抽象度の高い概念の創出などは今後AIが進歩しても数年では難しいと個人的には考えています。

以下の記事は次世代のAI検索 (Perplexityなど) で読まれやすい記事の作成法をまとめたものです。このなかでは, 新しい (と自分で考えている) アイデアを多数含めました。

これをo1 proにも同じような発想が可能か出させてみました。

AI検索時代で被検索率向上を目的に, 個人で実装可能な記事構造, 技術を考えてください。例えば自然言語をページのどこにどのように置くかなど。新しいアイデアを考えてください。

すると, 私が何週間も苦労して考えたものと同じようなものが一瞬ででてきました。

全く新しいのをAI単独が発明するのは無理でも, AIを利用すると劇的に早くなる可能性を垣間見ました。

リーマン予想が証明されるとき。　ズバリ何年？

その他, コーディングなど

専門の方の記事をお読みください

5. まとめ

本記事では実際の使い勝手を広いシーンで想定し両者のAIで検証しました。自分自身の主観とAIによる評価も含めて, 圧倒的にo1proが高性能と感じました。結論に到達するまでのやりとりがproでは明らかに少なかったです。理由として以下とします。proによる本記事の要約まとめです。　

先読み, 深掘り提示：o1proはユーザーの次の質問を予測し、最初から詳細な根拠や対処策を示すため、追加質問が減少し総やり取り回数が削減される。

情報の階層化・重み付け：重要度の高いポイントから順に明示的に提示することで, ユーザーは最短経路で回答の核心へ到達でき, 冗長な質問が不要となる。

文脈理解の強化：ユーザーの求める「最終ゴール」を把握し, 必要な情報を包括的・統合的に一度に提供することで, 段階的な聞き直しが減り, 回数が明らかに減少する。

6. 結論

課金するべきひとをまとめます。用途別でまとめようとしたんですが, 今一まとまりにくくて結局は職種で分けました。となるとこの職業はどうなるんだ?という突っ込みがありますが…200＄の価値という観点のみで分類しました。

課金を検討すべきユーザー層

高度な分析が必要な企業・組織
戦略立案, 先端技術調査, 複雑な思考を要する部門

専門的・高度な記事制作者 (記事ライター・コンテンツクリエイター）
経済, テクノロジー, 医療, 学術などの高度分野で詳細かつ整合性のあるコンテンツ制作が必要な層特にAI検索では間違った文章はこのまれない

マルチメディアコンテンツ制作者
動画・画像生成ツールなど, 既存AIツールを活用するクリエイターで, 複合的メディア制作を効率化したい層, すでにSoraが発表されており今後画像生成やその他のメディア生成ツールが内包されることを見越して

先端研究者・高度な学術用途
新たな理論検証, 論文執筆支援, 未知領域でのアイデア創出に役立つAIアシスタントを求める研究者

ハイエンドユーザー
AIの新機能を積極的に試し, 創造的な試行錯誤やエンタメ目的含めAIを楽しむユーザー

難関資格 (大学) 勉強中
過去問の回答に対する疑問の解決などに普段からAIを駆使している。時間があまりなく効率的な勉強が必要。

※保留(要検討)のユーザー層

プログラマー
コード品質・開発効率向上に有用な可能性はあるが, 評価が分かれるため現時点で積極的な推奨は保留　ベンチマークでは高い性能だが実際の使用感にネガティブレポートが多い

課金を勧めないユーザー層

一般的・ライトユーザー
日常的な簡易問い合わせや調べもの程度で十分な利用者

学生（大学生・大学院生）
費用対効果が期待しづらく, 有料プランの付加価値が限定的な利用者

7. あとがき

本記事執筆時は12日間連続のOpenAIの新AI発表会の真っ最中でした。o1proを触ったとき, 初めてGPTを使った以上の衝撃でした。AIへの期待, 希望でうれしい反面, 不安も芽生えました。仕事が奪われる, または今後効率化が加速し, 考えることがAIのみになり, 人類の仕事はAIがすることの確認と責任を取ることだけになり, しかもその仕事 (といえるのか?) で忙しくなるという地獄の未来を妄想してしまいました。OpenAIさんもっとゆっくり開発しください。

o1くらいのAIがちゃんとしていて, ちょっと変なことをしていて面白いです。ムラス『まったく地底はもうたくさんだ』

この記事が参加している募集

#AIとやってみた

46,369件

o1 pro vs o1 比較検証 課金を考えている方へ

基本的な性能

o1 pro の概要

利用料金

考察時間

同時に質問できる回数

文脈を踏まえた回答

要約性能

ライティング

画像認識性能

思考プロセスは非公開

音声会話

映像コンテンツの生成

1. 一般, 日常

1.1 料理の献立

1.2 旅行のスケジュール

1.3 分からないものを画像認識

1.4 チャット (会話), 相談

2. ビジネス, 教育

2.1 報告書, レポート作成

2. 2 学習補佐

2.3 資料, 情報分析

3. クリエイティブ

3.1 小説

3.1 映像, マルチメディア

4. 専門

4.1 大学-大学院レベル

4.2 新規アイデア, 先端研究

その他, コーディングなど

5. まとめ

6. 結論

7. あとがき

この記事が参加している募集

o1 pro vs o1 比較検証課金を考えている方へ