ChatGPT、Claude超えと噂のGemini 1.5 Pro Exp 0801を試してみた

2024年8月2日 17:31

AI系ポッドキャスト(耳で学ぶAI)を運営している矢野哲平(@robothink_jp)です。この記事では新しく公開されたGeminiの新モデルについて解説します。
動画で見たい方はこちら👇

Gemini 1.5 Pro Exp 0801

アメリカ時間の8月1日にGoogleからGemini 1.5 Pro Experimental 0801というモデルが発表されました。Experimentalは「実験」などの意味でExpと略して表記される場合もあります。0801というのは公開日ですね。名前から分かるように実験的に公開されたモデルとなります。
なぜ、このモデルが海外で騒がれているのか？と言うとChatGPTやClaudeを抑えて1位に輝いたからですね。

Exciting News from Chatbot Arena!@GoogleDeepMind's new Gemini 1.5 Pro (Experimental 0801) has been tested in Arena for the past week, gathering over 12K community votes.

For the first time, Google Gemini has claimed the #1 spot, surpassing GPT-4o/Claude-3.5 with an impressive… https://t.co/SvjBegXbQ9 pic.twitter.com/6MTHdty1jb
— lmsys.org (@lmsysorg) August 1, 2024

チャットボットアリーナという言語モデルの比較サイトの結果となります。
ちなみに今までGoogleは様々なモデルを公開してきましたがチャットボットアリーナで1位に輝いたのは今回が初です。

[補足]チャットボットアリーナ

チャットボットアリーナについて補足すると2つの言語モデルをブラインドテストで比較するサイトです。
ユーザーが1つのプロンプトを入力すると左右の画面に回答が生成されます。

左右に回答が同時に生成されますが、この時点では何の言語モデルが使われているか分かりません。「左が良かった」「右が良かった」「引き分け」と回答することで初めて何の言語モデルが使われたか分かります。

つまり、人間の感覚に基づいた極めて公平なジャッジで比較できるサイトと言えます。

https://chat.lmsys.org/

試す💪

さっそく試していきます。ちなみに新モデルはGeminiのサイトでは試せません。Google AI StudioというGoogleが運営するサイトで試せます。

画面右上にある"Model"の箇所から変更できます。

あとはChatGPTと同じようにプロンプトを入力するだけでOKです。

文章生成✍️

試しに文章生成から試してみましょうか。私、AI系のポッドキャストを運営してますが台本から記事の下書きを作成してみます。

###CONTEXT###
AI系ポッドキャストの台本を読みやすいブログ記事に変更する。

###OBJECTIVE###
ユーザーが提供した台本を読者が読みやすく興味を引く文章を作成する。難しい単語は分かりやすい言葉に言い換える。

###STYLE###
人気ブロガーの文体に倣うこと。

###TONE###
若干フォーマル

###AUDIENCE###
AIに興味のある初心者が読者。彼ら、彼女らはAIの深い洞察やアイデアを求めている。

###RESPONCE###
見出しごとにまとめた文章を生成する。1つの見出しごとに4行の文章で構成する。

"""台本:
"""

生成された結果を見ると、少しフランク過ぎる文章が気になりました。
もしかすると"人気ブロガーの文体に倣うこと"に引っ張られているのかもしれません。

ChatGPTの自動化で業務効率UP！

普段ChatGPTを手動で使っている皆さん、自動化すればもっと楽になるって知ってました？今回はChatGPTの自動化について、初心者の方にも分かりやすく解説していきます！自動化に興味がない方も、生成AI活用のヒントとして読んでみてくださいね。

自動化って？身近な例で考えてみよう

自動化とは、ロボットや機械が人間の代わりに作業を行うこと。飲食店の配膳ロボットや自動販売機も自動化の例です。ChatGPTで言えば、ブラウザを開いて指示を入力し、回答を確認する…といった一連の作業を自動化できるんです。

一部抜粋

同じプロンプトで実行した場合、GPT-4oの方が個人的には好きな文章が生成されました。

PDF要約📄

次にPDFの要約を試してみます。
結論言うとGeminiはPDFなどの要約系が強いですね。なぜならコンテキストウィンドウが他社を圧倒する200万トークンもあるから。
コンテキストウィンドウについて補足すると短期記憶のようなものです。つまりAIが記憶できる以前のテキストです。
GPT-4oは12.8万、Claude3.5 sonnetは20万、そしてGeminiは200万です。
容量の大きなPDFや動画などを処理することができます。個人的にはコンテキストウィンドウがGeminiの大きなアドバンテージだと思います。
今回は先日、内閣府から公開された「世界経済の潮流 2024年版」を投げてみました。

全部で154ページある資料ですが問題ありません。

###指示###
あたなのタスクはPDF資料の詳細な章ごとの要約をすることです。
PDF資料を詳細に要約し、{Audience}向けに、レポートの要点を漏らさず説明してください。各章ごとの要約形式で、以下の点を考慮してください。

###Audience### 
AIに関する知識を持つビジネスマン

###考慮すること###
- 説明は詳細に行い、各章の重要なポイントを網羅すること
- 専門的な用語は適切に使用し、ビジネスマンが理解できるレベルで説明すること
- レポートに含まれる情報に基づき、特定のテーマに関わる部分を強調すること

###含める項目###
以下の項目を含めてください
- 序論：レポートの目的と概要
- 各章の要約：各章ごとの重要なポイントと要約
- 結論：レポートの総括と今後の展望

###注意すべきこと###
- Web情報にアクセスせず資料に書かれている内容をもとに説明する
- レポートの内容を忠実に再現し、漏れなく要約してください。

要約した冒頭の部分だけ添付します。

序論： 本レポートは、AI技術が急速に発展する中で、世界経済、特に労働市場への影響と2024年前半の世界経済の動向について詳細に分析することを目的とする。

第１章 AIで変わる労働市場

要約： AI技術、特にChat-GPTに代表される生成AIは、従来のAIと比較して適用範囲と進化の速度が著しく、経済活動全体に大きな影響を与え始めている。本章では、AIが雇用にもたらす影響について、先行研究や統計データに基づき、以下の３つの観点から詳細な分析を行っている。AIによる職業・タスクへの影響： AIは、事務的なタスクを自動化することで人間の労力を削減し、生産性向上や新たなタスクの創出を促す「補完」効果と、人間の仕事を代替し雇用を減少させる「代替」効果の両方を持つ。代替されやすいのは事務補助的な職業、補完されやすいのは意思決定の重要性が高い専門職・管理職といった傾向がある。
労働者の属性とAIの影響： 各国の職業構成を比較すると、事務補助員のシェアが大きい英国等の先進国はAIの影響を受けやすい。また、同一職業内でも熟練度の低い労働者ほどAIに代替されやすい。さらに、女性はAIに代替されるリスクが高い職業に就いている割合が高い一方で、AIの便益を受ける割合も高い。加えて、AIの便益は教育水準の高い労働者に偏る可能性がある。
AI活用に向けたリスキリングと教育： AIの利活用を安全に進めるためには、AIを開発・管理する専門家だけでなく、AIを活用する労働者全体のAIリテラシー向上のためのリスキリングが必要となる。各国では、官民や大学が協力し、AIの基礎知識から活用方法、リスク軽減策までを網羅した研修プログラムを提供するなど、取り組みが進められている。特に、AIと労働者の関係を適切に管理する「AI管理能力」を持つ管理職の育成が重要となる。また、AI活用能力とともに、自律的に学習する能力も重要である。

PDFから文字起こし

次に同じ資料を今度は文字起こししてみました。要約ではなく文字起こし。結論言うと、かなり忠実に文字起こししてくれます。

世界経済の潮流 2024年Ⅰ
AIで変わる労働市場
令和６年７月
内閣府
政策統括官（経済財政分析担当）

目次

第１章 AIで変わる労働市場
第１節 AIによる職業・タスクの補完と代替 ---------------------------------- 6
第２節労働者の属性別にみたAIによる補完と代替 --------------------------- 18
第３節 AI活用に向けたリスキリングと教育 --------------------------------- 32

ただし、10ページ目くらいで処理が止まりました。「続けて」と言うと処理は再開しますが試した環境だと処理が止まるケースもありました。

動画から文字起こし📺

次に動画ファイル内の音声を文字起こし。
10分の動画をアップロードすると、かなり忠実に動画の音声から文字起こしをしてくれました。(ただし100%の精度ではない点に注意)

9.11と9.9はどちら大きいか問題

海外で話題になった問題ですね。
"Which is bigger, 9.11 or 9.9?(9.11と9.9はどちらが大きいですか？)"
人間だとすぐに答えは分かりますね。9.11よりも9.9の方が大きいですね。ですが、この問題を間違えて答える言語モデルも存在します。
結論言うと、Gemini 1.5 Pro、GPT-4o、Claude3.5 sonnetはパスします。ただし、これは英語のプロンプトの話し。
日本語のプロンプトの場合「9.11と9.9はどちらが大きいですか？」ではうまく回答できませんでした。
👆ただし、これはGeminiに限らずChatGPT、Claudeも同じくです。

つぶやき

チャットボットアリーナの結果を見ても分かるように圧倒的な性能差を感じわけではありません。僅差といった感じでしょうか。
ただし200万トークンを誇るGeminiがGPT-4oやClaude3.5 sonnet並みの性能になったのは嬉しい限り。しかも無料で使えますからね..本当に感謝です🙏
Gemini 1.5 Pro Exp 0801試してみた方はコメントもらえると嬉しいです。

【note読者限定】生成AIのおすすめツールの資料を配布中

生成AIツールは何を使えばいいか分からない
もっと業務効率化に貢献するツールを知りたい
ChatGPT以外のAIツールを知りたい

こういった声に応えておすすめの生成AIツールを解説する資料を制作しました。もっとAIの情報をキャッチアップしたい人はぜひご覧ください。
👉資料を受け取る

noteでも月に20本ほどAI関連の記事を投稿しています。フォローよろしくお願いします😼

いいなと思ったら応援しよう！

この記事が参加している募集

#AIとやってみた

47,023件