OpenAIがGPT-5の商標を出願!できることや新機能まとめ
こんにちは!気まぐれジピちゃん(ChatGPT) に今日も振り回されている、ChatGPT 飼育員の Sayah (@sayah_media)です🤖💔
GPT-4 の後継モデルと想定される「GPT-4.5」の噂がささやかれる中、先日OpenAI が「GPT-5」の商標登録を出願していたことが明らかになりました。
🙋♂️「新しく実装される機能や技術は?」
🙋♀️「商標登録出願書には何が書かれていたの?」
本記事では、職業「AI プロンプトエンジニア」の私が、
🔷「GPT-5」の商標登録出願書に記載されている内容
🔷「GPT-5」への実装が予想される「新技術」や「新機能」
など、現時点で明らかになっていることについて超詳細に解説します✏️
📝 OpenAIがGPT-5の商標登録を出願
先日、ChatGPT をはじめ、GPT シリーズの開発で知られる OpenAI が、7月18日(現地時間)に「GPT-5」の商標登録の出願(申請)を行っていたことが明らかになりました。
ここでは、執筆時点で判明している GPT-5 の商標登録の出願状況について解説します。
📆「GPT-5」商標登録の現ステータスは?
「GPT-5」の商標出願のステータスは、7月21日に更新されている情報が最新です。
7月21日に更新されたステータスでは、商標申請フォームが最低出願要件を満たしており、無事に米国特許商標庁(USPTO:United States Patent and Trademark Office)に受理されていることが記載されています。
商標登録の手続きは進行中ですが、まだ審査などが終わっていない状態です。
同時に、最新ステータスには「審査官へのアサイン待ち」と書かれており、今後は審査官にアサインされ次第、本格的な審査に進むことが予想されます(執筆時点)。
🗓「GPT-5」の商標登録までにかかる日数
それでは、現在出願されている「GPT-5」の商標が登録されるまでには、どのくらいの期間がかかるのでしょうか。
商標登録のタイムラインは、地域や特定の状況によっても異なりますが、USPTO(米国特許商標庁)の場合、以下のケースが一般的です。
出願から登録までには、約1~2年の期間がかかることが一般的です。ただし、複雑なケースや異議申し立てを受けた場合は、さらに時間がかかることもあるでしょう。
また、商標の審査は、あくまでもその名称やロゴの使用許可を得るためのプロセスです。そのため、たとえ GPT-5 の商標登録出願が通っても、すぐに GPT-5 がリリースされるわけではないため、ご留意ください。
🧬 GPT-5の出願書に記載されている機能や技術一覧
USPTO に出願された、GPT-5 の商標登録出願には、以下のダウンロード可能なコンピュータプログラムおよびソフトウェアが含まれると記載されています。
ただし、企業が「念のため」や将来的な展開、今後の可能性などを見据えて、多くの機能や技術について商標や特許を出願することは少なくありません。
つまり、すべてを実際のサービスやプロダクトに実装するわけではなくても、戦略的に選択肢を広げておくわけです。そのため、出願書に記載されている機能や技術がすべて反映されるわけではないことにご注意ください。
👂2つの音声認識(Voice/Speech Recognition)の違い
「0️⃣8️⃣ Voice and Speech Recognition」に関してですが、こちらは「Voice Recognition」「Speech Recognition」共に、日本語で「音声認識」と翻訳されることが少なくありません。また、双方が同じ意味で使用されることもよくあります (Arm Ltd., n.d.)。
しかし、厳密にいえば、以下のような違いがあります。
ただし、「Speech Recognition」自体の主なタスクは、基本的に「何を言ったか」をテキストに変換することです。そのため、この時点で「意味」を理解しているわけではありません。
それ以降の「意味」を理解するフェーズには、「自然言語処理(NLP)」や「自然言語理解(NLU)」といった別の技術が関わってきます。
言い換えれば、「Speech Recognition」は、「入力」が「音声」で「出力」が「テキスト」になります。そのテキストが「何を意味しているのか」を解釈するのは、「自然言語処理(NLP)」や「自然言語理解(NLU)」の仕事です。
英・半導体設計大手「アーム・ホールディングス(Arm Holdings plc)」の日本語版 Webサイトでは、「Voice Recognition」と「Speech Recognition」について、以下のように訳されています。
ただし、本記事では読者の混乱を防ぐため、専門用語は使わずに、実際の意味や単語の直訳に近い、以下の表記で統一させていただきます🙇♀️
知識がない方でも、できるだけ見た瞬間にパッとイメージできるようにしたいため、ご了承いただけますと幸いです🙏
✅ GPT-5の出願書に載っている各機能・技術の詳細とできること
前述の通り、今回 OpenAI が出願した商標登録には、GPT-5 がダウンロード可能なコンピューター・プログラムやソフトウェアを通じて提供する、さまざまな機能や技術の概要が記載されています。
その中でも特に皆さんが気になるのは、やはり以下の2つではないでしょうか。
🔸 GPT-5 の商標登録出願に掲載されている機能や技術の特徴
🔸 出願された各機能・技術を使って何ができるのか
そこで、各機能・技術の詳細について解明すべく、ジピちゃん(ChatGPT)本人に聞いてみました🧠
ここでは、GPT-5 の商標登録出願書に記載された機能や技術から想定される、GPT-5 の実態や私たちユーザーができることについて、ジピちゃん(ChatGPT)の推測に基づいて解説します。
0️⃣1️⃣【言語モデルの使用】
「言語モデルの使用」とは、文字通り、以下のような「自然言語処理(NLP:Natural Language Processing)」タスクが挙げられます。
この領域は、正に文章生成 AI チャットボット「ChatGPT」の、得意分野であるといえるでしょう。
✅ 使用例:
0️⃣2️⃣【人間の音声やテキストの人工生成】
「テキストの人工生成」に関しては、「言語モデルの使用」や「テキストの作成と生成」など、他の見出しでも重複する内容が多そうなので、本章では「音声の人工生成」について焦点を当てて解説します。
「人間の音声の人工生成」とは、人間のような音声を生成する技術です。身近なところでいうと、「Google翻訳の音声読み上げ機能」や「音声読み上げツール」などが含まれます。
分かりやすい例でいうと、ひろゆき(西村博之)氏 公認で「実在の人物をAIアバター化する」という日本初のプロジェクト「AI ひろゆき」のようなイメージです (CoeFont Inc., 2023)。
GPT-5 では、上記の「AI ひろゆき」のように、プラグインなしで音声合成ができる技術が含まれている可能性もあるでしょう。
ChatGPT に生成してもらったスクリプトで、YouTube に解説動画チャンネルを運営したり、萌え声・イケボ系 VTuber として活動したり、ChatGPT に資料を他の言語に翻訳してもらって、自社のウェビナーを海外展開したり…。
ChatGPT 1つで、このようなことができるようになると思うと、夢が広がりますね🌙✨
実際に、AI ひろゆきも「1時間で約15,000円」を稼いでいます (ITmedia NEWS, 2023)。決して「1日で約15,000円」の間違いではありません😇人間よりも AI の方が稼げる時代…🙃
✅ 使用例:
ちなみに、上記の「JAWS」は、サメ映画の『JAWS(ジョーズ)🦈』ではないため、ご注意ください😂
え?冗談が「お上手」ですって?←JAWS(ジョーズ)だけに😇
0️⃣3️⃣【自然言語処理・生成・理解・分析】
これらの技術によって、チャットボットとの自然な対話が可能です。チャットボット以外には、以下のような用途が挙げられます。
✅ 使用例:
感情分析においては、以下のように、APIと連携して使われることも多いです。
レビューの感情分析:「Yelp API」 +「IBM Watson Tone Analyzer」
顧客フィードバックの感情分析:「Zendesk」+「Azure Text Analytics」
SNSフィードの感情分析:「Twitter API」+「AYLIEN Text Analysis API」
0️⃣4️⃣【機械学習ベースの言語・音声処理ソフトウェア】
「機械学習(ML:Machine Learning)」は、GPT-5 がスマートになるための、いわば「トレーニングジム」的な存在です。このトレーニングジムで、大量の学習データからパターンを学ぶことによって、たくさんの異なる質問に答えたり、文章を生成したりできるようになります。
機械学習アルゴリズムを用いたテキストや音声データの処理・分析は、非常に広範で多様な用途で活躍しており、さまざまな応用が可能です。
これには音声認識や予測分析、自然言語による検索クエリ処理(ECサイトでの商品検索やメッセージアプリの文章検索、音声アシスタントとのインタラクティブ質疑応答)などが含まれます。
この技術は日々進化しており、その応用範囲は今後さらに広がるでしょう。
✅ 使用例:
0️⃣5️⃣【ある言語から他言語へのテキストまたは音声の翻訳】
この項目で興味深いのは、前述した「人間の音声やテキストの人工生成(Artificial Production of Human Speech and Text)」と同様、「テキスト」の翻訳だけではなく「音声」の翻訳が含まれていることです。
これは、GPT-5 がテキストだけではなく、人間の声や会話など、音声の認識・識別・理解・生成などの技術が搭載される可能性を示唆しているようにも思えます。また、テキスト・音声に関わらず、翻訳精度も向上する可能性があるでしょう。
例えば、2016年にGoogle翻訳は、旧システムの「フレーズベースの機械翻訳(PBMT:Phrase-Based Machine Translation)」から、「Google ニューラル機械翻訳(GNMT:Google’s Neural Machine Translation)」にシフトしています。
これによって、Google翻訳の精度は大幅に向上し、中でも「英語→フランス語」「英語→ドイツ語」の翻訳においては、最高水準に匹敵する能力を発揮しました。
「Human side-by-side evaluation(人間が直接比較する評価方法)」を用いて、従来のシステムと翻訳の質を比較したところ、翻訳エラーがなんと60%も減少したとのことです (Wu et al., 2016)。
「ニューラル機械翻訳(NMT)」は、翻訳精度の向上に特化して設計されていますが、人間の脳の働きを模倣したシステムという面では、GPT シリーズの計算の基盤である「ニューラルネットワーク(NN:Neural Network)」と同様の概念になります。
また、ニューラル機械翻訳(NMT)には、機械学習の一種で、より高度なニューラルネットワークの進化版である「深層学習(Deep Learning:ディープラーニング)」が活用されています。深層学習とは、コンピューターが人間のように考えるための高度な技術です。
GPT-4 にも「トランスフォーマーアーキテクチャー(文章を理解・生成するための高度な設計)」と呼ばれる特定の深層学習のフレームワークが用いられており、文章の生成や理解などにおいて高い性能を発揮しています。
これらの技術は日々進化し続けているため、GPT-5 においても、テキスト生成のみならず翻訳精度の向上など、多方面で強い威力を発揮することが期待できるでしょう。
✅ 使用例:
0️⃣6️⃣【機械学習・予測分析・言語モデル構築用のデータセット共有】
「機械学習・予測分析・言語モデル構築用のデータセット共有」とは、データプラットフォーム、研究機関、企業などが広範なユーザーや研究者と大量のデータセットを共有するシステムのことだと思われます。
例えば、「Kaggle」などのプラットフォームで公開されている多くのデータセットは、誰でもダウンロードし、自分自身で機械学習モデルをトレーニングすることが可能です。
GPT シリーズを筆頭に、大規模な自然言語処理モデルは、一般的にWebページ、オンライン書籍、記事などのデータで学習しています。
しかし、この学習データの欠点は、AI で自動生成されたレビューやコメントなどが一部混ざっている可能性があることです。
しかし、学習言語モデルの改善に、「機械が生成したデータ」ではなく、「人が生成したデータ」が用いられれば、データの「多様性」や「質」が向上します。
「人が生成したデータ」の魅力は、感情や文化、隠れたニュアンス、スラング、比喩、さまざまなバックグラウンドが反映されることです。
そのため、機械学習モデルにとって「人が生成したデータ」は、「機械が生成したデータ」と比べ、より「リッチ」な学習素材になるといえるでしょう。
対して、「機械が生成したデータ」の場合、既存の情報を基に新しいデータが作られるため、そのデータは元となるデータのバリエーションに依存する傾向があります。つまり、機械が生成したデータで学習しても、新しい視点やアプローチが少なくなってしまうのです。
例えば、人が書いた書籍やWebサイトから学習した言語モデルは、人間の複雑な感情や文化を理解するのに効果的です。
逆に、機械が生成した単純なテキストから学習したモデルにとって、そのような複雑な要素を理解することは容易ではありません。
GPT-5 が、このように人が生成した多種多様なデータセットをうまく活用することで、高度な予測分析や自然言語理解、さらには未来のトレンド予測など、多くの革新的な機能と応用分野が生まれる可能性が高くなるでしょう。
0️⃣7️⃣【音声データファイルのテキスト変換】
この技術は、GPT-5 が「音声データのテキスト変換」を高精度で実行できるポテンシャルを秘めています。例えば、この技術が実装されれば「MP3」や「WAV」のようなオーディオファイルを、テキストデータに変換することが可能となるでしょう。
さらに興味深いのは、音声認識と自然言語処理が連携することで、単にテキストに変換するだけでなく、その会話が何を意味しているのかまで、GPT-5 が理解できるようになるかもしれないということです。
例えば、GPT-5 には、人間が話すスピードやアクセント、方言に対応できるような、高度な認識アルゴリズムが備わっている可能性があります。
実は、私自身これまで数々の芸能・映画関係者のインタビューや、経済・ビジネス系の記事・ホワイトペーパーのライティングを手がけてきたのですが、当時唯一悩みのタネだったのが「文字起こし」でした。
文字起こしにかかる工数や時間は、実際の音声・録画データの4〜5倍以上ともいわれており、初心者ライターの場合は、1時間の音声データで6〜7時間かかるケースもあるそうです (AI GIJIROKU Blog Editors, 2022)。
さらに、経済・ビジネス系のセミナーやウェビナーとなると、マーケティング用語など横文字や専門用語が頻出します。そのため、ある程度の知識を持っているか、業界に精通していない限りは、聞き取りすらも容易ではありません。
また、筆者は主に、中国のニッチ産業に関するB2B向けホワイトペーパーを手がけていたため、登壇者が中国人起業家であることも珍しくありませんでした。
すると、あまりのネイティブ過ぎる発音に「中国の企業名や人名、政府の政策名などが聞き取れない」なんてこともしばしばあり、そんな時はリサーチや検索に、かなりの時間と工数が持っていかれてしまっていました。
しかし、今後 GPT にこのような技術・機能が実装されれば、複数の言語や方言が混在する多文化環境での会話の文字起こしにも、大きな革命をもたらす可能性があります。
また、音声データが持つ情報量は、基本的にテキストよりも豊富です。そのため、そのすべてをテキストに落とし込むことで、より詳細な解析や研究の実現も見込めるのではないでしょうか。
✅ 使用例:
0️⃣8️⃣【声認識と会話認識】
「声認識(Voice Recognition)」と「会話認識(Speech Recognition)」の違いは前述のとおりですが、こちらでも軽く解説させていただきます。
🗣 音声合成(Speech Synthesis)との違い
中には、前述した「音声合成(Speech Synthesis)」との違いがよく分からないという方もいるのではないでしょうか。
そこで、ここでは「音声認識(Voice/Speech Recognition)」と「音声合成(Speech Synthesis)」の違いについて、ジピちゃんに聞いてみました。
🗣音声バイオメトリクス(Voice Biometrics)との違い
また、同じ「Voice」から始まり、音声認証や声紋認証の総称でもある「音声バイオメトリクス(Voice Biometrics)」と「声認識(Voice Recognition)」も、混同されやすい組み合わせの1つです。
そこで、またまたジピちゃんに双方の違いについて尋ねてみました。
これらの音声認識技術は、もう既にさまざまなシーンで活用されています。
GPT-5 にこの技術が搭載されれば、仕事やプライベートなど、私たちにとってもより身近なシーンで役立てられるようになるのではないでしょうか。
✅ 使用例:
0️⃣9️⃣【テキストの作成と生成】
テキストの作成と生成は ChatGPT の得意分野なので、説明不要だとは思いますが、昨今の言語モデルの存在は、従来のテキスト生成のプロセスを一新しています。
AI テクノロジーの進歩に伴い、より多様な言語パターンや、より人間らしい文体での生成が可能になってきているのが現状です。
GPT-5 がリリースされる頃には、ただ単にテキストを生成するだけでなく、特定のニーズや文脈に合わせて、最適化されたテキストを生成できるように進化を遂げている可能性があります。
例えば、SEO を意識した記事生成や、特定のジャンルに特化したスクリプト生成などが可能になるかもしれません。
ちなみに、昨今の言語モデルは、以前と比べて SEO にも対応できるようになってきています。それにはさまざまな要因がありますが、主な理由としては、以下のとおりです。
AI を活用した生産性の向上や業務効率化はもちろんのこと、より人間らしい文章の生成は、企業が質の高いコンテンツの作成や一貫したブランドメッセージを発信するうえでも、大きな役割を果たすでしょう。
✅ 使用例:
1️⃣0️⃣【データへのアクセス/処理に応じた分析・分類・アクションを学習できるアルゴリズムの開発・実行・分析】
一見長いため、非常に難しく聞こえますが、こちらは「学習して何らかの判断や行動をする」技術です。
例えば、ユーザーの過去の行動や好みを分析・分類し、それらに応じて動作するアルゴリズムなどが含まれます。
✅ 使用例:
「コンテンツフィルタリング」とは、不適切な投稿やスパムを自動でモニタリング・識別し、問題のあるコンテンツに閲覧制限をかけたり、問題のあるユーザーにサービスの利用制限をかけたりする仕組みのことです。
これは Instagram や X(旧・Twitter)、Facebook などの SNS はもちろん、ChatGPT にも搭載されています。
1️⃣1️⃣【人工ニューラルネットワークの開発と実装】
「人工ニューラルネットワーク(ANN:Artificial Neural Networks)」が実装されると、音声認識の精度も格段に向上します。
例えば「Google Assistant」や「Amazon Alexa」も、この技術を応用しているサービスの代表例です。
テスラ(Tesla)のオートパイロット(Autopilot)など、ニューラルネットワークを活用して、車の運行を自動化するテクノロジーも増えています。自動運転車などは人間の安全に直結するため、精度の高い技術が必要不可欠です。
また、ニューラルネットワークを活用することで、画像から複雑な特徴を抽出し、高度な分析を行うことが可能となります。
高度な画像の解析は、医療画像の診断などにも役立つため、ANN は医療業界においても期待を集めている技術の1つです。
✅ 使用例:
ニューラルネットワークは、上記のように現在多くの分野や用途で活用されており、急速に進化している技術の1つです。
GPT-4 や GPT-5 のような言語モデルも、基本的にはニューラルネットワークの一種で、テキストデータを理解して有用なアウトプットを生成します。
AI の進化による仕事の代替や AI のハルシネーション問題、バイアス問題など、まだまだ解決すべき課題は残ってはいるものの、GPT シリーズの今後の展開や活躍に、今から期待と水ぶくれが膨らみます🎈💥
🚨GPT-5の新機能・新技術とは
ここから先は
この記事が参加している募集
この記事が気に入ったらチップで応援してみませんか?