見出し画像

ChatGPT&Co.は何で鍛えられているのか?

世界最大の統計調査データプラットフォームでドイツのインフォグラフィクスを紹介しているハンブルク(Stadt Hamburg)にあるStatista GmbHのデータ・ジャーナリスト(data Journalist)のフローリアン・ツァント(Florian Zandt)の報告として、インフォグラフィクスのヘッドであるマティアス・ブラント(Mathias Brandt)の報告と共に2023年05月11日に、Google I/O開発者会議では2023年05月10日に、ハードウェアの新製品発表に加え、人工知能の発表が目立った。

*私は、GoogleのCEOとAIスタッフはそりが悪いので、CEOの交代発表かと思った。

OpenAIのChatGPTの競合製品であるBardは、180カ国ですぐに利用できるようになり、写真、Gmail、マップ、検索などの重要なGoogleサービスには、近い将来、包括的なAI機能が搭載される予定だという。

基礎となるLLM(large language models/大規模言語モデル)は、専門用語でトークンと呼ばれる単語やフレーズを、自らの意識なしに最も確率の高い組み合わせの可能性に従って組み立てる。

--例外はあるが、ほとんどの企業は、これらがどのように学習されるのかについて沈黙している。

例えば、GPT-4の学習にどのリソースが明示的に使われたのか詳細は不明だが、GoogleのT5モデルやFacebookのLLaMAは、Googleが作成したC4コーパスなどを利用していることが記録されている。

これは、2019年に開始されたCommon Crawlプロジェクトを根拠とするウェブページのスナップショット1500万件を集めたもので、その後、Googleのフィルターによってクリーニングされている。Washington Postの独占調査に基づくStatista GmbHのチャートが示すように、分類可能なトークンの約半分は4つのカテゴリーから得られている。
最も頻繁に表現されるのは、ビジネス&インダストリーで、これには、kickstarter.com米国証券取引委員会のポータルsec.gov、投資コンサルタント会社のfool.comなどのサイトが含まれる。2位と3位はテクノロジー部門で、medium.comやforums.macrumors.comなどのサイト、ニュース&メディア部門では、New York TimesやBritish Guardian、電子書籍配信サービスのscribd.com、英語版Wikipediaなどのサイトが含まれている。
しかし、ワシントン・ポストが分析したデータには、コーパスに掲載されたページの約3分の1が分類できなかったり、オンラインでなくなったりしており、ギャップがある。さらに、C4コーパスは学習データの一部しか反映しておらず、この点で、どのAIモデルも単一のソースに依存していない。AIチャットボットのトレーニングのためのデータ基盤は、ドイツのデータ保護論者の注目も集めている。

多分、私が前々から指摘しているように、Googleが得意とする不法の合法化など、許可なく盗んでいる。
つまり、掘り下げると不法である。

2023年04月初め、データ保護会議のAIタスクフォースは、ChatGPTがGDPRに準拠しているか、個人データの処理についてチェックしたいと発表した。

2023年05月10日---IBM Quantumは、どのように量子安全技術の旅に組織を導いているか
2023年05月09日---IBM、AIとデータの新プラットフォーム「watsonx」を発表。
2023年05月04日---米国のNSF、新たに7つの国立AI Institutesを発表。
2023年04月28日---マーク・リードルによる大言壮語を排除した、やさしい大規模言語モデル入門。

https://de.statista.com/infografik/29968/kategorien-in-googles-c4-korpus/
https://de.statista.com/infografik/29842/bewertung-der-generative-ai-unternehmen-mit-einhornstatus/
https://de.statista.com/infografik/29840/umfrage-zur-nutzung-von-ki-anwendungen-in-deutschland/
https://de.statista.com/infografik/29381/derzeitiger-und-zukuenftiger-ki-einsatz-in-deutschen-unternehmen/
https://de.statista.com/infografik/29319/befragte-die-folgende-anliegen-bei-online-haendlern-auch-mit-chatbots-klaeren-wuerden/
https://de.statista.com/infografik/29269/globaler-marktanteil-im-segment-search-advertising/
https://de.statista.com/infografik/29265/verteilung-der-weltweiten-unicorns-nach-industrien/
OpenAI - Das Unternehmen hinter ChatGPT und Dall-E(OpenAI - ChatGPTやDall-Eを開発した会社)
https://de.statista.com/themen/10470/openai/
Inside the secret list of websites that make AI like ChatGPT sound smart(ChatGPTのようなAIが賢く聞こえるウェブサイトの秘密リストに潜入してみた)
https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/
https://www.semanticscholar.org/paper/Documenting-the-English-Colossal-Clean-Crawled-Dodge-Sap/40c3327a6ddb0603b6892344509c7f428ab43d81?itid=lk_inline_enhanced-template
Künstliche Intelligenz - weltweit(AI(Artificial Intelligence/人工知能) - ワールドワイド)
https://de.statista.com/themen/9874/ki-weltweit/
Künstliche Intelligenz - weltweit(AI(Artificial Intelligence/人工知能) - ワールドワイド)のレポート


https://de.statista.com/statistik/studie/id/115830/dokument/kuenstliche-intelligenz-weltweit/
Umsatz im Bereich Künstliche Intelligenz weltweit im Jahr 2021 und eine Prognose für die Jahre 2022 und 2024(2021年の世界の人工知能の売上高と2022年、2024年の予測)
https://de.statista.com/statistik/daten/studie/1211850/umfrage/umsatz-im-bereich-kuenstliche-intelligenz-weltweit/
Adaption von Künstlicher Intelligenz (KI) nach Branchen und Funktionen weltweit im Jahr 2021(2021年、世界の産業・機能別AI(Artificial Intelligence/人工知能)導入状況)
https://de.statista.com/statistik/daten/studie/1248554/umfrage/ki-adaption-nach-branchen-und-funktionen-weltweit/
Umfrage: "Produkte und Dienstleistungen, die Künstliche Intelligenz anwenden, haben mehr Vorteile als Nachteile"(調査結果:「人工知能を利用した製品・サービスはデメリットよりもメリットの方が多い」)
https://de.statista.com/statistik/daten/studie/1322915/umfrage/umfrage-in-ausgewaehlten-laendern-zu-den-vor-und-nachteilen-von-ki/

この記事が気に入ったらサポートをしてみませんか?