《2023年版》AIの進化に取り残されないために知っておくべきAIサービス ※ 随時更新

2023年1月5日 00:45

※ 随時更新していきます。

検索エンジン

You.com

グーグルの一極支配に挑戦する検索エンジンの「you.com」が、検索のためのオープンプラットフォームを発表した。プライバシーの確保と検索結果のカスタマイズ性をアピールするyou.comのユーザー数は、立ち上げから1年で100万人を超え、検索回数は過去6カ月で400%以上増加したという。

https://forbesjapan.com/articles/detail/53044

検索のみならずメール、ブログ、画像作成なども行える

文章生成（チャットボット）

ChatGPT

AI開発団体のOpenAIが発表した「ChatGPT」は、自然言語処理モデルの「GPT-3」の進化系である「GPT-3.5」がベースになっており、質問文を打ち込むと人間が書いた文章と見分けが付かないほどに高精度の文章で回答してくれます。そんなChatGPTの登場に、ユーザー数世界最大を誇る検索エンジンを持つGoogleの経営陣が事業に対する深刻な脅威への警戒を示して「コード・レッド」を宣言したと報じられています。

https://gigazine.net/news/20220512-ai-test-kitchen-google/

perplexity.ai

ある意味ChatGPT のAI超え

https://www.perplexity.ai/

■『Perplexity.ai 』の６つの特徴
１．情報ソースが常に新しい
２．情報の元ソースが明確
３．個別のURLが残せる
４．SNSで回答URLが自律して拡散される
５．ログインが不要
６．日本語が下手くそ

https://news.yahoo.co.jp/byline/kandatoshiaki/20230201-00335317

Catchy

　同ツールでは、既存のキャッチコピーを約10文字に要約が可能で、「キャッチコピーの響きはいいけど、ちょっと長すぎる」「キャッチコピーをもっと短くまとめないと画像に収まらない」といった問題の解消が期待できる。

https://markezine.jp/article/detail/40945

画像生成

DALL-E

昨年7月には、DALL·Eの生みの親であるOpenAIがGPT-3と呼ばれるDALL·Eと同様に巨大なモデルを発表し、その能力で世界を驚かせた。GPT-3はオプ・エド（※訳註2）、詩、ソネット（※訳註3）、そしてコンピュータのコードを含むテキストを人間のように生成できたのだ。DALL·EはGPT-3を自然に拡張したもので、テキストプロンプトを解析し、言葉ではなく絵で応答する。例えば、OpenAIのブログからの一例では、プロンプトに入力された「2つの白い肘掛け椅子とコロシアムの絵があるリビングルーム」のようなテキストから以下のような画像をレンダリングする。

https://openai.com/blog/dall-e/

Stable Diffusion

入力したプロンプトを基に画像を生成するAI「Stable Diffusion」は一般公開以降、世界中の人々から注目を浴びており、さまざまなツールや応用方法も発表されています。

https://gigazine.net/news/20220928-stable-diffusion-classifier-free-guidance/

Midjourney

誰でも簡単に、たった1分で、プロのような芸術的な絵が描けると話題のMidjourney。

https://kigyolog.com/article.php?id=1690

その他

3D オブジェクト生成

Point-E

テキストから3Dオブジェクトを生成するAI「Point-E」

https://gigazine.net/news/20221221-openai-point-e/

動画生成

Imagen Video

Googleは2022年5月に、突飛なテキストから高精度な画像を自動生成できるAI「Imagen」を発表しています。

https://gigazine.net/news/20221006-google-ai-imagen-video/

「Make A Video」や「Phenaki」などのサービスも続々と登場

Make-A-Video

Make-A-Videoは、Meta AIの最近の生成技術（generative technology ）研究をベースに構築されたAIシステムで、テキストと画像のペアデータから世界がどのように見えるかを学習し、関連するテキストがないビデオ映像から世界がどのように動くかを学習します。

https://ai.facebook.com/blog/generative-ai-text-to-video/

以下のように、「A teddy bear painting a portrait」というテキストから、クマのぬいぐるみが自画像を描いている動画がちゃんと生成されています。

翻訳

DeepL

Google、Microsoft、Facebookといった技術系最大手が機械学習で得た経験を翻訳に活かそうと軒並み努力を続ける中、DeepLという小さな企業がこれら大手をすべて押しのけ、機械翻訳の業界基準を引き上げた。
試しにDeepL翻訳を使ってみたが、翻訳スピードは他社の翻訳ツールに遜色なく、精度とニュアンスは他に勝るほどだった。

https://www.deepl.com/translator

Translation Hub | Google Cloud

Googleが、PDFやMicrosoft Officeで作成したファイルに対応する自動翻訳サービス「Translation Hub」を発表しました。Translation HubはGoogleのクラウドコンピューティングサービス「Google Cloud」の一部として提供されており、日本語を含む135言語のファイルをレイアウトを保ったまま翻訳可能です。

https://gigazine.net/news/20221012-google-cloud-translation-hub/

文字起こし

OpenAI Whisper

◆Hugging Faceの体験版を使ってみる
Whisperを使った録音音声からの文字起こしを、オンラインAIフレームワークのHugging Faceで手っ取り早く試すことができます。ただし、モデルは一番小さいので精度も最も低くなっています。

Whisper - a Hugging Face Space by openai
https://huggingface.co/spaces/openai/whisper

https://gigazine.net/news/20220929-openai-whisper-install-and-usage/

高精度版を試したい場合は、コーディングが必要。