GPT-3.5、Codex、DALL-E、Whisperのハッカソンを眺めてみる

2023年10月22日 12:10

Hackathonを日本語にするときは、「ハッカーソン」か「ハッカソン」か迷いましたので、ChatGPTに聞くと、「ハッカソン」が良いとのことです。

さて、2023年10月16日から18日で行われたハッカソンを眺めていきます。今回は、GPT-3.5、Codex、DALL-E、Whisperを使用したハッカソンとのことです。

最近のOpenAIの各APIを利用したサービス、あるいは将来的にサービスになりうる可能性を把握するためには、ハッカソンは良い場だと考えています。

今回の開発物をいくつかピックアップして紹介します。

今回は、実際にコードを打っていないため、間違った記載のところもあるかもしれません。

1.FieldAssessment

このアプリは、写真を撮ったら、その画像を分析して状況を評価するとのことです。

ユースケースとしては、ガスパイプ、サッカーのフィールドを撮影して、その状況を修理が必要かなどを評価します。

コードの中身を見てみますと、Streamlitでカメラを起動し撮影し、音声を録画して、Hugging FaceのSpace上のGradioの方に送信し、送信結果をStreamlitに返して表示します。

Gradioの方のコードが無いように見えますので、何とも言えません。

MP3形式のオーディオファイルをアップロードしたら、自動でプロンプトを作成し、そのプロンプトでDALL-Eを利用して、オーディオファイルに合った画像を作成します。

DemoやGitHubのところから試してみるのも良いかもしれません。

これは研究者のリラーニングには良いツールなのではないかと思います。

Arxivという世界中の論文が納められているウェブサービス、データベースがあります。そのデータベースから論文をベクトル化して検索できるようにしています。

研究者がある分野を学ぶときに、その分野の主要論文の把握や、専門用語の把握に時間を要するのが問題です。この問題を解決するために、Langchainを用いて、ベクトル化したデータベースに対して、ある分野を入力すると、主要論文や専門用語の説明が出てくるツールです。

GPT-3.5ベースで作成した医療用チャットボットのSadiqが既にあり、チャットとのやり取りから、患者の状態を表現した画像を作成します。

Demoがありましたので試してみると、下記のようになります。

患者一人一人の状態を記載したメモがあり、そのメモをStreamlitにアップロードし、LangchainでQAシステム化しています。

ヘルスケア系の人の参加者が多いなと思いました。

視力が悪い人がスマートグラスをかけて、スマートグラスの小型カメラで画像を読み取り、視力が悪い人を音声などで、手助けしましょうというコンセプトです。

但し、スマートグラスまで実現することは現在はできないので、Stremlit上からウェブカメラで撮影して、POC代わりにしています。