見出し画像

GPT-3.5、Codex、DALL-E、Whisperのハッカソンを眺めてみる

Hackathonを日本語にするときは、「ハッカーソン」か「ハッカソン」か迷いましたので、ChatGPTに聞くと、「ハッカソン」が良いとのことです。

さて、2023年10月16日から18日で行われたハッカソンを眺めていきます。今回は、GPT-3.5、Codex、DALL-E、Whisperを使用したハッカソンとのことです。

最近のOpenAIの各APIを利用したサービス、あるいは将来的にサービスになりうる可能性を把握するためには、ハッカソンは良い場だと考えています。



今回の開発物をいくつかピックアップして紹介します。

  1. FieldAssessment

  2. AudioSonic

  3. arxiv deep dive

  4. Artificial Medical Imaging

  5. LLM enhanced Medical Notes

  6. SightCom 2


今回は、実際にコードを打っていないため、間違った記載のところもあるかもしれません。


1.FieldAssessment

このアプリは、写真を撮ったら、その画像を分析して状況を評価するとのことです。

ユースケースとしては、ガスパイプ、サッカーのフィールドを撮影して、その状況を修理が必要かなどを評価します。

コードの中身を見てみますと、Streamlitでカメラを起動し撮影し、音声を録画して、Hugging FaceのSpace上のGradioの方に送信し、送信結果をStreamlitに返して表示します。

Gradioの方のコードが無いように見えますので、何とも言えません。



2.AudioSonic

MP3形式のオーディオファイルをアップロードしたら、自動でプロンプトを作成し、そのプロンプトでDALL-Eを利用して、オーディオファイルに合った画像を作成します。

DemoやGitHubのところから試してみるのも良いかもしれません。


3.arxiv deep dive

これは研究者のリラーニングには良いツールなのではないかと思います。

Arxivという世界中の論文が納められているウェブサービス、データベースがあります。そのデータベースから論文をベクトル化して検索できるようにしています。

研究者がある分野を学ぶときに、その分野の主要論文の把握や、専門用語の把握に時間を要するのが問題です。この問題を解決するために、Langchainを用いて、ベクトル化したデータベースに対して、ある分野を入力すると、主要論文や専門用語の説明が出てくるツールです。



4.Artificial Medical Imaging

GPT-3.5ベースで作成した医療用チャットボットのSadiqが既にあり、チャットとのやり取りから、患者の状態を表現した画像を作成します。

Demoがありましたので試してみると、下記のようになります。



5.LLM enhanced Medical Notes

患者一人一人の状態を記載したメモがあり、そのメモをStreamlitにアップロードし、LangchainでQAシステム化しています。

ヘルスケア系の人の参加者が多いなと思いました。



6.SightCom2

視力が悪い人がスマートグラスをかけて、スマートグラスの小型カメラで画像を読み取り、視力が悪い人を音声などで、手助けしましょうというコンセプトです。

但し、スマートグラスまで実現することは現在はできないので、Stremlit上からウェブカメラで撮影して、POC代わりにしています。


いいなと思ったら応援しよう!