熊巳創 Hajime Kumami

知財×データサイエンスに挑む!一級知的財産管理技能士、知財サイエンティスト®

熊巳創 Hajime Kumami

知財×データサイエンスに挑む!一級知的財産管理技能士、知財サイエンティスト®

記事一覧

東大松尾研LLM講座(大規模言語モデル 2024)

大規模言語モデル | 東京大学松尾・岩澤研究室(松尾研)- Matsuo Lab (u-tokyo.ac.jp) 東大松尾研のLLM講座が始まりました。私は社会人ドクターをダラダラと続けているお…

自作LLM用のデータセット

自作LLMを作るときに重要なのはデータセットです。「RedPajama」は商用利用も可能で1兆2000億トークンのデータセットになっており、GPT-4と同等の性能が出せるようです。 …

LLMを自作してみた

Google Colabで実行できるLLMを作ってみました(筆者はGoogle Colab Pro+を使用)。 こちらの動画のコードを参考にしました。元のコードは文字列から次の文字を生成すると…

PythonでChatGPTのLINEアプリを作ってみた!簡単に自作できて、自分用にカスタマイズも可能!

ChatGPTやGPT-4の話題で持ちきりですが、これらを使ったサービスを紹介するだけだと面白くないので、ChatGPTのLINEアプリを自作してみました。 APIを使えば自作のアプリを…

GPT-4がエグすぎる

まずは手始めに、私の専門である知的財産分野でChatGPTに新しく搭載されたGPT-4の実力を試しました。Google Patentsで検索可能な検索式を作成するというお題です。 比較の…

知財サイエンスのすすめ

知財と経営との距離が近くなっている昨今ですが、知財情報分析は20年前からあまり変わっていないように感じます。 便利なツールが出てきて分析は楽になったのですが、発明…

英国人弁理士が英語学習者に薦める現地ラジオ番組を紹介

英国のラジオ番組では、Scott Mills Dailyのという番組が好きでしたが(現在は終了)、これはコメディー番組なので、英語学習に向いているかというと何とも言えません。 …

知財ライターUchidaの若かりし頃

知財ライターUchidaさんの記事を読んだのがnoteを始めるきっかけですので、Uchidaさんについて書こうと思います。 Uchidaさんは元同僚で、Uchidaさんが知財部を退職するま…

東大松尾研LLM講座(大規模言語モデル 2024)

東大松尾研LLM講座(大規模言語モデル 2024)

大規模言語モデル | 東京大学松尾・岩澤研究室(松尾研)- Matsuo Lab (u-tokyo.ac.jp)

東大松尾研のLLM講座が始まりました。私は社会人ドクターをダラダラと続けているおかげで、学生の身分で受講できました。他の講座(データサイエンスによるマーケティング分析など)も学生の身分で受講する予定です。

松尾研の講座は大学の講義とは思えない分かりやすい解説で、さながら予備校の授業

もっとみる
自作LLM用のデータセット

自作LLM用のデータセット

自作LLMを作るときに重要なのはデータセットです。「RedPajama」は商用利用も可能で1兆2000億トークンのデータセットになっており、GPT-4と同等の性能が出せるようです。

データ量が5TB程度なので、Google Driveを10TBまで増やしました。Google Drive (Google One)の利用料金は以下のようになっています。

10 TB ¥6,500(月額)
20 TB

もっとみる
LLMを自作してみた

LLMを自作してみた

Google Colabで実行できるLLMを作ってみました(筆者はGoogle Colab Pro+を使用)。

こちらの動画のコードを参考にしました。元のコードは文字列から次の文字を生成するというものでしたので、単語の並びから単語を予測するように修正しています。

また、Google Colabで使えるようにして、GPUにも対応させました。Claude先生に聞きながら完成させたのがこちらです↓

もっとみる
PythonでChatGPTのLINEアプリを作ってみた!簡単に自作できて、自分用にカスタマイズも可能!

PythonでChatGPTのLINEアプリを作ってみた!簡単に自作できて、自分用にカスタマイズも可能!

ChatGPTやGPT-4の話題で持ちきりですが、これらを使ったサービスを紹介するだけだと面白くないので、ChatGPTのLINEアプリを自作してみました。

APIを使えば自作のアプリを作ることで、自分用にカスタマイズしたChatGPTが作れることも出来るようになります。

以下は、Pythonで実際に作ったLINEアプリの画面です。text-davinci-002というGPT-3ベースのモデル

もっとみる
GPT-4がエグすぎる

GPT-4がエグすぎる

まずは手始めに、私の専門である知的財産分野でChatGPTに新しく搭載されたGPT-4の実力を試しました。Google Patentsで検索可能な検索式を作成するというお題です。

比較のためにGPT-3.5の結果も載せましたが、GPT-4の方が説明が親切になっていることが分かります。検索式も類義語がORで書かれているなど、より網羅的になっています。

次に、弁理士試験の短答式試験の問題を解かせま

もっとみる
知財サイエンスのすすめ

知財サイエンスのすすめ

知財と経営との距離が近くなっている昨今ですが、知財情報分析は20年前からあまり変わっていないように感じます。

便利なツールが出てきて分析は楽になったのですが、発明の中身を検討するには、膨大な時間をかけて人手で読み込むしかないのが現状です。

一方で、サイエンス(コンピュータサイエンスを含む)の発展は凄まじく、サイエンスにおける成果を知財情報分析に活かし、更に発展させることで、上記の問題の多くは解

もっとみる
英国人弁理士が英語学習者に薦める現地ラジオ番組を紹介

英国人弁理士が英語学習者に薦める現地ラジオ番組を紹介

英国のラジオ番組では、Scott Mills Dailyのという番組が好きでしたが(現在は終了)、これはコメディー番組なので、英語学習に向いているかというと何とも言えません。

実は、イギリス留学中にオックスフォード大学でPh.Dを取得した英国人弁理士に英語学習者にオススメのラジオ番組を教えてもらったことがあります。

英国人弁理士が答えたのは、BBC Radio 4でした。

BBC Radio

もっとみる
知財ライターUchidaの若かりし頃

知財ライターUchidaの若かりし頃

知財ライターUchidaさんの記事を読んだのがnoteを始めるきっかけですので、Uchidaさんについて書こうと思います。

Uchidaさんは元同僚で、Uchidaさんが知財部を退職するまで一緒の職場で働いていました。Uchidaさんは最初の頃は権利化業務を行なっていましたが、ある時から特許調査に取り憑かれます。当時はあまり知名度がなかった特許検索競技大会にも積極的に参加し、シルバー認定も受けて

もっとみる