kaeru

自動車←印刷←大学院←大学編入←高専

kaeru

自動車←印刷←大学院←大学編入←高専

最近の記事

300次元の単語ベクトルを1次元に圧縮する

この記事は自分のzennの投稿の転載です。  Word2Vecに代表される単語分散表現を、1次元で表すことを目的とした単語埋め込み手法を日本語データで追試したので手順と結果をまとめます。  今回参考にしたのは京都大学から発表されたWordTourです。著者ご本人の解説資料が以下に公開されています。  単語ベクトルは、昨今の大規模言語モデルの発展を見るに非常に有効であることは明らかです。一方で、資料でも紹介されている通り、潤沢な計算資源が無い状況でのシステム運用を考えると

    • 文字列や単語の類似度を測る6つの手法

      この記事は自分のzennの投稿の転載です。  単語の類似度を計算するプログラムを書いていたところ、「文字列の類似度」や「単語の類似度」という表現を見て、何が違うんだと感じたので調べた結果をまとめます。  調べた結果、筆者の認識では「文字列の類似度は(手法は問わず)文字列の一致度」、「単語の類似度は(手法は問わず)文章中の文脈に基づいた意味の一致度」という認識になりました。さらに、単語の類似度だけでなく、文章の類似度を計算する手法も見つけましたので合わせて整理します。自分が

      • BERTの実装を分解する

        この記事は自分のzennの投稿の転載です。 以下の書籍を読んだ際にBERTの実装をコメントを付けながら読み進めていきましたので、まとめます。新卒で入社した会社で深層学習を勉強していたときに大変お世話になった書籍です。自信を持っておすすめします。 今回はモデルの説明だけでも説明量が多い関係から、optimizerやDatasetLoader、推論部の説明は割愛します。ご了承ください。 BERTとはBidirectional Encoder Representations

        • Streamlitを使ったテキストアノテーションツール

          Streamlitを使ったテキストアノテーションツールを作成したので手順をまとめます.今回は5W1Hのアノテーションを付与するツールを作成します. 先日,仕事中に簡易で良いからテキストのアノテーションをして機械学習モデルに学習させてみたい,という場面に遭遇しました.そこで,最低限の機能だけ持ったアノテーションツールをpythonで作成しました. StreamlitとはPythonでWebアプリケーションを作成するためのフレームワークです.コードもGUIも非常にシンプルで理

        300次元の単語ベクトルを1次元に圧縮する

          Deticによる物体検出とセグメンテーション

          以下のリポジトリを参考に物体検出モデルDeticをローカル環境で動作確認したのでまとめます.公式実装は以下です.リポジトリにはセマンティックセグメンテーションも実装されており,結果を合わせて確認できます. DeticとはMeta researchがECCV2022で報告した物体検出を行うモデルです.出典は以下です. 物体検出タスクは,位置特定とクラス予測から定義されると解釈して,それらを分解して学習する手法と認識しています.具体的には,COCOなど矩形情報を持つデータセッ

          Deticによる物体検出とセグメンテーション

          SpeechRecognitionを使ったマイク音声認識

          以下の記事を参考に音声認識とファイル出力を行うクラスを作ったのでまとめます. 動作環境Ubuntu 20.04 Python3.8.10 環境構築sudo apt-get install portaudio19-devsudo apt-get install python-pyaudio python3-pyaudiopip3 install SpeechRecognition==3.8.1pip install pyaudio==0.2.12 実装SpeechRec

          SpeechRecognitionを使ったマイク音声認識