見出し画像

AI人材育成講座1日目まとめ

13日からスタートしたAI人材育成講座。自分なりのポイントをメモ代わりにnote記事にしました。

データはできるだけcsvで

活用するデータはできるだけ、csvで取り出し保存しておく。その際、WindowsのPCはデータを開かないことがポイント。Excel形式で表示するため文字化してしまう。開いたデータは次の作業のエラーの原因になるので一旦削除し、再度、csvで取り出し開かずに保存する。

Pythonのコードでデータを使う時のデータファイルの名前に注意

個人的によくやりがちなのが、データファイルを読ませる時にファイル名を間違ってコードに書いてしまうこと。単純なミスだがエラーの原因になりやすいから注意する。
講座内で統一されたファイル名のルールを愚直に守るのが今後の作業に向けて良さそう。

【実践】自己紹介データからワードクラウドを作成

今回の#AI2nd #SUNABACOでは約70名の方が受講している 。全員が自己紹介をしていたら2〜3時間かかってしまうので、Googleフォームに既存の質問への回答を書き込み、その70人分の質問回答データからワードクラウドを作成し、どんな属性の人が多いか可視化する取り組みが行なわれた。
Googleフォームの回答をスプレッドシートに変換し、そのデータをcsv形式でダウンロードしてまずは保存。先ほどの注意点はこの作業でのこと。

ワードクラウド(Word Cloud)とは、テキストデータ中の単語の頻出度を視覚的に表現する方法の一つです。頻出する単語ほど大きく表示されるため、データの特徴や傾向を一目で把握するのに役立ちます。

特徴
単語の頻度がサイズに反映
頻繁に登場する単語ほど文字が大きく表示されます。
視覚的にわかりやすい
テキストデータの傾向やトピックが直感的に理解できます。
カラフルでインパクトがある
カラフルなデザインにすることで、プレゼン資料やレポートにも使いやすい。

ワードクラウドの用途
1. テキストデータ分析:
  アンケートや口コミ、レビューの分析。
   ソーシャルメディ(Twitter、ブログなど)のテキスト内容の要約。
2. アイデア出し:
特定のテーマやキーワードに関連するアイデアを視覚化。
3. プレゼンテーション:
プレゼン資料に挿入して、視覚的なインパクトを加える
4. データサイエンスや機械学習:
テキスト処理の前段階で、データの全体像を掴む。

具体例
例えば、アンケートの「趣味・興味」のデータが以下のような場合:

旅行、映画、プログラミング、旅行、アウトドア、読書、プログラミング、旅行

このデータをワードクラウドで表現すると、以下のようになります:
  •   「旅行」が最も頻出するため、一番大きく表示される。
  •   「プログラミング」や「アウトドア」も大きめに表示。
  •   頻度の少ない「映画」「読書」は小さく表示。

メリットとデメリット

メリット
  •   テキストデータの概要を直感的に把握可能。
  •   単語の頻度や傾向をすぐに確認できる。
  •   見た目が華やかで使いやすい。

デメリット
  •   単語の関係性や文脈は考慮されない。
  •   短いテキストでは情報量が少なく、分析に適さない。

もし実際にワードクラウドを作成してみたい場合、手元のデータで一緒に試してみることもできます!

私のchat gpt

先の自己紹介csvデータから、Google colabで講師が書いたPythonのコードをコピペして実行。見事、こんなんができた。

これがワードクラウド。どんな仕事をしている人が多いのか可視化される。診療がデカデカと表示されてるのでドクターの参加者が多いのがわかる。

何をやってるかわからなくててもいいと言っていたが、わかる範囲は言語化したかったので演習部分をまとめてみた。

今後も復習兼ねて編集しながら続けてみたい。

いいなと思ったら応援しよう!