
AI人材育成講座1日目まとめ
13日からスタートしたAI人材育成講座。自分なりのポイントをメモ代わりにnote記事にしました。
データはできるだけcsvで
活用するデータはできるだけ、csvで取り出し保存しておく。その際、WindowsのPCはデータを開かないことがポイント。Excel形式で表示するため文字化してしまう。開いたデータは次の作業のエラーの原因になるので一旦削除し、再度、csvで取り出し開かずに保存する。
Pythonのコードでデータを使う時のデータファイルの名前に注意
個人的によくやりがちなのが、データファイルを読ませる時にファイル名を間違ってコードに書いてしまうこと。単純なミスだがエラーの原因になりやすいから注意する。
講座内で統一されたファイル名のルールを愚直に守るのが今後の作業に向けて良さそう。
【実践】自己紹介データからワードクラウドを作成
今回の#AI2nd #SUNABACOでは約70名の方が受講している 。全員が自己紹介をしていたら2〜3時間かかってしまうので、Googleフォームに既存の質問への回答を書き込み、その70人分の質問回答データからワードクラウドを作成し、どんな属性の人が多いか可視化する取り組みが行なわれた。
Googleフォームの回答をスプレッドシートに変換し、そのデータをcsv形式でダウンロードしてまずは保存。先ほどの注意点はこの作業でのこと。
ワードクラウド(Word Cloud)とは、テキストデータ中の単語の頻出度を視覚的に表現する方法の一つです。頻出する単語ほど大きく表示されるため、データの特徴や傾向を一目で把握するのに役立ちます。
特徴
単語の頻度がサイズに反映
頻繁に登場する単語ほど文字が大きく表示されます。
視覚的にわかりやすい
テキストデータの傾向やトピックが直感的に理解できます。
カラフルでインパクトがある
カラフルなデザインにすることで、プレゼン資料やレポートにも使いやすい。
ワードクラウドの用途
1. テキストデータ分析:
アンケートや口コミ、レビューの分析。
ソーシャルメディ(Twitter、ブログなど)のテキスト内容の要約。
2. アイデア出し:
特定のテーマやキーワードに関連するアイデアを視覚化。
3. プレゼンテーション:
プレゼン資料に挿入して、視覚的なインパクトを加える
4. データサイエンスや機械学習:
テキスト処理の前段階で、データの全体像を掴む。
具体例
例えば、アンケートの「趣味・興味」のデータが以下のような場合:
旅行、映画、プログラミング、旅行、アウトドア、読書、プログラミング、旅行
このデータをワードクラウドで表現すると、以下のようになります:
• 「旅行」が最も頻出するため、一番大きく表示される。
• 「プログラミング」や「アウトドア」も大きめに表示。
• 頻度の少ない「映画」「読書」は小さく表示。
メリットとデメリット
メリット
• テキストデータの概要を直感的に把握可能。
• 単語の頻度や傾向をすぐに確認できる。
• 見た目が華やかで使いやすい。
デメリット
• 単語の関係性や文脈は考慮されない。
• 短いテキストでは情報量が少なく、分析に適さない。
もし実際にワードクラウドを作成してみたい場合、手元のデータで一緒に試してみることもできます!
先の自己紹介csvデータから、Google colabで講師が書いたPythonのコードをコピペして実行。見事、こんなんができた。

これがワードクラウド。どんな仕事をしている人が多いのか可視化される。診療がデカデカと表示されてるのでドクターの参加者が多いのがわかる。
何をやってるかわからなくててもいいと言っていたが、わかる範囲は言語化したかったので演習部分をまとめてみた。
今後も復習兼ねて編集しながら続けてみたい。