勉強会しました。世界一のベストセラー本をテキストマイニングしてみた。
分析屋の下滝です。
ミニ勉強会の3回目しました! 15分の勉強会です! 発表は10分で終わりますが、質問も含めていつも40分くらいになっています!
今回は、Hさんの発表です!
内容は、テキストマイニングです! テキストマイニングは、文章のデータを使って、有益な情報を引き出すようにする感じです!
さっそく、勉強会で作ったスライドをみていきましょう!
世界一のベストセラー本とは、何なのか!?
ハリー・ポッターシリーズなのか!?
ロード・オブ・ザ・リングなのか!?
答えは聖書のようです!
聖書をテキストマイニングしてみた、というのが今回の内容です!
きっかけは、高尚な感じですね!
具体的に、テキストマイニングはどのように行うのでしょうか!? 超有名ツールがあります! KH Coderです!
ホームページはこちら↓↓↓↓
KH Coderは、分析屋での実務でも使うことが何度がありました!
スライドに戻ります! 聖書の内容についてざっくりとです!
箴言これは、短い格言的なもののようです! 格言が多く書かれている章を対象にしたようです。格言の例はこのようなものです。
続いて、テキストマイニングの内容です!
よくある、2つですね!
①頻出語のリスト化
・どの文字が頻出しているかリスト化し把握
②共起ネットワークで図示
・どの文字と文字がセットで頻出しているかを可視化
・図示化された情報からキーポイントを把握
KH Coderでの共起ネットワークの計算の具体的な方法を探したのですが、見つけられませんでした! 共起の具体的な定義も意外となく・・・、python ですがこの記事のものが具体的な説明のように思えました! こんど誰かに一番わかりやすい記事を書いてもらいたいですね!
①頻出語のリスト化です!
②共起ネットワークで図示です!
「者」が一番多くて、「人」や「悪しい」「正しい」といった文字とペアになって使われることが多いみたいですね!
テキストマイニングでの学びです!
最後に、テキストマイニングでできそうなことです!
最後の最後に宣伝です!
分析屋では、KH Coderといったツールだけでは解決できないような、オーダーメイドの解決策のご要望にも対応できます!
特に、大量のテキストデータの処理と活用にお困りの場合は、お問い合わせください!
株式会社分析屋について
ホームページはこちら。
noteでの会社紹介記事はこちら。
【データ分析で日本を豊かに】
分析屋はシステム分野・ライフサイエンス分野・マーケティング分野の知見を生かし、多種多様な分野の企業様のデータ分析のご支援をさせていただいております。 「あなたの問題解決をする」をモットーに、お客様の抱える課題にあわせた解析・分析手法を用いて、問題解決へのお手伝いをいたします!
【マーケティング】
マーケティング戦略上の目的に向けて、各種のデータ統合及び加工ならびにPDCAサイクル運用全般を支援や高度なデータ分析技術により複雑な課題解決に向けての分析サービスを提供いたします。
【システム】
アプリケーション開発やデータベース構築、WEBサイト構築、運用保守業務などお客様の問題やご要望に沿ってご支援いたします。
【ライフサイエンス】
機械学習や各種アルゴリズムなどの解析アルゴリズム開発サービスを提供いたします。過去には医療系のバイタルデータを扱った解析が主でしたが、今後はそれらで培った経験・技術を工業など他の分野の企業様の問題解決にも役立てていく方針です。
【SES】
SESサービスも行っております。