高校数学における「情報II」のためのデータサイエンス・データ解析入門 第1章 #5

株式会社リュディアです。引き続き総務省より公開されている高校数学における「情報II」のためのデータサイエンス・データ解析入門 第1章 についてまとめてみます。

総務省の元資料はこちらから参考にしてください。

また私どもリュディアがまとめている前回までの 高校数学における「情報II」のためのデータサイエンス・データ解析入門 第1章 に関するまとめ へのリンクは以下を参考にしてください。

今回はデータを構造化データと非構造化データに分類したいと思います。まず直感的に書くと構造化データは綺麗に整理可能な情報で非構造化データは何らかの情報の寄せ集めです。

構造化データの簡単なイメージとしてはエクセルで整理されたデータと考えればよいと思います。WEBでアンケートを集計した結果は構造化データにしやすいです。例えば、名前を入力、電話番号を入力といったように何を入力するか指示を出せるので整理をしやすいです。

一方で非構造化データとしては例えば何か意見があれば入力してください、という自由入力欄ですね。自由に入力されますし何が入力されますし何を入力されるのか予測がつきません。いわばただのテキストなわけです。このような非構造化データに対しては自然言語処理を行うことで構造化データに変換する必要があります。

画像、音声なども非構造化データですね。画像、音声のファイル形式は構造化データですが、画像、音声のもつ意味や内容は非構造化データです。これらも意味や内容を理解するために解析や認識の処理を行うことになります。

構造化データを得るところまでがデータサイエンティストの仕事で、それ以降はただの作業だという方もおられます。それくらい構造化データを扱うことは簡単で非構造化データを扱うことは難しいということです。実際、ここ最近の第3次AIブームの主役は非構造化データを扱えることができるようになったことによると思います。

私自身はデータサイエンティストとして重要な仕事は 2つあると思っていて、1つは前述したように非構造化データから構造化データを作成すること、他方は構造化データから有意な情報を抽出することと考えています。このあたりの考え方は人それぞれだと思います。

高校数学における「情報II」のためのデータサイエンス・データ解析入門 第1章 に関するまとめの続きは以下からどうぞ。

では、ごきげんよう。


この記事が気に入ったらサポートをしてみませんか?