見出し画像

社会人のためのデータサイエンス演習・Week1メモ

総務省統計局・社会人のためのデータサイエンス演習Week1の自分用メモです。
リンクは、講義で紹介されていたものと個人的にネットで検索したものです。


1-2.社会で起きている変化~データサイエンスの必要性

データサイエンスとは

交通機関の利用、買い物、インターネットの利用などの場面においてデータは取得されている。
渋滞予測、需要予測等もデータ活用事例の一つ。
各種センターなどの発達により、多様なデータをスピーディーに集め活用する、これをビッグデータという(後記)。

AI Artifical intelligence

人工知能のこと
高校で基本的知識を取得することが目標となっている。

IoT Internet of Things

モノのインターネット
様々な物体に通信機能を搭載させコントロールする
家庭内の家電をスマホからコントロールできたりする

DX デジタルトランスフォーメーション

これらの技術を用いてデータから価値を創出し、ビジネスを新しい形に変革させようとする概念


ビッグデータとは

社会において生成委取得されるさまざまな形式の大容量のデータのこと。
データを分析することで知見を見出し、社会やビジネスにおける課題解決を行うことが期待されている。

ビッグデータの5つの特徴

Volume 容量の大きさ
数十テラバイトから数ペタバイトの規模が多い

Variety 多様性、種類
数字、画像、テキスト、音声、位置情報、センサー、SNSなどありとあらゆる形態のデータ

Velocity スピード、頻度
変化の激しい時代に対応するデータを集める技術のスピード

Vreacity 正確さ
データ取得と適用の正確さ、リアルタイムに近いほど有益

Value 価値
社会に価値をもたらす、課題解決することで価値を生み出す


ビッグデータの種類

センサーデータ
suicaなどの交通系icカード、GPS、カーナビなどの移動データ

ソーシャルメディアデータ
Twitterなどのソーシャルメディア(SNS)の投稿やコメントのデータ

マルチメディアデータYouTubeなどの動画、音声配信サービスなどで提供されるデータ


ビッグデータの活用事例

株式会社ゼンリンマーケティングソリューションズ

自社の地図データと政府統計データを活用した企業のマーケティング領域支援。
地域情報の提供により、企業の出店計画、店舗統廃合、物流計画などの最適化や意思決への活用。


仙台市災害規模予測ツール

過去の気象・被害データと気象情報を掛け合わせた災害規模予測モデルの導入による災害対策立案。


1-3.データサイエンスに求められるスキルや知識

データサイエンスとは

「アルゴリズムや統計などといった情報科学系の理論を活用してデータを分析し、有益な知見を見出すことを追求する新しいアプローチ」
独立行政法人情報処理推進機構(IPA)・データサイエンティスト協会の定義


データ取集から最終的な課題解決につながる施策に結びつけるまでの4つのプロセス

1.データ収集
2.蓄積

社内外の様々なデータを取得可能な状況にし、集積・蓄積していく

3.データ分析
蓄積したデータから顧客や市場変化に関する重要な情報を、分析力・統計解析力を持って知見や洞察を導き出す

4.施策
得られた分析結果に基づき、課題解決のための具体的な施策(オペレーション改善、新サービスの開発等)まで結びつけていく

このサイクルを動かしていく。
データサイエンティストを活用して一連の問題解決を担う職業として、データサイエンティストが注目されている。

データサイエンティストとは

データサイエンス力とデータエンジニアリング力をベースに、データから価値を創出し、ビジネス課題に答えを出すプロフェッショナル

求められる3つのスキルセット

1.ビジネス力
課題背景を理解したうえで、ビジネス課題を整理し解決する力
ロジカルシンキングなどはこの力のベースとして求められる。

データサイエンティストの役割
・課題の発見、定義
・データの入手
・データに潜む動向やパターンの発見、意味合い抽出

2.データサイエンス力
情報処理、人工知能、統計学などの情報科学系の知恵を理解し使う力
可視化、意味を見出す、得られた結果のデータを評価するスキルも必要。

データサイエンティストの役割
・最新動向の把握
・AI開発のためのパッケージ選定
・データクレンジング
・データ加工処理
・データの可視化
・分析結果の評価

3.データエンジニアリング力
データサイエンスを意味のある形に使えるようにし、実装、運用できるようにする力
プログラミングに関する知識と技術、システムに関するスキル、実行する力そのもの、考察や設計もこの領域のスキル

データサイエンティストの役割
・データの保管、管理
・データ変換
・分析プログラムの実行
・ITのリスク回避

3つのスキルをバランスよく習得することが大切。
フェーズにより求められる能力が変わるため、teamとして対応していくことも考えていく必要がある。

出典:データサイエンティスト協会プレスリリース
http://datascientist.or.jp/files/news/2014-12-10.pdf


1-4.データサイエンスの未来と発展

各産業におけるデータサイエンス活用例

道路・交通:自動運転、交通量予測
製造:生産量の予測、人員最適化
医療:早期の疾病予防、画像診断
小売:需要予測、顧客分析、販売計画 等

AIが行う主な5つのタスク

分類
迷惑メールの自動分類など
特定条件や共通項から種類を分類する

予測
株式や為替相場、異常気象や災害の予測など
過去に蓄積されたデータから未来を予測する

認識
デジカメの顔認識やスマートスピーカーの音声認識など
一定の規則性や意味を持つ対象を選別し取り出す

パターン発見
通販サイトのレコメンドなど
頻出の組み合わせや因果関係のあるパターンを見つける

生成
AIが大量のデータを学習し、得られた特徴の情報をもとに物体や情報を新たに作り出す

データサイエンスを活用した事例は、すでにたくさんのサービスやシステムが存在している。


組織による事例

尼崎市・丹波市のAIチャットボットによる問い合わせ対応の自動化
市民からの行政サービスへの問い合わせへの返答を、AIチャットボットで自動化・最適化した。


日本電気株式会社・東邦ホールディングス株式会社のAI活用による倉庫運営における人員配置の最適化
「自立適応制御技術」による、倉庫内の人員配置の最適化とコスト抑制。
日本通運など大手企業で導入が進んでいる。

他の分野でも、地域差の解消や人員不足の解消、需給の安定化のため大変期待されている。


1-5.データサイエンスのサイクルと課題解決の進め方

一つの問題解決においても、要因を紐解き、解決につなげるための仮説検証を何度も繰り返す(循環させる)必要がある。

よく使われている手法「PPDACサイクル」は、プロセスに沿ったフレームワークにすることで、組織やグループで共通の問題解決に取り組む際に進捗状況と次のステップの認識を合わせやすくなり、効率的な課題解決を行うことができる。
データを可視化し、深堀していくと新たな知見や課題や仮説が生まれることは珍しくない。
追加のデータ手配、データの再配分を経て解決・結論を導くことができる。

PPDACサイクルの5つのフェーズ

P Problem 問題の発見
ビジネスの問題の明確化
達成するべき目標を定量的に表わす指数KGI(Key Goal Indicator)の決定


問題:売上の伸び悩み
要因:なぜ売れないか、どんな要因があるか
課題への落とし込み:新規顧客の来店を増やす、商品の認知度を上げる
指標の検討:具体的定量的な指標の設定


P Plan 計画
設定した指標についてどのように調査を実施するか、具体的なアクションプランにつながる仮説を設定する

仮説:商品の認知度を上げれば売り上げが上がる
→誰に対して認知度を上げるのか?(20代女性)
→具体的に何をするのか?(イベントを行う、SNSで情報発信する)
→検証方法、収集するデータを決定


D Data データの収集と加工
詳細な分析を行うための事前処理としてデータの状態を把握する
データの問題(欠損、量の不足、重複、表記ゆれ、質が満たない)も多いため、除外、補正、加工を行う

A Analysis 分析
収集したデータを実際に分析し、性質、関係性、特性を把握する
統計学の考え方を用いて、グラフによる可視化手法を選定する
相互に繰り返すことで考察の精度を研ぎ澄ますことができる

C Conclusion 結論
最初に定めた効果指標の改善につながる施策を具体的に判断する

結果を用いてターゲットを分析し、どのようなアプローチ策をいつどのような内容で実行するかを検討する。


1-6.分析の手法の選択

分析の過程で手法を選択する。

性質・関係性の把握
基本統計量、クロス集計、相関分析など

推定・検定
t検定、カイ二乗検定など

予測・識別
回帰分析、時系列予測、ニューラルネットワークなど

パターン発見
クラスター分析、k近傍法、アソシエーション分析など

次週以降学習。

※後日追記・編集する可能性があります

いいなと思ったら応援しよう!