見出し画像

23年5月3日 Coursera google data analyst 日誌31日目

①Coursera data analyst講座
進捗管理>ステップ1~8
現状>
ステップ1-5/1-5 4月9日まで 3月23日完了!
ステップ2-4/2-4 4月14日まで 4月6日完了!
(ただし、ステップ2>一部演習が未完了)
ステップ3-5/3-5(一部スキップ)4月27日完了!
ステップ4-1-3+4初め/4-6 6月11日まで

③OP Statistique 学習(追加)

実施内容

動画視聴
解説読む
クイズ

学習内容①

Pourquoi les étapes de pré-nettoyage sont-elles importantes avant le nettoyage des données ? Quels problèmes pourraient survenir si vous ne suivez pas ces étapes ?

Si vous savez que vos données sont exactes, cohérentes et complètes, vous pouvez être sûr que vos résultats seront valides. Les partenaires seront ravis si vous reliez les données aux objectifs commerciaux. Enfin, le fait de savoir quand arrêter de collecter des données vous permettra de terminer vos tâches en temps opportun, sans sacrifier l'intégrité des données.

Supposons que vous n'ayez pas déterminé l'intégrité des données.
Vous pourriez constater que vous travaillez avec des données inexactes ou manquantes, ce qui pourrait entraîner des résultats trompeurs dans votre analyse.
Si vous ne reliez pas les objectifs aux données, votre analyse peut ne pas être pertinente pour les partenaires.
Enfin, ne pas savoir quand arrêter la collecte de données peut entraîner des retards inutiles dans l'exécution des tâches.
En effectuant des activités de pré-nettoyage, vous évitez ces problèmes.

Que doit faire un analyste s’il ne dispose pas des données nécessaires pour atteindre un objectif commercial ?
Si un analyste ne dispose pas des données nécessaires pour atteindre un objectif commercial, il doit recueillir des données connexes à petite échelle et demander un délai supplémentaire. Ensuite, il peut trouver des données plus complètes ou effectuer l’analyse en trouvant et en utilisant des données proxy à partir d’autres jeux de données.

Quelles sont des limitations qui pourraient conduire à des données insuffisantes ?
Les limitations qui peuvent entraîner des données insuffisantes incluent les données qui se mettent à jour en continu, les données obsolètes et les données provenant d’une source unique.

学習内容③

En statistiques, un jeux de données correspond à un échantillon d'une population globale étudiée.

  • Un jeu de données est organisé sous forme de tableau où les lignes sont des individus et les colonnes des variables.

  • Le domaine de la statistique est concentré sur l'explication et la description objective d'un phénomène passé.

  • Le domaine de la probabilité est plus intéressé au futur potentiel d'un évènement à venir.

  • Il existe quatre grands domaines de la statistique :

    1. Les statistiques descriptives.

    2. L'analyse multidimensionnelle.

    3. Les statistiques inférentielles.

    4. La modélisation statistique.

Quand on ne fait qu’observer et décrire objectivement un phénomène passé, alors on fait des statistiques.

Mais dès lors que l'on modélise, qu'on essaie de comprendre les chances (ou le risque) qu'un événement se produise, on fait le lien entre ce qu'on observe et le domaine théorique que constituent les probabilités. On passe alors dans le domaine de la statistique dite inférentielle.

En statistiques, les données que l'on observe sont appelées observations, ou parfois réalisations. À partir de ces observations, on peut modéliser. Modéliser, c'est essayer de trouver les lois mathématiques qui régissent les données observées.

Dans le domaine des probabilités, on manipule des variables aléatoires, des lois de probabilité, etc.

振返り

ステップ4は、統計の基礎が分かっていないでも分かるように解説しているのだが、やはり、補足で学習しないとしっくりこない。また、実際にどういうデータでないと、アナライズしても信憑性が低くなってしまうのか、実際のビジネス課題解決に合致するデータが存在していない時はどうするべきか、など、ケーススタディにもなっているが、実際に経験値を積まないと、どのデータを採用すべきか、は練習出来ないように感じる。
おそらく、初めは、与えられたデータの中での作業を任されるのか?と考えたりもするが、会社によるだろう。

この記事が気に入ったらサポートをしてみませんか?