人工知能プロジェクトマネージャー試験対策 - ③-1:分野B:統計的理解 前編 -
こんにちは。
一般社団法人 新技術応用推進基盤 公式note編集局です。
私たちのnoteでは、AI・DX活用や新規事業の創出をテーマとして、技術と市場の両面について情報発信しています。
今回は、当団体が提供している資格試験「人工知能プロジェクトマネージャー試験」の「分野B:統計的理解」について、解説を行います。
本試験では、合格者像を下記のように定義しています。
近年、あらゆるビジネスでAIが活用されており、エンジニアに限らずAIに関する知識は必要不可欠になっています。しかしまだまだ、AIの裏側の仕組みや理屈について、イメージがつかない方も多いのではないでしょうか。
近年、Chat-GPTやGemini、Copilotなど、プログラミング不要の学習済みAIも多くあります。しかしこれらを自身の現場で活用するには、結局RAG(Retrieval Augmented Generation)の環境を作り、追加学習させねばなかなか実用に耐えません。現場のリーダーには、変わらずAIの仕組みを理解していることが求められます。
本試験でも、こうした技術的な理解のうち、統計的なもの分野B、プログラミング的なものを分野Cとして問うています。
分野Bで学ぶべきことは多いため、noteでは公式テキストの分野Bを前後編に分割して掲載しています。
本有料noteでは、分野Bの前編として、理解前提~データの理解までを掲載しています。なお後編では、代表的なアルゴリズムの内容についてを掲載しています。合格水準の点を取る為に、また該当分野の学習者への情報提供の為に、また「AI(機械学習)に用いる技術的な知見」について学習する参考に、活用して頂ければ幸いです。
なお、人工知能プロジェクトマネージャー試験は分野A~Gまでの全7分野で構成されています。各分野に加え、はじめに・参考資料リストなど全体を書籍としてお読みになる場合は、ぜひ公式の電子書籍版のご購入もご検討ください。
noteから分野別に購入するより、金額的にもお得になっています。
また、全分野共通の前提理解について確認したい方は、ぜひ無料で公開している下記のnoteもご覧ください。
【ご注意事項 ※ 必ずご購入の前に確認ください】
本有料noteは、人工知能プロジェクトマネージャー試験 公式テキスト「AIを活用する技術を学ぶ」より、第2章部分の前半を抜粋したものです。
公式テキストをご購入済みの方は、同内容ですのでご注意ください。
本書の著作権等の権利は一般社団法人 新技術応用推進基盤および著者にあります。無断で複製、転載、販売、公開等することは、有償・無償に関わらず一切認めておりません。権利が侵害された場合、法律に基づいて処罰される可能性がございます。
第2章:分野B「統計的理解」
AIプロジェクトのマネージャーに必要な理解の粒度
AI開発、あるいはデータアナリティクス実務と統計学は切り離せないものです。AI開発では統計的手法を多く用いますので、現場のエンジニアはもちろん、マネージャーとしても、よく使う統計的な手法については理解をしておく必要があります。
しかし統計学は伝統ある学問領域であり、その懐は非常に深いものです。手当たり次第に学習を進めても、学ぶべき項目の多さから挫折してしまう可能性が高いように思います。AIプロジェクトを推進するマネージャーとして必要なことにしぼって、また数式的理解よりも仕組みや概念の理解を優先すると、文系出身者にも腹落ちがしやすいように思います。
Foster Provost, Tom Fawcett両氏による名著『戦略的データサイエンス入門』の中には『化学とは試験管について学ぶことではない』という一節が登場しますが、まさにその通りと言え、AI開発チームは統計研究チームではないのです。
そこで第2章では、まず統計学とAIの関係について整理したうえで、AI開発の手順に沿って、そもそもどのような統計知識の理解が必要なのかということ、そして必要となる統計知識の仕組みや概念を理解できるように説明しています。
説明を始める前に、統計学的知見をどれくらいの粒度で知るべきかについても記載しておきます。「AIの検討力を高め、開発させる/使いこなす技術を習得する」という目的に立てば、マネージャー自身がチームで最高の技術者となる必要はありません。しかし同時に、「聞いたことがある」レベルでは、実務では役に立たないことも事実です。
近年のAIブームもあって、新聞や雑誌、ニュースなどでAI用語が使われることも多くなりました。そのため特に学習をしていない方でも、専門用語になんとなく聞きなじみを持っている方も増えているかと思います。しかしせっかくの情報収集も、聞きなじみ程度で終わってしまうと、知識と実務との接続は難しいものです。ぜひ「聞いたことがある」からもう一歩、理解の粒度を向上させていきましょう。
なお、本書をとっかかりとして、さらに厚みをもって統計学そのものを理解していきたい場合は、大学の教科書などを手に取ってみることもすすめます。仮にユーザーやマネージャーの実務として必須でなくとも、その周辺分野を含めて関心をもつことは素晴らしい努力であり、その理解は仕事に厚みをもたらしてくれます。
統計学そのものは学問としての蓄積が長いため、教科書の類は充実しています。解説されている理論そのものに違いがあるわけではありませんから、ご自身にとって読みやすいものを手に取って頂ければと思います。
統計学とAIの違いは何か
そもそも統計学とAIの違いはどこにあるのでしょうか?少しインターネットを検索すれば、様々な方が様々な立場からおこなった定義がでてきます。つまり、1つの確定した定義というものはありません。
ここではプロジェクトの実行上の役に立つ定義として、著名な機械学習エンジニアのTomFawcett氏とDrew Hardin氏がSILICON VALLEY DATA SCIENCE上 の 記 事(https://www.svds.com/machine-learning-vs-statistics/)で公開している定義を紹介しておきましょう。
本記事は良い解説として定評があり、現在の一般的な考え方に近いと思います。長い記事ではないため関心ある方は原文もご一読頂ければと思いますが、一言でいえば「手法や推論そのものは重なることはあるが、目的が異なるのである」ことを説明しています。記事中の結論(conclusion)中の一文を引用いたしますと、『Though the methods and reasoning may overlap, the purposes rarely do.』となります。
伝統的な統計学では、あるデータの塊を「統計値」というものに集約することで、いかに情報を圧縮して説明できるかということに力点をおいています。例えば、ある小学校の1クラス30名の学力を示したいとき、30人分の成績を羅列すれば正確に示せますがデータを読むのに時間がかかります。そこで例えば平均値という統計値を用いて説明することで、1つの数値でクラスの学力を端的に示すことができるようになるといった具合です。
一方で、AIや機械学習の世界では「予測」や「分類」を行うことをゴールに置いています。前記の例で言えば、クラスの次のテストの点数を予測するために、例年の平均値を使うといった具合です。用いる統計値やアルゴリズムには重なる部分も多いですが、ゴールが異なる≒統計手法の用い方や組み合わせ方、意味合いの出し方が異なると理解できるかと思います。
AIは手法の部分で伝統的な統計学の世界観と重なる点は多く、それゆえ統計的・数学的理解も必須になります。一方でアイデア次第で古典的な統計学では想像しえないようなアウトプットも出すことができる、という言い方もできるかと思います。
また、統計学者とAIプロジェクトのマネージャーは、実務において勝負のポイントが異なると言えると思います。統計学者は数学的手法を用いて、数値上の規則性や不規則性を証明する手法論を開発できるかが勝負です。一方でAIプロジェクトのマネージャーは、そうした新たな統計手法を開発するというよりは、既存の統計的手法を改善・組み合わせて、さらにビジネス上の実データを投入することで予測や分類などの機能を開発することが目的です。AIプロジェクトマネージャーは数学の知見で勝負するのではなく、データからビジネス的意味を見出す視点や切り口の斬新さ/鋭さで勝負するという違いがあると言えるでしょう。
AIプロジェクトに必要な統計学知見
このような前提に立ったとき、多岐にわたる統計学の学問領域のうち「AIプロジェクトで用いる」統計学的な知見はどのようなものになるでしょうか。
ここから先は
¥ 880