SOA Exam PA–Predictive Analytics対策でやったこと
【まとめ】
・Exam PAは機械学習に関する実技的な試験。データと仮想のプロジェクトのミッションが与えられ、誘導に沿ってRを駆使して各種機械学習手法を用い、その結果や手法の留意点等をレポートに(英語で!)まとめる
・試験問題はある程度パターン化されており、学習のためのe-ラーニングも揃っているので、初学者に対するハードルは高くないと思われる
・試験問題は例によって量が多く、試験時間5時間15分にも関わらず時間との勝負
受験時期
・2020年6月(お茶の水のテストセンターで受験)
受験時の前提知識
・日本アクチュアリー会正会員、CERA
・TOEIC 825
・Exam P, FM, IFM, STAM, LTAM取得
・Exam PAで頻出のGLM、正則化項付きGLM(LASSOとかRidgeとか)、Tree系の手法(決定木、ランダムフォレスト、ブースト木)、PCA、クラスタリング手法は既におおむね理解した状態での受験でした
勉強時期・総時間
・2020年6月いっぱい
・PA対策としては50時間程度
勉強教材
・Exam PAに申し込むと自動的に受講する必要があるe-Learning
・An Introduction to Statistical Learning, with Applications in R, James, Witten, Hastie, Tibshirani, 2013(たまに参照する程度。シラバス指定の教科書の一つ。検索するとpdfが無料で得られます)
試験形式について
テストセンターで受験する試験で、Rstudioを駆使して時間内に課題を解き、結果をWordのレポートにまとめるという、他には類を見ない特殊な試験形式となっています。
受験者はPCの席に着くと、PC内に問題文(プロジェクトの内容、解くべき課題が記載)、分析すべきCSVデータ、問題に即したRのサンプルコード、解答用のWordファイルが用意されています。
問題文にはまずプロジェクトの内容が記載されており、大体「あなたはデータ分析部署のアクチュアリーで、マーケティング部門からデータ分析の依頼を受けました」みたいなシチュエーションから始まり、ビジネス上の目的(精度追及or変数間の関係解明)が指定されます。また、所与のデータの簡単な説明があります。
試験問題はおおよそ80点分の10題程度の小問集合と、20点分のエグゼクティブサマリから構成されています。
小問集合は、例えばRのコードを実行して出てきた結果を解釈する問題や、手法の一般的なメリデメや留意点を答える問題が多い印象です。最初から最後まで筋が通っていることが多く、特に前半で行った分析結果をそれ以降の問題で用ることが多いです。よくあるパターンとしては、まずツリー系でモデルを作成し、次にGLM系で別のモデルを作成し、それらの精度やメリデメを比較して最終モデルを選択するというものです。
一方、20点分のエグゼクティブサマリは他の問題とは打って変わって、非専門家向けに分析結果全般をまとめたサマリを作れという内容になっています。どのくらいの詳細を説明すべきか、どのくらいの専門用語を用いていいか、そもそも何を説明すべきか、といった内容についての明確な線引きは定義されておらず、過去問の模範解答から感じ取るしかなさそうです。
提供されるRのプログラムコードについて
Exam PAでは提供されたRのプログラムコードを実行して、その結果を解釈・レポートに記載する問題が半分以上を占めます。
Rのプログラムコードをイチから書く必要があるかというとそうでもなく、ほぼ完成に近い、大変気の利いたサンプルコードが用意されています。変更するべきところと言うと、例えばGLMのコードで分布やリンク関数の指定を変更するとか、ランダムフォレストのcpの値をいじるとか、そういったレベルのものになっています。また、Rstudioのヘルプ機能も通常通り用いることができます。
むしろ、下手に自分でコードを書くと、エラーが発生してそのバグ取りに時間を取られるということが起こり得るので、できるだけ提供された通りの箱庭の中で対応することが重要のようです。
シラバス(試験範囲)について
最新のシラバスは以下のリンクから見られます:
Predictive Analytics Exam—December 2020
https://www.soa.org/globalassets/assets/files/edu/2020/2020-12-exam-pa-syllabus.pdf
シラバスには、LEARNING OBJECTIVESとして、以下の9項目が挙げられています。これらはe-Learning(後述)の内容に紐づいているものとなっています。
1. Predictive Analytics Problems and Tools
2. Topic: Problem Definition
3. Topic: Data Visualization
4. Topic: Data Types and Exploration
5. Topic: Data Issues and Resolutions
6. Topic: Generalized Linear Models
7. Topic: Decision Trees
8. Topic: Cluster and Principal Component Analyses
9. Topic: Communication
(まだ合否が判明していない身で言うのもあれですが、)こうしてみてみると高度な内容を扱うということはなく、データ一般の事項はアクチュアリーにとってはほぼ常識問題ですし、GLMは日本ア会の損保数理でやりますし、決定木とクラスタ分析・PCAはそこまで難しくないと思うので、高々Boosted Treeが一番難しいかもしれないなと思う程度です。
ただ、個人的な予想ではありますが、PCのスペックを考えると、実際にRコードでBoosted Treeを走らせてその結果をレポートに記載するような問題は出し辛いのではないかとは思います(ランダムフォレストでも結構時間がかかって不安になる印象でした…)
また、シラバスの下部にExamにおける得点分布の目安が公開されています
Communication (30-40%)
エグゼクティブサマリ作成、図・表を用いた記載、わかりやすいプログラムコードのコメントなど
Data Exploration and Feature Selection (15-25%)
探索的データ分析(データを可視化して示唆を得る分析)、特徴量選択など
Model Selection and Construction (40-50%)
問題解決に即したモデル構築・検証・選択など
こうしてみてみると、基本的にはデータ分析の知識や経験を問う問題ではあるのですが、コミュニケーションという項目で、そのわかりやすい説明を求めているところがそれなりに特殊な問題形式かと感じます。
e-learningについて
Exam PAの受験には事前にe-Learningを受講する必要があります。最終Moduleの中に、Examへの申し込み方法が記載されています。
内容は上記シラバスのことをかなり丁寧に説明している印象で、理論の解説を読み進めながら、Rのサンプルコードを実行して、また理論を進めて…みたいなプロセスを進めるもので、座学だけではなく実技もちゃんとガッツリ含まれている内容でした。ある程度アクチュアリーの一次試験の内容は理解しているけど、機械学習やデータ分析一般についてはまだ良く知らない、という方々にとってはかなり良い学習ツールになっていると思います。
一方、例えばAICとBICの違いなど、まるっと記載するには限界があるようなトピックについてはふわっとした記載に留める、といった点も見受けられました。あくまで、データ分析分野でASAとして最低限これくらいは知っておいておきましょう、といったレベルの内容が記載されていると考えて良いと思います。
また、e-Learning受講と言ってもレポート課題とかあるわけではなく、その気になれば一瞬で読み流すことも可能です。ただ、e-Learningの内容から試験問題が結構出題されているように見えるので、わかっている事項でも、ちゃんとフォローした方が良いような気がしています。
勉強方法について
繰り返しますが、まだ合否判定前なので一参考意見としてとらえて頂ければと思います。
理論面はほとんど知っている内容だったので、基本的には試験に特化した勉強を心掛けました。過去問を分析すると、やはりe-Learningのトピックをそのまま出題している印象があったので、e-Learningのうちあまり知らない部分についてちゃんと復習するようにしました。特に、Rのコードのオプションについて問われたりもするので、典型的な手法に対するRコードのオプションも気にするようにしました。
また、ほとんどの日本人受験者の場合、一番高いハードルは英語のライティングになると思います。5時間の試験時間は兎にも角にも短いです。日本語で解答するにしても全然短いので、英語にしたらもっての外、と言う方は多いのではないかと思います。
対策としては、まるで日本ア会の2次試験の中問対策のように、予想問題を何十題か用意して、時間を図って英語の解答を作成するトレーニングを繰り返しするようにしました。また、過去問用いて、時間をちゃんと測った本番さながらの練習をするようにしました。最初は8時間くらいかかってましたが、基本的な同じような流れがどの回にもあるので、それのコツをつかむと何とか5時間で貫通させることができるようになると思います。
(正直なところ、これ以外の効率的な勉強方法は、ライティングの添削をちゃんとしてもらうという追加要素以外は思い浮かばないのですが……受かってくれていることを願うばかりです)
雑感
これはあくまで個人的な想いですが、データ分析プロジェクトを一定の時間内で一定の環境で試験問題として課し、その解答に対して試験官による採点が付されるというのは、試験制度としてはまだやや無理があるような気がしています。
実際のデータ分析は、一定の定石手法はあろうとは思われますが、必ずこれでやる必要があると縛られるものではないと思いますし、手法やPCスペックは日々進化しますし、使える時間ももっと長かったり短かったり、報告対象も様々な場合があるし、プログラムコードもRに限らなかったり…と、突こうと思えばいくらでもツッコミどころがある印象でした。
ただ、再掲ですが、シラバス記載の学習すべき内容としては、ASAとして、データ分析に関する共通の知識として、最低限これくらいは知っておいてほしいというレベルを、よくよく考え抜いてうまく選抜している印象があります。
この科目を、FAPのようなレポート形式ではなく、試験形式にするという意思決定が為されたSOA内の検討プロセスはとても興味深いですが、ともかく、データ分析を最初に勉強する教材としてはかなりレベルの高い効率的なものだと思います。
この記事が気に入ったらサポートをしてみませんか?