データサイエンティスト検定(DS検定®)を受験してみました
先日、データサイエンティスト検定を受検したので、書き留めておきたいことをnoteにまとめてみました。記事は2回に分け、この記事ではどんな試験なのか、注意点や勉強法の総論について簡単にまとめてみたいと思います。
プロフィール
バックグラウンド
理系大学院出身(専門:ウイルス学)。数学と物理は苦手。DNA/RNAレベルでの系統分類などもやっていたのですが、機械任せで原理なんかは理解していなかった。理系のプロパー資格としては環境計量士(濃度関係)を取得済み。
なんとなくプログラムは書いたことがあり、昔取った杵柄で、正規表現は理解している。正規分布や偏微分、行列計算くらいはたぶん素で理解できている。
現職は弁護士
→ とはいえ、役に立つのは個人情報保護法/GDPR関連と請負/準委任の区別ができると言う程度。専門は知的財産法。
この記事の前提
スキルチェックリスト ver.4 を前提としています。
受験規約との関係で、問題文や出題内容の細かい再現は掲載せず、伝えたいこととの関係で類題としています。
受験準備(やったこと)
※ 1 公式リファレンス(以下「リファレンス」)では細かい知識の解説などは十分でないことがあり、自分で調べる必要がある=その意味で問題集の解説は役立つ。
※ 2 対策アプリのUI/UXは極めて悪いです。CBT試験のように間違ったやチェックをつけた問題の解説を参照したりして学びのツールとして使うには、ストレスがお勧めできません。他方で、70〜80%くらいは問題集とは別の傾向や出題形式の問題なので、練習問題の補充としてみれば、価格に価値を見いだすことは可能な範囲にあると思います。
学習イメージ
次のようなステップで学習をすすめ、受験しました。知識を固めるというより、概念を理解すること(つまり人に口授で説明できる程度になること)を目標に設定しました。書籍で、わからないことネット検索やChatGPTで調べる形で進めました。具体例があるととてもわかりやすいので、ともかく具体例を作りました。
公式リファレンスを一読する
(完全な理解を目的とせず、マーカーの引いているタームがどの問題に関係するのかというマッピングを脳内で作成するのが目的)問題集の各セクションごとに解く
(100%正解できるまでやりましたが、公式リファレンスと問題集の解説を読みながら概念を理解することを目標としました)問題集の巻末のテスト90問を試験当日の受験前に行う
試験本番
(感想)
※ リファレンスを完全に理解してから問題を解こうとすると、情報の多さに圧倒されますが、理解しながら進む必要がある。問題集を解いても具体的なイメージがわかないときは、問題集を解きながら適宜参照するのが良いと思いました。
※ SQLの操作を理解するために一度は現物に触ったほうがよいとは思いますが、プログラミングの構造や文法が解ればよいので、やらなくても何とかなると思います。
いざ受験
準備するもの
持ち物: 受験票はない。必要な持ち物は本人確認ための身分証明書のみ。前日にリマインドメールが来る。本人確認ができないと受験ができないので、
テストの実施
CBT(コンピュータ受験):Windowsとマウス入力。普段Mac使っていても、多分問題無いが、マウスを20年ぶりくらいに触れたので新鮮でした。画面表示のフォントはメイリオ系で文字の大きさは変えられる。ダークモードも可能なようです。荷物は腕時計やスマホ含めて持ち込み不可(ロッカーに預けるところか多い)。
CBTの流れ:チュートリアルとして簡単な問題を1問やったあと、本番試験になります。そこからはトイレに行く時間はないので、用は済ませておく。試験開始になると、残り時間は90:00(分/秒)表示からのカウントダウンが開始します。
回答方法:マウスで選択肢を選べばそれで回答が確定する。試験終了まで別の選択肢を選択することで変更可能。
回答画面のTips:
全問選択肢の4つから正解を選ぶ方式。出題は、3分野を分野ごとにまとまってではなく、ランダムにピックアップされています。
任意の番号の問題に戻って回答を変更することが可能で、また、設問ごとに「後で検討する」というチェックを付けられ、問題番号の一覧画面で、番号枠が赤く表示されるため一目でわかる。まとめて余った時間で検討できます。
結果
90問で70〜80%が合格ラインと言われている(cf.リファレンスのp.17)。
採点:「試験終了」をボタンを押すか、時間ゼロになると終了となる。正答率がその場で表示される。試験結果を印刷できるので、印刷して試験終了。
後日正式な合否がわかる(CBTのマイページから)。
筆者の結果
筆者自身は2023年12月に受験して、正答率は91.1%でした。
計算すると8問ほど不正解だったようですが、感覚的には、8割程度できているかな?残りは自信がないな・・・というくらいでした。また、「後で見直す」とした問題は12〜13問程度。回答に迷った問題はいずれも自信が無い状況で、特に、最初の方に難しい問題、面食らってしまうような問題が集中していました。もしかすると、時間配分をミスらせたり、受験者を圧迫して平均点を下げるという戦略なのかもしれませんが、深読みしすぎでしょうか。
受験テクニック的なもの
試験のタイムマネジメント
基本的には90分で90問、つまり1問あたり1分で進めれば間に合う計算なので、時間管理は、とても容易です。
30問ごとくらいに残り時間を見れば十分に間に合います。解らない問題に時間をかけないことが重要でしょう。
例外なくどの問題も1問1分で解けるようになっている。このことはかなり重要です。
難しく見える問題への対応方法
メモ用紙(白紙)とボールペンが貸し出される(終了時に回収)、画面上の電卓が使えるが、基本的に使うことはない、計算を細かくしないとならないような問題は基本的には出ないです。
→ 例えば、生データまたは散布図などが示されて、特定のデータの偏差値を求める問題があるとします。その問題では選択肢が例えば、
(選択肢) ア 43 イ 50 ウ 56.5 エ 82
みたいになっているとします。そこで、まずデータを見渡して「これは平均よりちょっと上だが、大ハズレしたデータではない」という大まかな見立てができれば、計算しなくても「ウ」が正解だと判別できます。もともと自分はあまり計算が得意な方ではないので、なんとなくで解ける問題はありがたかったです。複雑な計算問題は完全な解にたどり着く必要がありません。
行列の演算などはその一部だけ行えば、正解にたどりつくことが多いので、全ての選択肢で違いがある部分を計算すると時間の節約になります。
同様に偏微分の計算も、偏微分する変数のうち次元の高いものから1〜2つに注目するだけ回答にたどり着くこともある。完全な解を出す必要はないことが多いと思います。
実際にとりうる値(例えばプラスとマイナス、それぞれの無限大)を変数に代入すると、選択肢を消去できる場合があります。
見たこともない用語、知らない言葉が出てきたら、正誤問題であれば問題のテーマとは無関係のない言葉であることが多いです。
なぜならば、この試験はスキルチェックリストの各項目の理解の確認するのが目的なので、スキルチェックに出てこない言葉が設問にある概念と関係のあるキーワードであることは、かなり少ないからです。その意味で、スキルチェックにある別分野の用語をこっそり入れてくることがあるようですが、概念を理解していれば割と判別しやすいと思います。
例)「回帰」や「分類」についての選択肢に Python や R が入っている例など
心理対策
正答率70%が合格ラインだとすると約30%(約27問)は間違えても無傷
→データ的には60%完璧に回答できれば、残り40%は4択なので、わからなくても10%(期待値)はデータサイエンティスト的には取れるはず。不安な問題は「後で見直す」ボタンを有効活用する。
→私自身は、他の試験(私の場合は司法試験の短答式試験)での経験からすると、わからない問題で選択肢を変更するとだいたい不正解肢を選択してまうというジンクスがあるため、よほどのことがない限り、第一印象からは変更しないようにしている。知識を単純に問う問題は知らなければ考えても正解にたどり着くことはないので、迷わず「後で見直す」ボタンを押す。時間の余裕は心の余裕です、また、他の問題がヒントになることが希にあります。
「最も適切でないもの」を選ばせる問題に注意する。二重否定の表現は混乱しやすいので、相補的な別の表現(設問)に直すと良いと思います。
例) 各選択肢のうち、それをしないことが最も適切でないもの1つを選べ。
→ (肯定表現に言い換え)各選択肢のうち、それをしないことが最も適切であるもの3つを除いた残り1つはどれか選べ。
→ (更に言い換えると)選択肢のうち絶対やっちゃダメなことを3つ選べ。ただし、回答欄ではそれにあぶれた残り1つを選択せよ。
出題傾向
試験の性質上偏りがある
公式リファレンスのスキルチェックリストからまんべんなく出題されるというより、頻出する分野に偏りがあるようでした。CBT方式の試験ですから、実際に試験中にリレーショナルデータベースをいじらせたり、データ処理や解析をさせる訳にいかないので、「4択問題」としての出題のしやすさや、同じ★1個スキルでも、そのなかでの重要性も考慮しているのだと思われます。
次回は、頻出する問題について解説をしたいと思います。
データサイエンティスト
弁護士 甲本晃啓 (専門:特許・商標・意匠その他知的財産法)
この記事が気に入ったらサポートをしてみませんか?