データサイエンス大学院生72名が挑む：学習分析の可能性

2025年2月20日 08:00

この世には、学習データを活用して学びを深めようとする研究が数多くあります。その中には「データサイエンスを専攻している学生たち」が、自分たちの手でリアルな視点から学習分析に取り組んだ、たいへん貴重な事例も存在します。

学習データを使い、学びのプロセスを深く可視化する「学習分析」。もしそこにデータサイエンスの知見を持つ大学院生たちが本気で挑んだら、いったいどんな成果が生まれるのでしょうか。

今回ご紹介するのは、彼らがオープンデータ「OULAD」を材料に、4週間のプロジェクトを通じて新たな一歩を踏み出した実践事例です。学生が共同で行ったイノベーションプロジェクトの成果をたどりながら、学習分析の新たな可能性や課題を見いだした興味深い研究内容をお伝えします。

まえがき

「学生は単に分析される側なのか、それとも分析者になり得るのか？」その問いに挑んだのが、データサイエンスを学ぶ大学院生たちです。4週間という短い期間にもかかわらず、多様な数値を扱いつつ既存の枠を超えるアイデアを形にしようとする姿勢に、学習分析の新たな可能性を感じます。

実際、学習分析に取り組むプロセスを追ってみると、単なる数値解析だけでは捉えきれない人間らしさを帯びた発見が数多く浮かび上がってきました。彼らがどんな方法論を用い、何を見つけ、どんな結論にたどり着いたのか。その全貌を、これからお伝えしていきます。

データサイエンスの学生が挑む学習分析

ここからは、イギリスの大学院生が4週間にわたって取り組んだ学習分析の共同プロジェクトをご紹介します。大事なキーワードは「OULAD（Open University Learning Analytics Dataset）」「CRISP-DM」「RAGとLLMの活用」、そして「人間主導のコンテンツ分析」の4つです。

どんな研究だったの？

まずは研究の概略を整理しましょう。この研究が何を目指し、どういった経緯で行われたのかをざっくり押さえておくと、後の話が断然わかりやすくなります。

1. 研究の背景

学習分析
教育の現場では、学生の学習行動や成績に関するデータを使って学習サポートを強化しようとする取り組みが盛んです。たとえば「オンライン学習の閲覧数が多いほど成績は上がるのか？」など、データから有益な知見を得られるのでは、というわけですね。
学生を巻き込みたい思い
しかし、学習分析というと、管理者や研究者がデータを解析してシステムを作るイメージが強いかもしれません。でも実際に学ぶのは学生自身。そこで「実際の学生たちの視点ってどう活かせるの？」という疑問が浮かびます。特に、データサイエンスの技術や手法を学んでいる学生なら、単なる分析対象者じゃなく共同設計者にもなり得るはずです。
今回の研究でやりたかったこと
この研究は「学生自身がデータを分析してみたら、どんな発見をするのか？」「学習分析の設計に学生目線を取り込んだら、どう役立つのか？」という観点を重視しています。そして、大学院でデータサイエンスを専攻する学生72名（12グループ）が取り組んだ4週間のイノベーションプロジェクトをケーススタディとし、その成果を詳細に観察しているのです。

2. 使用データと対象

OULAD (Open University Learning Analytics Dataset)
研究対象となったデータは、イギリスの通信制大学が公開している学生履修や成績、オンライン学習のアクセスログなどを匿名化した大規模データセットです。これが「OULAD」です。学生の成績やオンライン学習環境（VLE）へのアクセス頻度、評価の種類、障害の有無など、学習分析に使えそうな情報がぎっしり詰まっています。
学生たちの役割
大学院生たちは、与えられたOULADをもとに4週間の短期グループプロジェクトを実施しました。「自分たちが面白いと思った研究テーマ」を立て、それをデータサイエンスの手法で分析し、最終的にレポートとして提出する流れです。この過程で、彼らはCRISP-DMというデータマイニングのプロセスモデルや、PythonやRなどの技術ツールを活用していました。

プロジェクトのメソッドと着眼点

では具体的に、学生たちはどんなフレームワークを使い、どんな分析を行ったのかを見ていきましょう。

1. CRISP-DMとは？

CRISP-DM (Cross-Industry Standard Process for Data Mining)
これはデータ分析の定番プロセスモデルで、ざっくり次の6ステップから成ります。
1. ビジネス理解
2. データ理解
3. データ準備
4. モデリング
5. 評価
6. 展開
  この研究では、学習分析を「ビジネス」の代わりに「教育」や「学習デザイン」と読み替えて、学生たちが各ステップを踏んだわけです。
学生たちのアプローチ
ほぼすべてのグループがCRISP-DMに沿った形で作業していました。ただ、いちいち「今はビジネス理解フェーズだ」というふうに意識していたわけではないかもしれません。でも提出されたレポートの多くに「データの準備→分析→評価」の流れが整然と見られるので、おそらく自然にCRISP-DMの思考パターンを身につけていたようです。

2. 分析に用いられた手法

統計的分析・回帰モデル
たとえば「線形回帰」で、オンライン学習のアクセス頻度と成績の関係を探るとか、「相関分析」で障害の有無が評価スコアとどれくらい関連するかを確認するとか、典型的なデータサイエンスのアプローチが取られていました。
予測分析（少数派ながら）
一部のグループは予測モデルを試みており、複数モデルを比較しながら精度を検証するといった、やや高度な取り組みも見られたそうです。しかしそういったグループは少数で、現実的には「回帰分析を一通りやってみた」レベルで終わる例が大半を占めたようです。

3. 学習分析における学生の疑問

研究の面白いところは「どんな質問を学生たちが設定したか」です。表を用いたまとめによると、以下のようなテーマがよく見られました。

評価と達成：
例）「評価スコアとコース全体の成績にはどんな関係があるのか？」「再試験は合格率にどう影響するか？」
エンゲージメントと達成：
例）「VLEへのアクセス数が多いほど成績は高くなるのか？」「オンライン活動の参加頻度で最終スコアを予測できるか？」
学生の特徴（障害の有無、コースの種類、時間要因など）：
例）「障害がある学生の退学率はどのくらいか？」「提出のタイミングとスコアの関係は？」

学生ならではの率直な視点が垣間見える点が興味深いですよね。自分たちが「気になる！」と思うからこそ、積極的にデータをいじって確認しようとするモチベーションが感じられます。

コンテンツ分析とRAG+LLMの導入

今回の研究が独特なのは、人間による質的分析（QCALA）と同時に、RAG+LLMを使った分析手法も併用していた点です。ここからは、その技術的な部分をできるだけやさしくまとめていきます。

1. 人間による内容分析

QCALAって何？
質的内容分析(Qualitative Content Analysis)を学習分析に適用したアプローチを指しています。論文では、一人ひとりの研究者が学生の提出物を読んで、「どんなテーマが多いか」「どんな言葉遣いがされているか」を手作業で分類・コード化していくスタイルです。
人間の得意分野
たとえば「このグループはデータセットの欠損値処理を苦労していたみたいだ」「ここは倫理的視点を気にしていそうだ」といったニュアンスは、人の目ならではの気づきがあるといいます。機械だけでは拾いきれない微妙な意図を掴むのに強いわけです。

2. RAG+LLMによる解析

RAGとは？
Retrieval-Augmented Generationの略で、LLMへの入力を強化するために、文章ベクトル化と検索技術を組み合わせる手法です。事前に学生のレポートをベクトルデータベースに入れておき、ユーザが質問を投げると検索で関連箇所を見つけ、LLMに一緒に渡して回答を生成させます。
LLMの活用
RAGシステムに組み込まれたLLM（本研究ではGPT-4相当）は、関連するチャンクをもとにテキスト要約や質問応答を行います。これによって「特定の変数同士にどんな相関があった？」とか「評価が高い学生の特徴は？」といった問いを自動で集約することが可能です。
二重のアプローチが持つ意味
研究では「人間の手による綿密な読み込み」と「LLMを活用した高速かつ網羅的な抽出」を組み合わせて行ったので、それぞれで得られた知見を相互補完できました。たとえば、LLM解析によって提出タイミングが早い学生ほど成績が高いという事実を詳細に洗い出しつつ、人間による分析で「その背景として学生のモチベーションが関わるかも」と深掘りする、といった具合です。

主な発見と考察

では、学生たちが何を分析し、どんな洞察を得たのか、論文に示された内容からポイントを拾っていきましょう。

1. エンゲージメント（オンライン参加）と成績

多くのグループが「クリック数が多いほど成績が高い傾向にある」と結論づけました。ただし全グループがまったく同じ数値結果を出したわけではありません。

コースの種類や期間によって相関が弱いケースもあったり、障害の有無で学習ペースが異なるといった要素も浮かび上がっています。
つまり「ざっくり言えばアクセス頻度と成績は関係ある」が「学習者の個別事情を無視した一律の結論は危うい」といった慎重な解釈が主流でした。

2. 評価タイミングとパフォーマンス

中には「課題や試験を早めに提出する学生ほど成績が高い傾向がある」と見出したグループもありました。さらに「最終的な優秀者を予測するには、初期段階での提出傾向をウォッチするのが良さそう」という示唆も。

とはいえ、これも因果関係とまでは断定できず、データ外にあるライフイベントや課外活動などの影響も排除できない、という指摘がありました。

3. 障害の有無・再試験などの配慮要素

一部のグループは、障害を抱える学生ほど退学率や成績に差が生じている可能性に注目しました。再試験の有無との関連を追ったところもあり、「困難に直面しがちな学生に対する具体的なサポート策」を提示する展開も見られたようです。
こうした包括的アプローチは学習分析の狙いとも合致していて、既存の研究でも重視されるテーマです。

4. 退学抑止とコース構成

コースが長期化すると退学率が高くなる可能性を示唆したグループもありました。学期後半ほどモチベーションが低下する学生もいるだろうし、オンライン学習特有の孤立感も関係するかもしれません。ここでも、分析だけでは説明しきれない背景要因の存在を示唆しており、「学習環境のデザイン」を検討すべき余地を強く感じさせます。

制限と今後の展望

研究チーム自身も、いくつかの制限点を明言しています。

短期間プロジェクト
分析期間が4週間と短く、学生たちの深掘りにも限界があったこと。
データセットの一般化
OULADは特定の教育機関のオンライン学習データなので、他大学や対面授業中心の環境にそのまま適用できるわけではないこと。
倫理・プライバシー
本研究では匿名化データを用いてはいるものの、学習分析では学生個人のデータを扱うので、配慮やガバナンス構造が不可欠だという点が再確認されています。
学生の文献リテラシー
データサイエンスの技術には明るくても、学習分析に関する先行研究とのリンクが弱かったという指摘があります。もし文献を活用していたら、より踏み込んだ結論を引き出せたかもしれません。

とはいえ、「データサイエンスを学ぶ学生が主体的に学習分析を行うと、こんなに多彩な発見があるのか！」という事例としてはインパクトが大きいといえます。特に、エンゲージメント指標から学習成果を探るだけでなく、障害学生や再試験制度といったトピックまで踏み込んだところが、今回の魅力でしょう。

学習分析の可能性と学生参加の意義

この研究から得られた大きな示唆は、「学生を積極的にアナリティクスの現場に巻き込むことで、学習分析の有用性がさらに広がる」という点です。

利用者の視点
学習分析はよく学びを可視化する手段といわれますが、その分析結果を実際に利用するのは学生自身です。学生目線の問いが入ることで、ツール設計や指標設計の深みが増すのは自然なことと言えるでしょう。
データサイエンス教育との相乗効果
大学院生たちは、学習分析という文脈の中で、実際に統計解析やモデル構築を行い、レポートとしてまとめる経験を積みました。単なる理論学習で終わらない実践は、モチベーションを高めやすい側面があります。
人的アプローチ×AIアプローチ
今回の研究が提起した新しいアプローチとして、RAG+LLMなどのAI技術を導入しつつ、人間による質的分析も併用するハイブリッドな運用が挙げられます。高速に情報を整理できるAIの長所と、微妙な文脈を読み取る人の長所を組み合わせれば、より包括的な理解が可能です。

気づきとまとめ

ここまで見てきたように、データサイエンスを専攻する学生が自ら学習分析に取り組むと、次のようなポイントが浮かび上がります。

学習者の立場からの質問設定
「何を分析すれば有益か」という最初の段階から、学生自身の発想が入ることで、より現場感あるテーマが生まれやすい。
CRISP-DMなどの体系的手法の活用
データ前処理から回帰分析、可視化まで一連の流れを踏むことで、分析結果の再現性と信頼性が向上する。
多様な関心領域
評価スコア、エンゲージメント、障害、提出タイミングなど、学生ごとに切り口が違うため、多角的な知見が得られる。
人とAIのハイブリッド
RAG+LLMのようなアプローチで、大量のテキストから素早く概要を抽出し、人間がそれをさらに解釈・検証する流れが非常に有効。

これらを踏まえると、教育現場で学習分析を導入するときは、学生の参加意識や当事者性が持つ大きな可能性を見逃せない、というメッセージが読み取れます。

あとがき

学習分析の世界と、学生だからこそ持ち得る新鮮な視点が交わると、思いがけない解釈や知見が立ち現れます。データサイエンスの技法やLLMのようなAI技術は、より繊細で多角的な学習理解を支えてくれる手段ではありますが、最終的にどう活用するかは私たち自身にかかっています。

数字の背後にある人間らしい動きを読み解くのは容易ではありません。しかし、その未知を切り拓こうとする学生たちの姿勢からは、学習分析の新たな展望が感じられます。人とAIが協力しながら学習デザインを共に創造する流れは、これから一層広がっていくでしょう。もしこの記事を通じて何かしらの発見やヒントを得られたなら、それだけでも十分に意義があったといえます。