AIによるリーダーシップ・アセスメントは信頼できるか？

2023年6月29日 15:28

１．AIを活用したリーダーシップ・アセスメントのメリットとリスクとのバランス

2022年11月にOpenAI社がChatGPTをリリースして以来、大規模な人工知能（AI）チャットボットが続々と登場し、AIが私たちの生活のあらゆる面に浸透しつつあります。人材開発業界では、AIを駆使したリーダーシップ・アセスメントを信頼できるかどうかが、注目の話題となっています。

アセスメントにAIを活用することに対する疑問は、新しいものではありません。新しいAIチャットボットのリリースが注目を集めましたが、産業組織心理学者や人事部門、法務部門では、10年以上前からAIに関する問題に取り組んできました。

職場のアセスメントにAIを活用することについて、合意は得られていませんが、ほとんどのアセスメント開発会社は、AIのもつ能力や可能性を理解しながらも、その価値やリスクを適正に評価する必要があることを認識しています。

AIを用いたリーダーシップ・アセスメントを適切に導入すると、従来のアセスメントに、これまでにない斬新な機能やメリット（コスト削減、予測力の強化など）をもたらす可能性がありますが、同時に、AIのリスク要因にも対処しなければなりません。なぜなら、その影響は悲惨なものになりかねないからです。

AIが職場に定着するにつれ、潜在的な利益と、透明性や説明責任、倫理的配慮の必要性とのバランスを取ることが極めて重要になります。本コラムでは、経営や人事部門のリーダーが、リーダーシップ・アセスメントにAIを活用することを検討する際に、最も考慮すべき懸念事項を取り上げます。

２．リーダーにアセスメントを行うタイミングと理由

AIについて議論する前に、アセスメントの目的と用途について整理しておきましょう。DDIは、より良い未来へ導く優れたリーダーを採用、登用、育成することを使命としており、そのためにアセスメントを活用・推奨しています。

採用前および入社後のアセスメントは、組織が選抜や昇進、トレーニングのやり方を改善するための有用なツールになります。採用前のアセスメントは、候補者のスキル、能力、知識、性格、ワークスタイルを評価するために使用されます。これらは、候補者がそのポジションや組織文化に適しているかどうかを確認するのに役立つだけでなく、主要な職務基準を使って、対象職務におけるパフォーマンスを予測することもできます。また、シミュレーションで効果的な行動介入ができていないなど、懸念事項を特定し、理想的な候補者を選ぶ際の意思決定に役立てることも可能です。

入社後のアセスメントは、従業員のパフォーマンスを評価し、能力開発やトレーニングのフィードバックを提供するために使用されます。これらのアセスメントにより、従業員のパフォーマンスが高い領域（強み）と、トレーニングやコーチングなどの追加支援が必要な領域（能力開発領域）を特定することが可能です。また、生産性の低下や仕事に対する不満など、大きな問題に発展する前に潜在的な問題を特定するのにも役立ちます。

リーダーシップ・アセスメントを選抜や能力開発のツールとしてどのように使用するかは、AIの活用をどの程度厳密に精査する必要があるかに影響します。能力開発を目的としたアセスメントの使い方は慎重であるべきですが、雇用の決定に使用するアセスメントは、より綿密に精査することが求められます。候補者にとって公平であり、採用担当者がパフォーマンスを正確に予測できることが担保されなければなりません。そして、重要なことは、潜在的な法的監査にも耐えうるものでなければならないということです。

３．リーダーシップ・アセスメントにおけるAIの可能性

AIの取り扱いには注意が必要であることを考えると、アセスメントにAIを使用することを疑問視する意見もあります。しかし、その潜在的なメリットは大きく、リーダーシップ・アセスメントにAIを活用することで、優れたリーダーを発掘し、育成する方法を革新し、組織や社会全体により良い結果をもたらす可能性があります。

アセスメント・プログラムを補完するためにAIを使用することの利点は、大げさでなく、無限に見え始めています。そこで、現実的な観点から、AIを活用したリーダーシップ・アセスメントの潜在的なメリットを紹介します。

・アセスメントの開発、採点、管理運営にかかるコストが削減される

・受講者のエクスペリエンス（例．アセスメントの事務関連作業時間が短縮される）と管理者のエクスペリエンス（例．受講者の結果が即時に得られる）を高め、効率性が向上する

・アセスメントの実用性を最大限に高め、結果の一貫性、信頼性、妥当性を向上させるために、多数のデータポイントを組み込む機能が強化される

・バイアスや主観的な評価を軽減させることで、悪影響のリスクや測定誤差を減らすことができる

このようなメリットは、より良い結果を得るためにAI技術を適用することの強い動機づけとなります。課題は、リスクを減らしながら、いかにこれらのメリットを最大化させるかということです。

４．AIを採用や評価に活用する際の5つの懸念事項

AIを駆使したリーダーシップ・アセスメントの利用が増えるにつれて、さまざまな懸念が浮上しています。これらの懸念の多くは、新しい技術が進歩するたびに、時間と共に繰り返し発生してきたものです。業界が急速に進化して、このような懸念に対応する新しい基準を作り出したことは朗報です。しかし、このような疑問をもち続け、アセスメント提供会社の対応に着目することが重要です。

ここで、よくある懸念事項を紹介します。

①データプライバシーとセキュリティ

AI技術を使用する際の懸念事項の一つに、プライバシーの保護があげられます。人々は自分についてどのようなデータが収集され、それがどのように使用されているかを知らないことがよくあります。しかし、そのデータが雇用に影響を与える可能性がある場合、大きな問題となります。

例えば、ある著名なAI採用選考ツール会社が、最近、候補者のプライバシー権を侵害したことで、米国連邦取引委員会（FTC）から法的措置を受けました。訴訟によると、同社はオンライン採用面接の際に、AIを使って候補者の表情や声のトーンなどの非言語な兆候を分析しました。

候補者たちは、同社が適切に同意を取らず、分析の範囲を伝えなかったことを主張しました。訴訟が提起されて以来、同社は製品から顔分析スクリーニング機能を取り除きました。

この例は、AIが職場でのパフォーマンスを予測する可能性を示していますが、同時に、法的な影響を適切に考慮せずに新しい技術を展開することのリスクも示しています。

②バイアス

バイアスは、AIプログラムに最も懸念される問題の一つです。アルゴリズムは、既存のシステムやデータを使って学習しますが、既存のシステムにバイアスが組み込まれていると、結果として得られるアルゴリズムにもバイアスがかかってしまう可能性が高くなります。「不良データを入力すると、でき上がる機械学習モデルもゴミのように不良なものになる」ということです。

既存のシステムよりもバイアスのないアルゴリズムを作る方法はいくつもあります。例えば、多様で代表的なトレーニングデータセットを用意することが不可欠です。言い換えれば、アルゴリズムが測定しようとする実世界の属性を正確に反映したデータでなければなりません。トレーニングデータには、さまざまな性別、人種、年齢、文化、社会経済的背景が含まれていなければなりません。さらに、トレーニングデータの前処理やクリーニングは、アルゴリズムの出力にバイアスを与える可能性のある欠損値、エラー、重大な外れ値、または無関係なデータを考慮するために不可欠なステップです。しかし、AIが進歩するたびに、システムにバイアスが入る新たな機会も出てきます。そのため、ハイステークスのアプリケーションにおいては、AIを使った測定を職務基準に結びつけ、典型的な、あるいは従来の評価モニタリングを超える頻度で、アルゴリズムにバイアスがないかを定期的にテストし、モニタリングし、評価することが重要なのです。

③不正行為や偽装行為

アセスメントが意思決定プロセスの一端を担うようになる以前から、不正行為や偽装行為は常に懸念されてきましたが、会場での筆記試験からオンライン試験への移行により、不正行為や偽装行為がより注目されるようになりました。2000年代半ばには、実務家と研究者が基準と推奨事項を推進する研究を行い、今日のオンライン評価基準、すなわち、扱いにくいことで知られている「Unproctored Internet Testing（UIT）」（監督者のいない状態で行われるインターネットを利用したテストの形式）のベストプラクティスを促進しました。時間制限やオンライン・プロクタリング・プログラム（リモート環境で試験の監督を行うためのソフトウェアやサービス）などの戦略は、受講者の回答の公正性、妥当性、信頼性を担保するのに役立ちました。

AIが自由回答形式の項目に対応できるようになったことで、不正や偽装への懸念が改めて浮上しています。しかし、この課題に対応するための方法がすでに展開されています。例えば、強制選択式の性格要素は、AIによるテストの偽装に対処することができます。AIが進歩するにつれて、不正行為を防ぐための業界の取り組みも進歩しています。

④「ブラックボックス」問題

「ブラックボックス」とは、AIが2つの事象が相関していることを示すことはできるものの、その判断基準を独自に創り出すため、理由や判断の根拠を示すことができないことを言います。これがAIの最も斬新で懸念される課題の一つです。

ブラックボックスの有名な例として、研究者がAIを訓練して、皮膚がんを識別する試みを行ったケースがあります。彼らはシステムに多数の悪性の皮膚病変と良性の皮膚病変の画像を与え、アルゴリズムが、どの病変が悪性であるかを正しく識別できることを発見しました。

しかし、どのように識別したかをより詳しく見てみると、定規が写っている病変の写真を悪性であるとアルゴリズムが判断していたことが判明しました。悪性病変の写真には、病変の大きさを示すために必ず定規が入っているからです。しかし、このアルゴリズムは、画像に定規があるだけで、がんである可能性が高いと判断したのです。

このような間違った判断は、AIに最もありがちな問題の一つです。リーダーシップ・アセスメントでは、モデルがどのようにアセスメントのコンピテンシーやスコアを予測するかを説明できることが非常に重要であり、それは技術文書で確認することができます。人事担当者であれば、結果を導き出した「方法」と「理由」が説明できないアセスメントを使用することに対し、細心の注意を払う必要があります。

⑤法的防御可能性

先に述べた課題はすべて、法的防御性という大きな懸念に結びついています。地方、州、連邦政府は、個人のプライバシーや平等な就労機会を保護するための新しい法律を急速に制定しています。

しかし、訴訟が増えているとはいえ、企業がアセスメントを用いて候補者の評価をすべきではないということを意味するわけではありません。実際、データを正しく使うことで、プロセスにおけるバイアスを減らすことができます。つまり、何を評価しているのか、評価のしくみはどのようになっているのか、採用する職種とどのように関連しているのかを正確に理解する必要があるということです。このことは強調してもしきれませんが、AIによるアセスメントの開発と採点について、綿密な証拠書類を提供できるようにする必要があります。

５．AIによるリーダーシップ・アセスメント活用のための基準

市場に出ているあらゆる革新的技術と同様に、私たちは慎重かつ楽観的に前進する必要があります。テクノロジーは、どのように適用するかによって、その力を発揮するのです。ここでは、AIを駆使したリーダーシップ・アセスメントを検討する際に使用すべき重要な判断基準について、説明します。

AIを活用したアセスメントについて、技術的な詳細をお知りになりたい方には、産業組織心理学会（SIOP）が最近発表したガイドラインをお勧めしています。DDIでは、このガイドラインに沿って、AIを活用したリーダーシップ・アセスメントを開発し、使用しています。

技術的な推奨事項を読み解くのが難しい場合は、AIの構成要素を含むアセスメントを検討する際にお勧めする質問があります。

①どのような種類の客観的データを収集しているか？さまざまな種類のデータを収集することができますが、その中には仕事のパフォーマンスを予測するうえで、他のデータよりも信頼性の高いものがあります。ここでは、「兆候（サイン）対行動例（サンプル）」として知られるデータの種類を簡単に紹介します。

②妥当性と信頼性をどのように測定しているか？アセスメントは、妥当性（すなわち、測定するために設計した項目や要素を正しく測定できること）と信頼性（すなわち、同じレベルの特性をもつ人に対して同等の評点が提供されること）の両方が必要です。アセスメント提供会社であれば、これらの質問に答え、文書を提供することができるはずです。

③人間のアセッサーを使用しているか、その場合、どのようにアセッサーを訓練しているか？アセスメント提供会社の中には、DDIのように、人間のアセッサーとAIを併用している企業もあります。人間とテクノロジーの両方を組み合わせたアセスメントは、バイアスを軽減し、受講者の能力について、微妙なニュアンスを付加した全体的な見解を提供できる優れた方法です。ただし、アセッサーが確実に適切なトレーニングを受けている必要があります。

④品質管理をどのように行っているか？アセスメントは、ブラウザやハードウェアなど、さまざまな提供方法で受講環境の違いなどのばらつきを最小限に抑え、一貫した方法で提供される必要があります。また、オンライン・アセスメントにおけるアクセシビリティ基準を満たしていることも非常に重要です。

⑤機械学習によるバイアスをどのように最小限に抑えているか？アセスメント提供会社は、アルゴリズムのバイアスに対処するために、どのような手段を講じているかを説明できるはずです。

⑥アセスメントはどのようにモニタリングされ、メンテナンスされているか？時間の経過と共に、アセスメント提供会社は、障害者を含む受講者の属性間でバイアスが発生している兆候がないか、定期的にデータを検証する必要があります。さらに、公正な比較を行うために、必要に応じてグローバルおよび地域の基準値を確実に更新しなければなりません。

これらは包括的なものではありませんが、アセスメント提供会社にどのような質問をすればよいかを考える良いきっかけになるでしょう。

６．データは使い方で変わる

データはただ格納しておくだけでは何の役にも立ちません。それをどのように使うかが重要です。

ここでは、データを使ってリーダーに関する意思決定をする際に役立つ指針を紹介します。

①職務との関連性が重要です。これは、何よりも重要な指針です。検討するデータはすべて、対象者に求められる職務に直接関連するものでなければなりません。それ以外のデータは使用しないでください。特にAIに関しては、そのデータがなぜ、どのようにパフォーマンスと関連しているのかを説明できることが重要です。「ブラックボックス」を受け入れてはなりません。

②アセスメントは、あくまでも多くの情報源の中の一つであるべきです。アセスメントデータは、意思決定に役立つものですが、結果を決めるものではありません。アセスメントの結果は、業務のパフォーマンス、職務上の行動、個人特性など、他の情報と合わせて検討し、議論し、統合しなければなりません。アセスメントの結果は、意思決定を行うための唯一の情報として使用されるべきではありません。

③体系だった話し合いにデータを取り入れます。企業が犯す最大の過ちの一つは、データについて一貫性のない話をしたり、使い方をしたりすることです。これはバイアスにつながる可能性があります。タレントレビューの議論に、一貫してデータを取り入れるための体系だったプロセスを確保してください。

④行動が基準であることを忘れないでください。アセスメントでは、対象者のさまざまな側面を測定することができます。その中には、性格特性のように、対象者が何をする可能性があるのか、何に動機づけられるのかについての洞察を提供するものもあります。しかし、最終的には、リーダーの行動と選択が、仕事でのパフォーマンスを決定します。従って、行動と照らし合わせて性格診断をどう評価するかについて、全体的に考えることが重要です。

７．テクノロジーの進化に追随することが重要

AI技術はかつてないスピードで進歩しており、私たちは至るところでその影響を感じています。しかし、テクノロジーは私たちが批判的な議論をしている間にも、急速に発展しており、AIの最新の進歩に追随しようとする企業や個人にとって、大きな課題となっています。

新しいテクノロジーに適応し、その可能性を受け入れることは重要ですが、特に人々の生活に影響を与える決定に関しては、AIの影響を慎重に考えることも肝要です。2023年3月に、世界がAIの発展に追いつくために、GPT-4モデルを超えるAIの開発を半年間休止することを求める呼びかけが、経営者、研究者、哲学者からあがりました。

AIの使用や規制について議論する人がいる一方で、リスクを最小限に抑え、あるいは排除しながら、その機会を活用できるか否かは、私たち次第です。アセスメントにAIをうまく活用することで、企業がより優れたリーダーをバイアスがかかることなく選抜し、育成することができると考えています。そのためには、AIによるリーダーシップ・アセスメントは、透明性が高く、説明可能で、バイアスのないものでなければなりません。

さらに、企業は、AI技術に完全に依存し人間的側面を見落すということのないように、注意する必要があります。AIモデルと人間の判断を確認しバランスをとることで、テクノロジーだけ、あるいは、人間の裁量だけを使うよりもはるかに良い結果を導くことができます。AIが下した判断は、常に人間が確認し、検証することで、その妥当性と公平性を確保する必要があります。

最終的に、AI技術はアセスメントの貴重なツールであり、今後ますます重要になることが予測されますが、それは、すべての関係者にとって最善の利益になるように、責任をもって導入しなければなりません。

■執筆者：DDI社　アセスメント・コンテンツ開発／設計マネジャー　クリス・カフリン
■原文はこちら

８．おすすめ関連コンテンツ＆ソリューション

９．会社概要

会社名:株式会社マネジメントサービスセンター
創業:1966（昭和41）年9月
資本金:1億円
事業内容:人材開発コンサルティング・人材アセスメント