AI作成に必要なデータは量より質?データの量・質とAI構築例を解説
「機械学習のモデルを作るためにどれだけのデータが必要ですか」という質問についてよく聞かれます。
AI(人工知能)、機械学習や深層学習を構築する場合に、必ず学習データが必要になってきますが、一般的には「ビッグデータ」と呼ばれる量のデータは、どれくらいのデータ数が求められるのでしょうか?
実は学習においてはデータの量だけでなく、質も重要です。
どの程度の質で、どのくらいのデータを集めればいいのか?という疑問を持っている方も多いため、今回はそんな学習データについてまとめてみました。
AI・機械学習を行うために必要なデータ量
機械学習のデータについて語るとき、しばしば「ゴミを入れたら、ゴミしか出てこない」と言われることがあります。どのようなデータを学習させるかによって、コンピュータがどのようなパターンを抽出するかが決まり、未知の情報を入力したときの出力結果がこれにより変わってくるためです。
データ・特徴量の質と量
機械学習の際、データは数だけでなく、質の良いデータであることも重要です。
この入力データの良し悪しを決める要因の1つが、特徴量です。
特徴量とは、分析すべきデータや対象物の特徴・特性を定量的に表した数値です。
説明変数とも言われます。
特徴量について、簡単な例を使って説明します。 あなたが芸能プロダクションのスカウト担当になったとします。 多くの一般の人が好む芸能人の特徴はなにか、声には、髪型などの見た目にはどんな「特徴」があるか、性格にはどんな「特徴」があるか、などいろいろなポイントがあります。
予測したいのは、「一般大衆が好む芸能人」という「人物モデル」です。
今まで支持されてきた芸能人は世の中に沢山いますが、その芸能人像には、ある法則があるのではないか、その法則に「強く関係している」人物の特徴を数値化したものが特徴量と考えます。
このような人物をスカウトすれば、一般大衆に好まれる芸能人をデビューさせることも夢ではないかもしれません。
このように、ディープラーニングなどの機械学習による予測や判断の精度を高めるためには、必要のない特徴量を見極め、必要な特徴量のみを適切に選択することが重要となります。
もちろん、特徴量自体の量が少ないと、コンピュータはやはり十分なパターンを学習ができませんが、ここで注意が必要なのは、特徴量の質が良くないと、せっかくデータを学習させても精度の高いモデルにはならず、見当違いの結果を出力することになってしまいます。
特徴量の質は、どんな特徴量を選択するかはもちろん、特徴量自体のデータの形式がきちんと揃っていることなどによっても変わってきます。
上記の芸能人モデルの構築で言えば、声や髪型などのいわゆる外見は確かに特徴量に関係してくるとしても、実際には独特の雰囲気やキャラクター性など、もっと多くの要因が関わって一般大衆が好むかどうかは決まるものです。
闇雲に特徴量が多ければ良いというわけではありませんが、関連性の高いより多くの特徴量を組み合わせ、高次のデータを学習させることでAIの精度も上がっていきます。
ノイズ除去と特徴量選択
もう一つ重要な点は、学習用データのノイズが学習モデルの精度向上に関係ないばかりか、場合によっては精度を下げてしまうことがある点です。
データのノイズを除去することにより、コンピュータが予測対象に関連のある特徴のみを学習できるようになるため、予測の精度の向上が期待できます。
また適切な特徴量を選択することによって、モデルの予測精度の向上が期待できること以外にも下記の効果を見込むことができます。
・モデルの構造を単純化することで理解しやすくなる
・学習データ量を縮小することによって学習にかかる時間を短縮できる
・過学習を防ぐことができる
データが少ない場合のAI構築方法
続きは以下、MatrixFlow記事をご覧ください(無料で閲覧できます)。
MatrixFlowでは一緒に世界を変えるAIプラットフォームを作る仲間を募集しています!!