田口善弘教授 に聞いた「教師なし学習の未来」
田口善弘教授は機械学習を使ったバイオインフォマティクスを研究されています。特に複数の属性を含むデータを分析できる手法「テンソル分解」を専門とされており、2019年にテンソル分解に関する本を出版しました。またテンソル分解を使った創薬開発の為のクラウドファンディングを行い目標金額を達成しました。2020年5月には、講談社ブルーバックスから「生命はデジタルでできている 情報から見た新しい生命像」の出版も予定しています。
2020年1月22日(水)に開催された国際 化粧品展で中央大学の田口義弘教授に取材しました。
教師なし学習の未来
現在、深層学習を使った応用研究は多くの研究者が取り組み成果を出しています。その中で、田口教授はテンソル分解を使ってPTSD(Post Traumatic Stress Disorder :心的外傷後ストレス障害)の創薬の開発について研究しています。なぜいま流行しているディープラーニングを使わずに、あえてテンソル分解を使ったのか聞いてみました。
田口教授:
「教師あり学習としての深層学習は、ラベルの付いた大量のデータを用意して学習させる必要があります。大量のデータを集めラベルを付けることは難しいこともあるので(ラベルが必要ない)教師なし学習であるテンソル分解で研究しています。」
教師なし学習はラベルが付与されていないデータからでも学習できます。人がデータを準備する手間が少なく済むため、コンピューターに学習させやすいことがメリットです。
BERTについて
自然言語処理に使われることが多いモデル「BERT」についても教えていただきました。BERTは教師なし学習に近いと考えることもできると田口教授は言います。
田口教授:
「BERTがなぜ成功したのかというと、文章のある部分を隠して、そこは何ですかと穴埋め問題をたくさん試行しているからだと思うのです。
また、言語構造が入っていないから言語モデルじゃないと言う人もいます。言語構造はあとから転移学習のところにだけ入っていて、穴埋め問題には言語構造が入っていません。穴埋め問題はラベルが与えられないので、教師無し学習に近いとも考えられます。」
[例として「犬と散歩したあとにスーパーに行き、カレーライスを作るための材料を買う」という状況を文章としました。文章の単語を隠して穴埋め問題として解くことをBERTは行います。]
データを取得し続けると、ラベルを付ける手間もそれだけ増えます。そのような状況にある現在、教師なし学習手法であるテンソル分解を研究することは、多くの人に求められているでしょう。
田口教授から沢山の面白い話が聞けました。バイオインフォマティクスの研究、企業との共同研究だけでなく、講演や一般書の執筆などを通して多くの人に学問の面白さを説いていく姿が印象的な優しい先生です。これからも田口教授のご活躍に注目したいと思います。
中央大学 理工学部 物理学科 田口善弘教授
テンソル分解を使った応用研究。バイオインフォマティクスの研究、創薬の開発など。
シュプリンガーから単著「Unsupervised Feature Extraction Applied to Bioinformatics: A PCA Based and TD Based Approach 」を執筆。
講談社ブルーバックスから「生命はデジタルでできている 情報から見た新しい生命像」を出版予定。
(取材・執筆:大下 範晃/編集:アイデミー)