BERT(バート)。
いま注目のAI、自然言語処理の実社会への活用の可能性に迫る
BERT本出版記念オンラインイベント
イベント概要
本イベントは、BERTによる自然言語処理の入門書の出版を記念して、自然言語処理分野におけるアカデミア、事業会社の第一人者のお二人をお招きし開催いたします。
はじめに、執筆をリードしたストックマークの近江から、自然言語処理やBERTについて簡単にご紹介し、なぜ今BERTをベースとした自然言語処理の入門書を出版するのか、その意義などをご紹介いたします。
そして、自然言語処理をリードされている東北大学大学院 教授の乾先生と人工知能学会 前会長で株式会社三菱ケミカルホールディングス CDOの浦本様をお招きし、弊社CTO 有馬とともに、BERTに代表されるニューラル言語モデルの登場が与えた自然言語処理への影響や実社会での自然言語処理の活用例、また今後の可能性についてディスカッションいたします。
主催:ストックマーク株式会社
https://stockmark.co.jp/
後援:株式会社オーム社
近江 崇宏stockmark_omi
ストックマーク株式会社 R&D Manager
ストックマーク株式会社にて自然言語処理の研究開発に従事。 2012年に京都大学大学院理学研究科博士課程修了(理学博士)。その後は、2020年まで東京大学生産技術研究所(最終職位:特任准教授)にて時系列解析を中心とする統計学・機械学習の研究に従事。2020年4月より現職。
単語を密なベクトルに分割する。BERT(バート)。
https://github.com/google-research/bert
特徴は、大量の事前学習。タスク別に教師ありデータを調整する。最初にBERTで分けてから、他の分類に分けることが出来る。実用例はGoogle検索や銀子のコールセンター業務。
NICT BERT 日本語 Pre-trained モデル
「概要
このページでは、日本語Wikipediaを対象に情報通信研究機構 データ駆動知能システム研究センターで事前学習を行ったBERTモデルをクリエイティブ・コモンズ 表示 4.0 国際ライセンス (CC BY 4.0)のもとで公開しています。」
https://alaginrc.nict.go.jp/nict-bert/index.html
登壇者
浦本 直彦氏uramoto
株式会社三菱ケミカルホールディングス 執行役員 Chief Digital Officer
1990年、日本IBM入社、東京基礎研究所にて、自然言語処理、Web技術、セキュリティ、クラウドなどの研究開発に従事。2016年、Bluemix/Blockchain Garage Tokyo CTOとして、デザイン思考とアジャイル開発を行うチームをリードした。 2017年、株式会社三菱ケミカルホールディングスに入社し、人工知能技術やデータ分析などのデジタル技術を活用したデジタルトランスフォーメーションの推進を行なっている。2020年4月より同社執行役員 Chief Digital Officer。2018年-2020年6月、人工知能学会会長、現在九州大学および静岡大学の客員教授であり複数の大学で講義を行ってきた。2020年より情報処理学会フェロー。博士 (工学)。
乾 健太郎氏inui
東北大学大学院 情報科学研究科 教授
理化学研究所 AIPセンター 自然言語理解チームリーダー
言語処理学会 副会長
専門は自然言語処理、人工知能。1995年東京工業大学大学院情報理工学研究科博士課程修了。同学助手、九州工業大学助教授、奈良先端科学技術大学院大学助教授を経て、2010年より現職。2016年より理化学研究所AIPセンター自然言語理解チームリーダー兼任。情報処理学会論文誌編集委員長・自然言語処理研究会主査、言語処理学会論文誌編集委員長、国際会議EMNLP-2019 Geneal Chair等を歴任、2020年より言語処理学会副会長。
有馬 幸介stockmark_arima
ストックマーク株式会社 取締役CTO
2008年東京大学工学部計数工学科卒業。2010年東京大学大学院情報理工学系研究科修士課程修了。同年新日鉄住金ソリューションズ(現 日鉄ソリューションズ)入社、2,000人月規模の基幹系会計業務システムの自動仕訳機能開発等を担当し、社長賞を受賞。2016年ストックマーク社を共同創業し、取締役CTOとして機械学習、インフラ〜アプリケーション全般を担当。
Word2vec?・・・「『松本人志』、『浜田雅功』、『ボケ』、『ツッコミ』という言葉を以下のようにベクトル化できたりします。
松本人志:(0.4,0.1,0.9,0.4)浜田雅功:(0.5,0.2,.3,0.4)ボケ:(0.1,0.0,0.8,0.2)ツッコミ:(0.2,0.1,0.2,0.3)このベクトル表現から、『松本人志』、『浜田雅功』の距離を計算すると、結構近いところにありそうだ。なので二つの意味は近いのでは?
『松本人志』-『ボケ』+『ツッコミ』 ≒ 『浜田雅功』 になる。といった考察・計算ができます。」
https://www.randpy.tokyo/entry/word2vec_skip_gram_model
画像やテキストなど色々なデータを、計算機用の同じ言語に落とし込めるようになってきた。実際に使おうとすると、検索か分類か抽出に落ち着く。製造業では、テキストデータが長持ちする、昔の報告書などが使えたりすることが多い。
・今後
計算機が中で何をしているのか、過程を説明出来るようにならないと、人間同士、利用者と企業、研究者同士、勉強仲間、趣味仲間などで話が出来ない。システムが人と人との間に入りこむ。メールやチャットとは違う意味で言っているようです。情報と知恵のギャップを埋めていきたい。