見出し画像

Akira's ML news summary #November 2020

2020年11月に投稿された論文や記事で特に面白かったものを紹介します。

今月の注目記事/論文

違う言語を動画中に人物に話させる
著作権/差別的要素のないデータセットで事前学習を行う
テキストが説明している箇所を示すことでText-to-Imageを精緻にする
- 解の不定性が、実運用時の性能劣化を生んでいる
AIの力を借りて植林する
機械学習を用いて密猟から動物を保護する
MacでTensorflowがより早く動作するように


過去の記事
Week 45の記事, Week 46の記事, Week 47の記事, Week 48の記事
2020年9月のまとめ
2020年10月のまとめ


内容 :
1. 論文, 2.技術的な記事等, 3. 実社会における機械学習適用例, 4. その他話題

---------------------------------------------------------

1. 論文

-------------------

違う言語を動画中に人物に話させる

Large-scale multilingual audio visual dubbing
https://arxiv.org/abs/2011.03530

動画を翻訳するだけでなく、その言語を喋っているように映像も変換させる研究。口元の画像と音声を埋め込んだものとのAttentionを取りながら、喋り方を重点的に変換することで実現する。デモ動画↓


著作権/差別的要素のないデータセットで事前学習を行う

画像2

Pre-training without Natural Images
http://hirokatsukataoka.net/pdf/accv20_kataoka_fractaldb.pdf

フラクタル画像を用いて事前学習を行う研究。自然画像と違い関数を用いた合成画像なので著作権や差別の心配がないデータセットになっている。一部でImageNet pre-trainedモデルを超える精度を達成。データセットは公開されている。


テキストが説明している箇所を示すことでText-to-Imageを精緻にする

画像3

Text-to-Image Generation Grounded by Fine-Grained User Attention
https://arxiv.org/abs/2011.03775
自然言語による説明に加えて、どこの説明かを示すマウスの軌跡を組み合わせるTReCSを提案。各語毎にマスクラベルのタグ付をし、そこからマスク生成、画像合成を行う。先行研究よりも生成品質が大きく向上する。


学習時のカテゴリ数が多いとFew-shotの設定に強い物体検知モデルが作れる

画像4

Closing the Generalization Gap in One-Shot Object Detection
https://arxiv.org/abs/2011.04267

物体検知において、新たなカテゴリでfew-shot学習をする際は良い多くのカテゴリで学習させたモデルが良かった、という研究。データセットを作る際は、個々のカテゴリの数を集めるより多くのカテゴリを作る方に注力するのが良いという提言をしている。


解の不定性が、実運用時の性能劣化を生んでいる

画像5

Underspecification Presents Challenges for Credibility in Modern Machine Learning
https://arxiv.org/abs/2011.03395

MLモデルを実運用すると性能が劣化する問題において、同じ予測性能を示すモデルパラメータが複数存在するUnderspecificationが関わっていることを示した。このUnderspecificationはNLP、医療画像、コンピュータビジョンなどあらゆる分野に現れており、これらを考慮したテストを実施する必要がある。


学習済みモデルを活用することで少数データでGANによる変換が可能に

画像6

Leveraging the pre-trained model allows transformation by GAN with a small amount of data.
DeepI2I: Enabling Deep Hierarchical Image-to-Image Translation by Transferring from GANs
https://arxiv.org/abs/2011.05867

GANを用いた画像の他クラス変換(Image-to-Image Translation)において、Generaotor ,Discriminator, 変換元を読み込むEncoderすべてに既存の学習済みモデルを活用する案を提案(変換元を読み込むEncoderは学習済みDの重みを採用)。事前知識を使えるので、少ないデータで変換が可能になる。


End-to-end framework for anomaly detection

画像7

A Transfer Learning Framework for Anomaly Detection Using Model of Normality
https://arxiv.org/abs/2011.06210

End-to-Endで異常検知をする手法。正常画像データセットを学習済みモデルで埋め込んだ特徴量分布と、検査画像がどれだけ離れているかによって異常度を測定する。分布との距離はSSIM等を用いている。


物理的なパズルを深層学習で解く

画像8

Solving Physics Puzzles by Reasoning about Paths
https://arxiv.org/abs/2011.07357

ある球を別の球を使って所定の位置に接触させるパズルを解く研究。何もしない場合の球の軌道、理想的な球の軌道などを予測させる4つのモデルを教師あり学習で学習させることによって、タスクを解く。


---------------------------------------------------------------------

2.技術的な記事等

----------

NeurIPS2020の全論文の一言まとめ

NeurIPS2020に掲載される全論文の一言まとめ記事が公開。すぐに内容を確認できるので、興味のある内容を簡単に見つけることができる。


コンピュータビジョン注目研究2020

2020年に発表されたコンピュータビジョン系の論文で重要度が高そうなものを10本ピックアップし、概要や技術の肝、機械学習コミュニティの反応、ビジネスへの活用などの観点でまとめられている


機械学習モデル解釈性の丁寧な解説

解釈性が大切である理由や、モデルの透明性などの機能を定義から丁寧な説明と図で解説している記事。例えば透明性に関しては、人間がモデルと同じ段階を踏みながら推論できるか、そして各ステップは解釈可能か、などの要素を解説している。



---------------------------------------------------------------------

3. 実社会における機械学習適用例

----------

COVID-19の影響下用に機械学習モデルを更新して売り上げ増加

多くの企業がCOVID-19の影響で既存の機械学習モデルが全く機能しなくなる問題に直面している。しかし中国のJD.comとアリババは、より短期の動向に注目する機械学習モデルを再開発することにより、前年より売り上げを26%増加させた。


AIの力を借りて植林する

ヒートアイランド現象は公衆衛生上の懸念になるが、都市に植林をすることでそれを防ぐことができる。GoogleのTreeCanopy Labでは、空撮画像と機械学習で都市の樹木被覆密度を示すマップを作ることができ、これにより人手による樹木調査をする必要がなくなる。Tree Canopy Labは、2021年までに90,000本の植樹と維持を行い、503平方マイル以上の都市に年間20,000本の植樹を続けるという短期的な目標を掲げており、すでに市内の人々がこの目標を達成できるよう支援している。


機械学習を用いて密猟から動物を保護する

Googleと国際的な保護慈善団体であるZSLは、機械学習を用いて銃声を特定する機械学習モデルを構築した。音響センサーにより最大1km離れた銃声を検知でき、それにより野生動物保護活動家の活動を補助することができる。



---------------------------------------------------------------------

4. その他話題

----------

MacでTensorflowがより早く動作するように

M1チップを搭載したMacでは、AppleのMacに最適化されたバージョンのTensorFlow 2.4を活用するパフォーマンスを大幅に向上させることができるようになる。


機械学習による差別と法律

機械学習モデルは意図せず学習データによって潜在的に差別的になることがある。単純な対策としてマイノリティーに加点するなどで調整することが考えられるが、それは現状の法律では難しいとしている。


モンスターをGANで生成

ゲームのモンスターを自動生成するGAN。既存イラストのデータセットは多様性や著作権の観点から使えなかったため、3Dモデルを使ってデータセットを作ることで、マスクによってその生き物個数の構造、造形、部位毎の比率を明示しながら学習させることができる。


---------------------------------------------------------------------

記事は以上です。ここから下は有料設定になっていますが、特に何もありません。調査や論文読みには労力がかかっていますので、この記事が気に入って投げ銭しても良いという方がいましたら、投げ銭をして頂けると嬉しいです。

過去の記事
Week 45の記事, Week 46の記事, Week 47の記事, Week 48の記事
2020年9月のまとめ
2020年10月のまとめ


ここから先は

37字 / 1画像
機械学習論文の一言解説、技術的な記事、機械学習の社会実装例などの情報を週刊で発行しているAkira's ML newsを投稿します。 Akira's ML newsで、特に重要だと思ったものを月次、四半期毎、半年毎、1年毎にまとめて投稿します。

Akira's ML news & 論文解説

¥300 / 月 初月無料

※有料設定してますが投げ銭用です。無料で全て読めます。 機械学習系の情報を週刊で投稿するAkira's ML newsの他に、その中で特に…

記事を書くために、多くの調査や論文の読み込みを行っております。情報発信を継続していくためにも、サポートをいただけると非常に嬉しいです。