AI系の研究・開発に関するヘッドライン|2023/4/25

やっぱり一番影響が大きそうなのは文章生成AIのタスクで有効なトークンの量が飛躍的に伸びそうということですかね。

今現在においても検索体験が変わるとは言われていますが、まとまったカスタム文章をAIに渡して検索できるというのは誰でもできそうですね。

個人単位でいうとこういうnoteみたいなテキストベースのプラットフォームで頑張り続けるのが一番いいかもしれませんね。

RMTでTransformerを1Mトークン以降に拡張する

アイダル・ブラトフ、ユーリ・クラトフ、ミハイル・S・ブルツェフ

https://arxiv.org/pdf/2304.11062.pdf

本技術報告は、自然言語処理において最も効果的なTransformerベースのモデルの一つであるBERTの文脈長を拡張するためのリカレントメモリの応用を紹介する。リカレントメモリTransformerアーキテクチャを活用することで、高い記憶検索精度を維持しながら、モデルの有効文脈長を前例のない200万トークンに増やすことに成功した。本手法では、ローカル情報とグローバル情報の両方を保存・処理することができ、再帰性を利用することで入力シーケンスのセグメント間の情報フローを実現しています。この手法は、自然言語理解・生成タスクにおける長期的な依存関係の処理を強化し、メモリ集約型のアプリケーションにおける大規模なコンテキスト処理を可能にする大きな可能性を秘めていることが、実験によって証明された。


自動監視カメラを騙す:人物検出を攻撃する敵対的パッチ

Simen Thys、Wiebe Van Ranst、Toon Goedemé

https://arxiv.org/pdf/1904.08653.pdf

機械学習モデルに対する敵対的な攻撃は、ここ数年、関心が高まっている。畳み込みニューラルネットワークの入力にわずかな変更を加えるだけで、ネットワークの出力が全く異なる結果を出力するように仕向けることができる。最初の攻撃は、入力画像のピクセル値をわずかに変化させることで、分類器を騙して間違ったクラスを出力させるというものだった。また、検出器や分類器を欺くために、対象物に適用できる「パッチ」を学習するアプローチもあります。また、これらのアプローチの中には、物体を改造してビデオカメラで撮影することで、これらの攻撃が現実の世界で実現可能であることを示すものもある。しかし、これらのアプローチはいずれも、クラス内の多様性がほとんどないクラス(例:停止標識)を対象としている。そして、オブジェクトの既知の構造は、その上に敵対的なパッチを生成するために使用される。本論文では、クラス内多様性の多いターゲット、すなわち人物に対して敵対的なパッチを生成するアプローチを紹介する。目標は、人物検出器から人物をうまく隠すことができるパッチを生成することである。この攻撃は、例えば、監視システムを回避するために悪意を持って使用される可能性があり、侵入者は、監視カメラに向けて体の前に小さな段ボール板を持つことによって、発見されずに忍び寄ることができます。この結果から、本システムは人物検出器の精度を大幅に低下させることができることがわかります。また、我々のアプローチは、パッチがカメラで撮影されるような現実のシナリオでもうまく機能します。我々の知る限り、人物のようなクラス内多様性の高いターゲットに対してこの種の攻撃を試みたのは、我々が初めてである。


HOSNeRF:単一映像からのダイナミックな人・物体・シーン神経放射場


Jia-Wei Liu, Yan-Pei Cao, Tianyuan Yang, Eric Zhongcong Xu, Jussi Keppo, Ying Shan, Xiaohu Qie, Mike Zheng Shou

https://arxiv.org/pdf/2304.12281.pdf

本論文では、1つの単眼映像からダイナミックな人間・物体シーンの神経輝度場を再構成する、360{deg}自由視点レンダリング手法であるHOSNeRFを紹介する。本手法は、任意のフレームで映像を一時停止し、任意の視点からすべてのシーンの詳細(動的な人間、物体、背景)をレンダリングすることが可能です。このタスクの最初の課題は、人間とオブジェクトの相互作用における複雑なオブジェクトの動きである。この課題は、従来の人間のスケルトン階層に新しいオブジェクトの骨を導入し、ダイナミックな人間とオブジェクトのモデルにおいて大きなオブジェクトの変形を効果的に推定することによって取り組む。第二の課題は、人間は異なる時間に異なるオブジェクトと相互作用することである。この課題に対して、我々は2つの新しい学習可能なオブジェクト状態埋め込みを導入し、それぞれ人間-オブジェクト表現とシーン表現の学習条件として使用することができる。広範な実験により、HOSNeRFは2つの困難なデータセットにおいて、SOTAアプローチをLPIPSの観点から40%〜50%の大きなマージンをもって大幅に上回ることが示された。コード、データ、および1つの動画から360{deg}の自由視点レンダリングの説得力のある例は、https://showlab.github.io/HOSNeRF で公開される予定です。


グロッキング: 小さなアルゴリズムデータセットにおけるオーバーフィッティングを超えた汎化

Alethea Power、Yuri Burda、Harri Edwards、Igor Babuschkin、Vedant Misra

https://arxiv.org/pdf/2201.02177.pdf

本論文では、アルゴリズムで生成された小さなデータセットにおけるニューラルネットワークの汎化について研究することを提案する。この設定では、データ効率、記憶、汎化、学習速度に関する疑問を詳細に研究することができる。ある状況では、ニューラルネットワークがデータ中のパターンを「把握」するプロセスを通じて学習し、汎化性能をランダムな偶然レベルから完全な汎化へと改善すること、そしてこの汎化の改善はオーバーフィッティングのポイントをはるかに超えて起こる可能性があることを明らかにする。また、データセットサイズの関数として汎化を研究し、より小さなデータセットでは、汎化のための最適化量が増加することを発見しました。これらのデータセットは、ディープラーニングのあまり理解されていない側面、すなわち、有限のトレーニングデータセットの記憶を超えたオーバーパラメトリックニューラルネットワークの汎化を研究するための肥沃な土壌を提供すると主張します

いいなと思ったら応援しよう!