![見出し画像](https://assets.st-note.com/production/uploads/images/147680564/rectangle_large_type_2_64f0ec8b1e90777757ddefad2d16509e.png?width=1200)
AI×圧縮
![](https://assets.st-note.com/img/1721708728492-PqEKjBq8T5.jpg)
孫 鶴鳴
(横浜国立大学大学院工学研究院)
受賞タイトル
Research on Neural Network-based Learned Video Compression
このたびは,IPSJ/IEEE-CS Young Computer Researcher Awardを受賞し,大変光栄に思います.選考委員の先生方,推薦していただいた先生,共同研究者の方々に,深く感謝いたします.
私の研究テーマは動画像圧縮です.動画像はインターネットトラフィックの80%以上を消費しています.したがって,動画像圧縮技術は動画像の伝送と蓄積の負担を減らすために非常に重要です.この研究の目標は,ニューラルネットワークを使用して,動画像圧縮のレート・歪み特性を向上させることです.
従来の動画像圧縮規格は30年以上にわたって開発されてきました.その開発の主な焦点は,各符号化コンポーネントにより複雑な機能を使用することです.たとえば,最新の動画像圧縮規格VVCでは,より多くのイントラ/インター予測モードとより大きな変換カーネルが使用されています.一方,過去10年間,ニューラルネットワークは画像分類や物体検出などの多くの分野で非常に重要な役割を果たしてきました.非線形性と特徴抽出の能力により,ニューラルネットワークは動画像圧縮にも貢献しています.最近のニューラルネットワークベースの動画像圧縮は,レート・歪みの指標でVVCを凌駕しています.
ニューラルネットワークの1つの使い方は,従来の動画像圧縮の各コンポーネントにニューラルネットワークを適用することです.たとえば,私はイントラ予測の精度を向上させるために,いくつかの畳み込みと全結合ニューラルネットワークを開発しました.もう1つの使い方は,エンドツーエンドのニューラルネットワークを開発することです.共同研究者とともに,アルゴリズムレベルからアーキテクチャレベルまで,画像圧縮用のいくつかの方法を提案しました.その中には,変分オートエンコーダーに基づく最適化レート・歪み特性を持つネットワーク,ビット単位の精度を持つ固定小数点演算を用いたネットワーク,リアルタイム符号化・復号システムなどが含まれます.さらに,一部の関連コードはGitHubで公開しています.
この研究では,2つの挑戦がありました.まずは,ニューラルネットワーク関連の研究の多くがそうであるように,この研究でもネットワークの学習に時間がかかることです.JSTさきがけ「革新的コンピューティング」のおかげでGPUを数台購入し,学習を加速させることができました.また,信号処理,ニューラルネットワーク,ハードウェア実装など,さまざまな知識が必要なことも難点です.多くの共同研究者の方々と議論し,総合的な知識体系を構築することができました.
この研究に関しては,本会で基調講演を1回,IEEEカンファレンスでチュートリアルを3回行いました.このうち,ICCVとWACVはIEEE Computer Societyの支援を受けています.また,IEEE論文誌の編集委員やIEEE国際学会のエリアチェアも務めています.今後,関連するトピックにもいくつか挑戦したいと思います.その1つは,人間視覚からマシン視覚に対象を拡張することです.ほかにも,生成AIやLLM技術を圧縮に応用することも考えています.また,複雑さやセキュリティといった実用的な問題も解決する必要があります.
このたびはありがとうございました.今後ともご指導ご鞭撻のほど,何卒よろしくお願いいたします.
■孫 鶴鳴(正会員)
2017年早稲田大学大学院情報生産システム研究科博士課程修了.NEC中央研究所研究員,早稲田大学理工総研次席研究員を経て,2023年より横浜国立大学大学院工学研究院准教授.
(2024年7月15日)
(2024年9月17日note公開)