広告動画に含まれる様々な特徴量を解析してみる!
はじめに
初めまして、Tas Design Groupの学生アルバイトの難波です。私は情報系の学部に所属しており、学んできた情報の知識をさらに深めたいと思い、この仕事をさせて頂いており、AIに関する最新技術の応用方法など様々なことをアルバイトを通して勉強できている日々です。😀
目的
AIなどのIT関連最新技術を、どのように企業などのクライアントのタスクに応用できるかを研究するという目的のもと、我々アルバイトその下流のタスクである、コーディングや最新の研究のリサーチなどに取り組んでいます。具体的には、以下のようなタスクに取り組んできました。
バラエティに富む広告動画を特徴づける特徴量の調査
業務効率化のためのAPIの活用
APIとは、アプリケーション・プログラミング・インターフェースの略で、アプリケーションとプログラムとを繋ぐ役割を持っています。
ChatGPTなどに用いられている大規模言語モデル(LLM)や、動画生成に関する調査
物体検出ソフトウェアを用いた水槽内の魚の物体検出
詳細
バラエティに富む広告動画を特徴づける特徴量の調査というタスクについて、具体的にどのようなことをしたのかを紹介させて頂きます。
15秒から30秒ほどの広告動画は非常にバラエティに富んでおり、それらの広告動画を特徴づける特徴量を調べました。CMは音声と映像から構成されており、音声でどのようなメッセージを伝えているか、どのようなイメージを持つような音声か、また、映像から得られる色調などがCM動画の特徴量になり得そうだ、ということが分かります。
そこで、CM動画を特徴づけている特徴量として、音データから、音響ベクトル、文字起こしによるテキストから得られたベクトル、画像データからは色調ベクトルが、挙げられると仮定しました。また、そのような特徴量をコンピュータが扱える形にするには、それらのデータを高次元のベクトルにする必要があります。
音響ベクトル:facebook/data2vec-audio-base-960hを使用。音声データを高次元ベクトルに変換することができる。
テキストベクトル:音声データからテキストベクトルを得るために、文字起こしのソフトウェアである、Whisperを使用し、そのテキストをベクトルに日本語で事前学習済みのBERT(cl-tohoku/bert-base-japanese-whole-word-masking)を使用
色調ベクトル:シンプルに動画内の各フレーム、各画素でのR, G, Bの値を使用
結果
音響ベクトル、テキストベクトル、色調ベクトルが実際に、広告動画の特徴を捉えた表現学習手法であるかを調べるため、tSNEという手法によってベクトルの高次元での類似性をプロットしました。この図では、高次元ベクトルが似ているものは2次元グラフ上で近い点にプロットされ、類似した動画がまとまってプロットされればこれら3つのベクトルはうまく広告動画の特徴を捉えていると言えます。
青色のプロットはシリーズもののCMを表しており、類似度が高いことがわかっているもので、赤いプロットはそれ以外の様々なCM動画を表している。
青いプロットがある程度固まっている。
→広告動画の特徴を捉えた表現学習手法を見つけることに成功!!
終わりに
このように様々なタスクを経験する中で、様々なAI関連技術を勉強することができ、自身のスキルアップにも直結できるアルバイトだなと感じています。🧐 実際に、本アルバイトで学習した高次元ベクトル間の類似性を可視化させる技術であるtSNEは私自身の卒業研究にも使わせて頂きました。
この記事が気に入ったらサポートをしてみませんか?