見出し画像

【Cutwhisper】yt-dlpとfasterwhisperをUIで操作できるツール

yt-dlpとfasterwhisperをUIで操作できるようにした切り抜き動画支援ツール「Cutwhisper」を紹介します。

■プロフィール
自サークル「AI愛create」でAIコンテンツの販売・生成をしています。
クラウドソーシングなどで個人や他サークル様からの生成依頼を多数受注。
実際に生成した画像や経験したお仕事から有益となる情報を発信しています。
詳細はXから➡️@aiaicreate

はじめに

こちらは有料記事になります。
当サークルが紹介している有料記事は、ある程度ネットで調べれば分かるものです。
ただ似たような情報が数万円で販売されていたり、自分で調べると手間や時間がかかったりするため、そういったコストや手間を省きたいという方の為に低価格で情報を提供しています。

メンバーシップ(月額500円)に加入して頂くと、300円以下の有料記事が読み放題です。

「Cutwhisper」の機能紹介

Cutwhisperはyt-dlpとfasterwhisperをUIで操作できるようにしたものです。
中身はyt-dlpとfasterwhisperでgradioで操作できるようにしました。

主な機能は以下3つです。

  1. 動画のダウンロード

  2. 文字起こし

  3. 動画のダウンロードと文字起こしを一括処理

faster-Whisperだけ実行できれば良いとう方は以下の記事で紹介しています。(有料)

このツールでできること

※修正履歴
・2025年1月25日:txt・csvの取り込み、または手動で複数指定して一括DLできる機能を追加しました。

バッチファイルで簡単インストール

インストール用のバッチファイルを用意しているため、実行に必要なパッケージは自動でインストールできます。
※python・FFmpeg・CUDAなどは手動インストールが必要です。記事内にて解説しています。

YouTubeから動画をダウンロード

Gradio上でURL・時間指定・フォーマット(mp4・mkv・Webm)を選択して動画のダウンロードができます。
時間を指定しない場合はURLの動画がフルでダウンロードされます。

複数ダウンロード(ファイル)

txtやcsvに「URL,開始時間,終了時間」を記載して取り込むと一括ダウンロードできます。

・txtは行ごとにカンマ区切りで記載して取り込み
https://www.youtube.com/watch?v=XXXXXXXX,1:00,2:00
https://www.youtube.com/watch?v=XXXXXXXX,3:00,4:00

・表計算ソフトはセルごとに入力してcsv出力して取り込み

複数ダウンロード(手動入力)

UI上で複数指定してダウンロードすることも可能です。

動画からsrt・txt形式で文字起こし

ローカルにある動画を取り込んでfasterwhisperで処理できます。

  • 選べるモデル

    • large-v3, Large V3 Turbo,large-v2, medium, small, base, tiny

  • デバイス選択(CUDA/CPU)

    • GPU処理はNVIDIA CUDA対応のGPUが必要。

  • 出力形式(srt・txt・または両方)

    • txtはタイムコードの有無も指定可能

  • 言語(ja・en)

動画DLと文字起こしを一括処理

yt-dlpとfasterwhisperの処理を一括で行うこともできます。
単純に2つの処理をつなげたもので、1回の操作で動画ダウンロードと、その動画の文字起こしが可能です。

出力先フォルダの指定

それぞれの出力先を任意の場所に指定できます。
デフォルトの場合はフォルダ内のoutputsに自動出力されます。

購入時の注意

※必要スペック

Windows環境の方が対象です。win11で動作することは確認しています。
必要スペックはfasterwhisperが動けば問題ありません。
大体目安として言われているのは以下の通りです。

CPU:特に最低限の要件はないが、高性能なCPUほど処理速度が向上。
RAM:最小で約3GB(large-v2モデルの場合)。
GPU:モデルによるがVRAM8GB以上のグラボ

  • tiny:VRAM1GB

  • base:VRAM1GB

  • small:VRAM2GB

  • medium:VRAM5GB

  • large:VRAM10GB

必要容量:約10GB程度(CUDAやモデル含む)
複数モデルを使用する場合はそれに応じで容量も増加します。
largev3で1.5GBほどです。

こんな人におすすめ

  • 切り抜き動画を始めたいけど動画のダウンロード方法が分からない

  • 手動で字幕を作るのが面倒

  • 文字起こし機能がない編集ソフトを使っている

  • 編集ソフトの文字起こしよりfasterwhisperで文字起こししたい

  • コマンドラインじゃなくUIで操作したい

  • yt-dlpやfasterwhisperの最低限の機能が使えればいい

  • srt形式の字幕で良い人

    • 編集ソフトによってはsrt形式だと通常のキャプションよりスタイルやカスタマイズ性の自由度が低めです

おすすめしない人

  • yt-dlpやfasterwhisperを既に使えている

  • 自分で使いたいオプションやコマンドライン引数がある

  • Premiere Proなど文字起こし機能がある編集ソフトを使っている

  • 動画編集にsrtの字幕を使わない

ライセンス

yt-dlpはpublic domain、fasterwhisperはMIT licenseで、利用規約などはこちらに依存します。
どちらも商用利用可のライセンスになっていますが、詳細はgithubにてご確認ください。
https://github.com/SYSTRAN/faster-whisper
yt-dlp/yt-dlp: A feature-rich command-line audio/video downloader

保証
内部の動作はyt-dlpやfasterwhisperに依存し、以下のバージョンで動作確認を行っています。

  • yt-dlp: 2025.1.15

  • faster-whisper: 1.1.1

ライブラリのアップデートなどによる動作不良が発生した場合、対応できない可能性がございます。

もし環境や設定によっては正常に動作しない場合、noteの利用規約に基づき返金申請が可能です。
返金の申請方法 – noteヘルプセンター



ここから先は

3,914字 / 33画像 / 1ファイル
この記事のみ ¥ 500

よろしければサポートお願いします! いただいたサポートはクリエイターとしての活動費に使わせていただきます!