LangChainでYouTube動画の字幕を抽出する
海外サービスを見ていると文字ではなくYouTubeで説明資料を用意していることが散見され、説明を理解するのに視聴に時間がかるので、何とかならないかと思っていたら、
langchainにYoutubeLoaderというものがあり、字幕を取得できました。
from langchain.document_loaders import YoutubeLoader
def get_document(url):
loader = outubeLoader.from_youtube_url(
url,
add_video_info=True,
language=['en', 'ja']
)
return loader.load()
url = 'YOUTUBE_URL'
resp = get_document(url)
print(resp[0].page_content.split(' '))
ご参考まで。