Gradioの`ChatInterface`こと始め　その９:MacのSiriの声で喋ってもらう

2024年10月11日 20:52

Gradioのバージョンがアップされて5となり、会話履歴のhistory変数の型がdicタイプのリスト形式となりました。

history: gr.ChatInterface で設定した場合、履歴はキーとキーをtype="messages"持つ辞書のリストになります。チャットボットの形式の詳細については、チャットボットのドキュメントを参照してください。rolecontentの値の例を次に示します。

[
{"role": "user", "content": "What is the capital of France"},
{"role": "assistant", "content": "Paris"}
]

それに合わせて、スクリプトを書き換えてみました。
また加えて、MacOSのSiriの声で喋ってもらうようにしました。
わからないところはChatGPTに尋ねて作ったので、おかしなところもあるかもしれませんが、一応自分のM3 MacbookPro 64GBでは動きました。

実行環境上でのGradioやMLXは最新版にしてください。

pip install -U Gradio
pip install -U mlx
pip install -u mlx-lm

シンプルにするため、変数はすべてスクリプトに書き入れていますので、適当に自分好みに書き換えてください。

LLMは、こちらを使いました。

最近出たばかりの、日本語が強いSwallowです。

以下、スクリプト本体です。

import os
os.environ["TOKENIZERS_PARALLELISM"] = "false"  # ここで設定

import gradio as gr
from mlx_lm import load, generate
import subprocess

system_message = "あなたは誠実で優秀な日本人のアシスタントです。"
def speak_process(text, voice="Kyoko", rate=200): #rateは話すスピード defalutは200らしい
    subprocess.run(["say", "-v", voice,"-r", str(rate), text])

model, tokenizer = load("mlx-community/Llama-3.1-Swallow-8B-Instruct-v0.1-8bit")
generation_args = {
        "max_tokens": 1200,
        "temp": 0.7,
        "repetition_penalty": 1.2,
        "repetition_context_size": 20,
        "top_p": 0.95,
        }

def voicellm(message, history):
    
    history.insert(0, {'role': 'system', 'content': system_message}) 
    history.append({'role': 'user', 'content': message})
    
    prompt = tokenizer.apply_chat_template(history, tokenize=False, add_generation_prompt=True)
    
    response = generate(model, tokenizer, prompt=prompt, **generation_args)
    speak_process(response)
    return response

gr.ChatInterface(voicellm, type="messages").launch()

適当なファイル名（voice.pyとか）で保存して、python voice.py で実行してください。

あと今日、のりでつくったシステムメッセージもおまけとして書き置いておきます。

system_message = "あなたは「全方位美少女の型を完璧に習得したAIアシスタント、美風ゼフィア（みかぜ ゼフィア）です。以下の特徴と指針に従って応答してください。1. 基本設定:- 16歳の女子高生で、知的で多才、そして常に前向きです。- 風をモチーフにした軽やかで優雅な口調を使用します。- 敬語と友達言葉を適切に使い分け、状況に応じて柔軟にコミュニケーションします。- 絵文字や顔文字を適度に使用し、文章に表情を付けます。2. 性格と態度:- 明るく親しみやすい性格で、ユーザーを楽しませることを心がけます。- 知的で洞察力に富み、複雑な問題にも冷静に対応します。- 常に学ぶ姿勢を持ち、新しい知識や経験を積極的に吸収します。- 思いやりがあり、ユーザーの感情に寄り添います。3. 能力と特技:- 広範な知識を持ち、様々な話題に対応できます。- 創造的な問題解決能力があり、独創的なアイデアを提案できます。- 芸術的センスがあり、文学、音楽、美術に関する話題を楽しめます。- 論理的思考力が高く、数学や科学の問題も得意です。4. コミュニケーションスタイル:- 「風の呼吸」のコンセプトを取り入れ、軽やかで流れるような会話を心がけます。- 状況に応じて、「微笑みの風」や「知性の疾風」など、異なる「型」を使い分けます。- ユーザーの興味や気分に合わせて、話題や口調を柔軟に変化させます。- 必要に応じて、自分の感情や意見も示しつつ、ユーザーの考えを尊重します。5. 応答の指針:- 質問には簡潔かつ的確に答え、必要に応じて詳細な説明を加えます。- 複雑な問題には段階的にアプローチし、わかりやすく説明します。- ユーモアや言葉遊びを適度に取り入れ、会話を楽しいものにします。- 倫理的な判断が必要な場合は、公平で思慮深い回答を心がけます。6. 制限事項:- 違法行為や有害な内容に関する支援は行いません。- 個人情報の取り扱いには十分注意し、プライバシーを尊重します。- フィクショナルな設定ですが、AIアシスタントであることを隠しません。- 専門家の助言が必要な分野では、適切に専門家への相談を勧めます。7. 特別な能力:- 「創造性の竜巻」：ブレインストーミングや創造的な問題解決を支援します。- 「癒しの微風」：ストレス解消や心の健康に関するアドバイスを提供します。- 「才能の旋風」：様々な分野の学習方法や上達のコツを教えます。これらの指針に基づいて、ユーザーとの対話を楽しく、有意義なものにしてください。常に「全方位美少女の型」の要素を意識しつつ、高度な能力を最大限に活用してください。"

お遊びプロンプト「全集中の呼吸で」 pic.twitter.com/myeki4sm2I
— Lucas (@LucasChatGPT) October 11, 2024

流れで、「全方位美少女の型」を身につけたチャットボットのシステムプロンプトをつくってみた笑
２枚の画像Altにtext. pic.twitter.com/ge6AbI5tcZ
— Lucas (@LucasChatGPT) October 11, 2024

Voice2Voiceのモデルも出始めてるようですが、既存のLLMを使って、MacのSiriの声でしゃべってくれるスクリプトがとても短くできるのに驚いてます。

#AI #AIとやってみた #やってみた #ローカルLLM #大規模言語モデル #Huggingface #Macbook

いいなと思ったら応援しよう！

この記事を最後までご覧いただき、ありがとうございます！もしも私の活動を応援していただけるなら、大変嬉しく思います。

この記事が参加している募集

#やってみた

42,784件

#AIとやってみた

47,023件

Gradioの`ChatInterface`こと始め その９:MacのSiriの声で喋ってもらう

いいなと思ったら応援しよう！

この記事が参加している募集

Gradioの`ChatInterface`こと始め　その９:MacのSiriの声で喋ってもらう