AITuber — ローカルLLMで動く2キャラ同時会話AI配信システムを個人開発した話

このプロジェクトについて

「AITuber」は、ローカルで動くLLMとTTSを使って、2体のバーチャルキャラクターがリアルタイムで掛け合いトークをするAI配信システムです。

YouTube LiveやTwitchで配信しながら、視聴者のコメントにも自動で反応します。クラウドAPIに依存せず、RTX 5090 1枚でLLM推論からTTS音声合成、アバター描画まで完結するのが特徴です。

キャラクター

キャラ	役割	アバター
白紙ちゃん	メインMC。ツッコミ・解説担当	VRM（Three.js）
ツインテールちゃん	サブMC。明るく元気なトーク担当	Live2D（PixiJS + Cubism4）

2人の掛け合いは50秒サイクルで自動生成され、30%の確率で視聴者コメントをトピックに取り込みます。

システム構成

    graph TD
    subgraph OBS["OBS Studio"]
        VRM["VRM表示<br/>白紙ちゃん"]
        L2D["Live2D表示<br/>ツインテールちゃん"]
        OV["オーバーレイ<br/>メトリクス・コメント"]
    end

    ORC["Orchestrator<br/>50秒サイクルで会話を自動生成・制御"]

    VRM --> ORC
    L2D --> ORC
    OV --> ORC

    ORC --> LLM["LLM Engine<br/>vLLM + Qwen3.5"]
    ORC --> TTS["TTS<br/>Style-BERT-VITS2"]

主要コンポーネント

コンポーネント	技術	ポート
LLM推論	vLLM + Qwen3.5-35B	:8000
音声合成	Style-BERT-VITS2 (SBV2)	:8005
VRMアバター	Three.js + Vite	:5173
Live2Dアバター	PixiJS + Cubism4 + Vite	:5174
オーケストレーター	Node.js（会話ループ制御）	:3001
配信制御	OBS WebSocket + obs-mcp	—

技術的なこだわり

ローカル完結

クラウドAPIを使わないので、配信中の通信コストはゼロ。RTX 5090のVRAM 32GBに収まるようモデルサイズとバッチを調整しています。Qwen3.5-35Bで約67 tok/sの推論速度を実現。

リアルタイム掛け合い

50秒サイクルの中で「台本生成 → TTS → リップシンク → 表示」を完結させます。OrchestratorがSSE（Server-Sent Events）でフロントエンドと通信し、発話タイミングを制御。

OBS自動化

Claude Codeから obs-mcp 経由でOBSを直接操作。配信開始・終了・シーン切替・テロップ変更まで、ターミナルから「配信開始して」と言うだけで実行できます。

マルチノード対応

メインPCでLLM推論、サブPCでTTSやVLMを分担。SSHトンネルで接続し、負荷を分散しています。

このプロジェクトに関連する技術記事を各プラットフォームで公開しています。

Qiita

Zenn

RTX 5090環境におけるAITuber開発ログ：vLLMからllama.cppへの移行とContext Window最適化の検証

ショート動画

AITuberのキャラクター「リンネ」を主役にしたショート動画もTikTok・YouTubeで展開中です。AIクイズ形式のコンテンツを週3〜5本ペースで制作しています。

今後の展望

VRChat連携: リンネのアバターをVRChat内で動かし、uLipSyncによるTTS駆動リップシンクを実現（開発中）
ショート動画量産: Gemini画像生成 + Video2Xアップスケールによる制作パイプラインの自動化
視聴者インタラクション強化: コメント応答の精度向上、ゲーム連携

このプロジェクトは個人開発として継続中です。進捗は X (@toki_mwc) で発信しています。