TTS 比較イメージ
AI 音声合成プロジェクト比較 | GitHub
目次

2026 年 3 月現在、注目の AI 音声合成(TTS)プロジェクトが 3 つある。

  1. LuxTTS - 150 倍の高速動作と 48kHz 高音質
  2. Irodori-TTS - 絵文字によるスタイル制御と日本語対応
  3. Kizuna Voice Studio - GUI で簡単に音声モデルを作成

それぞれ異なるアプローチで AI 音声合成を実現している。本稿はこれら 3 つの特徴と使い分けを解説する。

1. LuxTTS——高速・高品質な音声クローニング

LuxTTSは、高品質な音声クローニングを高速に動作させることを目指した TTS モデルだ。

主な特徴

特徴 詳細
速度 150 倍リアルタイム(単一 GPU)、CPU でもリアルタイム以上
音質 48kHz(他モデルの 24kHz の 2 倍)
VRAM 1GB 以下(軽量)
ライセンス Apache-2.0

技術的な特徴

  • ZipVoice アーキテクチャ - 4 ステップに蒸留された拡散モデル
  • 改善されたサンプリング技術 - 効率的な推論
  • カスタム 48kHz ボコーダー - 高音質出力

使い方

from zipvoice.luxvoice import LuxTTS

# GPU でモデルをロード
lux_tts = LuxTTS('YatharthS/LuxTTS', device='cuda')

# 音声ファイルをエンコード
encoded_prompt = lux_tts.encode_prompt('audio_file.wav', rms=0.01)

# 音声を生成
final_wav = lux_tts.generate_speech('Hey, what\'s up?', encoded_prompt, num_steps=4)

# 保存
import soundfile as sf
sf.write('output.wav', final_wav.numpy().squeeze(), 48000)

おすすめなユースケース

  • 高速性が求められる場合 - リアルタイム音声合成
  • 高音質が必要な場合 - 48kHz 出力
  • 軽量環境 - 1GB VRAM で動作

2. Irodori-TTS——日本語対応・絵文字スタイル制御

Irodori-TTSは、Flow Matching ベースの TTS モデルで、日本語対応と絵文字によるスタイル制御が特徴だ。

主な特徴

特徴 詳細
アーキテクチャ Flow Matching(Rectified Flow Diffusion Transformer)
モデルサイズ 500M パラメータ
音質 48kHz(Semantic-DACVAE-Japanese-32dim)
特徴 絵文字によるスタイル制御、ゼロショット音声クローニング
ライセンス 要確認

技術的な特徴

  • Flow Matching TTS - 効率的な拡散モデル
  • ゼロショット音声クローニング - 参照音声から話者をクローニング
  • マルチ GPU トレーニング - 分散トレーニング対応
  • PEFT LoRA ファインチューニング - パラメータ効率的な適応

使い方

# 推論
uv run python infer.py \
 --hf-checkpoint Aratako/Irodori-TTS-500M-v2 \
 --text "今日はいい天気ですね。" \
 --ref-wav path/to/reference.wav \
 --output-wav outputs/sample.wav

おすすめなユースケース

  • 日本語音声合成 - 日本語に最適化
  • 感情表現 - 絵文字でスタイル制御
  • ファインチューニング - 独自データでの学習

3. Kizuna Voice Studio——GUI で簡単音声モデル作成

Kizuna Voice Studioは、自分だけの読み上げ音声を作るためのデスクトップアプリだ。

主な特徴

特徴 詳細
対応 OS Windows(NVIDIA/AMD)、Linux(NVIDIA)、macOS(Apple Silicon)
対応 TTS Piper TTS、Style-Bert-VITS2、MioTTS
GUI - GUI で簡単に操作
ライセンス - Apache-2.0(一部 Kizuna Community License、AGPL v3.0)

特徴

  • 日本語で声の設計 - 日本語の説明から種音声を作成
  • 3 つの TTS モデル - Piper TTS、Style-Bert-VITS2、MioTTS から選択
  • Python パッケージ出力 - 学習済みモデルを pip install 可能に

使い方

  1. アプリを起動
  2. 日本語で声の説明を入力
  3. 種音声を生成・確認
  4. TTS モデルを選択して学習
  5. Python パッケージとして書き出し
# 書き出したパッケージをインストール
pip install piper-voice.zip

# 使用例
from piper_voice import load_voice

voice = load_voice()
voice.synthesize_to_file("こんにちは", "sample.wav")

おすすめなユースケース

  • 非技術者 - GUI で簡単に操作
  • オリジナル音声 - 自分だけの音声を作成
  • 手軽さ重視 - 設定を最小限に

3 つの比較

項目 LuxTTS Irodori-TTS Kizuna Voice Studio
速度 150x リアルタイム 標準 標準
音質 48kHz 48kHz 24-48kHz(モデルによる)
日本語 対応 最適化 対応
GUI なし なし(Gradio あり) あり
簡単さ
カスタマイズ
ライセンス Apache-2.0 要確認 Apache-2.0(一部制限)

使い分けの指針

LuxTTS がおすすめな場合

  • 高速性が最優先 - リアルタイム音声合成
  • 高音質が必要 - 48kHz 出力
  • 軽量環境 - 1GB VRAM で動作
  • 技術者 - Python コードを書ける

Irodori-TTS がおすすめな場合

  • 日本語音声合成 - 日本語に最適化
  • 感情表現 - 絵文字でスタイル制御
  • ファインチューニング - 独自データでの学習
  • 技術者 - トレーニングコードを書ける

Kizuna Voice Studio がおすすめな場合

  • 非技術者 - GUI で簡単に操作
  • 手軽さ重視 - 設定を最小限に
  • オリジナル音声 - 自分だけの音声を作成
  • 複数モデル - Piper、Style-Bert-VITS2、MioTTS を使い分け

結論:目的に合わせて選ぼう

3 つのプロジェクトはそれぞれ異なるアプローチで AI 音声合成を実現している。

  • LuxTTS - 高速・高音質・軽量
  • Irodori-TTS - 日本語・感情表現・ファインチューニング
  • Kizuna Voice Studio - GUI・手軽さ・オリジナル音声

目的に合わせて使い分けるのがおすすめだ。


参考:

引用元・参考リンク

免責事項 — 掲載情報は執筆時点のものです。料金・機能は変更される場合があります。最新情報は各公式サイトをご確認ください。