目次
2026 年 3 月現在、注目の AI 音声合成(TTS)プロジェクトが 3 つある。
- LuxTTS - 150 倍の高速動作と 48kHz 高音質
- Irodori-TTS - 絵文字によるスタイル制御と日本語対応
- Kizuna Voice Studio - GUI で簡単に音声モデルを作成
それぞれ異なるアプローチで AI 音声合成を実現している。本稿はこれら 3 つの特徴と使い分けを解説する。
1. LuxTTS——高速・高品質な音声クローニング
LuxTTSは、高品質な音声クローニングを高速に動作させることを目指した TTS モデルだ。
主な特徴
| 特徴 | 詳細 |
|---|---|
| 速度 | 150 倍リアルタイム(単一 GPU)、CPU でもリアルタイム以上 |
| 音質 | 48kHz(他モデルの 24kHz の 2 倍) |
| VRAM | 1GB 以下(軽量) |
| ライセンス | Apache-2.0 |
技術的な特徴
- ZipVoice アーキテクチャ - 4 ステップに蒸留された拡散モデル
- 改善されたサンプリング技術 - 効率的な推論
- カスタム 48kHz ボコーダー - 高音質出力
使い方
from zipvoice.luxvoice import LuxTTS
# GPU でモデルをロード
lux_tts = LuxTTS('YatharthS/LuxTTS', device='cuda')
# 音声ファイルをエンコード
encoded_prompt = lux_tts.encode_prompt('audio_file.wav', rms=0.01)
# 音声を生成
final_wav = lux_tts.generate_speech('Hey, what\'s up?', encoded_prompt, num_steps=4)
# 保存
import soundfile as sf
sf.write('output.wav', final_wav.numpy().squeeze(), 48000)
おすすめなユースケース
- 高速性が求められる場合 - リアルタイム音声合成
- 高音質が必要な場合 - 48kHz 出力
- 軽量環境 - 1GB VRAM で動作
2. Irodori-TTS——日本語対応・絵文字スタイル制御
Irodori-TTSは、Flow Matching ベースの TTS モデルで、日本語対応と絵文字によるスタイル制御が特徴だ。
主な特徴
| 特徴 | 詳細 |
|---|---|
| アーキテクチャ | Flow Matching(Rectified Flow Diffusion Transformer) |
| モデルサイズ | 500M パラメータ |
| 音質 | 48kHz(Semantic-DACVAE-Japanese-32dim) |
| 特徴 | 絵文字によるスタイル制御、ゼロショット音声クローニング |
| ライセンス | 要確認 |
技術的な特徴
- Flow Matching TTS - 効率的な拡散モデル
- ゼロショット音声クローニング - 参照音声から話者をクローニング
- マルチ GPU トレーニング - 分散トレーニング対応
- PEFT LoRA ファインチューニング - パラメータ効率的な適応
使い方
# 推論
uv run python infer.py \
--hf-checkpoint Aratako/Irodori-TTS-500M-v2 \
--text "今日はいい天気ですね。" \
--ref-wav path/to/reference.wav \
--output-wav outputs/sample.wav
おすすめなユースケース
- 日本語音声合成 - 日本語に最適化
- 感情表現 - 絵文字でスタイル制御
- ファインチューニング - 独自データでの学習
3. Kizuna Voice Studio——GUI で簡単音声モデル作成
Kizuna Voice Studioは、自分だけの読み上げ音声を作るためのデスクトップアプリだ。
主な特徴
| 特徴 | 詳細 |
|---|---|
| 対応 OS | Windows(NVIDIA/AMD)、Linux(NVIDIA)、macOS(Apple Silicon) |
| 対応 TTS | Piper TTS、Style-Bert-VITS2、MioTTS |
| GUI - GUI で簡単に操作 | |
| ライセンス - Apache-2.0(一部 Kizuna Community License、AGPL v3.0) |
特徴
- 日本語で声の設計 - 日本語の説明から種音声を作成
- 3 つの TTS モデル - Piper TTS、Style-Bert-VITS2、MioTTS から選択
- Python パッケージ出力 - 学習済みモデルを pip install 可能に
使い方
- アプリを起動
- 日本語で声の説明を入力
- 種音声を生成・確認
- TTS モデルを選択して学習
- Python パッケージとして書き出し
# 書き出したパッケージをインストール
pip install piper-voice.zip
# 使用例
from piper_voice import load_voice
voice = load_voice()
voice.synthesize_to_file("こんにちは", "sample.wav")
おすすめなユースケース
- 非技術者 - GUI で簡単に操作
- オリジナル音声 - 自分だけの音声を作成
- 手軽さ重視 - 設定を最小限に
3 つの比較
| 項目 | LuxTTS | Irodori-TTS | Kizuna Voice Studio |
|---|---|---|---|
| 速度 | 150x リアルタイム | 標準 | 標準 |
| 音質 | 48kHz | 48kHz | 24-48kHz(モデルによる) |
| 日本語 | 対応 | 最適化 | 対応 |
| GUI | なし | なし(Gradio あり) | あり |
| 簡単さ | 中 | 中 | 高 |
| カスタマイズ | 高 | 高 | 中 |
| ライセンス | Apache-2.0 | 要確認 | Apache-2.0(一部制限) |
使い分けの指針
LuxTTS がおすすめな場合
- 高速性が最優先 - リアルタイム音声合成
- 高音質が必要 - 48kHz 出力
- 軽量環境 - 1GB VRAM で動作
- 技術者 - Python コードを書ける
Irodori-TTS がおすすめな場合
- 日本語音声合成 - 日本語に最適化
- 感情表現 - 絵文字でスタイル制御
- ファインチューニング - 独自データでの学習
- 技術者 - トレーニングコードを書ける
Kizuna Voice Studio がおすすめな場合
- 非技術者 - GUI で簡単に操作
- 手軽さ重視 - 設定を最小限に
- オリジナル音声 - 自分だけの音声を作成
- 複数モデル - Piper、Style-Bert-VITS2、MioTTS を使い分け
結論:目的に合わせて選ぼう
3 つのプロジェクトはそれぞれ異なるアプローチで AI 音声合成を実現している。
- LuxTTS - 高速・高音質・軽量
- Irodori-TTS - 日本語・感情表現・ファインチューニング
- Kizuna Voice Studio - GUI・手軽さ・オリジナル音声
目的に合わせて使い分けるのがおすすめだ。
参考:
引用元・参考リンク
免責事項 — 掲載情報は執筆時点のものです。料金・機能は変更される場合があります。最新情報は各公式サイトをご確認ください。