Home AssistantでStyle-Bert-VITS2を喋らせるまでの作業ログ

ilapaj

お知らせ

Mizuki v7.6.5にアップデートしました。

Learn More

2053 字

10 分

Home AssistantでStyle-Bert-VITS2を喋らせるまでの作業ログ

2025-11-24

IT

homelab

/

home-assistant

この記事は、Gemini 3 に作業ログを読み込ませて生成したものです。内容の正確性については十分に注意を払っていますが、事実誤認や不適切な表現が含まれる可能性があります。ご了承ください。

Home Assistant（以下HA）の音声読み上げ（TTS）を、より人間らしく、感情豊かなものにしたい。そんな思いから、ローカルLLM界隈で評価の高い音声合成エンジン 「Style-Bert-VITS2」 （Dockerイメージ: litagin02/Style-Bert-VITS2）を導入し、HAと連携させるまでの試行錯誤の記録です。

既存の統合がそのままでは使えず、長文読み上げの壁にもぶつかりましたが、最終的に 「HA側で専用のカスタムコンポーネントを自作する」 ことで、Dockerコンテナを改造することなく完璧な動作を実現しました。

目標構成#

TTSサーバー: litagin02/Style-Bert-VITS2 (Docker)
- APIエンドポイント: http://<YOUR_SBV2_IP>:5000/voice
クライアント: Home Assistant (OS/Container)
要件:
- ネット不要の完全ローカル動作。
- HAの標準TTSとして認識させる（オートメーションで使いやすくする）。
- 100文字を超える長文もエラーなく読み上げる。

直面した課題と解決のプロセス#

1. 既存のVOICEVOX統合が動かない#

Style-Bert-VITS2の実装の多くはVOICEVOX互換APIを持っているため、最初はHACSで公開されている ha-voicevox 統合にそのまま追加できないかと考えました。しかし、接続を試みるとエラーが発生しました。

原因: 今回使用した litagin02 版のコンテナは、ブラウザでの利用を想定した簡易API (/voice) がメインで動いており、本家VOICEVOX統合が要求する厳密なAPI仕様（/audio_query でクエリ生成 → /synthesis で合成という2段階方式）と、エンドポイントの挙動が一部異なっていた（あるいは統合側が期待するレスポンスと噛み合わなかった）ようです。

2. GETリクエストの文字数制限（100文字の壁）#

既存統合を諦め、簡易API (/voice) を直接叩くカスタムコンポーネントを自作することにしました。しかし、ここで新たな問題が発生します。「こんにちは」のような短い挨拶は問題なく喋りますが、100文字を超えるような長文を送ると、リクエストが失敗してしまうのです。

推測される原因: 簡易APIは GET リクエストでパラメータを受け取る仕様でした。一般的にGETリクエストにはURL長制限がありますが、今回はわずか100文字程度で失敗するため、サーバー（Style-Bert-VITS2コンテナ）側の仕様、あるいはPythonの requests ライブラリとAPIサーバー間のエンコード処理において、何らかのボトルネックが存在するようです。
制約: サーバー側のコードを修正して POST 対応にすれば解決しそうですが、配布されているDockerイメージをそのまま運用したい（更新時のメンテナンスコストを下げたい）ため、サーバー側には手を加えない方針としました。

作業後の注釈: 具体的にはここで、リクエストの最大値を100文字に制限しているっぽい。configを上書きしてしまえば、100文字問題は解決するかもしれない。が、「BERTのAttentionメカニズムはシーケンス長の二乗に比例して計算量が増加する」らしいので、あまりにも長い文章を許可すると、それはそれで問題が生じるかもしれない。

Style-Bert-VITS2/config.py at c093d558ee2fe83f99952aad6c4f9cd450d096fd · RedRayz/Style-Bert-VITS2

Style-Bert-VITS2: Bert-VITS2 with more controllable voice styles. - RedRayz/Style-Bert-VITS2

github.com

3. 最終解決策：クライアント側分割アプローチ#

サーバー側の制限を回避するため、HA側のコンポーネントで 「長文を句読点で分割し、短いリクエストとして連続送信し、返ってきた音声を結合する」 ロジックを実装することにしました。

実装手順（完全版）#

以下の手順で、独自のカスタムコンポーネント sbv2_simple を導入します。

ステップ1: ディレクトリ作成#

Home Assistantの /config ディレクトリ内に以下のフォルダ構成を作ります。

1
/config
2
  └ custom_components
3
      └ sbv2_simple

ステップ2: マニフェストファイルの作成#

/config/custom_components/sbv2_simple/manifest.json を作成します。

1
{
2
  "domain": "sbv2_simple",
3
  "name": "Style-Bert-VITS2 Simple",
4
  "documentation": "https://github.com/litagin02/Style-Bert-VITS2",
5
  "dependencies": [],
6
  "codeowners": [],
7
  "requirements": ["requests"],
8
  "version": "1.0.0",
9
  "iot_class": "local_push"
10
}

ステップ3: プログラム本体の実装#

/config/custom_components/sbv2_simple/tts.py を作成し、以下のコードを配置します。

このコードには以下の機能が含まれます：

自動分割: 句読点（。、！？）を基準に文章を分割。
安全性確保: 分割単位を 75文字 に制限し、100文字の壁を安全に回避。
WAV結合: 受信した複数のWAVバイナリからヘッダを除去し、PCMデータを結合して正しいWAVヘッダを再計算・付与。

1
import logging
2
import requests
3
import io
4
import struct
5
import re
6
import voluptuous as vol
7

8
from homeassistant.components.tts import Provider, PLATFORM_SCHEMA, CONF_LANG
9
from homeassistant.const import CONF_HOST, CONF_PORT
10
import homeassistant.helpers.config_validation as cv
11

12
_LOGGER = logging.getLogger(__name__)
13

14
# --- 設定 ---
15
# サーバーのIPアドレスとポートを設定（環境に合わせて変更してください）
16
DEFAULT_HOST = "192.168.x.x"
17
DEFAULT_PORT = 5000
18
DEFAULT_LANG = "ja-JP"
19

20
# 1回のリクエストで送る最大文字数
21
# 100文字を超えるとリクエストが失敗する現象を回避するため、安全マージンを見て75文字に設定
22
MAX_CHARS_PER_REQUEST = 75
23

24
CONF_MODEL_ID = "model_id"
25
CONF_STYLE = "style"
26
CONF_SDP_RATIO = "sdp_ratio"
27
CONF_NOISE = "noise"
28
CONF_LENGTH = "length"
29

30
PLATFORM_SCHEMA = PLATFORM_SCHEMA.extend({
31
    vol.Optional(CONF_HOST, default=DEFAULT_HOST): cv.string,
32
    vol.Optional(CONF_PORT, default=DEFAULT_PORT): cv.port,
33
    vol.Optional(CONF_MODEL_ID, default=0): cv.positive_int,
34
    vol.Optional(CONF_STYLE, default="Neutral"): cv.string,
35
    vol.Optional(CONF_SDP_RATIO, default=0.2): vol.Coerce(float),
36
    vol.Optional(CONF_NOISE, default=0.6): vol.Coerce(float),
37
    vol.Optional(CONF_LENGTH, default=1.0): vol.Coerce(float),
38
    vol.Optional(CONF_LANG, default=DEFAULT_LANG): cv.string,
39
})
40

41
def get_engine(hass, config, discovery_info=None):
42
    return SBV2Provider(config)
43

44
class SBV2Provider(Provider):
45
    """Style-Bert-VITS2 Provider with Long Text Support"""
46

47
    def __init__(self, config):
48
        self._host = config[CONF_HOST]
49
        self._port = config[CONF_PORT]
50
        self._model_id = config[CONF_MODEL_ID]
51
        self._style = config[CONF_STYLE]
52
        self._sdp_ratio = config[CONF_SDP_RATIO]
53
        self._noise = config[CONF_NOISE]
54
        self._length = config[CONF_LENGTH]
55
        self._lang = config[CONF_LANG]
56
        self.name = "Style-Bert-VITS2"
57

58
    @property
59
    def default_language(self):
60
        return self._lang
61

62
    @property
63
    def supported_languages(self):
64
        return [self._lang]
65

66
    def get_tts_audio(self, message, language, options=None):
67
        """音声を生成する（長文対応版）"""
68

69
        # 1. 文章を分割する
70
        chunks = self._split_text(message, MAX_CHARS_PER_REQUEST)
71
        wav_parts = []
72

73
        # 2. 分割した文章ごとにサーバーへリクエスト
74
        for i, chunk in enumerate(chunks):
75
            _LOGGER.debug(f"Requesting chunk {i+1}/{len(chunks)}: {chunk}")
76
            wav_data = self._request_wav(chunk)
77
            if wav_data:
78
                wav_parts.append(wav_data)
79
            else:
80
                _LOGGER.error(f"Failed to generate audio for chunk: {chunk}")
81
                return None, None
82

83
        if not wav_parts:
84
            return None, None
85

86
        # 3. 複数のWAVデータを1つに結合する
87
        combined_wav = self._combine_wavs(wav_parts)
88
        return "wav", combined_wav
89

90
    def _request_wav(self, text):
91
        """サーバーにリクエストを送る内部関数"""
92
        url = f"http://{self._host}:{self._port}/voice"
93
        params = {
94
            "text": text,
95
            "model_id": self._model_id,
96
            "style": self._style,
97
            "sdp_ratio": self._sdp_ratio,
98
            "noise": self._noise,
99
            "length": self._length,
100
            "language": "JP"
101
        }
102
        try:
103
            # タイムアウトを20秒に設定
104
            response = requests.get(url, params=params, timeout=20)
105
            if response.status_code == 200:
106
                return response.content
107
            return None
108
        except Exception as e:
109
            _LOGGER.error(f"Connection Error: {e}")
110
            return None
111

112
    def _split_text(self, text, max_len):
113
        """句読点などを考慮して文章を分割する"""
114
        parts = re.split(r'([。、！？\n]+)', text)
115
        chunks = []
116
        current_chunk = ""
117

118
        for part in parts:
119
            if len(current_chunk) + len(part) <= max_len:
120
                current_chunk += part
121
            else:
122
                if current_chunk:
123
                    chunks.append(current_chunk)
124

125
                if len(part) > max_len:
126
                    for i in range(0, len(part), max_len):
127
                        chunks.append(part[i:i+max_len])
128
                    current_chunk = ""
129
                else:
130
                    current_chunk = part
131

132
        if current_chunk:
133
            chunks.append(current_chunk)
134

135
        return [c for c in chunks if c.strip()]
136

137
    def _combine_wavs(self, wav_bytes_list):
138
        """
139
        複数のWAVバイナリを1つに結合する
140
        （単純結合ではなく、ヘッダを除去してPCMデータを繋ぎ、ヘッダを再計算する）
141
        """
142
        if len(wav_bytes_list) == 1:
143
            return wav_bytes_list[0]
144

145
        data_chunks = []
146
        fmt_chunk = None
147

148
        for wav_bytes in wav_bytes_list:
149
            try:
150
                data_marker_index = wav_bytes.find(b'data')
151
                if data_marker_index == -1: continue
152

153
                data_size = int.from_bytes(wav_bytes[data_marker_index+4 : data_marker_index+8], 'little')
154
                raw_data = wav_bytes[data_marker_index+8 : data_marker_index+8+data_size]
155

156
                data_chunks.append(raw_data)
157

158
                if fmt_chunk is None:
159
                    fmt_chunk = wav_bytes[:data_marker_index]
160
            except Exception:
161
                continue
162

163
        if fmt_chunk is None or not data_chunks:
164
            return wav_bytes_list[0]
165

166
        combined_data = b''.join(data_chunks)
167
        total_data_len = len(combined_data)
168

169
        file_size = len(fmt_chunk) + 8 + total_data_len
170
        riff_size_bytes = (file_size - 8).to_bytes(4, 'little')
171
        new_header = fmt_chunk[:4] + riff_size_bytes + fmt_chunk[8:]
172

173
        final_wav = new_header + b'data' + total_data_len.to_bytes(4, 'little') + combined_data
174
        return final_wav

ステップ4: 設定の有効化#

configuration.yaml に以下を追記します。 ※IPアドレスはご自身の環境に合わせて変更してください。

1
tts:
2
  - platform: sbv2_simple
3
    host: 192.168.x.x  # サーバーのIPアドレス
4
    port: 5000
5
    model_id: 0
6
    style: "Neutral"   # 必要に応じて "Happy", "Sad" などに変更可能