Neural text-to-speech (TTS) systems have recently demonstrated the ability to synthesize high-quality natural speech. However, the inference latency and real-time factor (RTF) of such systems are still too high for deployment on devices without specialized hardware. In this paper, we describe StreamSpeech -- an optimized architecture of a complete TTS system that produces high-quality speech and runs faster than real time with imperceptible latency on resource-constrained devices by utilizing a single CPU core. We divide the standard TTS processing pipeline into three phases with respect to their operating resolution and optimize them separately. Our main novel contribution is the introduction of a lightweight convolutional acoustic model decoder, which enables streaming and low-latency speech generation. Experiments show that the resulting complete TTS system achieves 79 ms latency, 0.155 RTF on a low-power notebook x86 CPU and 276 ms latency, 0.289 RTF on a mid-range mobile ARM CPU with no noticeable difference in the quality of the generated speech.
We present a set of audio samples that demonstrate no degradation in the quality of the speech synthesized with the StreamSpeech system in comparison with a FastSpeech 2 + LPCNet baseline.
Input text | Ground truth | Baseline | StreamSpeech with noise reduction |
---|---|---|---|
Корабът се плъзгаше леко върху повърхността на морето. | |||
Пантерата, все още свита, се обърна неуверено към него. | |||
Стисвайки от болка жълтите си зъби, оркът бавно се добра до секирата си и се изправи на крака. | |||
Имаше известен снобизъм в предпочитанието му към левия бряг, а може би и наследство от неговата баба французойка. | |||
Такива карбуратори се наричат уравновесени и при тях съставът на горивната смес не зависи от промяната на съпротивлението на въздушния филтър. | |||
И аз го гледах през стъклата с моя далекоглед и виждах изумените лица на офицерите и екипажа, които, когато стана светло, видяха пред себе си фара, покрит с живи плъхове... | |||
И призовава израелската страна в бъдеще да изпълнява своите задължения или в противен случай Съветът ще бъде принуден да обсъди какви допълнителни мерки съгласно Хартата на ООН ще бъдат необходими за възстановяване и поддържане на мира. |
We also show that despite of the expected deterioration in the objective quality measures, applying noise reduction mitigates the excessive noise without decreasing the synthesized speech quality.
Input text | StreamSpeech without noise reduction | StreamSpeech with noise reduction |
---|---|---|
Това са хора, които копнеят - нещо, което е въпрос както на благоприличие, така и на просто оцеляване - да поправят стореното. | ||
И ако няма кой друг - било то човек или извънземен - да ни откъсне от тази прегръдка, тогава сме изправени пред една-единствена алтернатива: | ||
В края на краищата хората от кораба решиха, че ние не сме живи, виждайки как плъховете влизат и излизат през прозорците, и си тръгнаха. | ||
Цяла ролка жълта полицейска лента беше изхабена, за да се оградят дърветата, тъй като гората сега беше твърде опасна, за да се минава през нея. | ||
Вътрешният министър е категоричен, че полицията е действала професионално и не се е поддала на напрежението и провокациите. |
The text analysis module of StreamSpeech uses a novel grapheme-to-phoneme model called Accentor, which is published at INTERSPEECH 2023 (link).