Technology
Как я добавил llama.cpp бэкенд в CosyVoice3 и ускорил инференс в 2.6x
CosyVoice3 — одна из лучших open source TTS моделей, но LLM-часть на PyTorch работает медленно. Я добавил llama-cpp-python бэкенд с GGUF квантизацией — RTF упал с 1.17 до 0.45, ускорение 2.6x на T4. Установка одной командой, никакого Docker. Читать далее
H
Habr
25 апреля 2026 г.·1 мин чтения
GM
TechnologyCosyVoice3 — одна из лучших open source TTS моделей, но LLM-часть на PyTorch работает медленно. Я добавил llama-cpp-python бэкенд с GGUF квантизацией — RTF упал с 1.17 до 0.45, ускорение 2.6x на T4. Установка одной командой, никакого Docker.
Читать далееОригинальная статья
Как я добавил llama.cpp бэкенд в CosyVoice3 и ускорил инференс в 2.6x
Опубликовано Habr