Ir al contenido principal

Mejores Modelos Open Source de Texto a Voz (TTS): Ranking Completo [2026]

20 de febrero de 2026
18 min

Ranking de los mejores modelos TTS open source en 2026: Orpheus TTS, Piper, Coqui, Bark y XTTS-v2. Calidad de voz, idiomas soportados y como instalarlos gratis.

Javier Santos

Especialista en IA & Machine Learning

📧¿Te gusta este contenido?

Únete a 547+ profesionales que reciben tips de IA cada semana. Sin spam, cancela cuando quieras.

Mejores Modelos Open Source de Texto a Voz (TTS) en 2026

¿Quieres aprender a integrar TTS en tus proyectos? En La Escuela de IA enseñamos a construir asistentes de voz, automatizaciones con IA y proyectos prácticos. Unete gratis. Tambien en YouTube @JavadexAI y TikTok @javadex.

TL;DR - Resumen Rapido

  • Mejor calidad general: Orpheus TTS -- habla emocional de nivel humano con 3B parametros y licencia Apache 2.0.
  • Mejor para Home Assistant y domotica: Piper -- ultraligero, funciona en Raspberry Pi, 50+ idiomas, 100% offline.
  • Mejor para clonacion de voz: XTTS-v2 -- clona cualquier voz con solo 6 segundos de audio, 17 idiomas.
  • Mejor toolkit completo: Coqui TTS -- mas de 1100 idiomas, modelos preentrenados, soporte para fine-tuning.
  • Mas versatil y creativo: Bark -- genera risa, suspiros, musica y efectos de sonido ademas de habla.
  • Mejor para tiempo real: Fish Speech -- inferencia rapida, 4 GB de VRAM, clonacion de voz en streaming.
  • Mejor calidad por recurso: StyleTTS 2 -- calidad casi humana con solo 2 GB de VRAM.

En Resumen: En 2026, los modelos TTS open source han alcanzado un nivel de calidad que hace innecesario pagar servicios como ElevenLabs para la mayoria de casos de uso. Orpheus TTS lidera en calidad emocional, Piper domina en dispositivos de bajo consumo, y XTTS-v2 es imbatible en clonacion de voz multilingue. Todos se pueden ejecutar en local, sin conexion a internet y sin coste.

Tabla Comparativa General

Antes de analizar cada modelo en detalle, esta tabla resume las caracteristicas clave de los 7 mejores modelos TTS open source en 2026:

ModeloCalidadVelocidadIdiomasClonacion de VozEspañolGPU Minima
Orpheus TTSExcelenteRapida1+ (ingles nativo, multilingue en preview)Si (zero-shot)Preview6 GB VRAM
PiperMuy buenaMuy rapida50+NoSi, nativoCPU suficiente
Coqui TTSBuenaMedia1100+Si (con fine-tuning)Si4 GB VRAM
XTTS-v2Muy buenaMedia17Si (6 seg)Si, nativo4 GB VRAM
BarkBuenaLenta13+Limitada (presets)Si8 GB VRAM
Fish SpeechMuy buenaRapida8+Si (10-30 seg)Si4 GB VRAM
StyleTTS 2ExcelenteRapida14Si (5-10 seg)Limitado2 GB VRAM

1. Orpheus TTS -- El Salto Cualitativo de 2025-2026

Orpheus TTS es el modelo open source de texto a voz que ha cambiado las reglas del juego en 2025-2026. Desarrollado por Canopy AI y basado en la arquitectura Llama 3B, genera habla con entonacion emocional que rivaliza directamente con ElevenLabs y otros servicios de pago.

Por que destaca

Orpheus no se limita a leer texto en voz alta. Entiende el contexto emocional y produce habla con inflexiones naturales: enfasis, pausas dramaticas, cambios de tono y expresividad que antes solo conseguian los modelos propietarios mas caros. Entrenado con mas de 100.000 horas de audio en ingles, el nivel de naturalidad es impresionante.

Puntos fuertes

  • Calidad emocional de nivel humano, comparable a servicios de pago como ElevenLabs
  • Clonacion de voz zero-shot sin necesidad de fine-tuning previo
  • Latencia de streaming inferior a 200 ms (reducible a 100 ms con input streaming)
  • Cuatro tamaños de modelo: 3B, 1B, 400M y 150M parametros
  • Licencia Apache 2.0 -- uso comercial permitido sin restricciones

Puntos debiles

  • Optimizado principalmente para ingles; el soporte multilingue esta en fase preview
  • Requiere GPU con al menos 6 GB de VRAM para el modelo 3B
  • Proyecto relativamente nuevo, comunidad en crecimiento

Instalacion rapida

bash
1pip install orpheus-tts

python
1from orpheus_tts import OrpheusTTS
2 
3model = OrpheusTTS("canopylabs/orpheus-3b-0.1-ft")
4audio = model.generate("Hola, esto es una prueba de Orpheus TTS.")
5audio.save("output.wav")

Mejor para

Produccion de audio profesional, podcasts, audiolibros, contenido donde la calidad emocional del habla es critica.


2. Piper -- El Rey de la Domotica y los Dispositivos Embebidos

Piper es el modelo TTS open source mas eficiente del mercado, diseñado especificamente para funcionar en dispositivos como la Raspberry Pi sin necesidad de GPU ni conexion a internet.

Creado originalmente por el proyecto Rhasspy y ahora mantenido por la Open Home Foundation, Piper se ha convertido en el estandar de facto para asistentes de voz en Home Assistant y proyectos de domotica.

Por que destaca

Mientras otros modelos necesitan tarjetas graficas potentes, Piper genera habla natural usando unicamente la CPU. Su formato ONNX optimizado permite sintetizar audio en tiempo real incluso en una Raspberry Pi 4, algo que ningun otro modelo de esta lista consigue con la misma fluidez.

Puntos fuertes

  • Funciona en CPU -- no necesita GPU, ideal para Raspberry Pi y dispositivos embebidos
  • Mas de 50 idiomas con multiples voces por idioma
  • Integracion nativa con Home Assistant
  • Completamente offline, privacidad total
  • Modelos ligeros (10-80 MB por voz)

Puntos debiles

  • No soporta clonacion de voz
  • Calidad inferior a modelos mas grandes como Orpheus o XTTS-v2
  • Las voces suenan bien pero no alcanzan el realismo emocional de los modelos basados en transformers

Instalacion rapida

bash
1# Instalacion con pip
2pip install piper-tts
3 
4# Generar audio directamente
5echo "Hola, soy Piper." | piper --model es_ES-davefx-medium --output_file salida.wav

bash
1# En Docker
2docker run -it -v /ruta/modelos:/models rhasspy/piper --model /models/es_ES-davefx-medium.onnx

Mejor para

Home Assistant, domotica, asistentes de voz offline, Raspberry Pi, cualquier dispositivo con recursos limitados. Si buscas un TTS que funcione en tu asistente de voz con Home Assistant, Piper es la eleccion obvia.


3. Coqui TTS -- El Toolkit Mas Completo

Coqui TTS es la navaja suiza del texto a voz open source: un toolkit completo con soporte para mas de 1100 idiomas, multiples arquitecturas de modelo y capacidad de fine-tuning.

Por que destaca

Donde otros proyectos ofrecen un unico modelo, Coqui TTS es un framework completo que incluye implementaciones de VITS, Tacotron2, GlowTTS, Bark y muchas otras arquitecturas. Es la opcion ideal para investigadores y desarrolladores que necesitan flexibilidad total.

Puntos fuertes

  • Soporte para mas de 1100 idiomas con modelos preentrenados
  • Multiples arquitecturas de modelo incluidas (VITS, Tacotron2, GlowTTS, Bark, y mas)
  • Fine-tuning sencillo con tus propios datos de voz
  • API de Python bien documentada y facil de usar
  • Comunidad activa y amplia documentacion

Puntos debiles

  • La empresa Coqui AI cerro en 2024, aunque el proyecto open source sigue activo
  • Algunos modelos preentrenados tienen calidad irregular
  • Configuracion inicial mas compleja que alternativas como Piper

Instalacion rapida

bash
1pip install TTS
2 
3# Listar modelos disponibles
4tts --list_models
5 
6# Generar audio en español
7tts --text "Hola, esto es Coqui TTS." --model_name "tts_models/es/css10/vits" --out_path salida.wav

python
1from TTS.api import TTS
2 
3tts = TTS(model_name="tts_models/es/css10/vits")
4tts.tts_to_file(text="Texto de prueba en español.", file_path="salida.wav")

Mejor para

Investigacion, proyectos que necesitan idiomas poco comunes, desarrollo de modelos personalizados con fine-tuning, prototipado rapido.


4. XTTS-v2 -- Clonacion de Voz Multilingue en 6 Segundos

XTTS-v2, desarrollado por Coqui AI, es el modelo open source de referencia para clonacion de voz multilingue. Con solo 6 segundos de audio de referencia, genera habla en 17 idiomas con la voz clonada.

Por que destaca

La clonacion de voz zero-shot de XTTS-v2 es sorprendentemente buena. Proporcionas un clip de audio de 6 segundos de cualquier persona y el modelo genera habla nueva con esa misma voz, manteniendo el timbre, la entonacion y el estilo. Y funciona en 17 idiomas, incluyendo español nativo.

Puntos fuertes

  • Clonacion de voz con solo 6 segundos de audio de referencia
  • 17 idiomas soportados nativamente, incluyendo español
  • Transferencia de emocion y estilo del hablante original
  • Interpolacion entre multiples hablantes de referencia
  • Streaming con latencia inferior a 200 ms
  • Funciona en CPU (mas lento) y GPU

Puntos debiles

  • Licencia Coqui Public Model License (mas restrictiva que Apache 2.0 para uso comercial)
  • Calidad de clonacion variable segun la calidad del audio de referencia
  • Requiere al menos 4 GB de VRAM para velocidad aceptable

Instalacion rapida

bash
1pip install TTS
2 
3# Clonacion de voz con audio de referencia
4tts --model_name "tts_models/multilingual/multi-dataset/xtts_v2" \
5 --text "Este texto se genera con tu voz clonada." \
6 --speaker_wav mi_voz.wav \
7 --language_idx "es" \
8 --out_path salida_clonada.wav

python
1from TTS.api import TTS
2 
3tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2")
4tts.tts_to_file(
5 text="Texto generado con voz clonada.",
6 speaker_wav="mi_voz.wav",
7 language="es",
8 file_path="salida.wav"
9)

Mejor para

Clonacion de voz, produccion de contenido multilingue con voz consistente, audiolibros narrados con una voz especifica, doblaje.


5. Bark -- El Modelo Mas Creativo y Versatil

Bark, desarrollado por Suno AI, es el modelo TTS open source mas versatil porque no se limita a generar habla: produce risas, suspiros, musica, efectos de sonido y hasta canto.

Por que destaca

Bark es un modelo transformer que convierte texto directamente en audio sin pasar por fonemas intermedios. Esto le permite generar cualquier sonido que pueda expresarse con texto, no solo habla. Con etiquetas especiales puedes controlar emociones, añadir pausas dramaticas o incluso generar fragmentos musicales.

Puntos fuertes

  • Genera habla, risas, suspiros, musica y efectos de sonido
  • 13+ idiomas con 100+ voces predefinidas por idioma
  • Code-switching: transicion fluida entre idiomas en un mismo texto
  • Control de emociones mediante metatags (tristeza, alegria, enfado)
  • Capacidad de generar canto

Puntos debiles

  • Lento: requiere 8 GB de VRAM y la generacion es significativamente mas lenta que Piper o Orpheus
  • Limite de 13-14 segundos por fragmento de audio generado
  • Calidad inconsistente en idiomas distintos al ingles
  • No tiene clonacion de voz real, solo presets predefinidos
  • Proyecto con poco desarrollo activo desde 2024

Instalacion rapida

bash
1pip install git+https://github.com/suno-ai/bark.git
2 
3# O con transformers de Hugging Face
4pip install transformers scipy

python
1from bark import SAMPLE_RATE, generate_audio, preload_models
2from scipy.io.wavfile import write as write_wav
3 
4preload_models()
5 
6# Generar audio con emocion
7text = "[laughs] Esto es increible, no me lo puedo creer."
8audio_array = generate_audio(text, history_prompt="v2/es_speaker_0")
9write_wav("salida.wav", SAMPLE_RATE, audio_array)
10 
11# Generar con musica
12text_musica = "♪ La la la, esta es una cancion generada por IA ♪"
13audio_musica = generate_audio(text_musica)
14write_wav("cancion.wav", SAMPLE_RATE, audio_musica)

Mejor para

Contenido creativo, efectos de sonido, prototipos de audio con emociones, generacion de audio experimental, proyectos donde necesitas mas que solo habla.


6. Fish Speech -- Velocidad y Clonacion en Tiempo Real

Fish Speech (Fish Audio) es un modelo TTS open source optimizado para inferencia rapida y clonacion de voz en tiempo real, con solo 4 GB de VRAM y soporte multilingue.

Por que destaca

Fish Speech destaca por su eficiencia. El modelo S1-mini de 500M parametros ofrece clonacion de voz de alta calidad con un consumo de memoria muy bajo, y su velocidad de inferencia lo hace ideal para aplicaciones en tiempo real como chatbots de voz o sistemas de atencion al cliente.

Puntos fuertes

  • Solo 4 GB de VRAM necesarios para inferencia completa
  • Clonacion de voz con 10-30 segundos de audio de referencia
  • CER (Character Error Rate) de 0,4% y WER (Word Error Rate) de 0,8%
  • Control de emociones y prosodia mediante etiquetas de texto
  • Soporte para ingles, español, japones, chino, coreano, frances, aleman y arabe

Puntos debiles

  • Menos idiomas soportados que Coqui TTS o Piper
  • El modelo completo S1 no es open source (solo S1-mini)
  • Documentacion en chino principalmente, comunidad mas pequeña en español

Instalacion rapida

bash
1git clone https://github.com/fishaudio/fish-speech.git
2cd fish-speech
3pip install -e .
4 
5# Descargar modelo
6huggingface-cli download fishaudio/fish-speech-1.5 --local-dir checkpoints/fish-speech-1.5

python
1# Generacion basica
2from fish_speech.inference import TTSInference
3 
4tts = TTSInference(model_path="checkpoints/fish-speech-1.5")
5tts.generate(
6 text="Texto de prueba con Fish Speech.",
7 output_path="salida.wav",
8 reference_audio="referencia.wav" # opcional, para clonacion
9)

Mejor para

Aplicaciones en tiempo real, chatbots de voz, sistemas que necesitan baja latencia y bajo consumo de recursos, clonacion de voz rapida.


7. StyleTTS 2 -- Calidad Humana con Minimos Recursos

StyleTTS 2 alcanza calidad de habla casi humana utilizando difusion de estilos y entrenamiento adversarial, y lo hace con solo 2 GB de VRAM -- el modelo mas eficiente en relacion calidad/recursos de toda esta lista.

Por que destaca

En tests con hablantes nativos de ingles, StyleTTS 2 supero las grabaciones humanas reales en el dataset LJSpeech en naturalidad percibida. Es un resultado extraordinario para un modelo open source que requiere tan pocos recursos.

Puntos fuertes

  • Calidad que supera grabaciones humanas en datasets de un solo hablante
  • Solo 2 GB de VRAM -- funciona en GPUs modestas
  • Transferencia de estilo desde audio de referencia (5-10 segundos)
  • Modelado multi-hablante soportado
  • Soporte multilingue con PL-BERT para 14 idiomas

Puntos debiles

  • Configuracion inicial compleja con multiples modulos preentrenados
  • El soporte en español es limitado comparado con Piper o XTTS-v2
  • Menos activo en desarrollo que Orpheus o Fish Speech
  • No tiene clonacion de voz zero-shot tan intuitiva como XTTS-v2

Instalacion rapida

bash
1git clone https://github.com/yl4579/StyleTTS2.git
2cd StyleTTS2
3pip install -r requirements.txt
4 
5# Descargar modelos preentrenados
6# (seguir instrucciones del README del repositorio)

python
1# Inferencia basica
2from styletts2 import tts as StyleTTS
3 
4my_tts = StyleTTS()
5audio = my_tts.inference(
6 text="Texto de prueba con StyleTTS 2.",
7 ref_s=None, # None para estilo por defecto
8 alpha=0.3, # control de estilo
9 beta=0.7 # control de prosodia
10)

Mejor para

Proyectos con GPUs limitadas que necesitan maxima calidad, generacion de voz en datasets de un solo hablante, investigacion en sintesis de voz.


Como Instalar y Usar TTS en Local

Todos estos modelos se pueden ejecutar en tu maquina local sin enviar datos a ningun servidor externo. Aqui tienes las dos formas mas habituales de instalarlos.

Opcion 1: Instalacion con pip (recomendada para empezar)

bash
1# Crear entorno virtual
2python -m venv tts-env
3source tts-env/bin/activate # Linux/Mac
4# tts-env\Scripts\activate # Windows
5 
6# Instalar el modelo que prefieras
7pip install TTS # Coqui TTS + XTTS-v2
8pip install piper-tts # Piper
9pip install orpheus-tts # Orpheus TTS
10pip install bark # Bark (Suno AI)

Opcion 2: Docker (recomendada para produccion)

bash
1# Coqui TTS con XTTS-v2
2docker run --rm -it -p 5002:5002 --gpus all ghcr.io/coqui-ai/tts --model_name tts_models/multilingual/multi-dataset/xtts_v2
3 
4# Piper (sin GPU)
5docker run -it -p 10200:10200 rhasspy/wyoming-piper --voice es_ES-davefx-medium
6 
7# Orpheus TTS con FastAPI
8docker run --gpus all -p 8000:8000 lexau/orpheus-fastapi

Opcion 3: Integracion con Home Assistant

Si usas Home Assistant, la forma mas sencilla es instalar el add-on de Piper:

  1. Ve a Ajustes > Complementos > Tienda de complementos
  2. Busca Piper e instala
  3. Configura como proveedor de TTS en Ajustes > Voz
  4. Elige la voz en español que prefieras

Para un tutorial completo, consulta nuestra guia sobre como crear un asistente de voz con Home Assistant.


Requisitos de Hardware

Esta tabla te ayuda a elegir el modelo adecuado segun el hardware que tengas disponible:

ModeloRAM MinimaVRAM GPUCPU SuficienteRaspberry PiTiempo por frase (10 palabras)
Piper1 GBNo necesitaSiSi< 0,5 seg
StyleTTS 24 GB2 GBLentoNo2-3 seg
Fish Speech4 GB4 GBMuy lentoNo1-2 seg
Coqui TTS (VITS)4 GB4 GBLentoNo2-4 seg
XTTS-v28 GB4 GBPosibleNo3-5 seg
Orpheus TTS (3B)8 GB6 GBNo recomendadoNo1-2 seg
Orpheus TTS (150M)2 GB2 GBSiNo1-3 seg
Bark16 GB8 GBNo viableNo10-20 seg

Si quieres ejecutar modelos de IA en tu Raspberry Pi, puedes consultar nuestra guia de proyectos de IA para Raspberry Pi 5.


Casos de Uso: Cual Elegir

Para Home Assistant y domotica

Ganador: Piper

No tiene competencia en este caso de uso. Es el unico modelo que funciona de forma nativa en Raspberry Pi, tiene integracion directa con Home Assistant y ofrece voces en español de buena calidad sin necesitar GPU. Si tu proyecto es un asistente de voz para el hogar, Piper es tu unica opcion realista.

Para produccion de podcasts y audiolibros

Ganador: Orpheus TTS

La calidad emocional de Orpheus es insuperable entre los modelos open source. Para contenido largo donde la monotonia es el enemigo, Orpheus mantiene una entonacion natural y expresiva que mantiene al oyente enganchado. Si quieres automatizar la creacion de podcasts, combinalo con las tecnicas de nuestro tutorial sobre como crear un podcast con IA.

Para clonacion de voz

Ganador: XTTS-v2

Solo necesitas 6 segundos de audio para clonar una voz, y funciona en 17 idiomas. La calidad de la clonacion es consistente y la transferencia de estilo captura bien el timbre y la prosodia del hablante original. Fish Speech es una alternativa solida si necesitas mas velocidad, pero XTTS-v2 gana en versatilidad multilingue.

Para español natural y de alta calidad

Ganador: XTTS-v2 (clonacion) / Piper (sin clonacion)

Para español sin clonacion de voz, Piper ofrece las mejores voces nativas en español de España. Si necesitas español con una voz clonada, XTTS-v2 maneja el español como idioma nativo con excelente pronunciacion y prosodia.

Para Raspberry Pi y dispositivos de bajo consumo

Ganador: Piper

Es el unico modelo de esta lista que funciona de forma fluida en una Raspberry Pi 4. Los modelos de Piper pesan entre 10 y 80 MB, se ejecutan enteramente en CPU y generan audio en tiempo real. Perfecto para integrarlo con proyectos como el M5Stack Atom Echo para control por voz.

Para tiempo real y baja latencia

Ganador: Fish Speech / Orpheus TTS

Fish Speech ofrece la mejor relacion latencia/calidad con solo 4 GB de VRAM. Orpheus TTS alcanza 100-200 ms de latencia en streaming, ideal para chatbots de voz. Ambos son significativamente mas rapidos que Bark o XTTS-v2 para aplicaciones interactivas.


TTS Open Source vs ElevenLabs vs Amazon Polly

Esta es la pregunta que todo el mundo se hace: ¿merece la pena pagar por un servicio TTS en la nube cuando existen alternativas open source gratuitas?

CaracteristicaOrpheus TTS (open source)XTTS-v2 (open source)ElevenLabsAmazon Polly
PrecioGratisGratis5-99 $/mes4 $/millon caracteres
Calidad de vozExcelenteMuy buenaExcelenteBuena
Clonacion de vozSiSi (6 seg)Si (1 min)No
Idiomas1+ (preview multilingue)173240+
EspañolPreviewNativoNativoNativo
Latencia~100-200 ms~200 ms+~200-500 ms~100 ms
PrivacidadTotal (local)Total (local)Datos en nubeDatos en AWS
Sin internetSiSiNoNo
Control emocionalSi, avanzadoLimitadoSiNo
Uso comercialSi (Apache 2.0)RestringidoSi (con plan)Si
GPU necesariaSi (6 GB)Si (4 GB)No (API)No (API)

Conclusion: Para la mayoria de proyectos personales y de pequeña empresa, los modelos open source son suficientes e incluso superiores en privacidad y control. ElevenLabs sigue justificando su precio si necesitas la maxima calidad en muchos idiomas sin gestionar infraestructura propia. Amazon Polly es la opcion mas economica para volumen masivo, pero su calidad es inferior.


Mi Recomendacion Personal

Despues de probar extensamente todos estos modelos, mi recomendacion depende de tu perfil:

Si eres maker o entusiasta de la domotica: Empieza con Piper. Lo instalas en 5 minutos, funciona sin GPU y la integracion con Home Assistant es impecable. Es el TTS que uso en mi propia casa.

Si eres desarrollador o creador de contenido: Usa Orpheus TTS para la maxima calidad y XTTS-v2 cuando necesites clonacion de voz. La combinacion de ambos cubre el 95% de los casos de uso profesionales.

Si estas investigando o aprendiendo: Coqui TTS es el mejor punto de partida. Su toolkit incluye multiples arquitecturas, documentacion exhaustiva y la posibilidad de entrenar tus propios modelos.

Si tienes recursos limitados: StyleTTS 2 con solo 2 GB de VRAM te da una calidad sorprendente. Y si no tienes GPU, Piper funciona perfectamente en CPU.

El ecosistema de TTS open source en 2026 esta en su mejor momento. La brecha con los servicios de pago se ha cerrado drasticamente, y para muchos casos de uso ya no existe ninguna razon objetiva para pagar por un servicio en la nube.


FAQ - Preguntas Frecuentes

¿Cual es el mejor modelo TTS open source en 2026?

Orpheus TTS es el mejor modelo TTS open source en calidad general en 2026, con habla emocional de nivel humano y licencia Apache 2.0. Para dispositivos de bajo consumo, Piper es superior. Para clonacion de voz, XTTS-v2 es imbatible.

¿Puedo usar estos modelos TTS sin GPU?

Si. Piper funciona perfectamente en CPU, incluso en Raspberry Pi 4. Coqui TTS y XTTS-v2 tambien funcionan en CPU, aunque con tiempos de generacion mas largos. StyleTTS 2 necesita solo 2 GB de VRAM, compatible con GPUs modestas.

¿Cual es la mejor alternativa gratuita a ElevenLabs?

Orpheus TTS es la mejor alternativa gratuita a ElevenLabs en calidad de voz emocional. Si necesitas clonacion de voz multilingue, XTTS-v2 ofrece capacidades similares sin coste. Ambos se ejecutan localmente con total privacidad.

¿Estos modelos TTS soportan español?

Si. Piper y XTTS-v2 tienen soporte nativo para español de España con buena calidad. Coqui TTS, Bark y Fish Speech tambien soportan español. Orpheus tiene español en preview multilingue. StyleTTS 2 tiene soporte limitado.

¿Puedo clonar mi voz con modelos TTS open source?

Si. XTTS-v2 clona tu voz con solo 6 segundos de audio de referencia, en 17 idiomas. Fish Speech necesita 10-30 segundos pero ofrece mas control emocional. Orpheus TTS tambien soporta clonacion zero-shot. La calidad es comparable a servicios de pago.

¿Cual es el mejor TTS para Home Assistant?

Piper es el mejor y practicamente el unico TTS open source viable para Home Assistant. Tiene integracion nativa como add-on, funciona sin GPU, soporta 50+ idiomas y es 100% offline. Es el estandar recomendado por la comunidad de Home Assistant.

¿Se pueden usar estos modelos para uso comercial?

Depende de la licencia de cada modelo. Orpheus TTS (Apache 2.0) y Piper (MIT) permiten uso comercial sin restricciones. Coqui TTS tiene licencia MPL 2.0. XTTS-v2 usa la Coqui Public Model License, que tiene restricciones para uso comercial. Bark usa licencia MIT. Revisa siempre la licencia especifica antes de usar en produccion.


Recursos y Articulos Relacionados

Si te interesa el mundo del TTS y los asistentes de voz con IA, estos articulos de Javadex te resultaran utiles:

Repositorios oficiales

📬

¿Te ha gustado? Hay más cada semana

Únete a "IA Sin Humo" — la newsletter donde comparto lo que realmente funciona en inteligencia artificial. Sin teoría innecesaria, sin postureo.

📚

1 Tutorial

Paso a paso, práctico

🛠️

3 Herramientas

Probadas y útiles

💡

0 Bullshit

Solo lo que importa

+547 suscriptores • Cada martes • Cancela cuando quieras