Ir al contenido principal

Mejores Modelos Open Source de Voz a Texto (STT): Ranking Completo [2026]

20 de febrero de 2026
18 min

Ranking de los mejores modelos STT open source en 2026: Whisper, faster-whisper, NVIDIA Canary y Vosk. Precision, velocidad y como transcribir audio gratis.

Javier Santos

Especialista en IA & Machine Learning

📧¿Te gusta este contenido?

Únete a 547+ profesionales que reciben tips de IA cada semana. Sin spam, cancela cuando quieras.

Mejores Modelos Open Source de Voz a Texto (STT) en 2026

¿Te interesa la IA aplicada? En La Escuela de IA aprendemos a usar herramientas como Whisper, Ollama y Home Assistant para automatizar tareas reales. Unete gratis. Tambien en YouTube @JavadexAI y TikTok @javadex.

En Resumen

Los mejores modelos open source de voz a texto (STT) en 2026 son Whisper de OpenAI para maxima precision multilingue, faster-whisper para velocidad en produccion, y NVIDIA Canary-Qwen 2.5B como el numero 1 en el Open ASR Leaderboard de Hugging Face con un 5,63% WER.

La transcripcion automatica de voz ya no es una tecnologia reservada a Google o Amazon. En 2026, los modelos open source igualan o superan a los servicios de pago en precision, y ademas puedes ejecutarlos en tu propio hardware sin enviar datos a la nube. Esto abre posibilidades enormes: desde transcribir reuniones y podcasts hasta construir asistentes de voz privados con Home Assistant.

En esta comparativa he probado y analizado los 7 mejores modelos STT open source disponibles en febrero de 2026, con benchmarks reales, requisitos de hardware y codigo para que puedas empezar a transcribir audio gratis hoy mismo.

TL;DR - Resumen Rapido

  • Maxima precision general: NVIDIA Canary-Qwen 2.5B -- 5,63% WER, lider del Open ASR Leaderboard.
  • Mejor multilingue + calidad: Whisper Large-v3 de OpenAI -- 99 idiomas, robusto en condiciones dificiles.
  • Mas rapido en produccion: faster-whisper -- 4x mas rapido que Whisper original, misma precision.
  • Mejor para edge/movil: Vosk -- modelos de 50 MB, funciona offline en Raspberry Pi y Android.
  • Mejor eficiencia: Moonshine -- supera a Whisper Tiny/Small con menos parametros.
  • Mejor para streaming en tiempo real: Wav2Vec2 (Meta) -- arquitectura ideal para fine-tuning y baja latencia.
  • Mejor para CPU puro: whisper.cpp -- C++ optimizado, cuantizacion GGML, sin dependencia de Python.

Tabla Comparativa General

ModeloWER% (LibriSpeech)Velocidad (RTFx)IdiomasTiempo RealCalidad en EspanolHardware MinimoLicencia
NVIDIA Canary-Qwen 2.5B1,6% (clean)418xEN (principal)NoMediaGPU 8 GB VRAMCC-BY
Whisper Large-v32,7% (clean)69x99 idiomasNoExcelenteGPU 10 GB VRAMMIT
Whisper Large-v3 Turbo3,0% (clean)~400x99 idiomasNoMuy buenaGPU 6 GB VRAMMIT
faster-whisper Large-v32,7% (clean)~280x99 idiomasParcialExcelenteGPU 4 GB VRAMMIT
Moonshine Base~7,5%AltaENSiNo soportadoCPU 2 GB RAMMIT
Vosk (modelo grande)~8-10%Media20+ idiomasSiBuenaCPU 50 MB RAMApache 2.0
Wav2Vec2 Large3,4% (clean)MediaMultilingueSiBuena (fine-tuned)GPU 4 GB VRAMMIT
whisper.cpp Large-v32,7% (clean)~150x (CPU)99 idiomasParcialExcelenteSolo CPUMIT
Leyenda: WER = Word Error Rate (menor es mejor). RTFx = Real-Time Factor multiplicado (mayor es mas rapido). Los valores de WER corresponden al benchmark LibriSpeech test-clean salvo donde se indique.


1. Whisper (OpenAI) -- El Estandar de Oro

Whisper de OpenAI sigue siendo el modelo STT open source mas robusto y versatil en 2026. Entrenado con 680.000 horas de audio multilingue supervisado, ofrece la mejor calidad general en 99 idiomas, incluido el espanol.

Que es Whisper

Whisper es un modelo de reconocimiento automatico de voz (ASR) basado en la arquitectura Transformer encoder-decoder. OpenAI lo publico como open source bajo licencia MIT en septiembre de 2022 y ha seguido publicando versiones mejoradas, siendo Large-v3 y Large-v3 Turbo las mas relevantes en 2026.

Benchmarks clave

VarianteParametrosWER (clean)WER (other)VelocidadVRAM
Tiny39M7,5%13,8%Muy rapida1 GB
Base74M5,4%10,4%Rapida1 GB
Small244M3,4%7,6%Media2 GB
Medium769M2,9%6,2%Lenta5 GB
Large-v31550M2,7%5,1%Lenta10 GB
Large-v3 Turbo809M3,0%5,5%6x mas rapida que v36 GB

Puntos fuertes

  • Precision de referencia en multiples idiomas, especialmente espanol, frances y aleman.
  • Extremadamente robusto ante ruido, acentos y condiciones de audio deficientes.
  • Entrenado con 680.000 horas de datos supervisados -- el dataset mas grande de cualquier modelo open source.
  • Genera timestamps a nivel de palabra y detecta el idioma automaticamente.
  • Soporte nativo para traduccion a ingles desde cualquier idioma.
  • Licencia MIT sin restricciones comerciales.

Puntos debiles

  • Lento en CPU sin cuantizacion. Large-v3 necesita GPU para uso practico.
  • Procesamiento por lotes de 30 segundos (no es streaming nativo).
  • No optimizado para tiempo real sin wrappers adicionales.
  • Consume mucha VRAM en las variantes grandes.

Instalacion rapida

bash
1pip install openai-whisper
2 
3# Transcribir un archivo de audio
4whisper audio.mp3 --model large-v3 --language es

python
1import whisper
2 
3model = whisper.load_model("large-v3")
4result = model.transcribe("audio.mp3", language="es")
5print(result["text"])


2. faster-whisper -- Whisper con Esteroides

faster-whisper es una reimplementacion de Whisper sobre CTranslate2 que consigue hasta 4 veces mas velocidad y un 50% menos de memoria, manteniendo exactamente la misma precision.

Que es faster-whisper

Desarrollado por SYSTRAN, faster-whisper convierte los pesos del modelo Whisper al formato CTranslate2, un motor de inferencia C++ optimizado para modelos Transformer. Soporta cuantizacion int8 y float16 tanto en CPU como en GPU.

Benchmarks clave

MetricaWhisper originalfaster-whisperMejora
Velocidad GPU (float16)1x5-6x+500%
Velocidad CPU (int8)1x4x+300%
Uso de VRAM (Large-v3)10 GB~4 GB-60%
WER2,7%2,7%Identico
Transcripcion 13 min audio~2 min16 segundos~8x

Puntos fuertes

  • Misma precision que Whisper original: los modelos son identicos, solo cambia el motor de inferencia.
  • Reduccion drastica de memoria mediante cuantizacion int8 -- ejecuta Large-v3 en GPUs de 4 GB.
  • Soporte para batched inference, multiplicando el throughput.
  • Compatible con todos los modelos Whisper (Tiny a Large-v3 Turbo).
  • API en Python limpia y bien documentada.

Puntos debiles

  • Requiere compilacion de CTranslate2 en algunas plataformas.
  • No soporta streaming nativo (aunque existen wrappers como WhisperLive).
  • La documentacion puede quedarse detras de la version oficial de Whisper.

Instalacion rapida

bash
1pip install faster-whisper

python
1from faster_whisper import WhisperModel
2 
3model = WhisperModel("large-v3", device="cuda", compute_type="int8_float16")
4segments, info = model.transcribe("audio.mp3", language="es")
5 
6for segment in segments:
7 print(f"[{segment.start:.2f}s -> {segment.end:.2f}s] {segment.text}")


3. NVIDIA Canary-Qwen 2.5B -- El Numero 1 del Leaderboard

NVIDIA Canary-Qwen 2.5B ocupa el primer puesto del Open ASR Leaderboard de Hugging Face con un 5,63% WER medio, combinando un encoder de audio FastConformer con el LLM Qwen3-1.7B para obtener transcripciones con puntuacion y capitalizacion nativas.

Que es Canary-Qwen 2.5B

Canary es un modelo hibrido ASR-LLM (Speech-Augmented Language Model) de NVIDIA. A diferencia de Whisper, que es puramente un modelo encoder-decoder de audio, Canary utiliza un encoder FastConformer que alimenta a un LLM (Qwen3-1.7B) mediante adaptadores. Esto le permite no solo transcribir, sino generar texto con puntuacion, capitalizacion y formato inteligente.

Benchmarks clave

DatasetWER%
LibriSpeech Clean1,6%
LibriSpeech Other3,1%
VoxPopuli5,6%
Con ruido (SNR 10)2,41%
Media Open ASR5,63%

Puntos fuertes

  • Numero 1 del Open ASR Leaderboard -- la mejor precision medida en benchmarks estandar.
  • Arquitectura hibrida ASR+LLM: genera texto formateado con puntuacion y mayusculas.
  • Velocidad de 418 RTFx -- extremadamente rapido con GPU.
  • Entrenado con 234.000 horas de datos publicos de habla.
  • Licencia CC-BY, totalmente libre para uso comercial.
  • Excelente tolerancia al ruido (2,41% WER con SNR de 10 dB).

Puntos debiles

  • Principalmente optimizado para ingles. El soporte para espanol no esta al nivel de Whisper.
  • Requiere GPU con al menos 8 GB de VRAM.
  • El ecosistema es mas reducido que el de Whisper: menos tutoriales, menos integraciones.
  • No soporta los 99 idiomas de Whisper.
  • Dependencia del stack NVIDIA NeMo para inferencia.

Instalacion rapida

bash
1pip install nemo_toolkit[asr]

python
1import nemo.collections.asr as nemo_asr
2 
3model = nemo_asr.models.ASRModel.from_pretrained("nvidia/canary-qwen-2.5b")
4transcription = model.transcribe(["audio.wav"])
5print(transcription[0])


4. Vosk -- El Campeon del Edge y Offline

Vosk es el modelo STT open source mas ligero y versatil para despliegue offline: modelos de solo 50 MB, 20+ idiomas, y funciona en Raspberry Pi, Android e iOS sin conexion a internet.

Que es Vosk

Vosk es un toolkit de reconocimiento de voz offline desarrollado por Alpha Cephei. A diferencia de los modelos basados en Transformer como Whisper, Vosk utiliza modelos mas pequenos basados en Kaldi con vocabulario configurable, lo que le permite funcionar en dispositivos con recursos muy limitados.

Benchmarks clave

CaracteristicaValor
WER (modelo grande, ingles)~8-10%
WER (modelo pequeno, ingles)~12-15%
Tamano modelo pequeno50 MB
Tamano modelo grande~1,5 GB
Latencia streaming< 200 ms
Idiomas soportados20+

Puntos fuertes

  • Extremadamente ligero: modelos de 50 MB que funcionan en cualquier dispositivo.
  • Streaming nativo con API WebSocket -- latencia inferior a 200 ms.
  • Funciona completamente offline, sin enviar datos a ningun servidor.
  • SDK para Python, Java, C#, Node.js, Android e iOS.
  • Compatible con Raspberry Pi, Arduino (via SBC) y sistemas embebidos.
  • Vocabulario reconfigurable para dominios especificos.
  • Licencia Apache 2.0.

Puntos debiles

  • Precision significativamente inferior a Whisper o Canary en vocabulario abierto.
  • Los modelos pequenos cometen errores frecuentes con vocabulario tecnico.
  • No genera timestamps a nivel de palabra tan precisos como Whisper.
  • Interfaz de desarrollo menos moderna que las alternativas basadas en Transformer.

Instalacion rapida

bash
1pip install vosk

python
1from vosk import Model, KaldiRecognizer
2import wave
3 
4model = Model("model-es") # Descargar modelo espanol previamente
5wf = wave.open("audio.wav", "rb")
6 
7rec = KaldiRecognizer(model, wf.getframerate())
8while True:
9 data = wf.readframes(4000)
10 if len(data) == 0:
11 break
12 rec.AcceptWaveform(data)
13 
14print(rec.FinalResult())


5. Moonshine -- Eficiencia Extrema para Edge

Moonshine supera a Whisper Tiny y Small en precision a pesar de tener significativamente menos parametros, gracias a un encoder de longitud variable que elimina el padding innecesario.

Que es Moonshine

Moonshine es un modelo ASR disenado especificamente para dispositivos edge. Su innovacion clave es un encoder de longitud variable que escala el procesamiento segun la duracion real del audio, en lugar de usar chunks fijos de 30 segundos como Whisper.

Benchmarks clave

ModeloParametrosWER%Velocidad vs Whisper Tiny
Moonshine Tiny27M12,81%5x mas rapido
Whisper Tiny39M12,66%1x (referencia)
Moonshine Base61M~7,5%3x mas rapido
Whisper Small244M7,6%0,5x

Puntos fuertes

  • Rendimiento comparable a Whisper Tiny/Small con menos parametros y menos computo.
  • Encoder de longitud variable: no desperdicia ciclos procesando silencio.
  • Reduccion de 5x en requisitos de computo para segmentos de 10 segundos.
  • Ideal para dispositivos con bateria limitada (moviles, IoT, wearables).
  • Licencia MIT.

Puntos debiles

  • Solo soporta ingles -- no hay modelos multilingues.
  • Precision inferior a Whisper Medium/Large en escenarios complejos.
  • Comunidad y ecosistema mucho mas pequenos que Whisper.
  • No sustituye a Whisper para uso general; es un modelo de nicho para edge.

Instalacion rapida

bash
1pip install moonshine-onnx

python
1from moonshine_onnx import transcribe
2 
3result = transcribe("audio.wav")
4print(result)


6. Wav2Vec2 (Meta) -- El Rey del Streaming

Wav2Vec2 de Meta es la mejor opcion para aplicaciones de streaming en tiempo real que requieren fine-tuning especifico. Con solo 10 minutos de datos etiquetados, alcanza menos de 5% WER en LibriSpeech.

Que es Wav2Vec2

Wav2Vec2 es un modelo de representacion de voz preentrenado de forma autosupervisada con mas de 50.000 horas de audio sin etiquetar. Publicado por Meta AI, aprende representaciones robustas del habla que luego se afinan para ASR con muy pocos datos etiquetados usando CTC (Connectionist Temporal Classification).

Benchmarks clave

ConfiguracionWER% (LibriSpeech clean)
Fine-tuned con 960h1,8%
Fine-tuned con 10 min< 5,0%
Fine-tuned con 1h~3,4%

Puntos fuertes

  • Preentrenamiento autosupervisado: aprende de audio sin etiquetar, ideal cuando tienes pocos datos.
  • Excelente para fine-tuning en dominios especificos (medico, legal, tecnico).
  • Arquitectura adecuada para streaming con baja latencia.
  • Gran ecosistema en Hugging Face con cientos de modelos fine-tuned disponibles.
  • Resultados impresionantes con minimas cantidades de datos etiquetados.

Puntos debiles

  • Requiere fine-tuning para obtener buenos resultados -- no funciona "out of the box" como Whisper.
  • No incluye deteccion de idioma ni traduccion.
  • Mas complejo de configurar que Whisper o faster-whisper.
  • Rendimiento inferior a Whisper Large-v3 sin fine-tuning especifico.

Instalacion rapida

python
1from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
2import torch
3import librosa
4 
5processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-large-960h")
6model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-960h")
7 
8audio, rate = librosa.load("audio.wav", sr=16000)
9inputs = processor(audio, sampling_rate=16000, return_tensors="pt")
10 
11with torch.no_grad():
12 logits = model(**inputs).logits
13 
14predicted_ids = torch.argmax(logits, dim=-1)
15transcription = processor.decode(predicted_ids[0])
16print(transcription)


7. whisper.cpp -- Whisper en C++ para CPU Puro

whisper.cpp es un port completo de Whisper a C/C++ que permite ejecutar cualquier modelo Whisper en CPU sin Python, con soporte para cuantizacion GGML y aceleracion por hardware (AVX2, NEON, Core ML, Vulkan).

Que es whisper.cpp

Creado por Georgi Gerganov (el mismo desarrollador detras de llama.cpp), whisper.cpp reimplementa toda la inferencia de Whisper en C++ puro usando la libreria GGML. Esto elimina la dependencia de PyTorch y permite despliegues ligeros en servidores, dispositivos edge y navegadores web via WebAssembly.

Benchmarks clave

PlataformaModeloTiempo para 5 min audioAceleracion
Apple M2 (CPU)Large-v3~45 segNEON + Core ML
Apple M2 (ANE)Large-v3~15 seg3x vs CPU
Intel i7 (AVX2)Large-v3~2 minAVX2
GPU integrada (Vulkan)Large-v3~12 seg12x vs CPU

Puntos fuertes

  • Sin dependencia de Python ni PyTorch -- binario C++ autonomo.
  • Cuantizacion GGML (4-bit, 5-bit, 8-bit) para reducir memoria con minima perdida de precision.
  • Aceleracion nativa en Apple Silicon (Core ML, ANE), Intel (AVX/AVX2) y GPUs integradas (Vulkan).
  • Puede ejecutarse en el navegador web via WebAssembly.
  • Multihilo configurable para aprovechar todos los nucleos de CPU.
  • Ideal para integrar STT en aplicaciones C++, Go, Rust o cualquier lenguaje con FFI.
  • Misma calidad que Whisper original (usa los mismos pesos).

Puntos debiles

  • Compilacion desde fuentes necesaria en muchas plataformas.
  • Menos flexible que la API Python para prototipado rapido.
  • La documentacion asume familiaridad con herramientas de compilacion C++.
  • Sin soporte directo para batched inference como faster-whisper.

Instalacion rapida

bash
1# Compilar desde fuentes
2git clone https://github.com/ggml-org/whisper.cpp
3cd whisper.cpp
4cmake -B build
5cmake --build build --config Release
6 
7# Descargar modelo
8bash ./models/download-ggml-model.sh large-v3
9 
10# Transcribir
11./build/bin/whisper-cli -m models/ggml-large-v3.bin -l es -f audio.wav


Como Transcribir Audio en Local: Tutorial Paso a Paso

Si nunca has usado un modelo STT open source, esta es la forma mas rapida de empezar: faster-whisper con Python. En menos de 5 minutos puedes transcribir cualquier archivo de audio en espanol desde tu propio ordenador.

Requisitos previos

  • Python 3.9 o superior
  • GPU con CUDA (recomendado) o solo CPU
  • Al menos 4 GB de RAM libres

Paso 1: Instalar faster-whisper

bash
1pip install faster-whisper

Paso 2: Script de transcripcion

python
1from faster_whisper import WhisperModel
2 
3# Usa "cpu" si no tienes GPU con CUDA
4model = WhisperModel("large-v3", device="cuda", compute_type="int8_float16")
5 
6# Para CPU: model = WhisperModel("large-v3", device="cpu", compute_type="int8")
7 
8segments, info = model.transcribe(
9 "mi_audio.mp3",
10 language="es",
11 beam_size=5,
12 word_timestamps=True
13)
14 
15print(f"Idioma detectado: {info.language} (probabilidad: {info.language_probability:.2f})")
16print(f"Duracion: {info.duration:.1f} segundos\n")
17 
18for segment in segments:
19 print(f"[{segment.start:.2f}s - {segment.end:.2f}s] {segment.text}")

Paso 3: Ejecutar

bash
1python transcribir.py

La primera ejecucion descargara el modelo (~3 GB para Large-v3). Las ejecuciones posteriores usaran la cache local.

Si quieres ir mas alla y generar subtitulos automaticos para videos de YouTube, consulta nuestra guia completa: Como Transcribir Videos con Whisper.


Requisitos de Hardware

ModeloCPU MinimaRAM MinimaGPU RecomendadaVRAM Minima
Whisper TinyCualquiera1 GBNo necesaria-
Whisper BaseCualquiera1 GBNo necesaria-
Whisper Small4 nucleos2 GBGTX 10602 GB
Whisper Medium4 nucleos4 GBRTX 30605 GB
Whisper Large-v38 nucleos8 GBRTX 3080+10 GB
faster-whisper Large-v3 (int8)4 nucleos4 GBRTX 30604 GB
NVIDIA Canary-Qwen 2.5B8 nucleos16 GBRTX 3080+8 GB
Vosk (modelo pequeno)Cualquiera256 MBNo necesaria-
Vosk (modelo grande)2 nucleos2 GBNo necesaria-
Moonshine TinyCualquiera512 MBNo necesaria-
Wav2Vec2 Large4 nucleos4 GBRTX 30604 GB
whisper.cpp Large-v3 (Q5)4 nucleos4 GBNo necesaria-
Nota: Si planeas ejecutar modelos STT en una Raspberry Pi 5, los unicos viables son Vosk (modelo pequeno), Moonshine Tiny y whisper.cpp con modelos Tiny/Base cuantizados. Consulta nuestra guia de Proyectos IA en Raspberry Pi 5 para mas detalles.


Casos de Uso: Cual Elegir

Para maxima precision en espanol

Ganador: faster-whisper con Large-v3

Whisper Large-v3 fue entrenado con datos extensos en espanol y ofrece la mejor calidad para este idioma. Combinado con faster-whisper, obtienes esa precision a 4x la velocidad. NVIDIA Canary es superior en ingles, pero su soporte para espanol no esta al mismo nivel.

Para tiempo real y streaming

Ganador: Vosk

Vosk ofrece streaming nativo con latencia inferior a 200 ms via su API WebSocket. Wav2Vec2 tambien es viable para streaming, pero requiere fine-tuning y configuracion adicional. Whisper y faster-whisper no son nativamente streaming, aunque existen wrappers como WhisperLive.

Para movil y Raspberry Pi

Ganador: Vosk

Con modelos de solo 50 MB y SDK nativo para Android e iOS, Vosk es imbatible en dispositivos con recursos limitados. Moonshine Tiny es una alternativa interesante, pero solo soporta ingles.

Para el mejor balance precision/velocidad

Ganador: faster-whisper (Large-v3 Turbo, int8)

La combinacion de Whisper Large-v3 Turbo ejecutado con faster-whisper en cuantizacion int8 ofrece el mejor equilibrio: precision cercana a Large-v3, velocidad 6x superior, y funciona en GPUs de 4 GB.

Para subtitulos de video

Ganador: faster-whisper + Whisper Large-v3

Los timestamps a nivel de palabra de Whisper son los mas precisos del mercado. faster-whisper los genera igualmente y ademas soporta salida en formato SRT y VTT directamente. Para un flujo completo, lee Como Transcribir Videos con Whisper y Generar Titulos con IA.

Para Home Assistant y asistentes de voz

Ganador: whisper.cpp o faster-whisper

Home Assistant integra nativamente Whisper como motor STT para su asistente de voz Assist. whisper.cpp es la opcion preferida para servidores con CPU, mientras que faster-whisper aprovecha mejor las GPUs. Consulta la guia completa de asistente de voz con Home Assistant.

Para despliegue sin GPU

Ganador: whisper.cpp (cuantizado)

whisper.cpp con modelos cuantizados GGML (4-bit o 5-bit) permite ejecutar Whisper Large-v3 en CPU puro con rendimiento aceptable. Con Vulkan, incluso las GPUs integradas de Intel o AMD pueden acelerar la inferencia hasta 12x.


STT Open Source vs Servicios de Pago

Caracteristicafaster-whisper (Open Source)Google Speech-to-TextAWS TranscribeAzure Speech
PrecioGratis0,006 $/min0,024 $/min0,01 $/min
WER (ingles)~2,7%~4-5%~5-6%~4-5%
WER (espanol)~4-5%~5-6%~6-8%~5-7%
PrivacidadDatos en localDatos en la nubeDatos en la nubeDatos en la nube
LatenciaDepende de hardware~1-2 seg~2-3 seg~1-2 seg
Idiomas99125+100+100+
StreamingVia wrappersSi (nativo)Si (nativo)Si (nativo)
Uso offlineSiNoNoNo
Limite de usoSin limiteCuota mensualCuota mensualCuota mensual
Coste 100h audio0 euros~36 euros~144 euros~60 euros
Conclusion: Los modelos open source ya igualan o superan en precision a los servicios de pago para la mayoria de idiomas. La principal ventaja de las APIs comerciales es el streaming nativo y la facilidad de integracion. Si la privacidad y el coste son prioritarios, no hay razon para no usar open source en 2026.


Mi Recomendacion Personal

Tras probar extensamente todos estos modelos en proyectos reales, mi recomendacion depende de tu caso concreto:

Si transcribes audio en espanol y quieres la mejor calidad, usa faster-whisper con el modelo Large-v3. Es gratis, la precision es excelente y funciona en GPUs modestas con cuantizacion int8.

Si necesitas velocidad y buena calidad, prueba Whisper Large-v3 Turbo con faster-whisper. Es 6 veces mas rapido que Large-v3 original y pierde menos de un 1% de precision.

Si trabajas con dispositivos limitados (Raspberry Pi, movil, IoT), Vosk sigue siendo la unica opcion realista para offline con multiples idiomas. Para solo ingles, Moonshine Tiny es sorprendentemente bueno.

Si tu prioridad es el ingles y la precision maxima, NVIDIA Canary-Qwen 2.5B es objetivamente el mejor modelo del mercado segun los benchmarks estandar.

Si quieres integrar STT en aplicaciones C++ o servidores sin Python, whisper.cpp es la eleccion obvia.

Para un flujo de trabajo completo donde ejecutas modelos de IA en local, te recomiendo combinar faster-whisper para STT con Ollama para LLMs -- ambos gratis y sin depender de la nube.


Preguntas Frecuentes (FAQ)

Cual es el mejor modelo STT open source en 2026?

Depende del criterio. NVIDIA Canary-Qwen 2.5B tiene el menor WER global (5,63%) segun el Open ASR Leaderboard de Hugging Face. Para espanol y uso multilingue, Whisper Large-v3 sigue siendo superior. Para produccion con equilibrio velocidad-precision, faster-whisper es la mejor opcion practica.

Puedo transcribir audio en espanol gratis?

Si. faster-whisper con el modelo Large-v3 ofrece transcripcion en espanol con calidad profesional, completamente gratis. Solo necesitas un ordenador con GPU (recomendado) o CPU potente. No se envian datos a ningun servidor externo.

Cual es la diferencia entre Whisper y faster-whisper?

Los modelos son identicos -- faster-whisper usa los mismos pesos que Whisper original. La diferencia es el motor de inferencia: faster-whisper usa CTranslate2 (C++ optimizado) en lugar de PyTorch, logrando hasta 4x mas velocidad y 60% menos uso de memoria.

Puede un modelo STT open source funcionar sin internet?

Si. Todos los modelos listados en esta comparativa pueden funcionar completamente offline. Una vez descargados los pesos del modelo, no necesitan conexion a internet para transcribir audio. Vosk y whisper.cpp estan especialmente disenados para uso offline.

Que modelo STT usar en Raspberry Pi?

Para Raspberry Pi 5, las opciones viables son: Vosk (modelo pequeno de 50 MB, multiples idiomas), Moonshine Tiny (solo ingles, 27M parametros) y whisper.cpp con modelos Tiny o Base cuantizados. Whisper Large-v3 no es viable en Raspberry Pi por falta de memoria y GPU.

Cual es mejor para tiempo real: Whisper o Vosk?

Vosk es mejor para streaming en tiempo real por su API WebSocket nativa y latencia inferior a 200 ms. Whisper procesa audio en chunks de 30 segundos y no esta disenado para streaming, aunque existen soluciones como WhisperLive que lo adaptan. La contrapartida es que Vosk tiene menor precision.

Merece la pena pagar por Google Speech o AWS Transcribe teniendo Whisper gratis?

Para la mayoria de casos, no. faster-whisper iguala o supera la precision de las APIs comerciales. Las unicas razones para elegir servicios de pago son: (1) necesitas streaming de muy baja latencia sin configurar infraestructura, (2) requieres SLAs empresariales con soporte, o (3) prefieres no gestionar tu propio hardware de inferencia.


Recursos

Articulos relacionados en Javadex

Repositorios oficiales

📬

¿Te ha gustado? Hay más cada semana

Únete a "IA Sin Humo" — la newsletter donde comparto lo que realmente funciona en inteligencia artificial. Sin teoría innecesaria, sin postureo.

📚

1 Tutorial

Paso a paso, práctico

🛠️

3 Herramientas

Probadas y útiles

💡

0 Bullshit

Solo lo que importa

+547 suscriptores • Cada martes • Cancela cuando quieras