Ir al contenido principal
Desarrollo & IA

M5Stack Atom Echo y Xiaozhi: El Futuro del Control por Voz Privado en Español [Review 2026]

5 de febrero de 2026
26 min

Por 15€ puedes tener un Alexa privado que no envía tu voz a ningún servidor. M5Stack Atom Echo + ESPHome + Home Assistant = control por voz 100% local.

Javier Santos

Especialista en IA & Machine Learning

📧¿Te gusta este contenido?

Únete a 547+ profesionales que reciben tips de IA cada semana. Sin spam, cancela cuando quieras.

M5Stack Atom Echo y Xiaozhi: El Futuro del Control por Voz Privado en Español

Un dispositivo de 15€ del tamaño de un dado puede hacer lo mismo que un Amazon Echo de 60€. La diferencia: tu voz nunca sale de tu casa.

M5Stack Atom Echo y Xiaozhi ESP32 son la revolución del control por voz privado. Con Home Assistant, Whisper y Piper, puedes crear un ecosistema de asistentes de voz que funcionan 100% en local, sin suscripciones y con soporte completo para español.


¿Por qué necesitas un asistente de voz privado?

Cada vez que dices "Alexa" o "Hey Google", tu voz viaja a servidores en Estados Unidos donde es procesada, almacenada y, a menudo, revisada por humanos.

El problema de los asistentes comerciales

AspectoAmazon EchoGoogle HomeAsistente local
PrivacidadAudio en servidores AWSAudio en servidores Google100% local
GrabacionesAlmacenadas indefinidamenteAlmacenadas 18 mesesNo hay grabaciones
Requiere internetNo
Funciona offlineNoNo
Coste mensual€0 (eres el producto)€0 (eres el producto)€0
PersonalizaciónLimitadaLimitadaTotal
Idioma españolSí (con acento forzado)Sí (natural)
"Si no pagas por el producto, tú eres el producto. Amazon y Google monetizan tus conversaciones." — Cory Doctorow, activista digital

La alternativa: Asistentes ESP32 con Home Assistant

Home Assistant lanzó en 2023 el "Year of the Voice", un proyecto ambicioso para crear asistentes de voz totalmente locales y privados. En 2026, el ecosistema está maduro:

  • Whisper: Transcripción de voz a texto (STT) local
  • Piper: Síntesis de voz (TTS) en español con voces naturales
  • openWakeWord: Detección de palabra de activación local
  • Wyoming Protocol: Conecta todo con Home Assistant


M5Stack Atom Echo: Review completa

¿Qué es el M5Stack Atom Echo?

El Atom Echo es un altavoz inteligente del tamaño de un cubo de 24mm basado en ESP32 con micrófono integrado y un pequeño altavoz. Home Assistant lo recomienda como el dispositivo de 13 dólares para control por voz.

Especificaciones técnicas

CaracterísticaEspecificación
ProcesadorESP32-PICO-D4 (dual-core, 240MHz)
Memoria4MB Flash, 520KB SRAM
MicrófonoSPM1423 (MEMs)
Altavoz0.5W (8Ω)
ConectividadWiFi 2.4GHz, Bluetooth
LEDSK6812 RGB direccionable
Alimentación5V via USB-C
Dimensiones24 x 24 x 17 mm
Precio€12-18

Puntos fuertes

  • Tamaño minúsculo: Cabe en cualquier rincón
  • Bajo consumo: ~0.5W en standby
  • Fácil de flashear: ESPHome compatible
  • Económico: 3-4 unidades por el precio de un Echo Dot
  • Integración oficial: Documentado por Home Assistant

Puntos débiles

  • Altavoz pequeño: Sonido limitado, no apto para música
  • Micrófono único: Peor captación que arrays de micrófonos
  • Sin jack 3.5mm: No puedes conectar altavoz externo fácilmente
  • ESP32 antiguo: No tiene el rendimiento del S3

Dónde comprar

  • AliExpress: €12-15 (envío 15-30 días)
  • Amazon España: €18-22 (envío rápido)
  • Tienda oficial M5Stack: €13 + envío


Xiaozhi ESP32: La alternativa open source

¿Qué es Xiaozhi?

Xiaozhi es un proyecto open source chino que ha revolucionado el mundo de los asistentes de voz DIY. Es un chatbot de voz basado en ESP32 con integración de LLMs y soporte para más de 30 módulos de hardware.

Diferencias con Atom Echo

AspectoAtom EchoXiaozhi
EnfoqueHardware comercial + ESPHomeFramework open source completo
LLM integradoNo (depende de HA)Sí (DeepSeek, Qwen, etc.)
BackendHome AssistantServidor propio o cloud
PersonalizaciónMediaMuy alta
DocumentaciónExcelente (inglés)Buena (chino/inglés)
ComunidadGrande (HA focused)Creciente
MCP (Model Context Protocol)NoSí, nativo

Características destacadas de Xiaozhi

  1. Multimodal: Soporte para pantallas, cámaras, LEDs
  2. Múltiples LLMs: DeepSeek, Qwen, GPT-4, Claude
  3. MCP nativo: Conecta con cualquier aplicación
  4. IoT integrado: Control de dispositivos sin Home Assistant
  5. Open source MIT: Uso comercial permitido

Hardware compatible con Xiaozhi

DispositivoPrecioCaracterísticas
ESP32-S3-BOX-3€50-60Pantalla táctil, mejor audio
Atom Echo€15Básico pero funcional
AtomS3R + Echo Base€35Combo recomendado
LILYGO T-Display€20Con pantalla pequeña
M5Stack Core2€50Pantalla grande, batería

Instalación: M5Stack Atom Echo con Home Assistant

Requisitos previos

  1. Home Assistant con Supervisor (HAOS o Supervised)
  2. Add-ons instalados:

- Whisper (STT local)

- Piper (TTS local)

- openWakeWord (detección de palabra)

  1. Atom Echo con USB-C

Paso 1: Flashear ESPHome al Atom Echo

Opción A: Desde el navegador (más fácil)

  1. Conecta el Atom Echo por USB a tu ordenador
  2. Ve a web.esphome.io
  3. Click en "Connect" y selecciona el puerto USB
  4. Click en "Prepare for first use"
  5. Introduce las credenciales WiFi

Opción B: Desde ESPHome Dashboard

yaml
1# atom-echo.yaml
2substitutions:
3 name: atom-echo-salon
4 friendly_name: "Atom Echo Salón"
5 
6packages:
7 m5stack.atom-echo-voice-assistant:
8 url: https://github.com/esphome/wake-word-voice-assistants
9 files:
10 - m5stack-atom-echo/m5stack-atom-echo.yaml
11 refresh: 0s
12 
13esphome:
14 name: ${name}
15 name_add_mac_suffix: false
16 friendly_name: ${friendly_name}
17 
18wifi:
19 ssid: !secret wifi_ssid
20 password: !secret wifi_password
21 
22api:
23 encryption:
24 key: !secret api_encryption_key

Paso 2: Instalar add-ons de voz en Home Assistant

Whisper (Speech-to-Text)

  1. Ve a Configuración > Complementos > Tienda de complementos
  2. Busca "Whisper" e instala
  3. Configura:

yaml
1# Configuración de Whisper
2language: es # Español
3model: base # o 'small' para mejor precisión
4beam_size: 5

  1. Inicia el add-on

Piper (Text-to-Speech)

  1. Instala "Piper" desde la tienda
  2. Configura la voz en español:

yaml
1# Configuración de Piper
2voice: es_ES-davefx-medium # Voz española masculina
3# Alternativas:
4# es_ES-sharvard-medium # Voz femenina
5# es_MX-ald-medium # Español mexicano

openWakeWord

  1. Instala "openWakeWord" desde la tienda
  2. Palabras de activación disponibles:

- "Okay Nabu" (por defecto)

- "Hey Jarvis"

- "Hey Mycroft"

Nota importante: openWakeWord actualmente solo soporta wake words en inglés. Para español, puedes:

  • Usar una palabra en inglés (ej: "Hey Jarvis")
  • Entrenar un modelo personalizado (avanzado)
  • Usar activación por botón físico

Paso 3: Configurar Assist Pipeline

  1. Ve a Configuración > Asistentes de voz
  2. Crea un nuevo asistente:

- Nombre: "Jarvis"

- Idioma: Español

- STT: Whisper

- TTS: Piper

- Wake word: Hey Jarvis (opcional)

  1. Guarda

Paso 4: Asignar dispositivo al asistente

  1. Ve a Configuración > Dispositivos y servicios
  2. Busca tu Atom Echo (aparece como "ESPHome: atom-echo-salon")
  3. Click en el dispositivo
  4. En Asistente, selecciona "Jarvis"

Paso 5: Probar

  1. Di "Hey Jarvis" (si configuraste wake word) o pulsa el botón del Atom Echo
  2. El LED cambiará a azul (escuchando)
  3. Di: "Enciende la luz del salón"
  4. El LED cambiará a verde (procesando) y ejecutará el comando


Instalación: Xiaozhi ESP32 con servidor local

Arquitectura de Xiaozhi

code
1┌─────────────────────────────────────────────────────────────────┐
2│ XIAOZHI ECOSYSTEM │
3├─────────────────────────────────────────────────────────────────┤
4│ │
5│ ┌──────────────┐ ┌──────────────────┐ ┌─────────────┐ │
6│ │ ESP32-S3 │ │ Xiaozhi Server │ │ LLM │ │
7│ │ (Cliente) │ ──► │ (Backend) │ ──► │ (DeepSeek) │ │
8│ │ Micrófono │ │ ASR + TTS │ │ │ │
9│ │ Altavoz │ │ MCP Gateway │ │ │ │
10│ └──────────────┘ └──────────────────┘ └─────────────┘ │
11│ │ │
12│ ▼ │
13│ ┌─────────────┐ │
14│ │ Home Asst. │ │
15│ │ (vía MCP) │ │
16│ └─────────────┘ │
17│ │
18└─────────────────────────────────────────────────────────────────┘

Paso 1: Desplegar Xiaozhi Server

bash
1# Clonar repositorio
2git clone https://github.com/78/xiaozhi-esp32-server.git
3cd xiaozhi-esp32-server
4 
5# Configurar variables de entorno
6cp .env.example .env
7 
8# Editar .env con tu configuración
9# LLM_API_KEY=tu-api-key-de-deepseek
10# LLM_MODEL=deepseek-chat
11# TTS_PROVIDER=edge # o azure, google
12# STT_PROVIDER=whisper
13 
14# Levantar con Docker
15docker compose up -d

Paso 2: Flashear firmware Xiaozhi al ESP32

yaml
1# xiaozhi-config.yaml para ESPHome
2esphome:
3 name: xiaozhi-salon
4 platform: ESP32
5 board: esp32-s3-devkitc-1
6 
7external_components:
8 - source: github://78/xiaozhi-esp32
9 
10xiaozhi:
11 server_url: "http://192.168.1.100:8000" # Tu servidor Xiaozhi
12 device_id: "salon"
13 
14# Configuración de audio
15i2s_audio:
16 i2s_lrclk_pin: GPIO5
17 i2s_bclk_pin: GPIO6
18 
19microphone:
20 - platform: i2s_audio
21 id: mic
22 adc_type: external
23 i2s_din_pin: GPIO4
24 
25speaker:
26 - platform: i2s_audio
27 id: speaker
28 dac_type: external
29 i2s_dout_pin: GPIO7

Paso 3: Integrar con Home Assistant via MCP

Xiaozhi soporta el Model Context Protocol (MCP), lo que permite conectarlo con Home Assistant:

  1. Instala la integración HACS: xiaozhi-mcp-ha

yaml
1# configuration.yaml
2xiaozhi:
3 host: 192.168.1.100
4 port: 8000
5 entities:
6 - light.salon
7 - switch.calefaccion
8 - climate.termostato

  1. Ahora puedes decir: "Xiaozhi, enciende la luz del salón" y controlará Home Assistant


Comparativa de hardware para asistentes de voz

Tabla comparativa completa

DispositivoPrecioMicrófonoAltavozPantallaBateríaIdeal para
Atom Echo€151x MEMS0.5WNoNoBásico, bajo coste
AtomS3R€20NoNo0.85"NoCon Echo Base
Echo Base€102x MEMS1WNoNoComplemento S3R
ESP32-S3-BOX-3€552x MEMS1.5W2.4" táctilNoPremium, pantalla
ESP32-S3-BOX-3B€402x MEMS0.5WNoNoSin pantalla
Respeaker Lite€252x MEMSNoNoNoArray calidad
M5Stack Core2€501x MEMS1W2" táctil390mAhPortátil

Mi recomendación según presupuesto

Presupuesto mínimo (<€20): M5Stack Atom Echo

  • Funcional para comandos básicos
  • Ideal para empezar y probar

Mejor relación calidad/precio (€30-40): AtomS3R + Atomic Echo Base

  • Doble micrófono (mejor captación)
  • Procesador ESP32-S3 (más potente)
  • Modular y actualizable

Premium (€50-60): ESP32-S3-BOX-3

  • Pantalla táctil
  • Mejor calidad de audio
  • Experiencia más completa

Para múltiples habitaciones: 3-4x Atom Echo

  • Un dispositivo por habitación
  • Coste total similar a un Echo Dot


Configuración avanzada: Voces en español

Voces disponibles en Piper para español

VozAcentoGéneroCalidadID
davefxEspañaMasculinoMediaes_ES-davefx-medium
sharvardEspañaFemeninoMediaes_ES-sharvard-medium
aldMéxicoMasculinoMediaes_MX-ald-medium
claudeMéxicoMasculinoMediaes_MX-claude-high

Personalizar la voz

En la configuración del add-on Piper:

yaml
1voice: es_ES-davefx-medium
2length_scale: 1.0 # Velocidad (0.5-2.0)
3noise_scale: 0.667 # Variación tonal
4noise_w: 0.8 # Variación de duración

Crear respuestas personalizadas

En Home Assistant, puedes crear automatizaciones con respuestas de voz personalizadas:

yaml
1automation:
2 - alias: "Respuesta personalizada al preguntar la hora"
3 trigger:
4 - platform: conversation
5 command:
6 - "¿Qué hora es?"
7 - "Dime la hora"
8 action:
9 - service: conversation.process
10 data:
11 text: >
12 Son las {{ now().strftime('%H:%M') }}.
13 {% if now().hour >= 22 or now().hour < 6 %}
14 Ya es tarde, deberías irte a dormir.
15 {% elif now().hour >= 12 and now().hour < 14 %}
16 Es hora de comer, ¿tienes hambre?
17 {% endif %}


Casos de uso prácticos

Control de luces por voz

yaml
1# Intents personalizados en Home Assistant
2# sentences/es.yaml
3language: es
4intents:
5 HassLightSet:
6 data:
7 - sentences:
8 - "pon las luces al {brightness} por ciento"
9 - "luces al {brightness}"
10 slots:
11 brightness:
12 type: percentage
13 min: 0
14 max: 100
15 
16 HassTurnOn:
17 data:
18 - sentences:
19 - "enciende (la|las) {name}"
20 - "prende (la|las) {name}"
21 - "activa (la|las|el) {name}"
22 
23 HassTurnOff:
24 data:
25 - sentences:
26 - "apaga (la|las) {name}"
27 - "desactiva (la|las|el) {name}"

Rutinas por voz

yaml
1# scripts.yaml
2buenos_dias:
3 alias: "Buenos días"
4 sequence:
5 - service: light.turn_on
6 target:
7 entity_id: light.dormitorio
8 data:
9 brightness_pct: 50
10 kelvin: 4000
11 - service: media_player.volume_set
12 target:
13 entity_id: media_player.salon
14 data:
15 volume_level: 0.3
16 - service: tts.speak
17 target:
18 entity_id: tts.piper
19 data:
20 media_player_entity_id: media_player.salon
21 message: >
22 Buenos días. Son las {{ now().strftime('%H:%M') }}.
23 La temperatura exterior es de {{ states('sensor.temperatura_exterior') }} grados.

Actívalo diciendo: "Hey Jarvis, buenos días"

Consultas del hogar

yaml
1# conversation intents
2# Cuando preguntas: "¿Está encendida la calefacción?"
3intent_script:
4 CheckHeating:
5 speech:
6 text: >
7 {% if is_state('climate.termostato', 'heat') %}
8 Sí, la calefacción está encendida a {{ state_attr('climate.termostato', 'temperature') }} grados.
9 {% else %}
10 No, la calefacción está apagada.
11 {% endif %}


Solución de problemas

El micrófono no capta bien

  1. Aléjalo de fuentes de ruido (TV, ventilador)
  2. Usa doble micrófono (Echo Base o Respeaker)
  3. Ajusta sensibilidad en ESPHome:

yaml
1microphone:
2 - platform: i2s_audio
3 id: mic
4 gain: 40dB # Aumentar ganancia

La transcripción es incorrecta

  1. Usa modelo Whisper más grande:

- tinybasesmallmedium

  1. Habla más claro y pausado
  2. Reduce ruido ambiente

Latencia alta (>3 segundos)

  1. Usa aceleración GPU para Whisper si tienes Nvidia
  2. Reduce tamaño del modelo
  3. Verifica que el servidor HA no esté saturado

Wake word no funciona

openWakeWord solo soporta inglés. Alternativas:

  • Usa botón físico para activar
  • Di "Hey Jarvis" (palabra inglesa)
  • Entrena modelo personalizado con Mycroft Precise


Costes totales: Construye tu ecosistema de voz

Setup básico (1 habitación)

ComponenteCoste
Atom Echo€15
Raspberry Pi (si no tienes HA)€80
Total€15-95

Setup completo (casa entera)

ComponenteCantidadCoste
ESP32-S3-BOX-3 (salón, principal)1€55
Atom Echo (habitaciones)4€60
Mini PC para HA (si necesitas)1€150
Total-€115-265

Comparativa con ecosistemas comerciales

SetupCoste inicialCoste mensualPrivacidad
5x Echo Dot€150€0*❌ Audio en AWS
5x Google Mini€150€0*❌ Audio en Google
5x ESP32 + HA€115€5 (electricidad)✅ 100% local

*Nota: "Gratis" significa que tú eres el producto.


Conclusión: El futuro de la voz es privado y local

Los dispositivos como M5Stack Atom Echo y Xiaozhi ESP32 demuestran que:

  1. No necesitas Amazon o Google para tener un asistente de voz
  2. Por €15-50 puedes tener capacidades similares a dispositivos de €60-100
  3. Tu voz se queda en casa, procesada por Whisper en tu propio servidor
  4. El español está soportado con voces naturales gracias a Piper

El "Year of the Voice" de Home Assistant ha madurado en 2026. Lo que antes era experimental ahora es producción-ready para uso diario.

¿Mi recomendación? Empieza con un Atom Echo de €15 para probar. Si te convence (lo hará), expande a más habitaciones con dispositivos adicionales.


¿Ya tienes un asistente de voz local funcionando? Comparte tu experiencia en los comentarios. Y si este artículo te ha sido útil, suscríbete a la newsletter para más guías de Home Assistant y domótica privada.

📬

¿Te ha gustado? Hay más cada semana

Únete a "IA Sin Humo" — la newsletter donde comparto lo que realmente funciona en inteligencia artificial. Sin teoría innecesaria, sin postureo.

📚

1 Tutorial

Paso a paso, práctico

🛠️

3 Herramientas

Probadas y útiles

💡

0 Bullshit

Solo lo que importa

+547 suscriptores • Cada martes • Cancela cuando quieras