Ir al contenido principal

Top 10 Modelos de IA Open Source en Junio 2026: Ranking con Requisitos para Correrlos en Local

18 min

Ranking de los 10 mejores modelos de IA open source en junio 2026: qué destaca en cada uno, tamaños disponibles, VRAM mínima con cuantización y si su licencia permite uso comercial. Con tabla comparativa y guía rápida para probarlos con Ollama.

📧¿Te gusta este contenido?

Únete a 547+ profesionales que reciben tips de IA cada semana. Sin spam, cancela cuando quieras.

Top 10 Modelos de IA Open Source en Junio 2026: Ranking con Requisitos para Correrlos en Local

📅 Actualizado: 10 de junio de 2026 · Próxima revisión: julio 2026

DeepSeek-R1 lidera el ranking de modelos de IA open source en junio de 2026 como el mejor modelo de razonamiento que puedes ejecutar en tu propio hardware, con licencia MIT y destilados que funcionan desde 6 GB de VRAM. Le siguen Llama 4 (Meta) como mejor modelo general multimodal, Qwen3 (Alibaba) como rey del código y el multilingüe con Apache 2.0, y Gemma 3 (Google) como la mejor relación calidad/VRAM para equipos modestos. Los diez modelos de esta lista son open-weight: puedes descargarlos, correrlos en local sin pagar API y, en la mayoría de los casos, usarlos comercialmente.

Este ranking mensual se centra en lo que de verdad importa cuando vas a correr un modelo en local: para qué destaca cada uno, qué tamaños existen, cuánta VRAM necesitas con cuantización y si la licencia te deja usarlo en tu negocio. Si lo que buscas es la comparativa de modelos cerrados de frontera (Claude, GPT, Gemini), eso está en mi ranking mensual de mejores modelos de IA de junio 2026. Y si quieres el catálogo completo de modelos disponibles en Ollama (incluyendo embeddings, visión y modelos pequeños), tienes mi ranking completo de modelos para Ollama. Aquí va el top 10 del mes, con las novedades de junio.

TL;DR — Mejores modelos open source en junio de 2026

  • Mejor razonamiento open source: DeepSeek-R1 — licencia MIT, destilados desde 7B que corren en GPUs de 8 GB
  • Mejor modelo general multimodal: Llama 4 (Scout) — MoE eficiente, texto + imagen, contexto enorme
  • Mejor para programar: Qwen3 (variantes coder) — Apache 2.0, el código open source de referencia en 2026
  • Mejor calidad/VRAM: Gemma 3 — el 12B corre en 8-10 GB y rinde como modelos mucho más grandes de 2024-2025
  • Mejor opción europea: Mistral Small 3 — Apache 2.0, 24B denso, encaja con el EU AI Act
  • Mejor modelo pequeño (edge/portátil): Phi-4 — 14B con MIT, sorprendente en matemáticas y lógica
  • Mejor para agentes y tool calling: GLM-4 (Zhipu) — function calling sólido en tamaños manejables
  • Si solo tienes 8 GB de VRAM: Qwen3 8B, Gemma 3 12B en Q4 o DeepSeek-R1 destilado 7B/8B
  • Para empresa: el modelo importa menos que dónde viven los datos y quién gobierna el acceso (sección final)

Ranking completo: top 10 modelos open source en junio de 2026

#ModeloCreadorLicencia¿Uso comercial?TamañosVRAM mínima (Q4)Ganador en
1DeepSeek-R1DeepSeekMIT✅ SíDestilados 7B-70B + MoE completo6 GB (7B)Razonamiento y matemáticas ✅
2Llama 4MetaLlama Community✅ Sí (con límites)Scout (MoE 17B activos) y superiores~48 GB (Scout Q4)General multimodal ✅
3Qwen3AlibabaApache 2.0✅ Sí0.6B a 32B dense + MoE6 GB (8B)Código y multilingüe ✅
4Gemma 3GoogleGemma Terms✅ Sí (con términos)1B / 4B / 12B / 27B3 GB (4B)Calidad/VRAM ✅
5Mistral Small 3Mistral AIApache 2.0✅ Sí24B denso~14 GBEmpresa europea ✅
6DeepSeek V3.2DeepSeekMIT✅ SíMoE grande (solo servidor)Multi-GPU servidorChat general self-hosted ✅
7Phi-4MicrosoftMIT✅ Sí14B (+ variantes mini)~9 GBEdge y modelos pequeños ✅
8GLM-4Zhipu AIPropia (permisiva)✅ Sí (revisar términos)9B / 32B7 GB (9B)Agentes y tool calling ✅
9Kimi K2Moonshot AIMIT modificada✅ Sí (con cláusulas)MoE gigante (solo servidor)Multi-GPU servidorAgentic a gran escala ✅
10Llama 3.3 70BMetaLlama Community✅ Sí (con límites)70B denso~40 GBWorkhorse estable ✅
Nota metodológica: las cifras de VRAM son orientativas para cuantización Q4 (4 bits), que es el punto dulce calidad/memoria para uso local en 2026. Con Q8 necesitas aproximadamente el doble; con cuantizaciones más agresivas (Q3, Q2) puedes arañar memoria a costa de calidad. Y recuerda que en Macs con Apple Silicon la memoria unificada cuenta como VRAM a efectos prácticos.


Novedades de junio de 2026 en modelos open source

El mundo open-weight se mueve más rápido que el de los modelos cerrados, porque cada lanzamiento de DeepSeek, Qwen o Meta obliga a los demás a responder. Lo relevante a fecha de junio de 2026:

  • DeepSeek consolida el liderazgo en razonamiento abierto: la familia R1 y sus destilados siguen siendo la referencia para razonamiento y matemáticas en local. La combinación de licencia MIT (sin restricciones de uso comercial) y destilados que corren en hardware doméstico no la iguala nadie del top 10.
  • Llama 4 madura en el ecosistema local: tras su lanzamiento en primavera, las cuantizaciones de Llama 4 Scout disponibles en Ollama y Hugging Face se han estabilizado, y la comunidad ha afinado los requisitos reales de memoria (más exigentes de lo que prometía el "17B activos" del MoE — lo explico en su ficha).
  • Qwen3 amplía variantes: Alibaba sigue publicando tamaños y afinados de la familia Qwen3 bajo Apache 2.0, incluyendo variantes orientadas a código que en benchmarks públicos compiten con modelos cerrados de gama media. Es la familia con mejor español del ranking junto a Gemma.
  • Presión del EU AI Act: con el enforcement arrancando en agosto de 2026, el interés de empresas españolas por modelos open source desplegados on-premise ha subido de forma visible — es una de las consultas que más recibo este trimestre. Si te afecta, revisa el checklist del EU AI Act para PYMES antes de agosto de 2026.
  • Hardware local más accesible: los mini PC con NPU y memoria unificada generosa siguen bajando de precio, lo que ha movido la frontera de "qué puedo correr en casa". Mi guía de mejores mini PC para IA local con Ollama está actualizada con las opciones de 2026.

¿Cuáles son los mejores modelos de IA open source para correr en local?

Los mejores modelos open source para correr en local en junio de 2026 son DeepSeek-R1 (razonamiento, MIT), Llama 4 (general multimodal), Qwen3 (código, Apache 2.0), Gemma 3 (mejor calidad por GB de VRAM) y Mistral Small 3 (opción europea con Apache 2.0). La elección correcta depende de tres cosas: cuánta VRAM tienes, para qué lo vas a usar y si necesitas licencia comercial limpia. Vamos modelo a modelo.

1. DeepSeek-R1: el mejor razonamiento open source

DeepSeek-R1 es el número 1 de junio de 2026 porque resuelve la ecuación completa: razonamiento de primer nivel, licencia MIT sin letra pequeña y destilados que corren en una GPU de consumo. Es el modelo que recomiendo cuando alguien me pregunta "quiero algo que piense de verdad en mi propio hardware".

  • Para qué destaca: razonamiento paso a paso, matemáticas, lógica, problemas que requieren cadenas de pensamiento largas. Los destilados heredan una parte sorprendente de esa capacidad.
  • Tamaños disponibles: el modelo completo es un MoE enorme (solo viable en servidores multi-GPU), pero los destilados oficiales cubren desde 7B-8B hasta 70B sobre bases Qwen y Llama.
  • VRAM mínima: destilado 7B/8B en Q4 → ~6 GB. El 14B → ~10-12 GB. El 32B → ~20 GB. El 70B → ~40 GB (dos GPUs de 24 GB o un Mac con 64 GB de memoria unificada).
  • Licencia: MIT. Uso comercial sin restricciones. La más limpia del ranking.
  • Pega: los destilados "piensan en voz alta" y generan muchos tokens de razonamiento — más lentos en respuestas simples. Para chat rápido, mejor Qwen3 o Gemma 3.

2. Llama 4: el mejor modelo general multimodal abierto

Llama 4 es la apuesta de Meta por los MoE eficientes: Scout activa ~17B parámetros por token sobre un total mucho mayor, con multimodalidad (texto + imagen) y contexto muy largo. Es el modelo general abierto más completo del momento, con una advertencia importante sobre memoria.

  • Para qué destaca: uso general de alta calidad, comprensión de imágenes, documentos largos, tareas variadas donde no quieres cambiar de modelo.
  • Tamaños disponibles: Scout es la variante razonable para entusiastas; las variantes superiores de la familia son territorio de servidor.
  • VRAM mínima: aquí está la trampa de los MoE — aunque solo se activen 17B por token, todos los pesos tienen que estar en memoria. Scout en Q4 necesita en la práctica ~48-64 GB combinando VRAM y RAM (un Mac Studio con 64 GB de memoria unificada es el camino más simple). Con offloading agresivo a RAM se puede arrancar con 24 GB de VRAM + 64 GB de RAM, sacrificando velocidad.
  • Licencia: Llama Community License. Uso comercial sí, salvo que tu producto supere los 700 millones de usuarios activos mensuales (si ese es tu problema, enhorabuena) y con la obligación de atribución "Built with Llama".
  • Pega: requisitos de memoria altos para hardware doméstico. Si tienes 16 GB o menos, ni lo intentes — ve a Gemma 3 o Qwen3.

3. Qwen3: el rey del código y el multilingüe con Apache 2.0

Qwen3 es la familia open source más versátil de 2026: tamaños desde 0.6B hasta 32B densos más variantes MoE, Apache 2.0 en toda la gama y un rendimiento en código que compite con modelos cerrados de gama media. Además es, junto a Gemma, de lo mejor que hay en español.

  • Para qué destaca: programación (las variantes coder son la referencia open source), multilingüe (29+ idiomas, español excelente), y la flexibilidad de elegir tamaño exacto según tu hardware.
  • Tamaños disponibles: 0.6B, 1.7B, 4B, 8B, 14B, 32B densos, más variantes MoE que activan pocos parámetros por token (muy rápidas en inferencia para su calidad).
  • VRAM mínima: 8B en Q4 → ~6 GB. 14B → ~10 GB. 32B → ~20 GB. Las variantes MoE medianas rinden como un 30B+ activando solo ~3B, con requisitos de memoria totales de ~18-20 GB en Q4.
  • Licencia: Apache 2.0. Uso comercial sin restricciones, sin cláusulas de usuarios, sin atribución obligatoria. Para empresa, esto simplifica mucho la conversación con legal.
  • Pega: tantas variantes y afinados generan confusión al elegir. Regla simple: para código, variante coder del mayor tamaño que te quepa; para chat general, el dense de tu rango de VRAM.

4. Gemma 3: la mejor relación calidad/VRAM

Gemma 3 es el modelo que recomiendo a quien tiene una GPU de 8-12 GB y quiere la máxima calidad posible sin pelearse con la memoria. Google ha conseguido que el 12B rinda a nivel de modelos que hace un año necesitaban el triple de VRAM, y el 27B es de lo mejor que cabe en una sola GPU de 24 GB.

  • Para qué destaca: eficiencia pura (calidad por GB), visión integrada en los tamaños medianos y grandes, español muy sólido, y un comportamiento "educado" que lo hace buen modelo por defecto para asistentes internos.
  • Tamaños disponibles: 1B, 4B, 12B y 27B.
  • VRAM mínima: 4B en Q4 → ~3 GB (corre hasta en portátiles sin GPU dedicada decente). 12B → ~8-9 GB. 27B → ~17-18 GB.
  • Licencia: Gemma Terms of Use. Uso comercial permitido, pero con una política de uso prohibido que debes aceptar (nada exótico: no usos dañinos). No es Apache 2.0, pero para el 99% de empresas es perfectamente usable. Revisa los términos si tu sector es sensible.
  • Pega: en razonamiento profundo y código complejo queda por detrás de DeepSeek-R1 y Qwen3. Es el todoterreno eficiente, no el especialista.

5. Mistral Small 3: la carta europea con licencia limpia

Mistral Small 3 es un 24B denso bajo Apache 2.0 que rinde muy por encima de su tamaño en tareas de instrucción, y tiene un argumento que ningún otro del top 10 puede dar: es europeo. Para empresas españolas con requisitos del EU AI Act, eso simplifica auditorías y conversaciones con DPOs.

  • Para qué destaca: instrucciones, chat empresarial, latencia baja (al ser denso y compacto responde rápido), y el encaje regulatorio europeo.
  • Tamaños disponibles: 24B denso. Mistral mantiene además otros modelos abiertos de la casa (los históricos Mixtral MoE siguen disponibles, aunque ya no son la opción a elegir en 2026).
  • VRAM mínima: ~14-16 GB en Q4. Una GPU de 16 GB o un Mac de 32 GB lo mueven con holgura.
  • Licencia: Apache 2.0. Uso comercial sin restricciones.
  • Pega: la familia abierta de Mistral va por detrás de Qwen3 en código y de DeepSeek en razonamiento. Su punto fuerte es el equilibrio, no liderar ninguna categoría técnica.

6. DeepSeek V3.2: el mejor chat general si tienes servidor

DeepSeek V3.2 es el mejor modelo de chat general open source en bruto, pero con un asterisco enorme: es un MoE gigante que no cabe en hardware doméstico. Lo incluyo porque para una empresa que monta inferencia self-hosted en servidor propio o cloud privado, es una opción seria con licencia MIT.

  • Para qué destaca: chat general de calidad casi-frontera, coste de inferencia bajísimo por token servido (la arquitectura MoE brilla a escala).
  • Tamaños disponibles: solo el MoE completo. No hay versiones pequeñas oficiales de V3.2 (para eso están los destilados de R1).
  • VRAM mínima: olvídate de tu torre — hablamos de servidores multi-GPU. En la práctica, la mayoría lo consume vía API (a 0,28 $/MTok, la más barata del mercado) o en infraestructura dedicada.
  • Licencia: MIT para los pesos. Uso comercial sin restricciones.
  • Pega: la barrera de hardware. Si no tienes servidor, no es tu modelo; es el modelo de tu proveedor de inferencia.

7. Phi-4: el pequeño que da sorpresas

Phi-4 de Microsoft demuestra que con datos de entrenamiento muy curados, un 14B puede rendir en matemáticas y lógica como modelos bastante mayores. Es mi recomendación para portátiles, mini PC y casos edge donde cada GB cuenta.

  • Para qué destaca: matemáticas, razonamiento ligero, tareas estructuradas (extracción, clasificación) en hardware modesto. Latencia excelente.
  • Tamaños disponibles: 14B principal, más variantes mini/multimodales de la familia Phi para escenarios aún más ligeros.
  • VRAM mínima: ~9-11 GB en Q4 para el 14B. Las variantes mini bajan de 4 GB.
  • Licencia: MIT. Uso comercial sin restricciones.
  • Pega: conocimiento del mundo limitado (es pequeño y lo nota) y español correcto pero menos natural que Qwen3 o Gemma 3. Brilla en tareas acotadas, no como asistente generalista.

8. GLM-4: el especialista en agentes y tool calling

GLM-4 de Zhipu AI se ha ganado su hueco en el top 10 por una cosa concreta: function calling y comportamiento agéntico fiables en tamaños que caben en una GPU de consumo. Si estás montando agentes locales que llaman herramientas, merece la prueba frente a las opciones obvias.

  • Para qué destaca: tool calling estructurado, flujos de agente, JSON consistente. También es competente en chino e inglés; el español es correcto sin ser su fuerte.
  • Tamaños disponibles: 9B y 32B son los habituales en el ecosistema local.
  • VRAM mínima: 9B en Q4 → ~7 GB. 32B → ~20 GB.
  • Licencia: licencia propia permisiva con uso comercial permitido; revisa los términos de la variante concreta porque han variado entre versiones de la familia.
  • Pega: comunidad y tooling en español/Europa menores que las de Llama, Qwen o Mistral. Documentación a veces solo en inglés/chino.

9. Kimi K2: agentic a gran escala (solo servidor)

Kimi K2 de Moonshot AI es el MoE abierto más ambicioso en comportamiento agéntico: está entrenado específicamente para ejecutar tareas largas con herramientas, no solo para chatear. Como DeepSeek V3.2, es territorio de servidor, no de sobremesa.

  • Para qué destaca: tareas agénticas largas (usar herramientas, navegar, ejecutar código en bucle), donde los benchmarks públicos lo sitúan entre lo mejor del mundo abierto.
  • Tamaños disponibles: solo el MoE completo, de tamaño gigante con una fracción de parámetros activos por token.
  • VRAM mínima: multi-GPU de servidor. Para probarlo sin infraestructura, vía API o proveedores de inferencia.
  • Licencia: MIT modificada — uso comercial permitido con cláusulas adicionales de atribución para despliegues muy grandes. Lee la licencia antes de montar un producto encima.
  • Pega: inaccesible en local doméstico, y el español queda por detrás del inglés y el chino.

10. Llama 3.3 70B: el workhorse que se niega a jubilarse

Llama 3.3 70B cierra el top 10 porque sigue siendo el 70B denso más equilibrado y mejor soportado del ecosistema: cada herramienta, cada cuantización y cada tutorial lo cubre. No es el más brillante en nada en junio de 2026, pero es predecible, estable y está por todas partes.

  • Para qué destaca: fiabilidad. Chat general sólido, buen seguimiento de instrucciones, comportamiento conocido. Para producción conservadora, eso vale oro.
  • Tamaños disponibles: 70B denso (la familia 3.x incluye también 8B, que hoy ya recomiendo sustituir por Qwen3 8B o Gemma 3 12B).
  • VRAM mínima: ~40-43 GB en Q4. Dos GPUs de 24 GB, una de 48 GB o un Mac con 64 GB de memoria unificada.
  • Licencia: Llama Community License (igual que Llama 4: comercial sí, con límite de 700M MAU y atribución).
  • Pega: superado en casi todas las métricas por modelos más nuevos y más pequeños. Está aquí por madurez de ecosistema, no por benchmarks.

Comparativa rápida por caso de uso (junio 2026)

Si solo te llevas una tabla de este post, que sea esta:

Caso de usoGanadorAlternativaVRAM mínima del ganador
Razonamiento y matemáticasDeepSeek-R1 (destilados) ✅Phi-46 GB (7B Q4)
ProgramaciónQwen3 (coder) ✅DeepSeek-R1 32B6-20 GB según tamaño
Chat general en españolGemma 3 27B ✅Qwen3 14B~18 GB
Multimodal (texto + imagen)Llama 4 Scout ✅Gemma 3 27B~48 GB
GPU de 8 GBQwen3 8B ✅Gemma 3 12B (Q4 justo)6 GB
Portátil / edgePhi-4 ✅Gemma 3 4B3-9 GB
Agentes con herramientasGLM-4 ✅Qwen3 32B7 GB (9B Q4)
Servidor self-hosted empresaDeepSeek V3.2 ✅Kimi K2Multi-GPU
Licencia comercial sin letra pequeñaQwen3 / Mistral Small 3 (Apache 2.0) ✅DeepSeek (MIT)
Cumplimiento UE / EU AI ActMistral Small 3 ✅Cualquiera on-premise~14 GB

La conclusión que repito a mis clientes: no hay un "mejor modelo open source", hay un mejor modelo por caso de uso y por presupuesto de hardware. Y la buena noticia de 2026 es que con 8-16 GB de VRAM ya juegas en una liga que hace dos años exigía un servidor.


Cómo probar estos modelos con Ollama en 10 minutos

La forma más rápida de probar cualquiera de los modelos locales del ranking es Ollama. Si nunca lo has usado, mi guía completa de Ollama cubre la instalación paso a paso; aquí va la versión exprés:

bash
1# 1. Instalar Ollama (macOS/Linux)
2curl -fsSL https://ollama.com/install.sh | sh
3 
4# 2. Probar los ganadores del ranking según tu VRAM
5# GPU de 8 GB o menos:
6ollama run qwen3:8b
7ollama run gemma3:12b
8 
9# Razonamiento (cualquier GPU de 8+ GB):
10ollama run deepseek-r1:8b
11 
12# GPU de 16 GB:
13ollama run mistral-small3
14ollama run phi4
15 
16# GPU de 24 GB:
17ollama run qwen3:32b
18ollama run gemma3:27b
19 
20# 3. Ver qué tienes descargado y cuánto ocupa
21ollama list

Tres consejos de campo:

  1. Empieza por el tamaño que cabe holgado, no por el más grande que arranca. Un modelo que entra justo en VRAM hace swapping y la velocidad se desploma. Mejor un 12B fluido que un 27B a 2 tokens/segundo.
  2. Verifica la cuantización del tag. En Ollama, el tag por defecto suele ser Q4; si tu caso necesita máxima fidelidad (extracción de datos, código delicado), prueba el tag Q8 del mismo modelo si te cabe.
  3. Si dudas entre Ollama y otras opciones de escritorio, tengo una comparativa de Ollama vs LM Studio vs Jan con pros y contras de cada una.

¿Y el hardware? Si estás montando equipo para esto, el factor decisivo es la memoria, no el procesador. Mi guía de mini PC para IA local compara las opciones de 2026 por rango de precio.


Errores comunes al elegir un modelo open source

Error 1: confundir "open source" con "puedo hacer lo que quiera"

Problema: descargas un modelo, montas un producto comercial encima y descubres después que la licencia tenía condiciones (atribución, límites de uso, políticas de uso aceptable). Llama, Gemma y Kimi K2 tienen letra pequeña; Qwen3, Mistral Small 3, DeepSeek y Phi-4 (Apache 2.0 / MIT) no.

Solución: si el modelo va a producción comercial, lee la licencia exacta de la variante exacta que usas. Para minimizar riesgo legal, prioriza Apache 2.0 o MIT.

Error 2: elegir por el benchmark, no por tu VRAM

Problema: te enamoras del modelo número 1 del leaderboard y tu GPU de 8 GB solo puede correrlo en una cuantización tan agresiva que rinde peor que un modelo más pequeño bien servido.

Solución: primero tu presupuesto de memoria, después el ranking. Un Qwen3 8B en Q4 fluido gana a un 70B asfixiado en Q2, siempre.

Error 3: ignorar la trampa de memoria de los MoE

Problema: lees "Llama 4 Scout solo activa 17B parámetros" y crees que necesita la VRAM de un 17B. No: todos los pesos del MoE deben estar cargados en memoria, aunque solo una parte se active por token. Los MoE son rápidos, no pequeños.

Solución: para dimensionar memoria, mira el tamaño total del modelo cuantizado (el archivo que descargas), no los parámetros activos.

Error 4: montar IA local "porque es gratis" sin contar el coste real

Problema: el modelo es gratis, pero el hardware, la electricidad, el mantenimiento y las horas de tu equipo no. He visto PYMES gastar más en un servidor infrautilizado y en horas de IT que lo que les habría costado un año entero de API.

Solución: haz números antes. Local gana cuando hay volumen alto sostenido, requisitos duros de privacidad o regulación. Para los matices del despliegue empresarial, tengo una guía completa de IA on-premise con modelos locales para empresas.

Error 5: dar el modelo por desplegado cuando solo está instalado

Problema: ollama run en un portátil no es un despliegue. Sin autenticación, sin control de quién accede, sin trazabilidad de qué datos entran, y con cada empleado montándose su propia instancia (o peor: volviendo a pegar datos en su ChatGPT personal porque "el local va lento").

Solución: para uso de equipo, el modelo necesita vivir detrás de una interfaz con usuarios, permisos y registro de actividad. De esto va la última sección.


¿Cuáles son los mejores modelos de IA open source en 2026?

En 2026, los mejores modelos de IA open source son DeepSeek-R1 para razonamiento (licencia MIT, destilados desde 6 GB de VRAM), Llama 4 como mejor general multimodal, Qwen3 para programación y multilingüe (Apache 2.0), Gemma 3 como mejor relación calidad/VRAM y Mistral Small 3 como mejor opción europea. Para servidores empresariales, DeepSeek V3.2 y Kimi K2 ofrecen calidad cercana a los modelos cerrados de frontera con control total de los datos. La distancia entre open source y modelos cerrados se ha estrechado tanto que para la mayoría de tareas empresariales (clasificación, extracción, RAG interno, asistentes de equipo) un modelo abierto bien elegido es suficiente — y elimina la factura de API y la cesión de datos.


Casos reales: open source en empresas españolas (2026)

Dos ejemplos recientes de mi consultoría, anonimizados:

  • Una asesoría fiscal de entre 10 y 20 empleados (primavera de 2026) necesitaba procesar documentación de clientes sin que saliera de su servidor por política interna. Desplegamos Qwen3 14B cuantizado en un equipo con GPU de 16 GB para extracción y clasificación de documentos, con un coste de hardware amortizado en menos de un año frente a su gasto previo en APIs.
  • Una empresa industrial de 30-50 empleados (mayo de 2026) quería un asistente interno sobre su documentación técnica sin depender de proveedores estadounidenses, anticipándose al EU AI Act. La combinación fue Gemma 3 27B para el chat + un modelo de embeddings open source para la búsqueda, todo on-premise, con los modelos cerrados disponibles solo para tareas sin datos sensibles.

El patrón que se repite: el modelo open source no sustituye a todo, pero cubre el 70-80% de los casos internos a coste marginal cero por consulta, y deja los modelos de frontera para lo que de verdad los necesita.


El paso que casi todas las empresas se saltan: del modelo a la plataforma

Llegados aquí tienes claro qué modelo correr y en qué hardware. Pero si me llevo algo de implementar esto en docenas de empresas es que el modelo es el 20% del problema. El 80% es lo de siempre: ¿quién accede? ¿con qué permisos? ¿dónde quedan registradas las conversaciones? ¿cómo le das a tu equipo una interfaz decente para que deje de usar su cuenta personal de ChatGPT con datos de clientes?

¿Quieres estos modelos sirviendo a tu equipo con interfaz propia y datos en tu servidor? Eso es exactamente Cortex by Javadex: tu plataforma de IA privada con tu marca, donde tu equipo usa los modelos open source de este ranking junto a Claude, GPT o Gemini según la tarea — con usuarios, permisos, trazabilidad y los datos en Europa (o directamente en tu servidor). Sin lock-in con ningún proveedor. Lo monto yo personalmente en 1 mes, desde 5.000 €. Tienes el detalle del servicio en la guía de Cortex, la plataforma de IA privada para empresas y el contexto de por qué importa en mi post sobre IA privada con datos en Europa.

¿Hablamos de tu caso? Cuéntame qué necesitas →


Preguntas frecuentes (FAQ)

¿Cuál es el mejor modelo de IA open source?

DeepSeek-R1 es el mejor modelo open source en conjunto en junio de 2026: razonamiento de primer nivel, licencia MIT sin restricciones comerciales y destilados que corren desde 6 GB de VRAM. Para programación, la referencia es Qwen3; para uso general multimodal, Llama 4; para máxima eficiencia en GPUs modestas, Gemma 3.

¿Cuál es el mejor modelo de IA open source en junio de 2026?

En junio de 2026 el ranking lo encabezan DeepSeek-R1 (razonamiento), Llama 4 (general multimodal), Qwen3 (código y multilingüe), Gemma 3 (calidad/VRAM) y Mistral Small 3 (opción europea Apache 2.0). Para servidores empresariales self-hosted, DeepSeek V3.2 y Kimi K2 son las opciones de mayor calidad bruta.

¿Qué modelo de IA puedo correr con 8 GB de VRAM?

Con 8 GB de VRAM puedes correr Qwen3 8B, DeepSeek-R1 destilado 7B/8B, GLM-4 9B o Gemma 3 12B en cuantización Q4. Son modelos perfectamente útiles para chat, resúmenes, extracción de datos y código sencillo. Evita modelos de 14B o más: entrarán justos y la velocidad se desplomará.

¿Puedo usar estos modelos open source comercialmente en mi empresa?

Sí, los diez modelos del ranking permiten uso comercial, pero con matices según la licencia. Qwen3, Mistral Small 3 (Apache 2.0), DeepSeek-R1, DeepSeek V3.2 y Phi-4 (MIT) no tienen restricciones. Llama 4 y Llama 3.3 exigen atribución y tienen un límite de 700 millones de usuarios mensuales. Gemma 3 requiere aceptar la política de uso de Google, y Kimi K2 añade cláusulas de atribución para despliegues muy grandes. Si vas a producción, lee siempre la licencia de la variante exacta.

¿Cuánta VRAM necesito para Llama 4?

Llama 4 Scout necesita en la práctica unos 48-64 GB de memoria (VRAM + RAM combinadas) en cuantización Q4. Aunque el MoE solo activa ~17B parámetros por token, todos los pesos deben estar cargados en memoria. El camino más simple es un Mac con 64 GB de memoria unificada; con 24 GB de VRAM + 64 GB de RAM puede arrancar con offloading, pero lento.

¿Es mejor un modelo open source en local o pagar una API?

Depende del volumen, la privacidad y la regulación. Local gana con volumen alto sostenido (coste marginal cero por consulta), datos sensibles que no pueden salir de tu infraestructura o requisitos del EU AI Act. La API gana para volumen bajo o irregular y cuando necesitas la máxima calidad de los modelos de frontera. Muchas empresas acaban en un modelo híbrido: open source en local para lo interno y sensible, API para lo puntual y exigente.

¿Qué diferencia hay entre open source y open weight?

La mayoría de modelos de este ranking son técnicamente "open weight": publican los pesos para descargar y usar, pero no siempre los datos de entrenamiento ni el código completo, y algunos con licencias propias en vez de licencias OSI clásicas. En la práctica, para correrlos en local y usarlos comercialmente, lo que importa es la licencia de los pesos: Apache 2.0 y MIT te dan libertad total; las licencias comunitarias (Llama, Gemma) imponen condiciones que debes revisar.

¿Estos modelos funcionan bien en español?

Sí, pero con diferencias notables. Qwen3 y Gemma 3 son los mejores del ranking en español natural; Llama 4 y Mistral Small 3 son muy sólidos; DeepSeek-R1 razona bien en español aunque a veces "piensa" en inglés o chino; Phi-4 y GLM-4 son correctos pero menos naturales. Para un asistente interno en español de España, mi orden de preferencia es Gemma 3 → Qwen3 → Mistral Small 3.


Posts relacionados


En resumen

  • DeepSeek-R1 lidera el open source en junio de 2026: razonamiento de primer nivel, licencia MIT y destilados que corren desde 6 GB de VRAM
  • Llama 4, Qwen3 y Gemma 3 completan el podio amplio: general multimodal, código/multilingüe y eficiencia respectivamente
  • Con 8-16 GB de VRAM ya tienes opciones serias: Qwen3 8B, Gemma 3 12B, Phi-4 o Mistral Small 3 cubren la mayoría de casos reales
  • La licencia importa tanto como el benchmark: Apache 2.0 (Qwen3, Mistral) y MIT (DeepSeek, Phi-4) dan libertad total; Llama y Gemma tienen condiciones que debes revisar antes de producción
  • Los MoE son rápidos, no pequeños: para dimensionar memoria mira el tamaño total cuantizado, no los parámetros activos
  • Para una empresa, el modelo es el 20% del problema: el 80% es gobernar el acceso, los permisos y los datos — que es lo que resuelve una plataforma de IA privada como Cortex by Javadex, con estos modelos sirviendo a tu equipo bajo tu marca y en tu servidor

— Javier Santos Criado, consultor IA en Javadex

¿Quieres todo esto en una plataforma con TU marca?

Cortex by Javadex te monta tu propio ChatGPT corporativo en 30 días: multi-modelo, conectado a tu stack, datos en Europa y con tu logo. Sin SaaS, sin lock-in, sin coste por usuario. Desde 5.000€.

Ver Cortex en detallejavi@javadex.es
📬

¿Te ha gustado? Hay más cada semana

Únete a "IA Sin Humo" — la newsletter donde comparto lo que realmente funciona en inteligencia artificial. Sin teoría innecesaria, sin postureo.

📚

1 Tutorial

Paso a paso, práctico

🛠️

3 Herramientas

Probadas y útiles

💡

0 Bullshit

Solo lo que importa

+547 suscriptores • Cada martes • Cancela cuando quieras

Javier Santos - Especialista en IA & Machine Learning

Javier Santos

Consultor de IA para empresas. Comparto contenido sobre inteligencia artificial, automatización y desarrollo cada semana.