Ir al contenido principal

Mejores Modelos Open Source para Programar: Ranking Completo [2026]

20 de febrero de 2026
20 min

Ranking de los mejores modelos open source para codigo en 2026: Qwen3 Coder, DeepSeek Coder, StarCoder2 y mas. Benchmarks, GPU necesaria y como ejecutarlos con Ollama.

Javier Santos

Especialista en IA & Machine Learning

📧¿Te gusta este contenido?

Únete a 547+ profesionales que reciben tips de IA cada semana. Sin spam, cancela cuando quieras.

Mejores Modelos Open Source para Programar: Ranking Completo [2026]

Febrero de 2026 y los modelos open source para codigo han alcanzado un nivel que hace un par de anos era impensable. Qwen3-Coder resuelve el 69,6% de SWE-bench Verified. Kimi-Dev-72B compite cara a cara con Claude Sonnet. DeepSeek-V3 activa solo 37B parametros de sus 671B y supera a modelos cerrados en generacion de codigo.

Ya no necesitas pagar suscripciones mensuales para tener un copiloto de programacion potente. Puedes ejecutar estos modelos en local, en tu propia GPU, con total privacidad y sin limites de uso.

En esta comparativa analizo los 7 mejores modelos open source para programar en 2026. Con benchmarks reales, requisitos de hardware y comandos exactos para ejecutarlos con Ollama.

Aprende a sacarle el maximo partido a la IA para desarrollo. En La Escuela de IA compartimos setups, modelos y workflows para programadores. Unete gratis. Tambien en YouTube @JavadexAI y TikTok @javadex.

TL;DR - Resumen Rapido

  • Qwen3-Coder-480B-A35B: el mejor modelo open source para coding agentico. 69,6% en SWE-bench Verified. Necesita infra cloud o cuantizacion agresiva para local.
  • Kimi-Dev-72B: mejor relacion rendimiento/tamano para ingenieria de software. 60,4% en SWE-bench Verified con solo 72B parametros. Licencia MIT.
  • DeepSeek-V3: el todoterreno. 671B parametros totales, 37B activos. Domina generacion de codigo, matematicas y lenguaje natural. 82,6% HumanEval.
  • Qwen2.5-72B-Instruct: el mas consistente para depuracion y explicacion de codigo. Supera a Llama-3.1-405B en benchmarks de codigo siendo 5 veces mas pequeno.
  • StarCoder2-15B: el mejor modelo ligero puro de codigo. Entrenado de forma transparente por BigCode. Corre en GPUs de consumo.
  • CodeLlama-70B: el veterano fiable de Meta. 67,8% HumanEval, ventana de 100K tokens y amplio ecosistema de fine-tunes.
  • Mixtral-8x22B: eficiencia MoE maxima. 141B totales, 39B activos. El mas versatil para quien necesita codigo + razonamiento general.

Si solo puedes elegir uno para ejecucion local: Kimi-Dev-72B (cuantizado a Q4) o Qwen2.5-72B-Instruct. Si tienes infra cloud: Qwen3-Coder sin duda.

En Resumen: Que Modelo Elegir

Los modelos open source para programar en 2026 se dividen en tres categorias claras. Para coding agentico (resolver issues enteros de forma autonoma), Qwen3-Coder-480B y Kimi-Dev-72B lideran con diferencia en SWE-bench Verified. Para generacion y completado de codigo en el dia a dia, DeepSeek-V3 y Qwen2.5-72B ofrecen la mejor experiencia. Y para ejecucion local con hardware limitado, StarCoder2-15B es imbatible por su tamano. La eleccion depende de tu hardware, tu caso de uso y si priorizas autonomia total o asistencia interactiva.

Tabla Comparativa General

ModeloParametrosActivos (MoE)ContextoSWE-bench VerifiedHumanEvalGPU minima (cuantizado)OllamaLicencia
Qwen3-Coder-480B480B35B256K (1M)69,6%~88%2x A100 80GB / 4x RTX 4090Si (Q4)Apache 2.0
Kimi-Dev-72B72B72B (denso)128K60,4%~82%1x A100 80GB / 2x RTX 4090Si (Q4)MIT
DeepSeek-V3671B37B128K~50% (V3 base)82,6%2x A100 80GB / 4x RTX 4090Si (Q4)DeepSeek License
Qwen2.5-72B-Instruct72B72B (denso)128K~40%>85%1x A100 80GB / 2x RTX 4090Si (Q4)Apache 2.0
StarCoder2-15B15B15B (denso)16KN/A72,6%1x RTX 3090 24GBSiBigCode OpenRAIL-M
CodeLlama-70B70B70B (denso)100KN/A67,8%1x A100 80GB / 2x RTX 4090SiLlama 2 Community
Mixtral-8x22B141B39B64KN/A~77%1x A100 80GB / 2x RTX 4090SiApache 2.0
Leyenda: Los valores en negrita indican el ganador en esa categoria. Los modelos MoE (Mixture of Experts) activan solo una fraccion de sus parametros totales, lo que permite mejor rendimiento con menor coste computacional.


1. Qwen3-Coder-480B-A35B -- El Rey del Coding Agentico

Que es

Qwen3-Coder es el modelo de codigo de Alibaba Cloud, disenado especificamente para coding agentico: interactuar con herramientas de desarrollo de forma autonoma, resolver issues de GitHub completos y ejecutar acciones en entornos de desarrollo reales.

Con 480B parametros totales y 35B activos por token gracias a su arquitectura Mixture of Experts, ofrece rendimiento de frontera con eficiencia computacional razonable.

Puntos fuertes

  • 69,6% en SWE-bench Verified: el benchmark mas exigente de ingenieria de software real. Supera a Claude Sonnet 4 en este benchmark.
  • 61,8% en Aider Polyglot: demuestra dominio multilenguaje en tareas reales de edicion de codigo.
  • Ventana de 256K tokens nativa, escalable a 1M tokens con extrapolacion. Puede procesar codebases enormes.
  • Interaccion con herramientas: disenado para usar terminales, leer ficheros, ejecutar tests y hacer commits de forma autonoma.
  • Apache 2.0: uso comercial sin restricciones.

Puntos debiles

  • Requiere infra significativa: incluso cuantizado a Q4, necesitas minimo 2x A100 80GB o 4x RTX 4090 con 96GB+ de RAM.
  • Para ejecucion realmente local en una sola GPU de consumo, necesitas cuantizaciones agresivas (Q2/Q3) que degradan calidad.
  • La latencia es mayor que modelos densos mas pequenos.

Cuando elegirlo

Cuando necesitas un agente de codigo autonomo que resuelva issues completos. Ideal para equipos con acceso a infra cloud o servidores dedicados con multiples GPUs.

Comando Ollama

bash
1ollama run qwen3-coder:latest

Para la version cuantizada que cabe en menos VRAM:

bash
1ollama run qwen3-coder:q4_k_m


2. Kimi-Dev-72B -- Mejor Relacion Rendimiento/Tamano

Que es

Kimi-Dev-72B es el modelo de Moonshot AI especializado en ingenieria de software. Construido sobre Qwen2.5-72B como base, fue re-entrenado con millones de issues y pull requests reales de GitHub, y optimizado con reinforcement learning a gran escala donde solo recibe recompensa cuando pasan las suites de tests completas.

Puntos fuertes

  • 60,4% en SWE-bench Verified con solo 72B parametros. Es el estado del arte entre modelos open source de su tamano.
  • Licencia MIT: la mas permisiva posible. Uso comercial total sin restricciones.
  • Entrenado con datos reales de ingenieria de software (issues + PRs de GitHub), no solo completado de codigo.
  • Se puede ejecutar cuantizado en hardware razonable: 2x RTX 4090 o 1x A100.
  • Rendimiento cercano a Claude 3.5 Sonnet en tareas de software engineering.

Puntos debiles

  • Menos versatil para tareas generales (chat, razonamiento, matematicas). Esta hiperespecializado en codigo.
  • Ventana de 128K tokens: suficiente para la mayoria de casos pero inferior a Qwen3-Coder.
  • Comunidad mas pequena que modelos de Meta o Alibaba.

Cuando elegirlo

Cuando necesitas el mejor rendimiento posible en ingenieria de software sin requerir infra cloud masiva. Ideal para ejecutar en local con 2 GPUs de consumo de gama alta.

Comando Ollama

bash
1ollama run kimi-dev:72b-q4_K_M


3. DeepSeek-V3 -- El Todoterreno que Domina Codigo

Que es

DeepSeek-V3 es el modelo insignia de DeepSeek, una arquitectura MoE con 671B parametros totales de los cuales solo 37B se activan por token. Aunque no es exclusivamente un modelo de codigo (a diferencia de DeepSeek Coder V2), sus capacidades de programacion rivalizan con los mejores modelos cerrados.

DeepSeek Coder V2 (236B parametros, 21B activos) sigue siendo una alternativa mas ligera y especifica para codigo, con 90,2% en HumanEval y soporte para 338 lenguajes de programacion.

Puntos fuertes

  • 82,6% en HumanEval: generacion de codigo funcional de primera clase.
  • 50,5% de mejora sobre DeepSeek-V2 en LiveCodeBench.
  • Solo 37B parametros activos pese a tener 671B totales: latencia comparable a modelos densos de 40B.
  • Domina codigo, matematicas y razonamiento general con un solo modelo.
  • 128K tokens de contexto.
  • DeepSeek Coder V2 soporta 338 lenguajes de programacion.

Puntos debiles

  • El modelo V3 completo requiere infra cloud seria (similar a Qwen3-Coder).
  • La licencia DeepSeek es mas restrictiva que Apache 2.0 o MIT para uso comercial a gran escala.
  • Versiones cuantizadas pierden calidad mas rapido que modelos densos.

Cuando elegirlo

Cuando necesitas un modelo que sea excelente en codigo y en tareas generales. Si ademas de programar necesitas razonamiento, analisis de texto o matematicas, DeepSeek-V3 es la opcion mas equilibrada.

Comando Ollama

bash
1# DeepSeek V3 (version cuantizada)
2ollama run deepseek-v3:latest
3 
4# DeepSeek Coder V2 (mas ligero, especifico para codigo)
5ollama run deepseek-coder-v2:latest


4. Qwen2.5-72B-Instruct -- El Mas Consistente para Desarrollo Diario

Que es

Qwen2.5-72B-Instruct de Alibaba Cloud es el modelo open source mas consistente y fiable para tareas de programacion del dia a dia. No busca ser el lider en un benchmark especifico, sino ofrecer calidad excelente en todo: depuracion, explicacion de codigo, generacion, refactorizacion y documentacion.

Puntos fuertes

  • Supera a Llama-3.1-405B en MBPP, MultiPL-E y LiveCodeBench siendo 5 veces mas pequeno.
  • Mas de 85% en HumanEval: generacion de codigo extremadamente fiable.
  • El mejor modelo open source para depuracion y explicacion de codigo. Explica errores con claridad y sugiere correcciones precisas.
  • 128K tokens de contexto.
  • Licencia Apache 2.0.
  • Excelente para conversaciones iterativas sobre codigo: entiende el contexto y mejora el codigo paso a paso.

Puntos debiles

  • No esta optimizado para coding agentico (resolver issues autonomamente). Para eso, usa Qwen3-Coder o Kimi-Dev.
  • 72B parametros densos: necesita cuantizacion para GPUs de consumo.
  • Menor rendimiento en tareas competitivas (Codeforces, algoritmos avanzados) que DeepSeek-V3.

Cuando elegirlo

Cuando tu workflow es interactivo: preguntas, pides que depure, pides que refactorice, pides que documente. Es el mejor "companero de pair programming" open source.

Comando Ollama

bash
1ollama run qwen2.5:72b-instruct-q4_K_M

Para hardware mas limitado, la version de 32B ofrece un 85% del rendimiento:

bash
1ollama run qwen2.5:32b-instruct-q4_K_M


5. StarCoder2-15B -- El Mejor Modelo Ligero de Codigo

Que es

StarCoder2 es el resultado del proyecto BigCode, una colaboracion abierta entre Hugging Face, ServiceNow y NVIDIA. Es el unico modelo grande de codigo entrenado de forma completamente transparente, con documentacion publica de todo el proceso: datos, filtrado, licencias y evaluacion.

Viene en tres tamanos (3B, 7B, 15B). El de 15B es el mas capaz y sigue siendo ejecutable en una sola GPU de consumo.

Puntos fuertes

  • Solo 15B parametros: corre en una RTX 3090 (24GB VRAM) sin cuantizacion.
  • 72,6% en HumanEval (variante instruct): rendimiento cercano a CodeLlama-34B con menos de la mitad de parametros.
  • Entrenado en 3,3 a 4,3 billones de tokens de codigo de alta calidad.
  • El proceso de entrenamiento esta completamente documentado: sabes exactamente con que datos se entreno.
  • Fill-in-the-Middle: soporta nativamente completado de codigo en medio de funciones, no solo al final.
  • Licencia BigCode OpenRAIL-M: uso comercial permitido con restricciones eticas minimas.

Puntos debiles

  • Ventana de contexto de solo 16K tokens (con sliding window de 4K). Insuficiente para codebases grandes.
  • No tiene capacidades conversacionales fuertes. Esta optimizado para completado, no para chat.
  • Benchmarks mas bajos que modelos de 70B+ en tareas complejas.
  • No aparece en SWE-bench Verified: no esta disenado para tareas agenticas.

Cuando elegirlo

Cuando necesitas un modelo de codigo en local con hardware limitado (una sola GPU de 24GB). Ideal para autocompletado, completado fill-in-the-middle y tareas de generacion simples. Perfecto como backend para extensiones de editor tipo Copilot.

Comando Ollama

bash
1ollama run starcoder2:15b

Para la version ultra-ligera:

bash
1ollama run starcoder2:3b


6. CodeLlama-70B -- El Veterano Fiable

Que es

CodeLlama es la familia de modelos de codigo de Meta, basada en Llama 2. El modelo de 70B parametros fue durante meses la referencia en modelos open source de codigo, y aunque ya ha sido superado en benchmarks, mantiene un ecosistema masivo de fine-tunes y herramientas.

Puntos fuertes

  • 67,8% en HumanEval pass@1: supero a GPT-4 en su lanzamiento en escenarios zero-shot.
  • Ventana de 100K tokens: una de las mas amplias entre modelos de codigo.
  • Ecosistema enorme: cientos de fine-tunes especializados en HuggingFace.
  • Variantes especializadas: CodeLlama-Python, CodeLlama-Instruct.
  • Estabilidad probada: lleva mas de un ano en produccion en miles de proyectos.
  • Soporta completado infilling (FIM).

Puntos debiles

  • Benchmarks inferiores a los modelos mas nuevos (Qwen3-Coder, Kimi-Dev, DeepSeek).
  • La licencia Llama 2 Community tiene restricciones: si tienes mas de 700 millones de usuarios mensuales, necesitas licencia especial de Meta.
  • 70B parametros densos: necesita cuantizacion significativa para GPUs de consumo.
  • No tiene arquitectura MoE: menos eficiente que DeepSeek-V3 o Mixtral para su tamano.

Cuando elegirlo

Cuando necesitas estabilidad y un ecosistema maduro. Si ya tienes pipelines basados en CodeLlama o necesitas un fine-tune especifico que solo existe para esta familia. Tambien si valoras la ventana de 100K tokens.

Comando Ollama

bash
1ollama run codellama:70b

Para la version Python-optimizada:

bash
1ollama run codellama:70b-python


7. Mixtral-8x22B -- Eficiencia MoE para Codigo y Mas

Que es

Mixtral-8x22B de Mistral AI es un modelo Mixture of Experts con 141B parametros totales y solo 39B activos. No es un modelo exclusivo de codigo, pero sus capacidades de programacion lo situan entre los mejores open source, con la ventaja de ser tambien excelente en razonamiento, matematicas y multilingue.

Puntos fuertes

  • 141B totales, 39B activos: rendimiento de modelo grande con coste computacional de modelo mediano.
  • El mejor modelo open source en codigo + matematicas combinados.
  • 64K tokens de contexto.
  • Soporte nativo para function calling: ideal para integraciones con APIs y herramientas.
  • Apache 2.0: uso comercial sin restricciones.
  • Excelente en multiples idiomas de programacion gracias a entrenamiento multilingue.

Puntos debiles

  • No aparece en SWE-bench Verified: no esta optimizado para coding agentico.
  • Benchmarks de codigo puros inferiores a modelos especializados como Qwen3-Coder o DeepSeek Coder V2.
  • La arquitectura MoE requiere mas RAM total que un modelo denso del mismo rendimiento.
  • Superado en codigo puro por modelos mas recientes de Alibaba y DeepSeek.

Cuando elegirlo

Cuando necesitas un modelo versatil que sea bueno en codigo, matematicas, razonamiento y tareas generales, y quieres la eficiencia de la arquitectura MoE. Ideal para backends que atienden consultas diversas.

Comando Ollama

bash
1ollama run mixtral:8x22b

Para la version instruct optimizada:

bash
1ollama run mixtral:8x22b-instruct-v0.1-q4_K_M


Como Ejecutar Estos Modelos en Local

La forma mas sencilla de ejecutar estos modelos en tu propio hardware es con Ollama. Es un runtime de modelos de lenguaje que gestiona descarga, cuantizacion y ejecucion con un solo comando.

Instalacion de Ollama

bash
1# macOS / Linux
2curl -fsSL https://ollama.com/install.sh | sh
3 
4# Verificar instalacion
5ollama --version

En Windows, descarga el instalador desde ollama.com.

Descargar y ejecutar un modelo

bash
1# Descargar y ejecutar Qwen2.5-72B (cuantizado)
2ollama run qwen2.5:72b-instruct-q4_K_M
3 
4# Descargar y ejecutar Kimi-Dev-72B
5ollama run kimi-dev:72b-q4_K_M
6 
7# Descargar y ejecutar StarCoder2-15B (cabe en una RTX 3090)
8ollama run starcoder2:15b

Usar como API local

Ollama expone una API REST compatible con el formato de OpenAI:

bash
1curl http://localhost:11434/api/chat -d '{
2 "model": "qwen2.5:72b-instruct-q4_K_M",
3 "messages": [
4 {
5 "role": "user",
6 "content": "Escribe una funcion en Python que haga merge sort con type hints"
7 }
8 ]
9}'

Integracion con editores de codigo

Puedes conectar Ollama con Continue (extension de VS Code) o con Open WebUI para tener una interfaz web local. Para una guia completa, lee Ollama: Guia Completa para Ejecutar Modelos IA en Local.


Requisitos de Hardware

Tabla de requisitos por modelo

ModeloCuantizacionVRAM necesariaRAM sistemaGPU recomendadaAlmacenamiento
StarCoder2-15BFP1624 GB32 GB1x RTX 3090/409030 GB
StarCoder2-15BQ4_K_M10 GB16 GB1x RTX 3060 12GB9 GB
CodeLlama-70BQ4_K_M40 GB64 GB2x RTX 4090 / 1x A10040 GB
Qwen2.5-72BQ4_K_M42 GB64 GB2x RTX 4090 / 1x A10042 GB
Kimi-Dev-72BQ4_K_M42 GB64 GB2x RTX 4090 / 1x A10042 GB
Mixtral-8x22BQ4_K_M48 GB96 GB2x RTX 4090 / 1x A10048 GB
DeepSeek-V3Q4_K_M80+ GB128 GB2x A100 80GB / 4x RTX 4090100 GB
Qwen3-Coder-480BQ4_K_M80+ GB128 GB2x A100 80GB / 4x RTX 4090100 GB

Guia rapida de hardware

Con una RTX 3090/4090 (24 GB VRAM):

  • StarCoder2-15B en FP16 (sin cuantizacion) -- Rendimiento completo
  • StarCoder2-3B/7B -- Ideal para autocompletado rapido
  • Cualquier modelo de 7B-15B cuantizado a Q4

Con 2x RTX 4090 (48 GB VRAM total):

  • Qwen2.5-72B cuantizado a Q4 -- Mejor opcion calidad/precio
  • Kimi-Dev-72B cuantizado a Q4 -- Mejor para SWE tasks
  • CodeLlama-70B cuantizado a Q4
  • Mixtral-8x22B cuantizado a Q4

Con 1x A100 80GB o superior:

  • Todos los modelos de 70B en alta calidad (Q5/Q6)
  • DeepSeek-V3 y Qwen3-Coder necesitan minimo 2x A100

Solo CPU (sin GPU):

  • StarCoder2-3B cuantizado a Q4: funciona pero lento (~5 tokens/s)
  • No recomendable para modelos mayores de 7B


Casos de Uso: Cual Elegir

Autocompletado en el editor (tipo Copilot)

Necesitas velocidad y baja latencia. El modelo debe completar codigo en milisegundos.

  • Ganador: StarCoder2-15B (o 7B para hardware mas limitado)
  • Alternativa: Qwen2.5-Coder-7B

Resolver issues de GitHub de forma autonoma

El modelo lee el issue, analiza el codebase, propone cambios y ejecuta tests.

  • Ganador: Qwen3-Coder-480B (si tienes infra)
  • Alternativa local: Kimi-Dev-72B (mejor open source de su tamano)

Depuracion y explicacion de errores

Pegas un error y el modelo lo analiza, explica la causa raiz y propone la solucion.

  • Ganador: Qwen2.5-72B-Instruct
  • Alternativa: DeepSeek-V3

Generacion de funciones y clases completas

Describes lo que necesitas en lenguaje natural y el modelo genera el codigo.

  • Ganador: DeepSeek-V3 (82,6% HumanEval)
  • Alternativa: Qwen2.5-72B-Instruct (>85% HumanEval)

Proyectos multilenguaje

Trabajas con Python, TypeScript, Rust, Go y SQL en el mismo proyecto.

  • Ganador: DeepSeek Coder V2 (338 lenguajes)
  • Alternativa: Qwen3-Coder (61,8% Aider Polyglot)

Codigo + razonamiento general

Necesitas un modelo que programe bien pero tambien razone sobre arquitectura, escriba documentacion y resuelva problemas matematicos.

  • Ganador: Mixtral-8x22B (mejor equilibrio codigo + general)
  • Alternativa: DeepSeek-V3

Alternativa gratuita a GitHub Copilot

Quieres autocompletado y chat de codigo sin pagar suscripcion mensual.

  • Ganador: StarCoder2-15B + Continue (extension VS Code) + Ollama
  • Alternativa: Qwen2.5-Coder-7B + Continue

Para ver como los editores de codigo con IA comparan entre si, lee la Comparativa Windsurf vs Cursor vs Claude Code vs Copilot.


Mi Recomendacion Personal

Llevo meses probando estos modelos en proyectos reales de produccion. Esta es mi configuracion actual:

Para desarrollo activo (IDE): Uso un editor con IA que tiene acceso a modelos cerrados de frontera (Claude, GPT) para las tareas mas complejas. Pero cuando quiero privacidad total o estoy offline, ejecuto Qwen2.5-72B-Instruct en local con Ollama. Es el modelo open source que mas consistentemente genera codigo correcto a la primera.

Para tareas agenticas: Si necesito que un modelo resuelva un issue entero de forma autonoma (leer codigo, proponer cambios, ejecutar tests), Kimi-Dev-72B es mi eleccion open source. Su entrenamiento con datos reales de GitHub se nota.

Para hardware limitado: StarCoder2-15B en mi portatil con una sola GPU. No necesita mas y funciona sorprendentemente bien para autocompletado y generacion de funciones.

Mi consejo final: No te quedes con un solo modelo. La magia esta en usar el adecuado para cada tarea. Ollama hace que cambiar entre modelos sea tan facil como un comando en la terminal.


FAQ - Preguntas Frecuentes

Cual es el mejor modelo open source para programar en 2026?

Depende del caso de uso. Para coding agentico (resolver issues completos), Qwen3-Coder-480B con un 69,6% en SWE-bench Verified. Para uso local con hardware razonable, Kimi-Dev-72B (60,4% SWE-bench) o Qwen2.5-72B-Instruct. Para hardware limitado, StarCoder2-15B.

Puedo usar estos modelos como alternativa gratuita a GitHub Copilot?

Si. La combinacion StarCoder2-15B + Ollama + Continue (extension VS Code) te da autocompletado y chat de codigo totalmente gratuito y local. No necesitas conexion a internet ni suscripcion. Con una RTX 3090 funciona en tiempo real.

Cuanta VRAM necesito para ejecutar un modelo de 70B parametros?

Con cuantizacion Q4_K_M, un modelo de 70B necesita aproximadamente 40-42 GB de VRAM. Eso equivale a 2x RTX 4090 (24GB cada una) o 1x A100 80GB. Si solo tienes una RTX 4090, puedes ejecutar la version de 32B de Qwen2.5 que ofrece un 85% del rendimiento.

Cual es la diferencia entre DeepSeek-V3 y DeepSeek Coder V2?

DeepSeek-V3 es el modelo general de DeepSeek (671B parametros, 37B activos): excelente en codigo, matematicas y lenguaje natural. DeepSeek Coder V2 es la version especializada en codigo (236B parametros, 21B activos): 90,2% en HumanEval, soporte para 338 lenguajes y ventana de 128K tokens. Para codigo puro, Coder V2. Para versatilidad, V3.

Que es SWE-bench Verified y por que importa?

SWE-bench Verified es un benchmark que mide si un modelo puede resolver issues reales de repositorios Python de GitHub. No es completar una funcion simple: el modelo debe leer el issue, entender el codebase, localizar el fallo, proponer el cambio correcto y que pase la suite de tests completa. Es el benchmark mas representativo de la capacidad real de un modelo para ingenieria de software.

Puedo ejecutar Qwen3-Coder-480B en mi ordenador personal?

En la practica, no con rendimiento aceptable. Incluso con cuantizacion Q4, necesitas mas de 80 GB de VRAM y 128 GB de RAM. La opcion mas viable para uso personal es acceder a traves de APIs (Nebius, Together AI, NVIDIA NIM) o usar la version cuantizada mas agresiva (Q2) asumiendo perdida de calidad.

Cual de estos modelos tiene la licencia mas permisiva?

Kimi-Dev-72B con licencia MIT: puedes usarlo para cualquier proposito comercial o personal sin restricciones. Le siguen Qwen3-Coder y Qwen2.5-72B con Apache 2.0 (tambien muy permisiva). CodeLlama tiene la licencia mas restrictiva, con limitaciones para empresas con mas de 700 millones de usuarios mensuales.


Recursos

Guias relacionadas en Javadex

Enlaces oficiales de los modelos

📬

¿Te ha gustado? Hay más cada semana

Únete a "IA Sin Humo" — la newsletter donde comparto lo que realmente funciona en inteligencia artificial. Sin teoría innecesaria, sin postureo.

📚

1 Tutorial

Paso a paso, práctico

🛠️

3 Herramientas

Probadas y útiles

💡

0 Bullshit

Solo lo que importa

+547 suscriptores • Cada martes • Cancela cuando quieras