gpt-oss de OpenAI: El Primer Modelo Open Source desde GPT-2 que Rivaliza con o4-mini [Analisis 2026]
OpenAI ha liberado gpt-oss, su primer modelo de pesos abiertos desde GPT-2 en 2019, y el resultado es historico: un modelo de 120 mil millones de parametros bajo licencia Apache 2.0 que rivaliza con o4-mini en benchmarks de razonamiento, corre en una sola GPU de 80 GB y esta disponible gratis en Hugging Face para uso comercial sin restricciones. Despues de anos siendo la empresa mas cerrada del sector, OpenAI ha dado un giro estrategico completo. En este analisis desgranamos la arquitectura, los benchmarks reales, las limitaciones, y como se compara con DeepSeek R1, Llama 4 Maverick y Qwen3 235B.
¿Quieres dominar la IA? En La Escuela de IA compartimos tutoriales y recursos. Unete gratis. Tambien en YouTube @JavadexAI.
TL;DR - Resumen rapido de gpt-oss
- Que es: Dos modelos open-weight de OpenAI: gpt-oss-120b (116.8B parametros) y gpt-oss-20b (20.9B parametros).
- Arquitectura: Mixture-of-Experts (MoE) con 128 expertos, solo 4 activos por token (5.1B parametros activos en el 120b).
- Licencia: Apache 2.0 completa, permite uso comercial, fine-tuning y redistribucion.
- Rendimiento: Rivaliza con o4-mini en coding (Codeforces 2622 vs 2719) y supera a o3-mini en la mayoria de benchmarks.
- MMLU-Pro: 90.0%, superando a DeepSeek R1 (85.0%) y Qwen3 Thinking (84.4%).
- AIME 2025: 97.9% con herramientas, la puntuacion mas alta entre modelos open source.
- VRAM: El modelo 120b cabe en una sola GPU H100 de 80 GB gracias a cuantizacion MXFP4. El modelo 20b requiere solo 16 GB.
- Velocidad: 291 tokens/segundo en modo high, hasta 2.224 tokens/s en Cerebras.
- Disponibilidad: Hugging Face, Ollama, GitHub, y mas de 22 proveedores de API.
- Veredicto: El mejor modelo open source americano, aunque DeepSeek R1 y Qwen3 235B lo superan en inteligencia general por un margen estrecho.
Que es gpt-oss y por que es tan importante
gpt-oss es la familia de modelos de pesos abiertos de OpenAI, lanzada en agosto de 2025 bajo licencia Apache 2.0. Incluye dos variantes: gpt-oss-120b con 116.8 mil millones de parametros totales, y gpt-oss-20b con 20.9 mil millones. Ambos son modelos de razonamiento basados en la arquitectura Mixture-of-Experts (MoE), entrenados con refuerzo y tecnicas derivadas de los modelos frontier internos de OpenAI, incluyendo o3.
Para entender la magnitud de este movimiento, hay que recordar que el ultimo modelo de pesos abiertos de OpenAI fue GPT-2, lanzado en febrero de 2019 con apenas 1.5 mil millones de parametros. Desde entonces, OpenAI se convirtio en la empresa mas cerrada del sector de IA, argumentando riesgos de seguridad para justificar el secretismo. Siete anos despues, la presion competitiva les obligo a cambiar de estrategia.
Si quieres contexto sobre el panorama actual de modelos abiertos, consulta nuestro ranking de los 10 mejores modelos IA open source en marzo 2026 y la guia de mejores modelos open source para chat.
Por que OpenAI abrio su modelo ahora
Sam Altman reconocio en enero de 2025 que OpenAI habia estado "en el lado equivocado de la historia" respecto al open source. Pero las palabras sin hechos no valen nada en este sector. Lo que realmente forzó el cambio fue la competencia:
- DeepSeek R1 demostro que un laboratorio chino podia crear un modelo de razonamiento de 671B parametros y liberarlo bajo licencia MIT, humillando a OpenAI en su propio terreno.
- Llama 4 Maverick de Meta continuo la tradicion de ofrecer modelos competitivos de forma gratuita, acumulando una base de usuarios enorme.
- Qwen3 235B de Alibaba establecio el benchmark mas alto entre modelos abiertos, superando incluso a algunos modelos propietarios.
La decision de OpenAI no fue altruismo. Fue supervivencia estrategica. Al liberar gpt-oss con licencia Apache 2.0, OpenAI busca capturar el ecosistema de desarrolladores que estaban construyendo sobre modelos rivales, mientras mantiene sus modelos propietarios (GPT-5.2, o4-mini, o3) como oferta premium.
Como dijo el propio Altman al anunciar gpt-oss: "Estamos entusiasmados de poner este modelo, el resultado de miles de millones de dolares en investigacion, a disposicion del mundo para poner la IA en manos del mayor numero de personas posible."
Linea temporal: de GPT-2 a gpt-oss
| Fecha | Modelo | Parametros | Licencia | Significado |
|---|---|---|---|---|
| Febrero 2019 | GPT-2 | 1.5B | Open source | Ultimo modelo abierto de OpenAI |
| Junio 2020 | GPT-3 | 175B | Propietario | Inicio de la era cerrada |
| Marzo 2023 | GPT-4 | ~1.8T (estimado) | Propietario | Dominio absoluto de OpenAI |
| Enero 2025 | DeepSeek R1 | 671B | MIT | China supera a OpenAI en open source |
| Abril 2025 | Llama 4 Maverick | 400B+ | Llama License | Meta consolida el open source |
| Agosto 2025 | gpt-oss-120b | 116.8B | Apache 2.0 | OpenAI vuelve al open source |
| Agosto 2025 | gpt-oss-20b | 20.9B | Apache 2.0 | Modelo edge de OpenAI |
Arquitectura tecnica de gpt-oss
Mixture-of-Experts: muchos parametros, pocos activos
La arquitectura de gpt-oss es uno de sus mayores logros de ingenieria. Aunque el modelo tiene 116.8 mil millones de parametros totales, solo 5.1 mil millones estan activos para cada token procesado. Esto se consigue gracias al diseno Mixture-of-Experts (MoE), donde el modelo contiene 128 expertos especializados pero solo activa 4 de ellos por cada token de entrada.
Este enfoque permite que gpt-oss-120b tenga la capacidad de un modelo masivo con el coste computacional de un modelo mucho mas pequeno. En la practica, esto significa que puedes ejecutar un modelo con conocimiento de 120B parametros usando los recursos de un modelo de 5B.
Especificaciones tecnicas detalladas
| Especificacion | gpt-oss-120b | gpt-oss-20b |
|---|---|---|
| Parametros totales | 116.8B | 20.9B |
| Parametros activos por token | 5.1B | 3.6B |
| Numero de capas | 36 | 24 |
| Dimension residual | 2.880 | 2.880 |
| Expertos totales por capa MoE | 128 | 32 |
| Expertos activos por token | 4 | 4 |
| Ventana de contexto | 131K tokens | 131K tokens |
| Cuantizacion nativa | MXFP4 (4.25 bits) | MXFP4 (4.25 bits) |
| VRAM minima | 80 GB (1x H100) | 16 GB |
| Funcion de activacion MoE | Gated SwiGLU | Gated SwiGLU |
| Atencion | GQA, grupo de 8 | GQA, grupo de 8 |
| Patron de atencion | Alternancia banded window (128 tokens) + dense | Alternancia banded window + dense |
| Normalizacion | RMSNorm (Pre-LN) | RMSNorm (Pre-LN) |
| Licencia | Apache 2.0 | Apache 2.0 |
Cuantizacion MXFP4: el truco que lo hace practico
Lo que permite que gpt-oss-120b quepa en una sola GPU de 80 GB es la cuantizacion MXFP4 (Microscaling Floating Point 4-bit). Los pesos de los expertos MoE representan mas del 90% del total de parametros del modelo. Al cuantizar estos pesos a 4.25 bits por parametro, OpenAI reduce drasticamente el uso de memoria sin sacrificar calidad de forma apreciable.
Dato clave: Los modelos se entrenaron directamente con cuantizacion MXFP4 como parte del post-entrenamiento. No es una cuantizacion aplicada despues del entrenamiento (como GPTQ o AWQ), sino que forma parte integral del proceso de entrenamiento. Esto resulta en una perdida de calidad minima comparado con cuantizaciones post-hoc.
Atencion con ventana alternada
Los bloques de atencion alternan entre dos patrones: banded window attention con una ventana de 128 tokens (eficiente para contexto local) y dense attention completa (para capturar dependencias de largo alcance). Este diseno hibrido optimiza la velocidad de inferencia sin sacrificar la capacidad de manejar contextos largos de hasta 131K tokens.
Niveles de razonamiento
Al igual que los modelos o-series de OpenAI, gpt-oss soporta tres niveles de esfuerzo de razonamiento:
- Low: Respuestas rapidas con minimo razonamiento interno. Ideal para tareas sencillas.
- Medium: Balance entre velocidad y profundidad de razonamiento.
- High: Razonamiento completo con "cadena de pensamiento" interna. Maximo rendimiento en tareas complejas.
Esta funcionalidad, hasta ahora exclusiva de modelos propietarios como o4-mini, es una de las innovaciones que gpt-oss trae al ecosistema open source. Es probable que otros modelos abiertos adopten este paradigma en el futuro.
Benchmarks completos: gpt-oss vs el mundo
Tabla comparativa principal
| Benchmark | gpt-oss-120b (high) | o4-mini | o3-mini | DeepSeek R1 | Qwen3 235B (Thinking) | Llama 4 Maverick |
|---|---|---|---|---|---|---|
| MMLU-Pro | 90.0% | 91.2% | 87.5% | 85.0% | 84.4% | 82.1% |
| AIME 2024 (con tools) | 96.6% | 97.1% | 89.3% | 87.5% | 91.4% | 78.2% |
| AIME 2025 (con tools) | 97.9% | 98.2% | 90.1% | 87.5% | 92.3% | 79.8% |
| GPQA Diamond (con tools) | 80.9% | 82.4% | 76.3% | 81.0% | 81.1% | 73.5% |
| SWE-bench Verified | 62.4% | 68.9% | 55.2% | 65.8% | 61.3% | 57.8% |
| Codeforces (con tools) | 2622 | 2719 | 2387 | 2516 | 2480 | 2105 |
| TAU-bench Retail | 67.8% | 75.4% | 62.1% | 68.2% | 65.0% | 60.3% |
| BFCL-v3 (function calling) | 67.5% | 78.3% | 65.8% | 37.0% | 71.9% | 62.4% |
Analisis de los benchmarks clave
MMLU-Pro (conocimiento general y razonamiento): Con un 90.0%, gpt-oss-120b supera ampliamente a todos los modelos open source. DeepSeek R1 se queda en 85.0% y Qwen3 en 84.4%. Solo o4-mini (91.2%) lo supera por un margen estrecho. Para un modelo de pesos abiertos, esta puntuacion es historica.
AIME 2024/2025 (matematicas de competicion): Aqui gpt-oss-120b brilla con especial intensidad. El 96.6% en AIME 2024 y el 97.9% en AIME 2025 (ambos con herramientas) lo situan practicamente a la par con o4-mini. Para contexto, estos resultados superan a DeepSeek R1 por mas de 9 puntos porcentuales. Es el modelo open source con mejor rendimiento matematico disponible.
Codeforces (programacion competitiva): La puntuacion Elo de 2622 coloca a gpt-oss-120b en el top 1% de programadores competitivos globales. Solo o4-mini (2719) y o3 lo superan. Comparado con DeepSeek R1 (2516), la ventaja es de mas de 100 puntos Elo, lo que es significativo en esta escala.
SWE-bench Verified (edicion de codigo real): Con un 62.4%, gpt-oss-120b se queda algo atras respecto a DeepSeek R1 (65.8%) y claramente por debajo de o4-mini (68.9%). Este benchmark evalua la capacidad de resolver issues reales en repositorios de GitHub, y es donde el modelo muestra sus mayores limitaciones relativas.
GPQA Diamond (ciencia nivel doctorado): El 80.9% esta practicamente empatado con DeepSeek R1 (81.0%) y Qwen3 Thinking (81.1%). Esta es una area donde los tres modelos open source convergen en rendimiento, demostrando que el gap con modelos propietarios se ha cerrado significativamente.
gpt-oss-120b vs gpt-oss-20b: merecen la pena los 100B extra
| Benchmark | gpt-oss-120b | gpt-oss-20b | Diferencia |
|---|---|---|---|
| MMLU-Pro | 90.0% | 85.2% | +4.8 puntos |
| AIME 2025 (tools) | 97.9% | 91.4% | +6.5 puntos |
| GPQA Diamond (tools) | 80.9% | 74.3% | +6.6 puntos |
| SWE-bench Verified | 62.4% | 54.8% | +7.6 puntos |
| Codeforces (tools) | 2622 | 2516 | +106 Elo |
| VRAM necesaria | 80 GB | 16 GB | 5x mas |
| Velocidad (tok/s) | ~291 | ~580 | 2x mas rapido |
Comparativa estrategica: gpt-oss vs la competencia open source
Tabla de comparativa integral
| Caracteristica | gpt-oss-120b | DeepSeek R1 | Qwen3 235B | Llama 4 Maverick |
|---|---|---|---|---|
| Parametros totales | 116.8B | 671B | 235B | 400B+ |
| Parametros activos | 5.1B | 37B | 22B | ~17B |
| Arquitectura | MoE (128 expertos) | MoE (257 expertos) | MoE | MoE (alternado) |
| Ventana de contexto | 131K | 128K | 131K | 1M+ |
| Cuantizacion nativa | MXFP4 | No | No | No |
| VRAM minima (cuantizado) | 80 GB | ~320 GB | ~120 GB | ~200 GB |
| Licencia | Apache 2.0 | MIT | Apache 2.0 | Llama License |
| Niveles de razonamiento | Low/Medium/High | No | Si (thinking/non-thinking) | No |
| Indice de inteligencia | 58 | 59 | 64 | 52 |
| Fine-tuning permitido | Si | Si | Si | Con restricciones |
| Uso comercial | Sin restricciones | Sin restricciones | Sin restricciones | Con restricciones (750M usuarios) |
| Pais de origen | Estados Unidos | China | China | Estados Unidos |
DeepSeek R1: el rival mas directo
DeepSeek R1 sigue siendo el modelo open source con mayor indice de inteligencia (59 vs 58 de gpt-oss-120b segun Artificial Analysis). Sin embargo, la comparacion directa no es justa en terminos de eficiencia: DeepSeek R1 tiene 671B parametros totales y 37B activos, frente a los 116.8B totales y 5.1B activos de gpt-oss. Dicho de otro modo, gpt-oss-120b logra un rendimiento casi identico con un modelo 5.7 veces mas pequeno y 7 veces menos parametros activos.
Donde DeepSeek R1 gana claramente es en SWE-bench (65.8% vs 62.4%) y GPQA (81.0% vs 80.9%). Donde gpt-oss domina es en matematicas (AIME 2025: 97.9% vs 87.5%) y MMLU-Pro (90.0% vs 85.0%).
La gran desventaja de DeepSeek R1 es practica: necesitas al menos 4 GPUs H100 para ejecutarlo con rendimiento aceptable, mientras que gpt-oss-120b corre en una sola.
Qwen3 235B: el lider en inteligencia bruta
Qwen3 235B de Alibaba tiene el indice de inteligencia mas alto entre modelos open source (64), superando tanto a gpt-oss como a DeepSeek R1. Sin embargo, en benchmarks individuales la historia es mas matizada: pierde contra gpt-oss en MMLU-Pro (84.4% vs 90.0%) y en AIME (92.3% vs 97.9%), pero gana en GPQA (81.1% vs 80.9%).
Un problema documentado de Qwen3 235B es la verbosidad: en evaluaciones se han registrado respuestas de mas de 132.000 caracteres con patrones de repeticion masiva, mientras que gpt-oss produce respuestas concisas y bien estructuradas.
Llama 4 Maverick: la opcion de Meta
Llama 4 Maverick de Meta tiene la ventaja de una ventana de contexto superior a 1 millon de tokens, pero su rendimiento en benchmarks de razonamiento esta un escalon por debajo. En Codeforces, por ejemplo, obtiene 2105 frente al 2622 de gpt-oss. Ademas, la licencia de Llama incluye restricciones para organizaciones con mas de 750 millones de usuarios activos mensuales, algo que la Apache 2.0 de gpt-oss no tiene.
Requisitos de hardware y despliegue local
gpt-oss-120b: opciones de hardware
Para ejecutar gpt-oss-120b en local necesitas, como minimo, una GPU con 80 GB de VRAM. Las opciones mas habituales son:
| GPU | VRAM | Rendimiento estimado | Precio aproximado |
|---|---|---|---|
| NVIDIA H100 80 GB | 80 GB | ~75-290 tok/s | ~25.000-30.000 EUR |
| NVIDIA A100 80 GB | 80 GB | ~50-60 tok/s | ~10.000-15.000 EUR |
| AMD MI300X | 192 GB | ~80+ tok/s | ~12.000-15.000 EUR |
| 2x NVIDIA RTX 4090 (48 GB total) | 48 GB | No suficiente | - |
| 4x NVIDIA RTX 4090 (96 GB total) | 96 GB | ~30-40 tok/s (estimado) | ~8.000-10.000 EUR |
Para despliegue empresarial con contextos largos (64-128K tokens) y multiples usuarios concurrentes (10-50), OpenAI recomienda una configuracion de 4 GPUs H100 de 80 GB con NVLink/NVSwitch, ademas de 256-512 GB de RAM del sistema.
gpt-oss-20b: IA en tu portatil
El modelo de 20B es donde gpt-oss se vuelve realmente accesible. Con solo 16 GB de VRAM puedes ejecutar gpt-oss-20b, lo que significa que funciona en:
- MacBook Pro con M2 Pro/M3 Pro o superior (16 GB de memoria unificada)
- Ordenadores con NVIDIA RTX 3090 (24 GB) o RTX 4060 Ti (16 GB)
- Cualquier sistema con al menos 16 GB de VRAM dedicada
Se ha demostrado incluso que gpt-oss-20b puede ejecutarse en dispositivos moviles con chips Snapdragon, aunque con velocidad limitada.
Como ejecutar gpt-oss con Ollama
Si ya usas Ollama para ejecutar modelos de IA en local, anadir gpt-oss es cuestion de dos comandos:
1# Descargar y ejecutar gpt-oss-120b2ollama pull gpt-oss:120b3ollama run gpt-oss:120b4 5# O la version mas ligera de 20b6ollama pull gpt-oss:20b7ollama run gpt-oss:20b
Tambien puedes usar vLLM para despliegues en servidor con mayor rendimiento:
1# Instalacion de vLLM2pip install vllm3 4# Ejecutar servidor de inferencia5python -m vllm.entrypoints.openai.api_server \6 --model openai/gpt-oss-120b \7 --quantization mxfp4 \8 --tensor-parallel-size 1 \9 --max-model-len 131072
Proveedores de API: si no quieres hardware propio
Si no dispones de hardware adecuado, mas de 22 proveedores ofrecen gpt-oss-120b via API. Los precios varian significativamente:
| Proveedor | Precio input (por 1M tokens) | Precio output (por 1M tokens) | Velocidad |
|---|---|---|---|
| DeepInfra | $0.08 | $0.39 | Media |
| Together.ai | $0.20 | $0.90 | 629 tok/s |
| Fireworks | $0.20 | $0.90 | Alta |
| OpenRouter | ~$0.50 | ~$2.00 | Variable |
| Cerebras | $0.45 | $2.00 | 2.224 tok/s |
| SambaNova | $0.30 | $1.20 | 647 tok/s |
| OpenAI API | $1.10 | $4.40 | 291 tok/s |
Capacidades agentivas y uso de herramientas
Uno de los puntos fuertes de gpt-oss es su capacidad nativa para funcionar como agente autonomo. El modelo incluye soporte integrado para:
- Function calling: Puede invocar funciones externas definidas por el desarrollador de forma estructurada.
- Web browsing: Capacidad de navegar y extraer informacion de paginas web.
- Ejecucion de codigo Python: Puede escribir y ejecutar codigo Python para resolver problemas.
- Structured Outputs: Genera respuestas en formatos estructurados (JSON, schemas) de forma fiable.
En el benchmark TAU-bench Retail (que evalua la capacidad de un modelo para usar herramientas en un escenario de atencion al cliente), gpt-oss-120b obtiene un 67.8%. No es la puntuacion mas alta (GLM-4.5 alcanza 79.7%), pero supera a muchos modelos propietarios y demuestra que las capacidades agentivas no son exclusivas de los modelos cerrados.
En BFCL-v3, el benchmark de function calling, gpt-oss obtiene un 67.5%, lo que resulta especialmente notable si lo comparamos con DeepSeek R1, que solo alcanza un 37.0% en el mismo test. Esto sugiere que gpt-oss esta mucho mejor optimizado para aplicaciones agentivas que su rival chino.
Para desarrolladores que quieren construir agentes autonomos con modelos open source, gpt-oss representa actualmente la mejor opcion en cuanto a equilibrio entre rendimiento agentivo y eficiencia computacional. Si te interesa como los modelos propietarios manejan tareas agentivas, puedes consultar nuestra guia de GPT-5.2 y la de GPT-5.3 Codex.
Licencia Apache 2.0: que puedes y que no puedes hacer
La eleccion de la licencia Apache 2.0 es una declaracion de intenciones. Es la misma licencia que usan proyectos como Kubernetes, TensorFlow y Android. En el contexto de gpt-oss, esto significa:
Lo que puedes hacer:
- Usar el modelo para cualquier proposito comercial sin pagar regalias.
- Modificar los pesos y la arquitectura (fine-tuning, destilacion, adaptacion).
- Redistribuir el modelo modificado o sin modificar.
- Integrarlo en productos propietarios sin obligacion de liberar tu codigo.
- Crear servicios de API basados en gpt-oss y cobrar por ellos.
Lo que no puedes hacer (limitaciones minimas):
- Debes cumplir con la politica de uso de gpt-oss, que basicamente exige cumplir con la ley aplicable.
- No puedes reclamar que tu producto esta "creado por OpenAI" si no lo esta (atribucion correcta).
- Debes incluir copia de la licencia Apache 2.0 si redistribuyes el modelo.
Comparada con la licencia de Llama (que restringe el uso para organizaciones con mas de 750 millones de usuarios activos mensuales) o con licencias custom como la de Mistral, la Apache 2.0 de gpt-oss es la mas permisiva del mercado entre modelos de esta capacidad.
Limitaciones y areas de mejora
Ningun modelo es perfecto, y gpt-oss tiene limitaciones claras que debes conocer antes de adoptarlo:
Rendimiento en SWE-bench
Con un 62.4% en SWE-bench Verified, gpt-oss-120b se queda atras respecto a DeepSeek R1 (65.8%) y significativamente por debajo de o4-mini (68.9%). Para tareas de edicion de codigo en repositorios reales y complejos, no es la mejor opcion disponible.
Tool use inconsistente
Aunque mejora sustancialmente respecto a DeepSeek R1 en function calling, el 67.5% en BFCL-v3 esta lejos del 78.3% de o4-mini. En aplicaciones agentivas criticas, esto puede traducirse en errores de herramientas que afecten la fiabilidad.
TAU-bench y tareas de atencion al cliente
El 67.8% en TAU-bench Retail indica que el modelo todavia no es optimo para flujos de trabajo conversacionales complejos donde hay que combinar multiples herramientas de forma secuencial.
Hardware exigente para el modelo grande
Aunque 80 GB de VRAM es impresionante para un modelo de 120B parametros, sigue siendo inaccesible para la mayoria de desarrolladores individuales. Solo quienes tienen acceso a infraestructura cloud o GPUs de gama alta pueden ejecutar el modelo 120b. El modelo 20b mitiga parcialmente este problema.
No es el mas inteligente en general
Segun el indice de inteligencia de Artificial Analysis, gpt-oss-120b obtiene un 58, por debajo de DeepSeek R1 (59) y significativamente por debajo de Qwen3 235B (64). Es el modelo open source americano mas inteligente, pero no el mas inteligente en terminos absolutos.
Casos de uso recomendados
Basandome en los benchmarks y las capacidades tecnicas, estos son los escenarios donde gpt-oss destaca:
Donde gpt-oss-120b es la mejor opcion
- Razonamiento matematico y cientifico: Con 97.9% en AIME 2025 y 80.9% en GPQA, es el mejor modelo open source para tareas que requieren razonamiento cuantitativo profundo.
- Programacion competitiva y generacion de codigo: El rating Codeforces de 2622 lo convierte en el modelo open source con mejor rendimiento en coding.
- Aplicaciones agentivas con function calling: El 67.5% en BFCL-v3 es el mejor entre modelos open source de razonamiento (comparado con el 37% de DeepSeek R1).
- Despliegue en GPU unica: Si solo tienes una H100 o A100 de 80 GB, gpt-oss-120b te da el maximo rendimiento posible en ese hardware.
Donde gpt-oss-20b es la mejor opcion
- Desarrollo local y prototipado: Con 16 GB de VRAM puedes iterar rapidamente sin depender de la nube.
- Dispositivos edge y moviles: Demostrada compatibilidad con dispositivos Snapdragon y hardware limitado.
- Aplicaciones con restricciones de latencia: A ~580 tokens por segundo, el modelo 20b es el doble de rapido que el 120b.
- Startups y desarrolladores independientes: Rendimiento comparable a o3-mini sin coste de API.
Impacto en el ecosistema open source de IA
El lanzamiento de gpt-oss marca un antes y un despues en el ecosistema de modelos abiertos. Por primera vez, los tres mayores laboratorios de IA (OpenAI, Meta, Google) tienen modelos de pesos abiertos competitivos. Esto tiene varias implicaciones:
Para desarrolladores: Mas opciones de modelos de alta calidad sin coste de licencia. La competencia entre OpenAI, Meta, Alibaba y DeepSeek esta acelerando la democratizacion de la IA.
Para empresas: La licencia Apache 2.0 elimina las barreras legales para la adopcion. Las empresas pueden construir sobre gpt-oss sin preocuparse por restricciones de uso como las de Llama.
Para la investigacion: Tener acceso a los pesos de un modelo entrenado con tecnicas de OpenAI (derivadas de o3 y modelos frontier) permite a la comunidad investigadora estudiar y mejorar estas tecnicas.
Para la geopolitica de la IA: Con gpt-oss, Estados Unidos tiene un modelo open source competitivo frente a los modelos chinos (DeepSeek, Qwen). Altman fue explicito al respecto: "Estoy entusiasmado de que el mundo construya sobre un stack de IA abierto creado en Estados Unidos, basado en valores democraticos."
Preguntas frecuentes sobre gpt-oss
Que diferencia hay entre gpt-oss y GPT-5.2
gpt-oss es un modelo open source con pesos descargables, mientras que GPT-5.2 es propietario y solo accesible via API de OpenAI. En terminos de rendimiento, GPT-5.2 supera a gpt-oss en la mayoria de benchmarks, especialmente en tareas complejas de razonamiento. gpt-oss esta disenado como alternativa gratuita para quienes necesitan ejecutar modelos en su propia infraestructura.
Se puede hacer fine-tuning de gpt-oss
Si, completamente. La licencia Apache 2.0 permite fine-tuning sin restricciones. Puedes usar herramientas open source como LoRA, QLoRA o el framework de entrenamiento que prefieras. Ten en cuenta que OpenAI no ofrece fine-tuning de gpt-oss a traves de su propia API; debes hacerlo en tu infraestructura o con proveedores terceros.
gpt-oss es realmente open source o solo open weight
Tecnicamente es open weight, no open source completo. OpenAI ha liberado los pesos del modelo bajo Apache 2.0, pero no ha publicado el codigo de entrenamiento, los datos de entrenamiento, ni los detalles completos de la infraestructura de entrenamiento. Es la misma distincion que aplica a DeepSeek R1 y Llama 4.
Puedo ejecutar gpt-oss en mi ordenador
Depende del modelo y tu hardware. gpt-oss-20b requiere solo 16 GB de VRAM y funciona en un MacBook Pro con M2/M3 Pro o en una GPU RTX 3090/4060 Ti. gpt-oss-120b necesita 80 GB de VRAM, lo que requiere una GPU profesional como H100 o A100. Consulta nuestra guia de Ollama para instrucciones paso a paso.
Que modelo open source deberia elegir: gpt-oss, DeepSeek R1 o Qwen3
Depende de tu prioridad. Si priorizas eficiencia y caber en una sola GPU, elige gpt-oss-120b. Si priorizas inteligencia bruta y tienes hardware potente, Qwen3 235B es el lider. Si buscas el mejor equilibrio general y no te importa necesitar 4 GPUs, DeepSeek R1 es una opcion solida. Para la mayoria de desarrolladores, gpt-oss-120b ofrece el mejor ratio rendimiento/coste.
gpt-oss puede generar imagenes o solo texto
Solo texto. gpt-oss es un modelo de lenguaje (LLM) sin capacidades multimodales de generacion de imagenes. Puede procesar y generar texto, ejecutar codigo, usar herramientas y generar respuestas estructuradas, pero no genera imagenes, audio ni video.
Cuanto cuesta usar gpt-oss via API
Desde $0.08 por millon de tokens de entrada en proveedores como DeepInfra, hasta $1.10 en la API oficial de OpenAI. Los precios varian hasta 5.9 veces entre proveedores. Para proyectos con alto volumen, elegir el proveedor correcto puede suponer un ahorro de miles de euros al mes.
Como se compara gpt-oss con GPT-5.3 Codex para programar
GPT-5.3 Codex es significativamente superior para programacion avanzada, con mejores resultados en SWE-bench y en tareas agentivas de codigo. Sin embargo, gpt-oss ofrece un rendimiento notable (Codeforces 2622) y la ventaja de ser ejecutable en local sin coste de API, lo que lo hace ideal para prototipado y desarrollo iterativo.
Veredicto final
gpt-oss-120b es, sin duda, el modelo open source mas importante de 2025 y uno de los lanzamientos mas significativos en la historia reciente de la IA. No por ser el modelo mas potente en terminos absolutos (Qwen3 235B lo supera en inteligencia general), sino por lo que representa: OpenAI reconociendo que el futuro de la IA pasa por la apertura, y respaldando esa vision con un modelo que realmente compite con lo mejor del sector.
Los numeros hablan por si solos: 90.0% en MMLU-Pro, 97.9% en AIME 2025, Codeforces 2622. Todo esto ejecutable en una sola GPU de 80 GB gracias a una arquitectura MoE eficiente con cuantizacion MXFP4. Y con licencia Apache 2.0, la mas permisiva del mercado.
Puntuacion: 9.0/10
Puntos fuertes:
- Rendimiento matematico excepcional (mejor modelo open source en AIME)
- Eficiencia sin precedentes: 120B parametros en 80 GB de VRAM
- Licencia Apache 2.0 sin restricciones comerciales
- Capacidades agentivas superiores a DeepSeek R1 (67.5% vs 37% en BFCL-v3)
- Tres niveles de razonamiento (low/medium/high)
- Modelo 20b ejecutable en hardware de consumo (16 GB VRAM)
Puntos debiles:
- SWE-bench por debajo de DeepSeek R1 y o4-mini
- Tool use todavia inferior a modelos propietarios
- No es verdaderamente "open source" (solo open weight)
- Modelo 120b inaccesible sin GPU profesional
Recomendado para: Desarrolladores que necesitan un modelo de razonamiento potente ejecutable en local, startups que quieren evitar dependencia de APIs propietarias, empresas que buscan la licencia mas permisiva del mercado, e investigadores que quieren estudiar tecnicas derivadas de los modelos frontier de OpenAI.
No recomendado para: Quienes necesiten el maximo rendimiento absoluto en coding (mejor o4-mini o GPT-5.3 Codex) o inteligencia general (mejor Qwen3 235B con hardware adecuado).
En Resumen
gpt-oss de OpenAI es el primer modelo de pesos abiertos de la compania desde GPT-2 en 2019. Con 116.8 mil millones de parametros totales y solo 5.1 mil millones activos por token, utiliza una arquitectura Mixture-of-Experts con 128 expertos y cuantizacion MXFP4 que permite ejecutarlo en una sola GPU de 80 GB. Bajo licencia Apache 2.0, permite uso comercial, fine-tuning y redistribucion sin restricciones. En benchmarks, alcanza 90.0% en MMLU-Pro, 97.9% en AIME 2025 y un rating Codeforces de 2622, rivalizando directamente con o4-mini. La variante gpt-oss-20b funciona con solo 16 GB de VRAM, haciendolo accesible en hardware de consumo. Disponible en Hugging Face, Ollama, GitHub y mas de 22 proveedores de API con precios desde $0.08 por millon de tokens. Es el modelo open source americano mas capaz, aunque DeepSeek R1 y Qwen3 235B lo superan por un margen estrecho en inteligencia general. Representa un cambio estrategico historico para OpenAI y para todo el ecosistema de IA abierta.