gpt-oss de OpenAI: El Primer Modelo Open Source desde GPT-2 que Rivaliza con o4-mini [Analisis 2026]

Q: ¿Se puede hacer fine-tuning de gpt-oss?

Si, completamente. La licencia Apache 2.0 permite fine-tuning sin restricciones. Puedes usar herramientas open source como LoRA, QLoRA o el framework de entrenamiento que prefieras. Ten en cuenta que OpenAI no ofrece fine-tuning de gpt-oss a traves de su propia API; debes hacerlo en tu infraestructura o con proveedores terceros.

Q: ¿gpt-oss es realmente open source o solo open weight?

Tecnicamente es open weight, no open source completo. OpenAI ha liberado los pesos del modelo bajo Apache 2.0, pero no ha publicado el codigo de entrenamiento, los datos de entrenamiento, ni los detalles completos de la infraestructura de entrenamiento. Es la misma distincion que aplica a DeepSeek R1 y Llama 4.

Q: ¿Puedo ejecutar gpt-oss en mi ordenador?

Depende del modelo y tu hardware. gpt-oss-20b requiere solo 16 GB de VRAM y funciona en un MacBook Pro con M2/M3 Pro o en una GPU RTX 3090/4060 Ti. gpt-oss-120b necesita 80 GB de VRAM, lo que requiere una GPU profesional como H100 o A100. Consulta nuestra guia de Ollama para instrucciones paso a paso.

Q: ¿Que modelo open source deberia elegir: gpt-oss, DeepSeek R1 o Qwen3?

Depende de tu prioridad. Si priorizas eficiencia y caber en una sola GPU, elige gpt-oss-120b. Si priorizas inteligencia bruta y tienes hardware potente, Qwen3 235B es el lider. Si buscas el mejor equilibrio general y no te importa necesitar 4 GPUs, DeepSeek R1 es una opcion solida. Para la mayoria de desarrolladores, gpt-oss-120b ofrece el mejor ratio rendimiento/coste.

Q: ¿gpt-oss puede generar imagenes o solo texto?

Solo texto. gpt-oss es un modelo de lenguaje (LLM) sin capacidades multimodales de generacion de imagenes. Puede procesar y generar texto, ejecutar codigo, usar herramientas y generar respuestas estructuradas, pero no genera imagenes, audio ni video.

Q: ¿Cuanto cuesta usar gpt-oss via API?

Desde $0.08 por millon de tokens de entrada en proveedores como DeepInfra, hasta $1.10 en la API oficial de OpenAI. Los precios varian hasta 5.9 veces entre proveedores. Para proyectos con alto volumen, elegir el proveedor correcto puede suponer un ahorro de miles de euros al mes.

gpt-oss de OpenAI: El Primer Modelo Open Source desde GPT-2 que Rivaliza con o4-mini [Analisis 2026]

OpenAI ha liberado gpt-oss, su primer modelo de pesos abiertos desde GPT-2 en 2019, y el resultado es historico: un modelo de 120 mil millones de parametros bajo licencia Apache 2.0 que rivaliza con o4-mini en benchmarks de razonamiento, corre en una sola GPU de 80 GB y esta disponible gratis en Hugging Face para uso comercial sin restricciones. Despues de anos siendo la empresa mas cerrada del sector, OpenAI ha dado un giro estrategico completo. En este analisis desgranamos la arquitectura, los benchmarks reales, las limitaciones, y como se compara con DeepSeek R1, Llama 4 Maverick y Qwen3 235B.

¿Quieres dominar la IA? En La Escuela de IA compartimos tutoriales y recursos. Unete gratis. Tambien en YouTube @JavadexAI. Conecta en LinkedIn de Javier Santos.

TL;DR - Resumen rapido de gpt-oss

Que es: Dos modelos open-weight de OpenAI: gpt-oss-120b (116.8B parametros) y gpt-oss-20b (20.9B parametros).
Arquitectura: Mixture-of-Experts (MoE) con 128 expertos, solo 4 activos por token (5.1B parametros activos en el 120b).
Licencia: Apache 2.0 completa, permite uso comercial, fine-tuning y redistribucion.
Rendimiento: Rivaliza con o4-mini en coding (Codeforces 2622 vs 2719) y supera a o3-mini en la mayoria de benchmarks.
MMLU-Pro: 90.0%, superando a DeepSeek R1 (85.0%) y Qwen3 Thinking (84.4%).
AIME 2025: 97.9% con herramientas, la puntuacion mas alta entre modelos open source.
VRAM: El modelo 120b cabe en una sola GPU H100 de 80 GB gracias a cuantizacion MXFP4. El modelo 20b requiere solo 16 GB.
Velocidad: 291 tokens/segundo en modo high, hasta 2.224 tokens/s en Cerebras.
Disponibilidad: Hugging Face, Ollama, GitHub, y mas de 22 proveedores de API.
Veredicto: El mejor modelo open source americano, aunque DeepSeek R1 y Qwen3 235B lo superan en inteligencia general por un margen estrecho.

Que es gpt-oss y por que es tan importante

gpt-oss es la familia de modelos de pesos abiertos de OpenAI, lanzada en agosto de 2025 bajo licencia Apache 2.0. Incluye dos variantes: gpt-oss-120b con 116.8 mil millones de parametros totales, y gpt-oss-20b con 20.9 mil millones. Ambos son modelos de razonamiento basados en la arquitectura Mixture-of-Experts (MoE), entrenados con refuerzo y tecnicas derivadas de los modelos frontier internos de OpenAI, incluyendo o3.

Para entender la magnitud de este movimiento, hay que recordar que el ultimo modelo de pesos abiertos de OpenAI fue GPT-2, lanzado en febrero de 2019 con apenas 1.5 mil millones de parametros. Desde entonces, OpenAI se convirtio en la empresa mas cerrada del sector de IA, argumentando riesgos de seguridad para justificar el secretismo. Siete anos despues, la presion competitiva les obligo a cambiar de estrategia.

Si quieres contexto sobre el panorama actual de modelos abiertos, consulta nuestro ranking de los 10 mejores modelos IA open source en marzo 2026 y la guia de mejores modelos open source para chat.

Por que OpenAI abrio su modelo ahora

Sam Altman reconocio en enero de 2025 que OpenAI habia estado "en el lado equivocado de la historia" respecto al open source. Pero las palabras sin hechos no valen nada en este sector. Lo que realmente forzó el cambio fue la competencia:

DeepSeek R1 demostro que un laboratorio chino podia crear un modelo de razonamiento de 671B parametros y liberarlo bajo licencia MIT, humillando a OpenAI en su propio terreno.
Llama 4 Maverick de Meta continuo la tradicion de ofrecer modelos competitivos de forma gratuita, acumulando una base de usuarios enorme.
Qwen3 235B de Alibaba establecio el benchmark mas alto entre modelos abiertos, superando incluso a algunos modelos propietarios.

La decision de OpenAI no fue altruismo. Fue supervivencia estrategica. Al liberar gpt-oss con licencia Apache 2.0, OpenAI busca capturar el ecosistema de desarrolladores que estaban construyendo sobre modelos rivales, mientras mantiene sus modelos propietarios (GPT-5.2, o4-mini, o3) como oferta premium.

Como dijo el propio Altman al anunciar gpt-oss: "Estamos entusiasmados de poner este modelo, el resultado de miles de millones de dolares en investigacion, a disposicion del mundo para poner la IA en manos del mayor numero de personas posible."

Linea temporal: de GPT-2 a gpt-oss

Fecha	Modelo	Parametros	Licencia	Significado
Febrero 2019	GPT-2	1.5B	Open source	Ultimo modelo abierto de OpenAI
Junio 2020	GPT-3	175B	Propietario	Inicio de la era cerrada
Marzo 2023	GPT-4	~1.8T (estimado)	Propietario	Dominio absoluto de OpenAI
Enero 2025	DeepSeek R1	671B	MIT	China supera a OpenAI en open source
Abril 2025	Llama 4 Maverick	400B+	Llama License	Meta consolida el open source
Agosto 2025	gpt-oss-120b	116.8B	Apache 2.0	OpenAI vuelve al open source
Agosto 2025	gpt-oss-20b	20.9B	Apache 2.0	Modelo edge de OpenAI

Arquitectura tecnica de gpt-oss

Mixture-of-Experts: muchos parametros, pocos activos

La arquitectura de gpt-oss es uno de sus mayores logros de ingenieria. Aunque el modelo tiene 116.8 mil millones de parametros totales, solo 5.1 mil millones estan activos para cada token procesado. Esto se consigue gracias al diseno Mixture-of-Experts (MoE), donde el modelo contiene 128 expertos especializados pero solo activa 4 de ellos por cada token de entrada.

Este enfoque permite que gpt-oss-120b tenga la capacidad de un modelo masivo con el coste computacional de un modelo mucho mas pequeno. En la practica, esto significa que puedes ejecutar un modelo con conocimiento de 120B parametros usando los recursos de un modelo de 5B.

Especificaciones tecnicas detalladas

Especificacion	gpt-oss-120b	gpt-oss-20b
Parametros totales	116.8B	20.9B
Parametros activos por token	5.1B	3.6B
Numero de capas	36	24
Dimension residual	2.880	2.880
Expertos totales por capa MoE	128	32
Expertos activos por token	4	4
Ventana de contexto	131K tokens	131K tokens
Cuantizacion nativa	MXFP4 (4.25 bits)	MXFP4 (4.25 bits)
VRAM minima	80 GB (1x H100)	16 GB
Funcion de activacion MoE	Gated SwiGLU	Gated SwiGLU
Atencion	GQA, grupo de 8	GQA, grupo de 8
Patron de atencion	Alternancia banded window (128 tokens) + dense	Alternancia banded window + dense
Normalizacion	RMSNorm (Pre-LN)	RMSNorm (Pre-LN)
Licencia	Apache 2.0	Apache 2.0

Cuantizacion MXFP4: el truco que lo hace practico

Lo que permite que gpt-oss-120b quepa en una sola GPU de 80 GB es la cuantizacion MXFP4 (Microscaling Floating Point 4-bit). Los pesos de los expertos MoE representan mas del 90% del total de parametros del modelo. Al cuantizar estos pesos a 4.25 bits por parametro, OpenAI reduce drasticamente el uso de memoria sin sacrificar calidad de forma apreciable.

Dato clave: Los modelos se entrenaron directamente con cuantizacion MXFP4 como parte del post-entrenamiento. No es una cuantizacion aplicada despues del entrenamiento (como GPTQ o AWQ), sino que forma parte integral del proceso de entrenamiento. Esto resulta en una perdida de calidad minima comparado con cuantizaciones post-hoc.

Atencion con ventana alternada

Los bloques de atencion alternan entre dos patrones: banded window attention con una ventana de 128 tokens (eficiente para contexto local) y dense attention completa (para capturar dependencias de largo alcance). Este diseno hibrido optimiza la velocidad de inferencia sin sacrificar la capacidad de manejar contextos largos de hasta 131K tokens.

Niveles de razonamiento

Al igual que los modelos o-series de OpenAI, gpt-oss soporta tres niveles de esfuerzo de razonamiento:

Low: Respuestas rapidas con minimo razonamiento interno. Ideal para tareas sencillas.
Medium: Balance entre velocidad y profundidad de razonamiento.
High: Razonamiento completo con "cadena de pensamiento" interna. Maximo rendimiento en tareas complejas.

Esta funcionalidad, hasta ahora exclusiva de modelos propietarios como o4-mini, es una de las innovaciones que gpt-oss trae al ecosistema open source. Es probable que otros modelos abiertos adopten este paradigma en el futuro.

Benchmarks completos: gpt-oss vs el mundo

Tabla comparativa principal

Benchmark	gpt-oss-120b (high)	o4-mini	o3-mini	DeepSeek R1	Qwen3 235B (Thinking)	Llama 4 Maverick
MMLU-Pro	90.0%	91.2%	87.5%	85.0%	84.4%	82.1%
AIME 2024 (con tools)	96.6%	97.1%	89.3%	87.5%	91.4%	78.2%
AIME 2025 (con tools)	97.9%	98.2%	90.1%	87.5%	92.3%	79.8%
GPQA Diamond (con tools)	80.9%	82.4%	76.3%	81.0%	81.1%	73.5%
SWE-bench Verified	62.4%	68.9%	55.2%	65.8%	61.3%	57.8%
Codeforces (con tools)	2622	2719	2387	2516	2480	2105
TAU-bench Retail	67.8%	75.4%	62.1%	68.2%	65.0%	60.3%
BFCL-v3 (function calling)	67.5%	78.3%	65.8%	37.0%	71.9%	62.4%

Analisis de los benchmarks clave

MMLU-Pro (conocimiento general y razonamiento): Con un 90.0%, gpt-oss-120b supera ampliamente a todos los modelos open source. DeepSeek R1 se queda en 85.0% y Qwen3 en 84.4%. Solo o4-mini (91.2%) lo supera por un margen estrecho. Para un modelo de pesos abiertos, esta puntuacion es historica.

AIME 2024/2025 (matematicas de competicion): Aqui gpt-oss-120b brilla con especial intensidad. El 96.6% en AIME 2024 y el 97.9% en AIME 2025 (ambos con herramientas) lo situan practicamente a la par con o4-mini. Para contexto, estos resultados superan a DeepSeek R1 por mas de 9 puntos porcentuales. Es el modelo open source con mejor rendimiento matematico disponible.

Codeforces (programacion competitiva): La puntuacion Elo de 2622 coloca a gpt-oss-120b en el top 1% de programadores competitivos globales. Solo o4-mini (2719) y o3 lo superan. Comparado con DeepSeek R1 (2516), la ventaja es de mas de 100 puntos Elo, lo que es significativo en esta escala.

SWE-bench Verified (edicion de codigo real): Con un 62.4%, gpt-oss-120b se queda algo atras respecto a DeepSeek R1 (65.8%) y claramente por debajo de o4-mini (68.9%). Este benchmark evalua la capacidad de resolver issues reales en repositorios de GitHub, y es donde el modelo muestra sus mayores limitaciones relativas.

GPQA Diamond (ciencia nivel doctorado): El 80.9% esta practicamente empatado con DeepSeek R1 (81.0%) y Qwen3 Thinking (81.1%). Esta es una area donde los tres modelos open source convergen en rendimiento, demostrando que el gap con modelos propietarios se ha cerrado significativamente.

gpt-oss-120b vs gpt-oss-20b: merecen la pena los 100B extra

Benchmark	gpt-oss-120b	gpt-oss-20b	Diferencia
MMLU-Pro	90.0%	85.2%	+4.8 puntos
AIME 2025 (tools)	97.9%	91.4%	+6.5 puntos
GPQA Diamond (tools)	80.9%	74.3%	+6.6 puntos
SWE-bench Verified	62.4%	54.8%	+7.6 puntos
Codeforces (tools)	2622	2516	+106 Elo
VRAM necesaria	80 GB	16 GB	5x mas
Velocidad (tok/s)	~291	~580	2x mas rapido

Veredicto: Si tienes acceso a una GPU H100 o equivalente, el modelo 120b merece la pena por sus mejoras sustanciales en razonamiento matematico y coding. Pero el modelo 20b ofrece un ratio rendimiento/recurso extraordinario: con solo 16 GB de VRAM consigues un rendimiento comparable a o3-mini. Para la mayoria de casos de uso en produccion y desarrollo, el 20b sera la opcion mas practica.

Comparativa estrategica: gpt-oss vs la competencia open source

Tabla de comparativa integral

Caracteristica	gpt-oss-120b	DeepSeek R1	Qwen3 235B	Llama 4 Maverick
Parametros totales	116.8B	671B	235B	400B+
Parametros activos	5.1B	37B	22B	~17B
Arquitectura	MoE (128 expertos)	MoE (257 expertos)	MoE	MoE (alternado)
Ventana de contexto	131K	128K	131K	1M+
Cuantizacion nativa	MXFP4	No	No	No
VRAM minima (cuantizado)	80 GB	~320 GB	~120 GB	~200 GB
Licencia	Apache 2.0	MIT	Apache 2.0	Llama License
Niveles de razonamiento	Low/Medium/High	No	Si (thinking/non-thinking)	No
Indice de inteligencia	58	59	64	52
Fine-tuning permitido	Si	Si	Si	Con restricciones
Uso comercial	Sin restricciones	Sin restricciones	Sin restricciones	Con restricciones (750M usuarios)
Pais de origen	Estados Unidos	China	China	Estados Unidos

DeepSeek R1: el rival mas directo

DeepSeek R1 sigue siendo el modelo open source con mayor indice de inteligencia (59 vs 58 de gpt-oss-120b segun Artificial Analysis). Sin embargo, la comparacion directa no es justa en terminos de eficiencia: DeepSeek R1 tiene 671B parametros totales y 37B activos, frente a los 116.8B totales y 5.1B activos de gpt-oss. Dicho de otro modo, gpt-oss-120b logra un rendimiento casi identico con un modelo 5.7 veces mas pequeno y 7 veces menos parametros activos.

Donde DeepSeek R1 gana claramente es en SWE-bench (65.8% vs 62.4%) y GPQA (81.0% vs 80.9%). Donde gpt-oss domina es en matematicas (AIME 2025: 97.9% vs 87.5%) y MMLU-Pro (90.0% vs 85.0%).

La gran desventaja de DeepSeek R1 es practica: necesitas al menos 4 GPUs H100 para ejecutarlo con rendimiento aceptable, mientras que gpt-oss-120b corre en una sola.

Qwen3 235B: el lider en inteligencia bruta

Qwen3 235B de Alibaba tiene el indice de inteligencia mas alto entre modelos open source (64), superando tanto a gpt-oss como a DeepSeek R1. Sin embargo, en benchmarks individuales la historia es mas matizada: pierde contra gpt-oss en MMLU-Pro (84.4% vs 90.0%) y en AIME (92.3% vs 97.9%), pero gana en GPQA (81.1% vs 80.9%).

Un problema documentado de Qwen3 235B es la verbosidad: en evaluaciones se han registrado respuestas de mas de 132.000 caracteres con patrones de repeticion masiva, mientras que gpt-oss produce respuestas concisas y bien estructuradas.

Llama 4 Maverick: la opcion de Meta

Llama 4 Maverick de Meta tiene la ventaja de una ventana de contexto superior a 1 millon de tokens, pero su rendimiento en benchmarks de razonamiento esta un escalon por debajo. En Codeforces, por ejemplo, obtiene 2105 frente al 2622 de gpt-oss. Ademas, la licencia de Llama incluye restricciones para organizaciones con mas de 750 millones de usuarios activos mensuales, algo que la Apache 2.0 de gpt-oss no tiene.

Requisitos de hardware y despliegue local

gpt-oss-120b: opciones de hardware

Para ejecutar gpt-oss-120b en local necesitas, como minimo, una GPU con 80 GB de VRAM. Las opciones mas habituales son:

GPU	VRAM	Rendimiento estimado	Precio aproximado
NVIDIA H100 80 GB	80 GB	~75-290 tok/s	~25.000-30.000 EUR
NVIDIA A100 80 GB	80 GB	~50-60 tok/s	~10.000-15.000 EUR
AMD MI300X	192 GB	~80+ tok/s	~12.000-15.000 EUR
2x NVIDIA RTX 4090 (48 GB total)	48 GB	No suficiente	-
4x NVIDIA RTX 4090 (96 GB total)	96 GB	~30-40 tok/s (estimado)	~8.000-10.000 EUR

Para despliegue empresarial con contextos largos (64-128K tokens) y multiples usuarios concurrentes (10-50), OpenAI recomienda una configuracion de 4 GPUs H100 de 80 GB con NVLink/NVSwitch, ademas de 256-512 GB de RAM del sistema.

gpt-oss-20b: IA en tu portatil

El modelo de 20B es donde gpt-oss se vuelve realmente accesible. Con solo 16 GB de VRAM puedes ejecutar gpt-oss-20b, lo que significa que funciona en:

MacBook Pro con M2 Pro/M3 Pro o superior (16 GB de memoria unificada)
Ordenadores con NVIDIA RTX 3090 (24 GB) o RTX 4060 Ti (16 GB)
Cualquier sistema con al menos 16 GB de VRAM dedicada

Se ha demostrado incluso que gpt-oss-20b puede ejecutarse en dispositivos moviles con chips Snapdragon, aunque con velocidad limitada.

Como ejecutar gpt-oss con Ollama

Si ya usas Ollama para ejecutar modelos de IA en local, anadir gpt-oss es cuestion de dos comandos:

bash

1# Descargar y ejecutar gpt-oss-120b
2ollama pull gpt-oss:120b
3ollama run gpt-oss:120b
4 
5# O la version mas ligera de 20b
6ollama pull gpt-oss:20b
7ollama run gpt-oss:20b

Tambien puedes usar vLLM para despliegues en servidor con mayor rendimiento:

bash

1# Instalacion de vLLM
2pip install vllm
3 
4# Ejecutar servidor de inferencia
5python -m vllm.entrypoints.openai.api_server \
6  --model openai/gpt-oss-120b \
7  --quantization mxfp4 \
8  --tensor-parallel-size 1 \
9  --max-model-len 131072

Proveedores de API: si no quieres hardware propio

Si no dispones de hardware adecuado, mas de 22 proveedores ofrecen gpt-oss-120b via API. Los precios varian significativamente:

Proveedor	Precio input (por 1M tokens)	Precio output (por 1M tokens)	Velocidad
DeepInfra	$0.08	$0.39	Media
Together.ai	$0.20	$0.90	629 tok/s
Fireworks	$0.20	$0.90	Alta
OpenRouter	~$0.50	~$2.00	Variable
Cerebras	$0.45	$2.00	2.224 tok/s
SambaNova	$0.30	$1.20	647 tok/s
OpenAI API	$1.10	$4.40	291 tok/s

Dato revelador: Los precios varian hasta 5.9 veces entre proveedores. DeepInfra ofrece el coste mas bajo ($0.08/1M tokens de entrada), mientras que Cerebras ofrece la velocidad mas alta (2.224 tokens por segundo). La eleccion depende de si priorizas coste o latencia.

Capacidades agentivas y uso de herramientas

Uno de los puntos fuertes de gpt-oss es su capacidad nativa para funcionar como agente autonomo. El modelo incluye soporte integrado para:

Function calling: Puede invocar funciones externas definidas por el desarrollador de forma estructurada.
Web browsing: Capacidad de navegar y extraer informacion de paginas web.
Ejecucion de codigo Python: Puede escribir y ejecutar codigo Python para resolver problemas.
Structured Outputs: Genera respuestas en formatos estructurados (JSON, schemas) de forma fiable.

En el benchmark TAU-bench Retail (que evalua la capacidad de un modelo para usar herramientas en un escenario de atencion al cliente), gpt-oss-120b obtiene un 67.8%. No es la puntuacion mas alta (GLM-4.5 alcanza 79.7%), pero supera a muchos modelos propietarios y demuestra que las capacidades agentivas no son exclusivas de los modelos cerrados.

En BFCL-v3, el benchmark de function calling, gpt-oss obtiene un 67.5%, lo que resulta especialmente notable si lo comparamos con DeepSeek R1, que solo alcanza un 37.0% en el mismo test. Esto sugiere que gpt-oss esta mucho mejor optimizado para aplicaciones agentivas que su rival chino.

Para desarrolladores que quieren construir agentes autonomos con modelos open source, gpt-oss representa actualmente la mejor opcion en cuanto a equilibrio entre rendimiento agentivo y eficiencia computacional. Si te interesa como los modelos propietarios manejan tareas agentivas, puedes consultar nuestra guia de GPT-5.2 y la de GPT-5.3 Codex.

Licencia Apache 2.0: que puedes y que no puedes hacer

La eleccion de la licencia Apache 2.0 es una declaracion de intenciones. Es la misma licencia que usan proyectos como Kubernetes, TensorFlow y Android. En el contexto de gpt-oss, esto significa:

Lo que puedes hacer:

Usar el modelo para cualquier proposito comercial sin pagar regalias.
Modificar los pesos y la arquitectura (fine-tuning, destilacion, adaptacion).
Redistribuir el modelo modificado o sin modificar.
Integrarlo en productos propietarios sin obligacion de liberar tu codigo.
Crear servicios de API basados en gpt-oss y cobrar por ellos.

Lo que no puedes hacer (limitaciones minimas):

Debes cumplir con la politica de uso de gpt-oss, que basicamente exige cumplir con la ley aplicable.
No puedes reclamar que tu producto esta "creado por OpenAI" si no lo esta (atribucion correcta).
Debes incluir copia de la licencia Apache 2.0 si redistribuyes el modelo.

Comparada con la licencia de Llama (que restringe el uso para organizaciones con mas de 750 millones de usuarios activos mensuales) o con licencias custom como la de Mistral, la Apache 2.0 de gpt-oss es la mas permisiva del mercado entre modelos de esta capacidad.

Limitaciones y areas de mejora

Ningun modelo es perfecto, y gpt-oss tiene limitaciones claras que debes conocer antes de adoptarlo:

Rendimiento en SWE-bench

Con un 62.4% en SWE-bench Verified, gpt-oss-120b se queda atras respecto a DeepSeek R1 (65.8%) y significativamente por debajo de o4-mini (68.9%). Para tareas de edicion de codigo en repositorios reales y complejos, no es la mejor opcion disponible.

Tool use inconsistente

Aunque mejora sustancialmente respecto a DeepSeek R1 en function calling, el 67.5% en BFCL-v3 esta lejos del 78.3% de o4-mini. En aplicaciones agentivas criticas, esto puede traducirse en errores de herramientas que afecten la fiabilidad.

TAU-bench y tareas de atencion al cliente

El 67.8% en TAU-bench Retail indica que el modelo todavia no es optimo para flujos de trabajo conversacionales complejos donde hay que combinar multiples herramientas de forma secuencial.

Hardware exigente para el modelo grande

Aunque 80 GB de VRAM es impresionante para un modelo de 120B parametros, sigue siendo inaccesible para la mayoria de desarrolladores individuales. Solo quienes tienen acceso a infraestructura cloud o GPUs de gama alta pueden ejecutar el modelo 120b. El modelo 20b mitiga parcialmente este problema.

No es el mas inteligente en general

Segun el indice de inteligencia de Artificial Analysis, gpt-oss-120b obtiene un 58, por debajo de DeepSeek R1 (59) y significativamente por debajo de Qwen3 235B (64). Es el modelo open source americano mas inteligente, pero no el mas inteligente en terminos absolutos.

Casos de uso recomendados

Basandome en los benchmarks y las capacidades tecnicas, estos son los escenarios donde gpt-oss destaca:

Donde gpt-oss-120b es la mejor opcion

Razonamiento matematico y cientifico: Con 97.9% en AIME 2025 y 80.9% en GPQA, es el mejor modelo open source para tareas que requieren razonamiento cuantitativo profundo.

Programacion competitiva y generacion de codigo: El rating Codeforces de 2622 lo convierte en el modelo open source con mejor rendimiento en coding.

Aplicaciones agentivas con function calling: El 67.5% en BFCL-v3 es el mejor entre modelos open source de razonamiento (comparado con el 37% de DeepSeek R1).

Despliegue en GPU unica: Si solo tienes una H100 o A100 de 80 GB, gpt-oss-120b te da el maximo rendimiento posible en ese hardware.

Donde gpt-oss-20b es la mejor opcion

Desarrollo local y prototipado: Con 16 GB de VRAM puedes iterar rapidamente sin depender de la nube.

Dispositivos edge y moviles: Demostrada compatibilidad con dispositivos Snapdragon y hardware limitado.

Aplicaciones con restricciones de latencia: A ~580 tokens por segundo, el modelo 20b es el doble de rapido que el 120b.

Startups y desarrolladores independientes: Rendimiento comparable a o3-mini sin coste de API.

Impacto en el ecosistema open source de IA

El lanzamiento de gpt-oss marca un antes y un despues en el ecosistema de modelos abiertos. Por primera vez, los tres mayores laboratorios de IA (OpenAI, Meta, Google) tienen modelos de pesos abiertos competitivos. Esto tiene varias implicaciones:

Para desarrolladores: Mas opciones de modelos de alta calidad sin coste de licencia. La competencia entre OpenAI, Meta, Alibaba y DeepSeek esta acelerando la democratizacion de la IA.

Para empresas: La licencia Apache 2.0 elimina las barreras legales para la adopcion. Las empresas pueden construir sobre gpt-oss sin preocuparse por restricciones de uso como las de Llama.

Para la investigacion: Tener acceso a los pesos de un modelo entrenado con tecnicas de OpenAI (derivadas de o3 y modelos frontier) permite a la comunidad investigadora estudiar y mejorar estas tecnicas.

Para la geopolitica de la IA: Con gpt-oss, Estados Unidos tiene un modelo open source competitivo frente a los modelos chinos (DeepSeek, Qwen). Altman fue explicito al respecto: "Estoy entusiasmado de que el mundo construya sobre un stack de IA abierto creado en Estados Unidos, basado en valores democraticos."

Preguntas frecuentes sobre gpt-oss

Que diferencia hay entre gpt-oss y GPT-5.2

gpt-oss es un modelo open source con pesos descargables, mientras que GPT-5.2 es propietario y solo accesible via API de OpenAI. En terminos de rendimiento, GPT-5.2 supera a gpt-oss en la mayoria de benchmarks, especialmente en tareas complejas de razonamiento. gpt-oss esta disenado como alternativa gratuita para quienes necesitan ejecutar modelos en su propia infraestructura.

Se puede hacer fine-tuning de gpt-oss

Si, completamente. La licencia Apache 2.0 permite fine-tuning sin restricciones. Puedes usar herramientas open source como LoRA, QLoRA o el framework de entrenamiento que prefieras. Ten en cuenta que OpenAI no ofrece fine-tuning de gpt-oss a traves de su propia API; debes hacerlo en tu infraestructura o con proveedores terceros.

gpt-oss es realmente open source o solo open weight

Tecnicamente es open weight, no open source completo. OpenAI ha liberado los pesos del modelo bajo Apache 2.0, pero no ha publicado el codigo de entrenamiento, los datos de entrenamiento, ni los detalles completos de la infraestructura de entrenamiento. Es la misma distincion que aplica a DeepSeek R1 y Llama 4.

Puedo ejecutar gpt-oss en mi ordenador

Depende del modelo y tu hardware. gpt-oss-20b requiere solo 16 GB de VRAM y funciona en un MacBook Pro con M2/M3 Pro o en una GPU RTX 3090/4060 Ti. gpt-oss-120b necesita 80 GB de VRAM, lo que requiere una GPU profesional como H100 o A100. Consulta nuestra guia de Ollama para instrucciones paso a paso.

Que modelo open source deberia elegir: gpt-oss, DeepSeek R1 o Qwen3

Depende de tu prioridad. Si priorizas eficiencia y caber en una sola GPU, elige gpt-oss-120b. Si priorizas inteligencia bruta y tienes hardware potente, Qwen3 235B es el lider. Si buscas el mejor equilibrio general y no te importa necesitar 4 GPUs, DeepSeek R1 es una opcion solida. Para la mayoria de desarrolladores, gpt-oss-120b ofrece el mejor ratio rendimiento/coste.

gpt-oss puede generar imagenes o solo texto

Solo texto. gpt-oss es un modelo de lenguaje (LLM) sin capacidades multimodales de generacion de imagenes. Puede procesar y generar texto, ejecutar codigo, usar herramientas y generar respuestas estructuradas, pero no genera imagenes, audio ni video.

Cuanto cuesta usar gpt-oss via API

Desde $0.08 por millon de tokens de entrada en proveedores como DeepInfra, hasta $1.10 en la API oficial de OpenAI. Los precios varian hasta 5.9 veces entre proveedores. Para proyectos con alto volumen, elegir el proveedor correcto puede suponer un ahorro de miles de euros al mes.

Como se compara gpt-oss con GPT-5.3 Codex para programar

GPT-5.3 Codex es significativamente superior para programacion avanzada, con mejores resultados en SWE-bench y en tareas agentivas de codigo. Sin embargo, gpt-oss ofrece un rendimiento notable (Codeforces 2622) y la ventaja de ser ejecutable en local sin coste de API, lo que lo hace ideal para prototipado y desarrollo iterativo.

Veredicto final

gpt-oss-120b es, sin duda, el modelo open source mas importante de 2025 y uno de los lanzamientos mas significativos en la historia reciente de la IA. No por ser el modelo mas potente en terminos absolutos (Qwen3 235B lo supera en inteligencia general), sino por lo que representa: OpenAI reconociendo que el futuro de la IA pasa por la apertura, y respaldando esa vision con un modelo que realmente compite con lo mejor del sector.

Los numeros hablan por si solos: 90.0% en MMLU-Pro, 97.9% en AIME 2025, Codeforces 2622. Todo esto ejecutable en una sola GPU de 80 GB gracias a una arquitectura MoE eficiente con cuantizacion MXFP4. Y con licencia Apache 2.0, la mas permisiva del mercado.

Puntuacion: 9.0/10

Puntos fuertes:

Rendimiento matematico excepcional (mejor modelo open source en AIME)
Eficiencia sin precedentes: 120B parametros en 80 GB de VRAM
Licencia Apache 2.0 sin restricciones comerciales
Capacidades agentivas superiores a DeepSeek R1 (67.5% vs 37% en BFCL-v3)
Tres niveles de razonamiento (low/medium/high)
Modelo 20b ejecutable en hardware de consumo (16 GB VRAM)

Puntos debiles:

SWE-bench por debajo de DeepSeek R1 y o4-mini
Tool use todavia inferior a modelos propietarios
No es verdaderamente "open source" (solo open weight)
Modelo 120b inaccesible sin GPU profesional

Recomendado para: Desarrolladores que necesitan un modelo de razonamiento potente ejecutable en local, startups que quieren evitar dependencia de APIs propietarias, empresas que buscan la licencia mas permisiva del mercado, e investigadores que quieren estudiar tecnicas derivadas de los modelos frontier de OpenAI.

No recomendado para: Quienes necesiten el maximo rendimiento absoluto en coding (mejor o4-mini o GPT-5.3 Codex) o inteligencia general (mejor Qwen3 235B con hardware adecuado).

En Resumen

gpt-oss de OpenAI es el primer modelo de pesos abiertos de la compania desde GPT-2 en 2019. Con 116.8 mil millones de parametros totales y solo 5.1 mil millones activos por token, utiliza una arquitectura Mixture-of-Experts con 128 expertos y cuantizacion MXFP4 que permite ejecutarlo en una sola GPU de 80 GB. Bajo licencia Apache 2.0, permite uso comercial, fine-tuning y redistribucion sin restricciones. En benchmarks, alcanza 90.0% en MMLU-Pro, 97.9% en AIME 2025 y un rating Codeforces de 2622, rivalizando directamente con o4-mini. La variante gpt-oss-20b funciona con solo 16 GB de VRAM, haciendolo accesible en hardware de consumo. Disponible en Hugging Face, Ollama, GitHub y mas de 22 proveedores de API con precios desde $0.08 por millon de tokens. Es el modelo open source americano mas capaz, aunque DeepSeek R1 y Qwen3 235B lo superan por un margen estrecho en inteligencia general. Representa un cambio estrategico historico para OpenAI y para todo el ecosistema de IA abierta.

gpt-oss de OpenAI: El Primer Modelo Open Source desde GPT-2 que Rivaliza con o4-mini [Analisis 2026]

TL;DR - Resumen rapido de gpt-oss

Que es gpt-oss y por que es tan importante

Por que OpenAI abrio su modelo ahora

Linea temporal: de GPT-2 a gpt-oss

Arquitectura tecnica de gpt-oss

Mixture-of-Experts: muchos parametros, pocos activos

Especificaciones tecnicas detalladas

Cuantizacion MXFP4: el truco que lo hace practico

Atencion con ventana alternada

Niveles de razonamiento

Benchmarks completos: gpt-oss vs el mundo

Tabla comparativa principal

Analisis de los benchmarks clave

gpt-oss-120b vs gpt-oss-20b: merecen la pena los 100B extra

Comparativa estrategica: gpt-oss vs la competencia open source

Tabla de comparativa integral

DeepSeek R1: el rival mas directo

Qwen3 235B: el lider en inteligencia bruta

Llama 4 Maverick: la opcion de Meta

Requisitos de hardware y despliegue local

gpt-oss-120b: opciones de hardware

gpt-oss-20b: IA en tu portatil

Como ejecutar gpt-oss con Ollama

Proveedores de API: si no quieres hardware propio

Capacidades agentivas y uso de herramientas

Licencia Apache 2.0: que puedes y que no puedes hacer

Limitaciones y areas de mejora

Rendimiento en SWE-bench

Tool use inconsistente

TAU-bench y tareas de atencion al cliente

Hardware exigente para el modelo grande

No es el mas inteligente en general

Casos de uso recomendados

Donde gpt-oss-120b es la mejor opcion

Donde gpt-oss-20b es la mejor opcion

Impacto en el ecosistema open source de IA

Preguntas frecuentes sobre gpt-oss

Que diferencia hay entre gpt-oss y GPT-5.2

Se puede hacer fine-tuning de gpt-oss

gpt-oss es realmente open source o solo open weight

Puedo ejecutar gpt-oss en mi ordenador

Que modelo open source deberia elegir: gpt-oss, DeepSeek R1 o Qwen3

gpt-oss puede generar imagenes o solo texto

Cuanto cuesta usar gpt-oss via API

Como se compara gpt-oss con GPT-5.3 Codex para programar

Veredicto final

En Resumen

¿Te ha resultado útil este artículo?

Posts Recomendados

¿Te ha gustado? Hay más cada semana