Ir al contenido principal

Mejores Modelos Open Source para Generar Imagenes con IA [Ranking 2026]

20 de febrero de 2026
20 min

Ranking de los mejores modelos open source de generacion de imagenes en 2026: FLUX.2, SD 3.5, SDXL. Calidad, GPU necesaria y como instalarlos gratis.

Javier Santos

Especialista en IA & Machine Learning

📧¿Te gusta este contenido?

Únete a 547+ profesionales que reciben tips de IA cada semana. Sin spam, cancela cuando quieras.

Mejores Modelos Open Source para Generar Imagenes con IA [Ranking 2026]

En Resumen: FLUX.2 [dev] es el mejor modelo open source para generar imagenes con IA en 2026 por calidad bruta y renderizado de texto. SDXL sigue siendo el rey de la personalizacion con miles de LoRAs. Stable Diffusion 3.5 Medium es la opcion mas eficiente para GPUs de 8 GB. Y si necesitas velocidad extrema, SDXL-Lightning genera imagenes en menos de un segundo. Todos son gratuitos, se ejecutan en local y no requieren suscripcion.

Si estas buscando la alternativa open source a Midjourney o DALL-E que puedas ejecutar en tu propio ordenador, sin pagar suscripcion y con control total sobre tus imagenes, este es tu articulo. He probado los ocho modelos open source mas relevantes de 2026 y los comparo en calidad, velocidad, requisitos de hardware y facilidad de uso.

La generacion de imagenes con IA ha cambiado radicalmente en los ultimos meses. FLUX.2 de Black Forest Labs ha demostrado que el open source puede competir de igual a igual con modelos propietarios como Midjourney v6.1, Imagen 3 de Google y GPT Image 1.5 de OpenAI. Mientras tanto, el ecosistema de Stable Diffusion sigue creciendo con miles de modelos comunitarios y adaptaciones especializadas.


TL;DR - Resumen Rapido

  • FLUX.2 [dev] es el numero uno en calidad y adherencia al prompt. 32B parametros. Necesita 24 GB VRAM (cuantizado).
  • FLUX.2 [klein] es la version ligera de FLUX. 4B parametros, corre en GPUs de consumo con 13 GB VRAM.
  • Stable Diffusion 3.5 Medium es el mas eficiente: 2.6B parametros, funciona en GPUs de 8 GB.
  • SDXL 1.0 tiene el ecosistema mas grande: miles de LoRAs, checkpoints y modelos personalizados.
  • SDXL-Lightning genera imagenes en 1-2 pasos, ideal para prototipado rapido.
  • Playground v3 destaca en fotorrealismo y comprension de prompts complejos.
  • PixArt-Sigma es el mas eficiente en entrenamiento, con solo 0.6B parametros y capacidad 4K.


Tabla Comparativa General

ModeloCalidadVelocidadVRAM MinimaTexto en ImagenEstilosComunidadLicencia
FLUX.2 [dev]10/10Media24 GB (FP8)ExcelenteTodosCreciendoOpen-weight
FLUX.2 [klein]8/10Rapida13 GBBuenoTodosCreciendoApache 2.0
SD 3.5 Medium8/10Rapida8 GBMedioTodosMediaCommunity License
SDXL 1.08/10Media10 GBMaloMiles de LoRAsEnormeOpen-weight
SDXL-Lightning7/10Muy rapida10 GBMaloHeredados SDXLGrandeOpen-weight
Playground v39/10Media16 GBBuenoFotorrealismoPequenaInvestigacion
PixArt-Sigma7/10Rapida6 GBMedioLimitadoPequenaApache 2.0
Ganador general: FLUX.2 [dev] por calidad. SDXL 1.0 por ecosistema. SD 3.5 Medium por eficiencia.


1. FLUX.2 [dev] - El Mejor Modelo Open Source de 2026

CaracteristicaDetalle
DesarrolladorBlack Forest Labs (Alemania)
Fecha lanzamientoNoviembre 2025
Parametros32 mil millones (32B)
ArquitecturaDiffusion Transformer (DiT)
ResolucionHasta 2048x2048
VRAM requerida24 GB (FP8), 64-85 GB (FP16)
LicenciaOpen-weight (no comercial)

FLUX.2 [dev] es, a febrero de 2026, el modelo open source de generacion de imagenes con mayor calidad que existe. Desarrollado por Black Forest Labs, la empresa fundada por los creadores originales de Stable Diffusion (Robin Rombach, Andreas Blattmann y Patrick Esser), representa un salto generacional respecto a todo lo que habia antes.

Por que destaca FLUX.2 [dev]

En evaluaciones ciegas realizadas por Artificial Analysis, Civitai y los leaderboards de Hugging Face entre noviembre y diciembre de 2025, FLUX.2 Pro (la version comercial, de la que [dev] hereda la arquitectura) se posiciono como el numero uno global, superando a Midjourney v6.1, Imagen 3 y DALL-E 4 en preferencia humana, adherencia al prompt y tipografia.

La version [dev] es la variante open-weight de ese mismo modelo. No tiene la calidad de Pro al 100%, pero esta muy cerca y es completamente gratuita para uso no comercial.

Puntos fuertes:

  • Renderizado de texto legible dentro de las imagenes, algo en lo que el 90% de modelos falla.
  • Adherencia al prompt superior: entiende instrucciones complejas con multiples objetos, posiciones y relaciones.
  • Fotorrealismo que compite con modelos propietarios.
  • Variedad de estilos: fotografia, ilustracion, arte digital, diseno grafico.

Puntos debiles:

  • Requiere minimo 24 GB de VRAM con cuantizacion FP8. No es accesible para GPUs de consumo basicas.
  • Velocidad de generacion mas lenta que SDXL o SD 3.5 en el mismo hardware.
  • Ecosistema de LoRAs y fine-tuning todavia mas limitado que SDXL.

Prompt de ejemplo:

code
1A Spanish medieval castle on a hill at golden hour, volumetric fog rolling through
2the valley below, cinematic lighting, photorealistic, 8K detail, text overlay reading
3"Castilla y Leon" in elegant serif font


2. FLUX.2 [klein] - FLUX para GPUs de Consumo

CaracteristicaDetalle
DesarrolladorBlack Forest Labs
Fecha lanzamientoNoviembre 2025
Parametros4 mil millones (4B) / 9B
ArquitecturaDiffusion Transformer (DiT)
VRAM requerida~13 GB (4B), ~20 GB (9B)
LicenciaApache 2.0 (uso comercial)

FLUX.2 [klein] es la version compacta de la familia FLUX.2, disenada especificamente para hardware de consumo y despliegue en el borde (edge deployment). La version de 4B parametros se distribuye bajo licencia Apache 2.0, lo que significa que puedes usarlo para fines comerciales sin pagar nada.

Por que elegir FLUX.2 [klein]

Este modelo genera imagenes en menos de un segundo en hardware de servidor (NVIDIA GB200) y en pocos segundos en una RTX 4060 Ti con 16 GB de VRAM. Es la puerta de entrada al ecosistema FLUX para quienes no tienen una RTX 4090 o superior.

Puntos fuertes:

  • Licencia Apache 2.0: uso comercial libre y gratuito.
  • Funciona en GPUs de 13-16 GB de VRAM.
  • Velocidad de generacion rapida comparada con FLUX.2 [dev].
  • Buena calidad para su tamano, muy superior a modelos de tamano similar.

Puntos debiles:

  • Calidad inferior a FLUX.2 [dev] en detalles finos y coherencia de escenas complejas.
  • Renderizado de texto menos fiable que la version completa.
  • Menos opciones de personalizacion que SDXL.

Prompt de ejemplo:

code
1Minimalist flat design illustration of a robot reading a book in a cozy library,
2warm color palette, soft shadows, vector art style


3. Stable Diffusion 3.5 Medium - El Mas Eficiente

CaracteristicaDetalle
DesarrolladorStability AI
Fecha lanzamientoOctubre 2025
Parametros2.6 mil millones (2.6B)
ArquitecturaMMDiT (Multi-Modal DiT)
Resolucion0.25 a 2 megapixeles
VRAM requerida8 GB
LicenciaCommunity License (gratis hasta 1M USD/ano)

Stable Diffusion 3.5 Medium es la tercera generacion del modelo mas popular del mundo open source. Con 2.6B parametros, esta optimizado para funcionar en hardware de consumo estandar sin comprometer excesivamente la calidad.

Por que elegir SD 3.5 Medium

Stability AI utilizo Query-Key Normalization en los transformers de atencion, lo que facilita enormemente el fine-tuning personalizado. El modelo fue pre-entrenado con 1.000 millones de imagenes y afinado con 30 millones de imagenes de alta calidad estetica, mas 3 millones de muestras de preferencia humana.

Puntos fuertes:

  • Funciona en GPUs con solo 8 GB de VRAM (RTX 3060, RTX 4060).
  • Fine-tuning simplificado: mas facil de personalizar que cualquier otro modelo de su generacion.
  • Buena adherencia al prompt gracias a la arquitectura MMDiT.
  • Licencia flexible: gratuito para uso comercial hasta 1 millon de dolares anuales.

Puntos debiles:

  • Calidad inferior a FLUX.2 [dev] en fotorrealismo de alto nivel.
  • Renderizado de texto inconsistente.
  • Comunidad mas pequena que SDXL (menos LoRAs y checkpoints comunitarios disponibles).

Prompt de ejemplo:

code
1Portrait of a Spanish flamenco dancer mid-spin, red dress flowing, dramatic side
2lighting, oil painting style, rich textures, moody background


4. SDXL 1.0 - El Rey del Ecosistema

CaracteristicaDetalle
DesarrolladorStability AI
Fecha lanzamientoJulio 2023 (sigue vigente)
Parametros3.5 mil millones (3.5B)
ArquitecturaUNet + Dual Text Encoder
Resolucion1024x1024 nativa
VRAM requerida10 GB
LicenciaOpen-weight (uso comercial)

SDXL 1.0 tiene mas de dos anos y sigue siendo uno de los modelos mas utilizados. No por calidad bruta (FLUX lo supera claramente), sino por algo mucho mas valioso en la practica: un ecosistema gigante de personalizacion.

Por que SDXL sigue siendo relevante en 2026

En Civitai hay mas de 200.000 modelos, checkpoints, LoRAs y embeddings basados en SDXL. Quieres un estilo anime especifico, fotografia de producto, diseno de personajes, arquitectura interior o arte pixel? Probablemente alguien ya ha entrenado un LoRA para eso.

Puntos fuertes:

  • Ecosistema inigualable: miles de LoRAs, checkpoints, embeddings y controlnets.
  • Documentacion y tutoriales extensisimos. Es el modelo mas documentado que existe.
  • Compatible con todas las interfaces: ComfyUI, Automatic1111, Fooocus, InvokeAI.
  • Facil de entrenar con LoRAs personalizados (puedes entrenar uno en 30 minutos con 20 imagenes).
  • Uso comercial permitido.

Puntos debiles:

  • No puede renderizar texto legible en imagenes.
  • Calidad inferior a FLUX.2 y SD 3.5 en fotorrealismo puro.
  • Requiere mas pasos de inferencia (25-50) para resultados optimos.
  • Anatomia humana todavia problematica sin modelos comunitarios especializados.

Prompt de ejemplo:

code
1Cyberpunk street market in Barcelona, neon signs in Catalan, rain-soaked cobblestones
2reflecting colorful lights, blade runner atmosphere, detailed crowd, masterpiece quality


5. SDXL-Lightning - Velocidad Extrema

CaracteristicaDetalle
DesarrolladorByteDance
Parametros3.5B (destilado de SDXL)
Pasos de inferencia1, 2, 4 u 8 pasos
VRAM requerida10 GB
LicenciaOpen-weight

SDXL-Lightning es una adaptacion de SDXL creada por ByteDance mediante destilacion adversarial progresiva. Donde SDXL necesita 25-50 pasos para generar una imagen, Lightning lo hace en 1 a 8 pasos con calidad comparable.

Por que elegir SDXL-Lightning

Si necesitas generar cientos o miles de imagenes rapidamente para prototipado, pruebas de concepto o produccion en batch, SDXL-Lightning es imbatible. Las evaluaciones muestran que supera a LCM, SDXL-Turbo y al propio SDXL base en puntuaciones CLIP y FID cuando se comparan con el mismo numero de pasos.

Puntos fuertes:

  • Genera imagenes de 1024x1024 en milisegundos (2-4 pasos).
  • Hereda la compatibilidad con LoRAs de SDXL (con algunos ajustes).
  • Ideal para aplicaciones interactivas en tiempo real.
  • Bajo consumo computacional por imagen generada.

Puntos debiles:

  • Calidad ligeramente inferior a SDXL completo con 50 pasos.
  • Con 1-2 pasos los detalles finos se pierden.
  • No tan versatil como SDXL completo para estilos muy especificos.


6. Playground v3 - Fotorrealismo de Nivel Profesional

CaracteristicaDetalle
DesarrolladorPlayground AI
ArquitecturaLLM-fused DiT
EnfoqueDiseno grafico y fotorrealismo
VRAM requerida~16 GB
LicenciaInvestigacion (v2 fue open-weight)

Playground v3 introduce una arquitectura innovadora: en lugar de usar text encoders tradicionales como CLIP o T5, integra directamente un LLM (Large Language Model) de tipo decoder-only en el pipeline de generacion. Esto le permite comprender prompts mucho mas complejos y matizados que otros modelos.

Por que considerar Playground v3

Puntos fuertes:

  • Comprension de prompts en lenguaje natural muy superior a la media.
  • Excelente en fotorrealismo y composiciones complejas.
  • Capacidades de diseno grafico nativas.
  • Funcionalidad image-to-image incluida.

Puntos debiles:

  • Licencia restrictiva (pesos no completamente abiertos para v3, la v2 si fue abierta).
  • Ecosistema comunitario mucho mas pequeno.
  • Menos opciones de personalizacion que SDXL.


7. PixArt-Sigma - Eficiencia Maxima

CaracteristicaDetalle
DesarrolladorPixArt (investigacion academica)
Parametros0.6 mil millones (0.6B)
ArquitecturaDiffusion Transformer (DiT)
ResolucionHasta 4K nativa
VRAM requerida~6 GB
LicenciaApache 2.0

PixArt-Sigma es la prueba de que mas parametros no siempre significa mejor calidad. Con solo 600 millones de parametros (10 veces menos que SDXL, 50 veces menos que FLUX.2), genera imagenes de hasta 4K de resolucion. Utiliza una tecnica llamada "entrenamiento debil a fuerte" (weak-to-strong training), donde parte de un modelo base mas simple y lo escala progresivamente.

Por que elegir PixArt-Sigma

Puntos fuertes:

  • Requisitos de hardware minimos: funciona en GPUs con 6 GB de VRAM.
  • Generacion nativa hasta 4K sin upscaling.
  • Licencia Apache 2.0 para uso comercial.
  • Entrenamiento extremadamente eficiente (ideal para investigadores con pocos recursos).
  • Compresion de tokens innovadora que reduce el coste computacional.

Puntos debiles:

  • Calidad general inferior a FLUX.2 y SD 3.5 en la mayoria de escenarios.
  • Ecosistema practicamente inexistente (sin LoRAs comunitarios).
  • Renderizado de texto limitado.
  • Menos versatil en variedad de estilos.


FLUX vs Stable Diffusion: La Gran Comparativa

Esta es la pregunta que todo el mundo se hace en 2026. Aqui va el desglose detallado:

AspectoFLUX.2 [dev]SD 3.5 MediumSDXL 1.0
Calidad fotorrealista10/108/107/10
Texto en imagenesExcelenteMedioMalo
Adherencia al promptMuy altaAltaMedia
Velocidad (misma GPU)LentaRapidaMedia
VRAM minima24 GB8 GB10 GB
LoRAs disponibles~500~2.000+200.000
Checkpoints comunitariosPocosPocosMiles
Fine-tuning facilMedioFacilFacil
Uso comercialNo (dev)Si (<1M)Si
DocumentacionBuenaBuenaExcelente
Interfaces compatiblesComfyUIComfyUI, A1111Todas
Veredicto: La respuesta correcta en 2026 es "depende". FLUX.2 gana en calidad bruta, pero SDXL gana en ecosistema y personalizacion. SD 3.5 Medium es el equilibrio perfecto para quienes no tienen una GPU potente. Para muchos creadores, la combinacion ideal es usar FLUX.2 para el trabajo final y SDXL para experimentar con estilos.


Como Generar Imagenes en Local

Opcion 1: ComfyUI (Recomendado)

ComfyUI es la interfaz grafica basada en nodos que se ha convertido en el estandar de la industria en 2026. Compatible con todos los modelos de este articulo.

Instalacion rapida:

bash
1# Clonar el repositorio
2git clone https://github.com/comfyanonymous/ComfyUI.git
3cd ComfyUI
4 
5# Crear entorno virtual
6python -m venv venv
7source venv/bin/activate # Linux/Mac
8# venv\Scripts\activate # Windows
9 
10# Instalar dependencias
11pip install -r requirements.txt
12 
13# Instalar PyTorch con soporte CUDA
14pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
15 
16# Ejecutar
17python main.py

Descargar modelos:

Los modelos se colocan en la carpeta ComfyUI/models/checkpoints/. Puedes descargarlos desde Hugging Face o Civitai:

bash
1# Descargar FLUX.2 [dev] (cuantizado FP8, ~17 GB)
2# Desde: https://huggingface.co/black-forest-labs/FLUX.2-dev
3 
4# Descargar SDXL 1.0 (~6.5 GB)
5# Desde: https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0
6 
7# Descargar SD 3.5 Medium (~5.5 GB)
8# Desde: https://huggingface.co/stabilityai/stable-diffusion-3.5-medium

ComfyUI funciona con un sistema de nodos donde conectas visualmente el flujo de generacion: cargador de modelo, prompt, muestreador, decodificador y guardado. Hay workflows predefinidos para cada modelo que puedes importar directamente.

Opcion 2: Automatic1111 (SDXL y derivados)

Automatic1111 (A1111) fue la interfaz dominante hasta 2025 y sigue siendo popular, especialmente para SDXL:

bash
1# Clonar
2git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
3cd stable-diffusion-webui
4 
5# Ejecutar (instala dependencias automaticamente)
6./webui.sh # Linux/Mac
7# webui-user.bat # Windows

A1111 tiene una interfaz mas tradicional con campos de texto y sliders, sin necesidad de entender nodos. Es mas facil para principiantes, pero menos flexible que ComfyUI para workflows avanzados.

Opcion 3: Fooocus (Lo mas facil)

Si quieres algo que funcione en dos clics, Fooocus es la opcion. Interfaz minimalista inspirada en Midjourney, solo escribes el prompt y obtienes la imagen:

bash
1git clone https://github.com/lllyasviel/Fooocus.git
2cd Fooocus
3python entry_with_update.py


Requisitos de Hardware

ModeloVRAM MinimaVRAM RecomendadaRAM SistemaTiempo por Imagen (aprox.)
FLUX.2 [dev] FP824 GB24 GB32 GB15-30 seg (RTX 4090)
FLUX.2 [dev] FP418 GB24 GB32 GB20-40 seg (RTX 4090)
FLUX.2 [klein] 4B13 GB16 GB16 GB5-10 seg (RTX 4060 Ti)
SD 3.5 Medium8 GB12 GB16 GB8-15 seg (RTX 3060)
SDXL 1.010 GB12 GB16 GB10-20 seg (RTX 3060 12GB)
SDXL-Lightning10 GB12 GB16 GB1-3 seg (RTX 3060 12GB)
Playground v316 GB24 GB32 GB12-25 seg (RTX 4080)
PixArt-Sigma6 GB8 GB16 GB6-12 seg (RTX 3060)
GPUs recomendadas para cada presupuesto:

PresupuestoGPUVRAMModelos Compatibles
~200 EUR (segunda mano)RTX 3060 12GB12 GBSD 3.5, SDXL, PixArt, Lightning
~350 EURRTX 4060 Ti 16GB16 GBTodos excepto FLUX.2 [dev]
~700 EURRTX 4080 16GB16 GBTodos excepto FLUX.2 [dev]
~1.200 EURRTX 4090 24GB24 GBTodos los modelos
~2.000 EURRTX 5090 32GB32 GBTodos con margen sobrado

Casos de Uso: Cual Elegir

Para maxima calidad fotorrealista

Ganador: FLUX.2 [dev]

Si tu prioridad es conseguir imagenes indistinguibles de una fotografia real, FLUX.2 [dev] es la eleccion correcta. Supera a todos los demas modelos open source en textura de piel, iluminacion natural, profundidad de campo y coherencia de escena.

Para texto legible en imagenes

Ganador: FLUX.2 [dev]

FLUX.2 es el unico modelo open source que renderiza texto de forma consistente y legible. Si necesitas carteles, portadas, logotipos o cualquier imagen con tipografia integrada, no hay alternativa real.

Para GPU limitada (8 GB de VRAM)

Ganador: Stable Diffusion 3.5 Medium

Con solo 8 GB de VRAM genera imagenes de calidad notable. Si tienes una RTX 3060 o RTX 4060, es tu mejor opcion. PixArt-Sigma funciona con incluso menos (6 GB), pero la calidad es inferior.

Para velocidad

Ganador: SDXL-Lightning

Si necesitas generar imagenes en tiempo real o en batch masivo, SDXL-Lightning produce resultados aceptables en 1-2 pasos de inferencia. Ideal para aplicaciones interactivas o prototipado rapido.

Para arte y estilos artisticos

Ganador: SDXL 1.0 + LoRAs

Ningun modelo se acerca a SDXL en variedad de estilos artisticos. Anime, pixel art, acuarela, comic europeo, fotografia analogica, retro, cyberpunk... hay un LoRA para cada estilo imaginable en Civitai.

Para personalizacion y fine-tuning

Ganador: SDXL 1.0

La combinacion de documentacion abundante, herramientas de entrenamiento maduras (kohya_ss, EveryDream2) y compatibilidad universal con interfaces lo convierte en la opcion mas practica para entrenar modelos personalizados.


Open Source vs Midjourney vs DALL-E 4

AspectoFLUX.2 [dev]SDXL + LoRAsMidjourney v6.1GPT Image 1.5
PrecioGratisGratisDesde 10 USD/mesChatGPT Plus (20 USD/mes)
Calidad maxima10/108/1010/109/10
Texto en imagenExcelenteMaloBuenoBueno
PersonalizacionMediaMaximaBajaBaja
PrivacidadTotal (local)Total (local)Nula (nube)Nula (nube)
Sin internetSiSiNoNo
Uso comercialNo (dev)SiSi (plan Pro)Si (plan Plus)
Censura contenidoNingunaNingunaEstrictaEstricta
Curva aprendizajeAltaMediaBajaBaja
VelocidadMediaMediaRapidaRapida
Mi analisis: Los modelos open source han alcanzado paridad de calidad con Midjourney en 2026. La diferencia real es la facilidad de uso: Midjourney y ChatGPT solo requieren escribir un prompt en una web. Los modelos open source necesitan instalacion, configuracion y una GPU dedicada. Pero a cambio ofrecen privacidad total, cero costes recurrentes y personalizacion ilimitada.


Mi Recomendacion Personal

Despues de probar todos estos modelos extensivamente, esta es mi recomendacion segun tu perfil:

Si eres principiante y solo quieres probar: Instala Fooocus con SDXL. En 10 minutos estas generando imagenes.

Si tienes una GPU de 8-12 GB: Usa SD 3.5 Medium como modelo principal y anade LoRAs de SDXL para estilos especificos.

Si tienes una RTX 4090 o superior: FLUX.2 [dev] como modelo principal para trabajo de calidad, y SDXL-Lightning para prototipado rapido.

Si quieres uso comercial gratuito: FLUX.2 [klein] (Apache 2.0) o SDXL 1.0 son tus opciones. El klein ofrece mejor calidad base, SDXL ofrece mas personalizacion.

Si vienes de Midjourney y quieres dejar de pagar: FLUX.2 [dev] con ComfyUI te dara resultados equivalentes o superiores. La inversion inicial es la GPU, pero a medio plazo ahorras cientos de euros en suscripciones.


Preguntas Frecuentes (FAQ)

Depende de la licencia de cada modelo. FLUX.2 [klein] (Apache 2.0), SDXL 1.0 y PixArt-Sigma permiten uso comercial sin restricciones. SD 3.5 Medium es gratuito hasta 1 millon de dolares de facturacion anual. FLUX.2 [dev] es solo para uso no comercial.

Puedo ejecutar FLUX.2 en un Mac con Apple Silicon?

Si, tanto FLUX.2 [klein] como versiones cuantizadas de FLUX.2 [dev] funcionan en Mac con chip M2 Pro/Max o superior. El rendimiento es inferior al de GPUs NVIDIA, pero es funcional. ComfyUI tiene soporte nativo para MPS (Metal Performance Shaders).

Cual es la diferencia entre un checkpoint y un LoRA?

Un checkpoint es un modelo completo (varios GB) que genera imagenes por si solo. Un LoRA es una pequena adaptacion (normalmente 10-200 MB) que se aplica encima de un checkpoint para anadir un estilo o concepto concreto. Los LoRAs son mas eficientes de entrenar y almacenar.

Necesito internet para generar imagenes en local?

No. Una vez descargados los modelos, puedes generar imagenes completamente offline. No se envia ninguna informacion a servidores externos. Esta es una de las mayores ventajas frente a servicios en la nube como Midjourney.

Puedo entrenar mi propio modelo con mis fotos?

Si. Con SDXL puedes entrenar un LoRA personalizado con 15-30 imagenes en aproximadamente 30 minutos usando herramientas como kohya_ss o EveryDream2. Para FLUX.2 el proceso es mas complejo y consume mas recursos, pero ya existen herramientas como SimpleTuner que lo facilitan.

Las imagenes generadas tienen marca de agua o metadata?

Los modelos open source ejecutados en local no anaden marcas de agua ni metadata de identificacion automaticamente. Eres dueno completo de las imagenes generadas. Algunas interfaces como ComfyUI pueden guardar el workflow en los metadatos del PNG, pero es opcional y desactivable.

Cada cuanto salen modelos nuevos?

El ritmo se ha acelerado. En 2025 vimos lanzamientos de FLUX.1, FLUX.2, SD 3.5, AuraFlow, Kolors y otros. En 2026 se esperan SDXL 2.0 (si Stability AI lo desarrolla), mejoras iterativas de FLUX, y posiblemente nuevos modelos de Meta y Google que liberen como open source.


Recursos y Articulos Relacionados

Si quieres profundizar en la generacion de imagenes con IA, aqui tienes mas guias de javadex.es:


Ultima actualizacion: Febrero de 2026. Este articulo se actualiza periodicamente con nuevos modelos y benchmarks.

📬

¿Te ha gustado? Hay más cada semana

Únete a "IA Sin Humo" — la newsletter donde comparto lo que realmente funciona en inteligencia artificial. Sin teoría innecesaria, sin postureo.

📚

1 Tutorial

Paso a paso, práctico

🛠️

3 Herramientas

Probadas y útiles

💡

0 Bullshit

Solo lo que importa

+547 suscriptores • Cada martes • Cancela cuando quieras