Ir al contenido principal

Ollama Modelos: Ranking Completo de los Mejores Modelos para Ejecutar en Local [2026]

5 de marzo de 2026
22 min

Los 20 mejores modelos de Ollama en 2026 con ranking por categoria: chat, codigo, razonamiento, vision y embeddings. VRAM necesaria, benchmarks y comandos ollama pull.

Javier Santos

Especialista en IA & Machine Learning

📧¿Te gusta este contenido?

Únete a 547+ profesionales que reciben tips de IA cada semana. Sin spam, cancela cuando quieras.

Ollama Modelos: Ranking Completo de los Mejores Modelos para Ejecutar en Local [2026]

Ollama se ha convertido en la herramienta de referencia para ejecutar modelos de inteligencia artificial en local. Con un solo comando puedes descargar y ejecutar modelos de lenguaje sin depender de APIs de pago ni enviar tus datos a la nube. Pero con mas de 100 modelos disponibles en la biblioteca de Ollama, elegir el adecuado puede ser abrumador.

En este ranking actualizado a marzo de 2026, comparamos los 20 mejores modelos disponibles en Ollama segun su rendimiento, requisitos de hardware, velocidad de inferencia y caso de uso ideal. Si buscas una guia paso a paso para instalar y configurar Ollama, consulta nuestra guia completa de Ollama.

TL;DR - Resumen rapido

  • Mejor modelo general: Qwen 3 72B (si tienes VRAM suficiente) o Llama 3.3 70B como alternativa solida.
  • Mejor relacion calidad/VRAM: Qwen 3 7B o Gemma 3 9B. Funcionan en GPUs de 8 GB.
  • Mejor para codigo: DeepSeek-Coder-V2 o Qwen 3 32B (con instrucciones de codigo).
  • Mejor para razonamiento: DeepSeek V3 destilado o Llama 4 Scout.
  • Mejor para vision: LLaVA 1.6 o Gemma 3 con soporte multimodal.
  • Mejor modelo pequeno (edge): Phi-4 14B o Gemma 3 2B si necesitas algo ultraligero.
  • Mejor para embeddings: nomic-embed-text, sin discusion.

Si solo tienes 8 GB de VRAM, ve directo a Qwen 3 7B o Gemma 3 9B. Si tienes 16 GB, Phi-4 14B o Qwen 3 32B en Q4. Si tienes 24 GB o mas, el mundo es tuyo.


Ranking completo: Los 20 mejores modelos de Ollama en 2026

La siguiente tabla resume los modelos mas relevantes disponibles en Ollama a marzo de 2026, ordenados por puntuacion general considerando calidad de respuestas, velocidad y accesibilidad de hardware.

PosModeloParametrosVRAM minimaMejor usoPuntuacion
1Qwen 3 72B72B48 GBChat general, razonamiento9.5/10
2Llama 3.3 70B70B40 GBChat general, instrucciones9.4/10
3DeepSeek V3 (destilado)67B40 GBRazonamiento, analisis9.3/10
4Llama 4 Scout17B activos (MoE)24 GBMultimodal, razonamiento9.2/10
5Mixtral 8x22B141B (MoE)48 GBChat avanzado, multilingue9.1/10
6Qwen 3 32B32B20 GBCodigo, chat, razonamiento9.0/10
7DeepSeek-Coder-V216B12 GBProgramacion especializada8.9/10
8Gemma 3 27B27B18 GBChat, instrucciones8.8/10
9Command-R35B22 GBRAG, busqueda, citaciones8.7/10
10Phi-414B10 GBRazonamiento, STEM8.6/10
11Qwen 3 7B7B6 GBChat rapido, proposito general8.5/10
12Gemma 3 9B9B7 GBChat, instrucciones8.4/10
13Llama 3.3 8B8B6 GBChat general, rapido8.3/10
14Mistral Nemo12B8 GBChat multilingue8.2/10
15Yi-1.5 34B34B22 GBChat, razonamiento chino/ingles8.1/10
16CodeLlama 34B34B22 GBProgramacion, completado8.0/10
17LLaVA 1.67B/13B6-10 GBVision, analisis de imagenes7.9/10
18StarCoder215B10 GBCodigo, completado7.8/10
19Mistral 7B7B6 GBChat basico, rapido7.7/10
20Gemma 3 2B2B2 GBEdge, dispositivos limitados7.5/10
Nota sobre cuantizacion: Las cifras de VRAM asumen cuantizacion Q4_K_M, que es el formato por defecto en Ollama. Con Q8 o FP16 necesitaras aproximadamente el doble de memoria.


Ranking por categoria

Chat general y asistente conversacional

Para uso general como asistente de conversacion, redaccion de textos, resumen y tareas cotidianas, estos son los modelos que mejor resultado dan en Ollama.

Top 5 para chat general:

  1. Qwen 3 72B - El modelo mas completo. Respuestas articuladas, excelente en espanol, capacidad de razonamiento profundo. Necesita hardware potente pero el resultado lo justifica. Supera a GPT-4 en varios benchmarks de conversacion.
  2. Llama 3.3 70B - La alternativa de Meta. Muy buen rendimiento general, instrucciones bien seguidas, y una comunidad enorme detras. Si ya usabas Llama 2, la mejora es brutal.
  3. Qwen 3 7B - La sorpresa del ranking. Para 7 mil millones de parametros, este modelo compite con modelos 3-4 veces mas grandes. Ideal si tienes una GPU de 8 GB y quieres respuestas de calidad.
  4. Gemma 3 9B - El modelo de Google optimizado para instrucciones. Muy bueno en espanol y con una latencia baja que lo hace agradable de usar en tiempo real.
  5. Llama 3.3 8B - Solido, bien probado, y con la mayor compatibilidad de herramientas de todo el ecosistema. Si necesitas integracion con LangChain, LlamaIndex o cualquier framework, este es el camino seguro.

Programacion y generacion de codigo

Si tu objetivo principal es generar codigo, completar funciones, depurar errores o explicar repositorios, necesitas modelos entrenados especificamente para ello. Consulta tambien nuestra guia de modelos open source para chat donde cubrimos mas opciones.

Top 5 para codigo:

  1. DeepSeek-Coder-V2 (16B) - El rey del codigo en local. Entrenado especificamente para programacion con soporte para mas de 300 lenguajes. Genera codigo limpio, entiende contexto de proyecto completo y sugiere tests. Con 12 GB de VRAM tienes un copiloto local de primer nivel.
  2. Qwen 3 32B - No es un modelo de codigo dedicado, pero su capacidad de razonamiento y seguimiento de instrucciones lo hace excelente para tareas de programacion complejas. Ideal para arquitectura de software y refactorizacion.
  3. CodeLlama 34B - El clasico de Meta para codigo. Muy bueno en Python, JavaScript y C++. Algo mas antiguo que DeepSeek-Coder pero todavia competitivo, especialmente en completado de codigo (fill-in-the-middle).
  4. StarCoder2 (15B) - Entrenado por BigCode en The Stack v2. Excelente para completado de codigo y comprension de repositorios. Su punto fuerte es la adherencia a patrones de codigo existentes.
  5. Phi-4 (14B) - El modelo de Microsoft destaca en razonamiento sobre codigo. No genera tanto codigo bruto como DeepSeek-Coder, pero es mejor explicando por que algo funciona o no funciona. Perfecto como asistente de aprendizaje.

Razonamiento y analisis complejo

Para tareas que requieren pensar paso a paso, resolver problemas matematicos, analizar datos o tomar decisiones complejas.

Top 5 para razonamiento:

  1. DeepSeek V3 (destilado) - DeepSeek ha demostrado que el razonamiento profundo no necesita modelos enormes. La version destilada disponible en Ollama mantiene la capacidad de chain-of-thought que hizo famoso al modelo original.
  2. Llama 4 Scout - El primer modelo MoE (Mixture of Experts) de Meta disponible en Ollama. Con 17B parametros activos de un total mucho mayor, ofrece razonamiento de nivel superior sin el coste computacional de un modelo denso equivalente.
  3. Qwen 3 72B - Ademas de chat, su capacidad de razonamiento en STEM (ciencia, tecnologia, ingenieria, matematicas) es de las mejores del ecosistema open source.
  4. Phi-4 (14B) - Microsoft lo diseno especificamente para razonamiento. En benchmarks como GSM8K y MATH supera a modelos con el triple de parametros. Si necesitas resolver problemas paso a paso, Phi-4 es tu modelo.
  5. Mixtral 8x22B - El modelo MoE de Mistral AI. Con 141B parametros totales pero solo una fraccion activa por inferencia, ofrece razonamiento a nivel de GPT-4 en muchas tareas.

Vision y modelos multimodales

Los modelos de vision te permiten analizar imagenes, extraer texto de capturas de pantalla, describir fotografias o interpretar graficos. Si estas configurando hardware para estos modelos, revisa nuestra guia de mejores GPUs para IA.

Top 3 para vision:

  1. LLaVA 1.6 (13B) - El modelo de vision mas maduro en Ollama. Puede describir imagenes con detalle, responder preguntas sobre contenido visual y extraer texto de capturas. La version de 13B ofrece un buen equilibrio entre calidad y velocidad.
  2. Gemma 3 con vision - Google ha anadido capacidades multimodales a Gemma 3. Todavia en fase de maduracion pero con resultados prometedores, especialmente en tareas de OCR y descripcion de escenas.
  3. Llama 4 Scout - El modelo MoE de Meta incluye soporte multimodal nativo. Puede procesar imagenes junto con texto, lo que lo convierte en una opcion versatil para pipelines que mezclan ambos tipos de entrada.

Embeddings y busqueda semantica

Los modelos de embeddings convierten texto en vectores numericos, esenciales para RAG (Retrieval-Augmented Generation), busqueda semantica y clasificacion de documentos.

La eleccion clara:

  1. nomic-embed-text - El estandar de facto para embeddings en Ollama. Vectores de 768 dimensiones, rendimiento comparable a modelos comerciales como text-embedding-3-small de OpenAI, y funciona en cualquier hardware. Con 137M de parametros, incluso un portatil sin GPU dedicada puede ejecutarlo.

Para montar un sistema RAG completo con embeddings locales, la combinacion tipica es: nomic-embed-text para los embeddings + ChromaDB o Qdrant como base de datos vectorial + Qwen 3 7B o Llama 3.3 8B como modelo generativo. Todo ejecutandose en local sin enviar ni un byte a la nube. Si la privacidad es una prioridad, lee nuestra guia sobre IA local y privacidad.

Modelos pequenos y edge computing

Para dispositivos con recursos limitados, Raspberry Pi, mini PCs o portatiles sin GPU dedicada. Si estas buscando hardware compacto para IA local, echa un vistazo a nuestra seleccion de mejores Mini PC para IA.

Top 3 modelos ligeros:

  1. Gemma 3 2B - Solo 2 mil millones de parametros pero con una calidad sorprendente. Funciona con 2 GB de VRAM o incluso en CPU con 4 GB de RAM. Ideal para chatbots ligeros, clasificacion de texto y tareas simples.
  2. Phi-4 Mini - La version compacta de Phi-4 de Microsoft. Mantiene buena capacidad de razonamiento en un formato mucho mas accesible.
  3. Mistral 7B - El modelo que inicio la revolucion de los 7B eficientes. Sigue siendo competitivo y su velocidad de inferencia es dificil de superar.


Requisitos de hardware por modelo

Uno de los factores mas criticos al elegir un modelo en Ollama es si tu hardware puede ejecutarlo con fluidez. Aqui tienes una tabla detallada con los requisitos reales medidos en condiciones normales de uso.

ModeloVRAM (Q4)VRAM (Q8)RAM minimaDiscoTokens/s (RTX 4090)
Gemma 3 2B2 GB3 GB4 GB1.5 GB120+
Mistral 7B5 GB8 GB8 GB4 GB85
Qwen 3 7B5.5 GB9 GB8 GB4.5 GB80
Llama 3.3 8B6 GB10 GB8 GB4.7 GB78
Gemma 3 9B6.5 GB11 GB10 GB5.5 GB70
Mistral Nemo 12B8 GB14 GB12 GB7 GB55
Phi-4 14B9 GB16 GB12 GB8 GB50
StarCoder2 15B10 GB17 GB14 GB9 GB48
DeepSeek-Coder-V2 16B11 GB18 GB14 GB10 GB45
Gemma 3 27B17 GB30 GB20 GB16 GB30
Qwen 3 32B20 GB35 GB24 GB19 GB25
CodeLlama 34B21 GB37 GB24 GB20 GB23
Yi-1.5 34B21 GB37 GB24 GB20 GB22
Command-R 35B22 GB38 GB26 GB21 GB21
Llama 3.3 70B40 GB72 GB48 GB40 GB12
DeepSeek V3 (destilado)40 GB70 GB48 GB38 GB11
Qwen 3 72B44 GB78 GB52 GB42 GB10
Mixtral 8x22B48 GB85 GB56 GB50 GB9
LLaVA 13B9 GB15 GB12 GB8 GB40
nomic-embed-text0.3 GB0.5 GB2 GB0.3 GBN/A

Rendimiento por GPU

El rendimiento varia drasticamente segun tu tarjeta grafica. Aqui tienes una estimacion de tokens por segundo con el modelo Llama 3.3 8B en Q4_K_M como referencia:

GPUVRAMTokens/s (Llama 3.3 8B)Modelos recomendados
RTX 409024 GB78 t/sTodos hasta 32B en Q4
RTX 408016 GB62 t/sHasta 14B en Q4, 7-9B en Q8
RTX 4070 Ti12 GB55 t/sHasta 12B en Q4, 7B en Q8
RTX 4060 Ti 16GB16 GB50 t/sHasta 14B en Q4
RTX 40608 GB42 t/s7-9B en Q4
RTX 309024 GB58 t/sTodos hasta 32B en Q4
RTX 308010 GB40 t/sHasta 9B en Q4
RTX 3060 12GB12 GB32 t/sHasta 12B en Q4
RX 7900 XTX (AMD)24 GB45 t/sHasta 32B en Q4 (ROCm)
Apple M3 Pro18 GB unificada35 t/sHasta 14B en Q4
Apple M3 Max36 GB unificada38 t/sHasta 34B en Q4
Apple M4 Pro24 GB unificada42 t/sHasta 27B en Q4
Nota sobre Apple Silicon: Los Macs con chip M1/M2/M3/M4 utilizan memoria unificada, lo que significa que la RAM del sistema se comparte con la GPU. Ollama aprovecha esto automaticamente. Un Mac con 32 GB de RAM puede ejecutar modelos que requieren hasta 28 GB de VRAM.


Comandos de instalacion: ollama pull

Descargar un modelo en Ollama es tan simple como un comando. Aqui tienes todos los comandos para los modelos del ranking:

bash
1# Chat general - Modelos grandes (requieren mucha VRAM)
2ollama pull qwen3:72b
3ollama pull llama3.3:70b
4ollama pull mixtral:8x22b
5 
6# Chat general - Modelos medianos (16-24 GB VRAM)
7ollama pull qwen3:32b
8ollama pull gemma3:27b
9ollama pull command-r
10ollama pull yi:34b
11 
12# Chat general - Modelos pequenos (6-10 GB VRAM)
13ollama pull qwen3:7b
14ollama pull gemma3:9b
15ollama pull llama3.3:8b
16ollama pull mistral
17ollama pull mistral-nemo
18 
19# Razonamiento
20ollama pull deepseek-v3
21ollama pull llama4-scout
22ollama pull phi4
23 
24# Codigo
25ollama pull deepseek-coder-v2
26ollama pull codellama:34b
27ollama pull codellama:7b
28ollama pull starcoder2:15b
29 
30# Vision
31ollama pull llava:13b
32ollama pull llava:7b
33 
34# Embeddings
35ollama pull nomic-embed-text
36 
37# Modelos ultraligeros (edge)
38ollama pull gemma3:2b

Para ejecutar cualquier modelo despues de descargarlo:

bash
1# Iniciar chat interactivo
2ollama run qwen3:7b
3 
4# Enviar un prompt directo
5ollama run llama3.3:8b "Explica que es Docker en 3 frases"
6 
7# Usar un modelo de codigo
8ollama run deepseek-coder-v2 "Escribe una funcion en Python que ordene una lista con quicksort"
9 
10# Generar embeddings
11curl http://localhost:11434/api/embeddings -d '{
12 "model": "nomic-embed-text",
13 "prompt": "Texto para convertir en vector"
14}'

Gestion de modelos

bash
1# Ver modelos descargados
2ollama list
3 
4# Ver informacion detallada de un modelo
5ollama show qwen3:7b
6 
7# Eliminar un modelo para liberar espacio
8ollama rm codellama:34b
9 
10# Copiar un modelo con otro nombre
11ollama cp llama3.3:8b mi-modelo-custom
12 
13# Ver modelos en ejecucion
14ollama ps


Comparativa: Ollama local vs APIs en la nube

Una de las preguntas mas frecuentes es si merece la pena ejecutar modelos en local con Ollama o simplemente usar APIs como OpenAI, Anthropic o Google. La respuesta depende de tus prioridades.

CriterioOllama (Local)APIs Cloud (GPT-4, Claude, etc.)
PrivacidadTotal. Datos nunca salen de tu maquinaDatos enviados a servidores externos
CosteSolo electricidad. Sin suscripcionesPago por token o suscripcion mensual
LatenciaBaja (sin red). Depende de tu GPUVariable. Depende de la carga del servidor
Calidad (7-14B)Buena para la mayoria de tareasSuperior en tareas complejas
Calidad (70B+)Comparable a GPT-4 en muchos benchmarksLigeramente superior en general
DisponibilidadSiempre disponible, sin internetRequiere conexion y puede tener caidas
PersonalizacionTotal. Fine-tuning, system prompts, ModelfilesLimitada a lo que ofrece la API
Velocidad de adopcionModelos nuevos tardan dias/semanasDisponibles inmediatamente
Soporte multimodalLimitado (LLaVA, Gemma 3)Avanzado (GPT-4V, Claude Vision)
IntegracionAPI REST local compatible con OpenAISDKs oficiales maduros

Cuando elegir Ollama (local)

  • Privacidad es critica: Datos medicos, legales, financieros o personales que no deben salir de tu infraestructura.
  • Alto volumen: Si haces miles de consultas al dia, el coste de APIs se dispara. Con Ollama, una vez comprada la GPU, el coste marginal es cero.
  • Desarrollo y experimentacion: Para prototipar, probar prompts y construir pipelines sin preocuparte por costes.
  • Sin conexion a internet: Entornos air-gapped, trabajo en aviones, zonas sin cobertura.
  • Latencia predecible: Sin variaciones por congestion de red o saturacion de servidores.

Cuando elegir APIs cloud

  • Necesitas la maxima calidad absoluta: Para produccion donde cada respuesta cuenta, GPT-4o o Claude Opus siguen siendo superiores a la mayoria de modelos locales.
  • No tienes GPU potente: Si solo tienes un portatil con GPU integrada, las APIs te dan acceso a modelos que no podrias ejecutar.
  • Multimodal avanzado: Vision, audio y video estan mucho mas maduros en los servicios cloud.
  • Equipo grande: Gestionar una infraestructura GPU para un equipo de 50 personas es mas complejo que dar acceso a una API.

La tendencia en 2026 es clara: cada vez mas empresas adoptan un enfoque hibrido. Usan Ollama para desarrollo, prototipado y tareas sensibles, y APIs cloud para produccion con requisitos de calidad maxima.


Preguntas frecuentes (FAQ)

Cual es el mejor modelo de Ollama para empezar?

Si es tu primera vez con Ollama, recomendamos Llama 3.3 8B. Es el modelo con mejor equilibrio entre calidad, velocidad y compatibilidad. Funciona en practicamente cualquier GPU con 8 GB de VRAM, tiene la mayor comunidad de soporte y es compatible con todas las herramientas del ecosistema. Instalalo con ollama pull llama3.3:8b y tendras un asistente local funcional en menos de 2 minutos.

Puedo ejecutar Ollama sin GPU?

Si, Ollama puede funcionar solo con CPU, pero sera significativamente mas lento. Un modelo de 7B en CPU genera entre 3 y 8 tokens por segundo (comparado con 40-80 en GPU), lo que lo hace aceptable para tareas puntuales pero no para uso interactivo fluido. Si no tienes GPU dedicada, prioriza modelos pequenos como Gemma 3 2B o Phi-4 Mini. Los Macs con Apple Silicon (M1 o superior) son una excepcion: su GPU integrada funciona muy bien con Ollama gracias a la memoria unificada.

Que diferencia hay entre Q4, Q5 y Q8 en los modelos?

Son niveles de cuantizacion que reducen el tamano del modelo sacrificando algo de precision. Q4_K_M (4 bits) es el estandar en Ollama: reduce el modelo a un cuarto de su tamano original con una perdida de calidad apenas perceptible. Q5_K_M ofrece un poco mas de calidad con un 25% mas de VRAM. Q8 es casi sin perdida pero requiere el doble de memoria que Q4. Para la gran mayoria de usos, Q4_K_M es la eleccion correcta.

Como saber cuanta VRAM necesito para un modelo concreto?

La regla general es: parametros del modelo en miles de millones multiplicado por 0.6 te da los GB de VRAM aproximados en Q4. Ejemplo: un modelo de 7B necesita aproximadamente 4.2 GB, uno de 14B necesita aproximadamente 8.4 GB, uno de 70B necesita aproximadamente 42 GB. Anade un 15-20% de margen para el contexto (ventana de tokens activa). Consulta la tabla de requisitos de hardware mas arriba para cifras exactas medidas.

Ollama soporta GPUs AMD?

Si, desde la version 0.3, Ollama soporta GPUs AMD a traves de ROCm en Linux. Las tarjetas de la serie RX 7000 (como la RX 7900 XTX con 24 GB de VRAM) funcionan bien, aunque el rendimiento es tipicamente un 15-25% inferior a una NVIDIA equivalente. En Windows, el soporte AMD esta en fase experimental. Para mas detalles sobre tarjetas graficas para IA, consulta nuestra guia de GPUs para IA.

Se pueden combinar varios modelos en Ollama?

Si, y es una de las ventajas de Ollama. Puedes tener varios modelos descargados y alternar entre ellos segun la tarea. Por ejemplo: nomic-embed-text para generar embeddings, Qwen 3 7B para chat general, y DeepSeek-Coder-V2 para codigo. Cada modelo se carga en VRAM cuando lo necesitas y se descarga automaticamente cuando llevas tiempo sin usarlo (configurable con OLLAMA_KEEP_ALIVE).

Ollama es seguro? Mis datos quedan en mi maquina?

Absolutamente. Ollama ejecuta todo de forma local. Los modelos se descargan una sola vez desde la biblioteca de Ollama (ollama.com) y despues funcionan completamente offline. Tus prompts y respuestas nunca salen de tu ordenador. No hay telemetria, no hay logs enviados a ningun servidor, y puedes verificarlo tu mismo porque Ollama es software open source. Esto lo convierte en la opcion preferida para entornos con datos sensibles.

Como actualizo un modelo a su ultima version?

Simplemente ejecuta el mismo comando pull de nuevo. Ollama detectara si hay una version mas reciente disponible y descargara solo los cambios incrementales. Por ejemplo: ollama pull qwen3:7b actualizara el modelo si hay una nueva version sin descargar todo desde cero. Para actualizar Ollama en si, visita ollama.com/download o usa tu gestor de paquetes.


Posts relacionados

Si te interesa profundizar en la ejecucion de IA en local, estos articulos complementan este ranking:


En resumen

El ecosistema de modelos disponibles en Ollama ha madurado enormemente en 2026. Ya no estamos en la epoca en que ejecutar IA en local significaba sacrificar calidad. Modelos como Qwen 3, DeepSeek V3, Llama 3.3 y Gemma 3 ofrecen resultados que compiten directamente con servicios de pago, con la ventaja de privacidad total y coste cero por consulta.

La clave para elegir el modelo correcto es ser honesto con tu hardware. Si tienes 8 GB de VRAM, no intentes forzar un modelo de 32B con offloading a CPU porque la experiencia sera frustrante. En su lugar, usa Qwen 3 7B o Gemma 3 9B y disfruta de respuestas rapidas y coherentes. Si tienes una RTX 4090 o un Mac con 36 GB de memoria, puedes aspirar a modelos de 32-34B que realmente transforman lo que puedes hacer en local.

Tres recomendaciones finales:

  1. Empieza con Llama 3.3 8B. Descargalo, pruebalo, y usa esa experiencia como referencia para comparar otros modelos.
  2. Especializa por tarea. No busques un modelo que lo haga todo. Usa DeepSeek-Coder para codigo, nomic-embed-text para embeddings y Qwen 3 para chat.
  3. Mide tu hardware. Ejecuta ollama run llama3.3:8b y observa los tokens por segundo. Eso te dira exactamente que puedes esperar de modelos mas grandes o mas pequenos.

La IA en local ya no es una curiosidad tecnica. Es una herramienta practica, accesible y cada vez mas potente. Ollama hace que acceder a ella sea tan facil como escribir un comando en la terminal.

📬

¿Te ha gustado? Hay más cada semana

Únete a "IA Sin Humo" — la newsletter donde comparto lo que realmente funciona en inteligencia artificial. Sin teoría innecesaria, sin postureo.

📚

1 Tutorial

Paso a paso, práctico

🛠️

3 Herramientas

Probadas y útiles

💡

0 Bullshit

Solo lo que importa

+547 suscriptores • Cada martes • Cancela cuando quieras