Ollama Modelos: Ranking Completo de los Mejores Modelos para Ejecutar en Local [2026]
Ollama se ha convertido en la herramienta de referencia para ejecutar modelos de inteligencia artificial en local. Con un solo comando puedes descargar y ejecutar modelos de lenguaje sin depender de APIs de pago ni enviar tus datos a la nube. Pero con mas de 100 modelos disponibles en la biblioteca de Ollama, elegir el adecuado puede ser abrumador.
En este ranking actualizado a marzo de 2026, comparamos los 20 mejores modelos disponibles en Ollama segun su rendimiento, requisitos de hardware, velocidad de inferencia y caso de uso ideal. Si buscas una guia paso a paso para instalar y configurar Ollama, consulta nuestra guia completa de Ollama.
TL;DR - Resumen rapido
- Mejor modelo general: Qwen 3 72B (si tienes VRAM suficiente) o Llama 3.3 70B como alternativa solida.
- Mejor relacion calidad/VRAM: Qwen 3 7B o Gemma 3 9B. Funcionan en GPUs de 8 GB.
- Mejor para codigo: DeepSeek-Coder-V2 o Qwen 3 32B (con instrucciones de codigo).
- Mejor para razonamiento: DeepSeek V3 destilado o Llama 4 Scout.
- Mejor para vision: LLaVA 1.6 o Gemma 3 con soporte multimodal.
- Mejor modelo pequeno (edge): Phi-4 14B o Gemma 3 2B si necesitas algo ultraligero.
- Mejor para embeddings: nomic-embed-text, sin discusion.
Si solo tienes 8 GB de VRAM, ve directo a Qwen 3 7B o Gemma 3 9B. Si tienes 16 GB, Phi-4 14B o Qwen 3 32B en Q4. Si tienes 24 GB o mas, el mundo es tuyo.
Ranking completo: Los 20 mejores modelos de Ollama en 2026
La siguiente tabla resume los modelos mas relevantes disponibles en Ollama a marzo de 2026, ordenados por puntuacion general considerando calidad de respuestas, velocidad y accesibilidad de hardware.
| Pos | Modelo | Parametros | VRAM minima | Mejor uso | Puntuacion |
|---|---|---|---|---|---|
| 1 | Qwen 3 72B | 72B | 48 GB | Chat general, razonamiento | 9.5/10 |
| 2 | Llama 3.3 70B | 70B | 40 GB | Chat general, instrucciones | 9.4/10 |
| 3 | DeepSeek V3 (destilado) | 67B | 40 GB | Razonamiento, analisis | 9.3/10 |
| 4 | Llama 4 Scout | 17B activos (MoE) | 24 GB | Multimodal, razonamiento | 9.2/10 |
| 5 | Mixtral 8x22B | 141B (MoE) | 48 GB | Chat avanzado, multilingue | 9.1/10 |
| 6 | Qwen 3 32B | 32B | 20 GB | Codigo, chat, razonamiento | 9.0/10 |
| 7 | DeepSeek-Coder-V2 | 16B | 12 GB | Programacion especializada | 8.9/10 |
| 8 | Gemma 3 27B | 27B | 18 GB | Chat, instrucciones | 8.8/10 |
| 9 | Command-R | 35B | 22 GB | RAG, busqueda, citaciones | 8.7/10 |
| 10 | Phi-4 | 14B | 10 GB | Razonamiento, STEM | 8.6/10 |
| 11 | Qwen 3 7B | 7B | 6 GB | Chat rapido, proposito general | 8.5/10 |
| 12 | Gemma 3 9B | 9B | 7 GB | Chat, instrucciones | 8.4/10 |
| 13 | Llama 3.3 8B | 8B | 6 GB | Chat general, rapido | 8.3/10 |
| 14 | Mistral Nemo | 12B | 8 GB | Chat multilingue | 8.2/10 |
| 15 | Yi-1.5 34B | 34B | 22 GB | Chat, razonamiento chino/ingles | 8.1/10 |
| 16 | CodeLlama 34B | 34B | 22 GB | Programacion, completado | 8.0/10 |
| 17 | LLaVA 1.6 | 7B/13B | 6-10 GB | Vision, analisis de imagenes | 7.9/10 |
| 18 | StarCoder2 | 15B | 10 GB | Codigo, completado | 7.8/10 |
| 19 | Mistral 7B | 7B | 6 GB | Chat basico, rapido | 7.7/10 |
| 20 | Gemma 3 2B | 2B | 2 GB | Edge, dispositivos limitados | 7.5/10 |
Ranking por categoria
Chat general y asistente conversacional
Para uso general como asistente de conversacion, redaccion de textos, resumen y tareas cotidianas, estos son los modelos que mejor resultado dan en Ollama.
Top 5 para chat general:
- Qwen 3 72B - El modelo mas completo. Respuestas articuladas, excelente en espanol, capacidad de razonamiento profundo. Necesita hardware potente pero el resultado lo justifica. Supera a GPT-4 en varios benchmarks de conversacion.
- Llama 3.3 70B - La alternativa de Meta. Muy buen rendimiento general, instrucciones bien seguidas, y una comunidad enorme detras. Si ya usabas Llama 2, la mejora es brutal.
- Qwen 3 7B - La sorpresa del ranking. Para 7 mil millones de parametros, este modelo compite con modelos 3-4 veces mas grandes. Ideal si tienes una GPU de 8 GB y quieres respuestas de calidad.
- Gemma 3 9B - El modelo de Google optimizado para instrucciones. Muy bueno en espanol y con una latencia baja que lo hace agradable de usar en tiempo real.
- Llama 3.3 8B - Solido, bien probado, y con la mayor compatibilidad de herramientas de todo el ecosistema. Si necesitas integracion con LangChain, LlamaIndex o cualquier framework, este es el camino seguro.
Programacion y generacion de codigo
Si tu objetivo principal es generar codigo, completar funciones, depurar errores o explicar repositorios, necesitas modelos entrenados especificamente para ello. Consulta tambien nuestra guia de modelos open source para chat donde cubrimos mas opciones.
Top 5 para codigo:
- DeepSeek-Coder-V2 (16B) - El rey del codigo en local. Entrenado especificamente para programacion con soporte para mas de 300 lenguajes. Genera codigo limpio, entiende contexto de proyecto completo y sugiere tests. Con 12 GB de VRAM tienes un copiloto local de primer nivel.
- Qwen 3 32B - No es un modelo de codigo dedicado, pero su capacidad de razonamiento y seguimiento de instrucciones lo hace excelente para tareas de programacion complejas. Ideal para arquitectura de software y refactorizacion.
- CodeLlama 34B - El clasico de Meta para codigo. Muy bueno en Python, JavaScript y C++. Algo mas antiguo que DeepSeek-Coder pero todavia competitivo, especialmente en completado de codigo (fill-in-the-middle).
- StarCoder2 (15B) - Entrenado por BigCode en The Stack v2. Excelente para completado de codigo y comprension de repositorios. Su punto fuerte es la adherencia a patrones de codigo existentes.
- Phi-4 (14B) - El modelo de Microsoft destaca en razonamiento sobre codigo. No genera tanto codigo bruto como DeepSeek-Coder, pero es mejor explicando por que algo funciona o no funciona. Perfecto como asistente de aprendizaje.
Razonamiento y analisis complejo
Para tareas que requieren pensar paso a paso, resolver problemas matematicos, analizar datos o tomar decisiones complejas.
Top 5 para razonamiento:
- DeepSeek V3 (destilado) - DeepSeek ha demostrado que el razonamiento profundo no necesita modelos enormes. La version destilada disponible en Ollama mantiene la capacidad de chain-of-thought que hizo famoso al modelo original.
- Llama 4 Scout - El primer modelo MoE (Mixture of Experts) de Meta disponible en Ollama. Con 17B parametros activos de un total mucho mayor, ofrece razonamiento de nivel superior sin el coste computacional de un modelo denso equivalente.
- Qwen 3 72B - Ademas de chat, su capacidad de razonamiento en STEM (ciencia, tecnologia, ingenieria, matematicas) es de las mejores del ecosistema open source.
- Phi-4 (14B) - Microsoft lo diseno especificamente para razonamiento. En benchmarks como GSM8K y MATH supera a modelos con el triple de parametros. Si necesitas resolver problemas paso a paso, Phi-4 es tu modelo.
- Mixtral 8x22B - El modelo MoE de Mistral AI. Con 141B parametros totales pero solo una fraccion activa por inferencia, ofrece razonamiento a nivel de GPT-4 en muchas tareas.
Vision y modelos multimodales
Los modelos de vision te permiten analizar imagenes, extraer texto de capturas de pantalla, describir fotografias o interpretar graficos. Si estas configurando hardware para estos modelos, revisa nuestra guia de mejores GPUs para IA.
Top 3 para vision:
- LLaVA 1.6 (13B) - El modelo de vision mas maduro en Ollama. Puede describir imagenes con detalle, responder preguntas sobre contenido visual y extraer texto de capturas. La version de 13B ofrece un buen equilibrio entre calidad y velocidad.
- Gemma 3 con vision - Google ha anadido capacidades multimodales a Gemma 3. Todavia en fase de maduracion pero con resultados prometedores, especialmente en tareas de OCR y descripcion de escenas.
- Llama 4 Scout - El modelo MoE de Meta incluye soporte multimodal nativo. Puede procesar imagenes junto con texto, lo que lo convierte en una opcion versatil para pipelines que mezclan ambos tipos de entrada.
Embeddings y busqueda semantica
Los modelos de embeddings convierten texto en vectores numericos, esenciales para RAG (Retrieval-Augmented Generation), busqueda semantica y clasificacion de documentos.
La eleccion clara:
- nomic-embed-text - El estandar de facto para embeddings en Ollama. Vectores de 768 dimensiones, rendimiento comparable a modelos comerciales como text-embedding-3-small de OpenAI, y funciona en cualquier hardware. Con 137M de parametros, incluso un portatil sin GPU dedicada puede ejecutarlo.
Para montar un sistema RAG completo con embeddings locales, la combinacion tipica es: nomic-embed-text para los embeddings + ChromaDB o Qdrant como base de datos vectorial + Qwen 3 7B o Llama 3.3 8B como modelo generativo. Todo ejecutandose en local sin enviar ni un byte a la nube. Si la privacidad es una prioridad, lee nuestra guia sobre IA local y privacidad.
Modelos pequenos y edge computing
Para dispositivos con recursos limitados, Raspberry Pi, mini PCs o portatiles sin GPU dedicada. Si estas buscando hardware compacto para IA local, echa un vistazo a nuestra seleccion de mejores Mini PC para IA.
Top 3 modelos ligeros:
- Gemma 3 2B - Solo 2 mil millones de parametros pero con una calidad sorprendente. Funciona con 2 GB de VRAM o incluso en CPU con 4 GB de RAM. Ideal para chatbots ligeros, clasificacion de texto y tareas simples.
- Phi-4 Mini - La version compacta de Phi-4 de Microsoft. Mantiene buena capacidad de razonamiento en un formato mucho mas accesible.
- Mistral 7B - El modelo que inicio la revolucion de los 7B eficientes. Sigue siendo competitivo y su velocidad de inferencia es dificil de superar.
Requisitos de hardware por modelo
Uno de los factores mas criticos al elegir un modelo en Ollama es si tu hardware puede ejecutarlo con fluidez. Aqui tienes una tabla detallada con los requisitos reales medidos en condiciones normales de uso.
| Modelo | VRAM (Q4) | VRAM (Q8) | RAM minima | Disco | Tokens/s (RTX 4090) |
|---|---|---|---|---|---|
| Gemma 3 2B | 2 GB | 3 GB | 4 GB | 1.5 GB | 120+ |
| Mistral 7B | 5 GB | 8 GB | 8 GB | 4 GB | 85 |
| Qwen 3 7B | 5.5 GB | 9 GB | 8 GB | 4.5 GB | 80 |
| Llama 3.3 8B | 6 GB | 10 GB | 8 GB | 4.7 GB | 78 |
| Gemma 3 9B | 6.5 GB | 11 GB | 10 GB | 5.5 GB | 70 |
| Mistral Nemo 12B | 8 GB | 14 GB | 12 GB | 7 GB | 55 |
| Phi-4 14B | 9 GB | 16 GB | 12 GB | 8 GB | 50 |
| StarCoder2 15B | 10 GB | 17 GB | 14 GB | 9 GB | 48 |
| DeepSeek-Coder-V2 16B | 11 GB | 18 GB | 14 GB | 10 GB | 45 |
| Gemma 3 27B | 17 GB | 30 GB | 20 GB | 16 GB | 30 |
| Qwen 3 32B | 20 GB | 35 GB | 24 GB | 19 GB | 25 |
| CodeLlama 34B | 21 GB | 37 GB | 24 GB | 20 GB | 23 |
| Yi-1.5 34B | 21 GB | 37 GB | 24 GB | 20 GB | 22 |
| Command-R 35B | 22 GB | 38 GB | 26 GB | 21 GB | 21 |
| Llama 3.3 70B | 40 GB | 72 GB | 48 GB | 40 GB | 12 |
| DeepSeek V3 (destilado) | 40 GB | 70 GB | 48 GB | 38 GB | 11 |
| Qwen 3 72B | 44 GB | 78 GB | 52 GB | 42 GB | 10 |
| Mixtral 8x22B | 48 GB | 85 GB | 56 GB | 50 GB | 9 |
| LLaVA 13B | 9 GB | 15 GB | 12 GB | 8 GB | 40 |
| nomic-embed-text | 0.3 GB | 0.5 GB | 2 GB | 0.3 GB | N/A |
Rendimiento por GPU
El rendimiento varia drasticamente segun tu tarjeta grafica. Aqui tienes una estimacion de tokens por segundo con el modelo Llama 3.3 8B en Q4_K_M como referencia:
| GPU | VRAM | Tokens/s (Llama 3.3 8B) | Modelos recomendados |
|---|---|---|---|
| RTX 4090 | 24 GB | 78 t/s | Todos hasta 32B en Q4 |
| RTX 4080 | 16 GB | 62 t/s | Hasta 14B en Q4, 7-9B en Q8 |
| RTX 4070 Ti | 12 GB | 55 t/s | Hasta 12B en Q4, 7B en Q8 |
| RTX 4060 Ti 16GB | 16 GB | 50 t/s | Hasta 14B en Q4 |
| RTX 4060 | 8 GB | 42 t/s | 7-9B en Q4 |
| RTX 3090 | 24 GB | 58 t/s | Todos hasta 32B en Q4 |
| RTX 3080 | 10 GB | 40 t/s | Hasta 9B en Q4 |
| RTX 3060 12GB | 12 GB | 32 t/s | Hasta 12B en Q4 |
| RX 7900 XTX (AMD) | 24 GB | 45 t/s | Hasta 32B en Q4 (ROCm) |
| Apple M3 Pro | 18 GB unificada | 35 t/s | Hasta 14B en Q4 |
| Apple M3 Max | 36 GB unificada | 38 t/s | Hasta 34B en Q4 |
| Apple M4 Pro | 24 GB unificada | 42 t/s | Hasta 27B en Q4 |
Comandos de instalacion: ollama pull
Descargar un modelo en Ollama es tan simple como un comando. Aqui tienes todos los comandos para los modelos del ranking:
1# Chat general - Modelos grandes (requieren mucha VRAM)2ollama pull qwen3:72b3ollama pull llama3.3:70b4ollama pull mixtral:8x22b5 6# Chat general - Modelos medianos (16-24 GB VRAM)7ollama pull qwen3:32b8ollama pull gemma3:27b9ollama pull command-r10ollama pull yi:34b11 12# Chat general - Modelos pequenos (6-10 GB VRAM)13ollama pull qwen3:7b14ollama pull gemma3:9b15ollama pull llama3.3:8b16ollama pull mistral17ollama pull mistral-nemo18 19# Razonamiento20ollama pull deepseek-v321ollama pull llama4-scout22ollama pull phi423 24# Codigo25ollama pull deepseek-coder-v226ollama pull codellama:34b27ollama pull codellama:7b28ollama pull starcoder2:15b29 30# Vision31ollama pull llava:13b32ollama pull llava:7b33 34# Embeddings35ollama pull nomic-embed-text36 37# Modelos ultraligeros (edge)38ollama pull gemma3:2b
Para ejecutar cualquier modelo despues de descargarlo:
1# Iniciar chat interactivo2ollama run qwen3:7b3 4# Enviar un prompt directo5ollama run llama3.3:8b "Explica que es Docker en 3 frases"6 7# Usar un modelo de codigo8ollama run deepseek-coder-v2 "Escribe una funcion en Python que ordene una lista con quicksort"9 10# Generar embeddings11curl http://localhost:11434/api/embeddings -d '{12 "model": "nomic-embed-text",13 "prompt": "Texto para convertir en vector"14}'
Gestion de modelos
1# Ver modelos descargados2ollama list3 4# Ver informacion detallada de un modelo5ollama show qwen3:7b6 7# Eliminar un modelo para liberar espacio8ollama rm codellama:34b9 10# Copiar un modelo con otro nombre11ollama cp llama3.3:8b mi-modelo-custom12 13# Ver modelos en ejecucion14ollama ps
Comparativa: Ollama local vs APIs en la nube
Una de las preguntas mas frecuentes es si merece la pena ejecutar modelos en local con Ollama o simplemente usar APIs como OpenAI, Anthropic o Google. La respuesta depende de tus prioridades.
| Criterio | Ollama (Local) | APIs Cloud (GPT-4, Claude, etc.) |
|---|---|---|
| Privacidad | Total. Datos nunca salen de tu maquina | Datos enviados a servidores externos |
| Coste | Solo electricidad. Sin suscripciones | Pago por token o suscripcion mensual |
| Latencia | Baja (sin red). Depende de tu GPU | Variable. Depende de la carga del servidor |
| Calidad (7-14B) | Buena para la mayoria de tareas | Superior en tareas complejas |
| Calidad (70B+) | Comparable a GPT-4 en muchos benchmarks | Ligeramente superior en general |
| Disponibilidad | Siempre disponible, sin internet | Requiere conexion y puede tener caidas |
| Personalizacion | Total. Fine-tuning, system prompts, Modelfiles | Limitada a lo que ofrece la API |
| Velocidad de adopcion | Modelos nuevos tardan dias/semanas | Disponibles inmediatamente |
| Soporte multimodal | Limitado (LLaVA, Gemma 3) | Avanzado (GPT-4V, Claude Vision) |
| Integracion | API REST local compatible con OpenAI | SDKs oficiales maduros |
Cuando elegir Ollama (local)
- Privacidad es critica: Datos medicos, legales, financieros o personales que no deben salir de tu infraestructura.
- Alto volumen: Si haces miles de consultas al dia, el coste de APIs se dispara. Con Ollama, una vez comprada la GPU, el coste marginal es cero.
- Desarrollo y experimentacion: Para prototipar, probar prompts y construir pipelines sin preocuparte por costes.
- Sin conexion a internet: Entornos air-gapped, trabajo en aviones, zonas sin cobertura.
- Latencia predecible: Sin variaciones por congestion de red o saturacion de servidores.
Cuando elegir APIs cloud
- Necesitas la maxima calidad absoluta: Para produccion donde cada respuesta cuenta, GPT-4o o Claude Opus siguen siendo superiores a la mayoria de modelos locales.
- No tienes GPU potente: Si solo tienes un portatil con GPU integrada, las APIs te dan acceso a modelos que no podrias ejecutar.
- Multimodal avanzado: Vision, audio y video estan mucho mas maduros en los servicios cloud.
- Equipo grande: Gestionar una infraestructura GPU para un equipo de 50 personas es mas complejo que dar acceso a una API.
La tendencia en 2026 es clara: cada vez mas empresas adoptan un enfoque hibrido. Usan Ollama para desarrollo, prototipado y tareas sensibles, y APIs cloud para produccion con requisitos de calidad maxima.
Preguntas frecuentes (FAQ)
Cual es el mejor modelo de Ollama para empezar?
Si es tu primera vez con Ollama, recomendamos Llama 3.3 8B. Es el modelo con mejor equilibrio entre calidad, velocidad y compatibilidad. Funciona en practicamente cualquier GPU con 8 GB de VRAM, tiene la mayor comunidad de soporte y es compatible con todas las herramientas del ecosistema. Instalalo con ollama pull llama3.3:8b y tendras un asistente local funcional en menos de 2 minutos.
Puedo ejecutar Ollama sin GPU?
Si, Ollama puede funcionar solo con CPU, pero sera significativamente mas lento. Un modelo de 7B en CPU genera entre 3 y 8 tokens por segundo (comparado con 40-80 en GPU), lo que lo hace aceptable para tareas puntuales pero no para uso interactivo fluido. Si no tienes GPU dedicada, prioriza modelos pequenos como Gemma 3 2B o Phi-4 Mini. Los Macs con Apple Silicon (M1 o superior) son una excepcion: su GPU integrada funciona muy bien con Ollama gracias a la memoria unificada.
Que diferencia hay entre Q4, Q5 y Q8 en los modelos?
Son niveles de cuantizacion que reducen el tamano del modelo sacrificando algo de precision. Q4_K_M (4 bits) es el estandar en Ollama: reduce el modelo a un cuarto de su tamano original con una perdida de calidad apenas perceptible. Q5_K_M ofrece un poco mas de calidad con un 25% mas de VRAM. Q8 es casi sin perdida pero requiere el doble de memoria que Q4. Para la gran mayoria de usos, Q4_K_M es la eleccion correcta.
Como saber cuanta VRAM necesito para un modelo concreto?
La regla general es: parametros del modelo en miles de millones multiplicado por 0.6 te da los GB de VRAM aproximados en Q4. Ejemplo: un modelo de 7B necesita aproximadamente 4.2 GB, uno de 14B necesita aproximadamente 8.4 GB, uno de 70B necesita aproximadamente 42 GB. Anade un 15-20% de margen para el contexto (ventana de tokens activa). Consulta la tabla de requisitos de hardware mas arriba para cifras exactas medidas.
Ollama soporta GPUs AMD?
Si, desde la version 0.3, Ollama soporta GPUs AMD a traves de ROCm en Linux. Las tarjetas de la serie RX 7000 (como la RX 7900 XTX con 24 GB de VRAM) funcionan bien, aunque el rendimiento es tipicamente un 15-25% inferior a una NVIDIA equivalente. En Windows, el soporte AMD esta en fase experimental. Para mas detalles sobre tarjetas graficas para IA, consulta nuestra guia de GPUs para IA.
Se pueden combinar varios modelos en Ollama?
Si, y es una de las ventajas de Ollama. Puedes tener varios modelos descargados y alternar entre ellos segun la tarea. Por ejemplo: nomic-embed-text para generar embeddings, Qwen 3 7B para chat general, y DeepSeek-Coder-V2 para codigo. Cada modelo se carga en VRAM cuando lo necesitas y se descarga automaticamente cuando llevas tiempo sin usarlo (configurable con OLLAMA_KEEP_ALIVE).
Ollama es seguro? Mis datos quedan en mi maquina?
Absolutamente. Ollama ejecuta todo de forma local. Los modelos se descargan una sola vez desde la biblioteca de Ollama (ollama.com) y despues funcionan completamente offline. Tus prompts y respuestas nunca salen de tu ordenador. No hay telemetria, no hay logs enviados a ningun servidor, y puedes verificarlo tu mismo porque Ollama es software open source. Esto lo convierte en la opcion preferida para entornos con datos sensibles.
Como actualizo un modelo a su ultima version?
Simplemente ejecuta el mismo comando pull de nuevo. Ollama detectara si hay una version mas reciente disponible y descargara solo los cambios incrementales. Por ejemplo: ollama pull qwen3:7b actualizara el modelo si hay una nueva version sin descargar todo desde cero. Para actualizar Ollama en si, visita ollama.com/download o usa tu gestor de paquetes.
Posts relacionados
Si te interesa profundizar en la ejecucion de IA en local, estos articulos complementan este ranking:
- Ollama: Guia Completa para Ejecutar Modelos de IA en Local - Instalacion paso a paso, configuracion avanzada, Modelfiles personalizados y troubleshooting.
- IA Local y Privacidad: Como Ejecutar Modelos sin Internet - Por que ejecutar IA en local es importante y como garantizar la privacidad total.
- Mejores GPUs para IA en 2026 - Que tarjeta grafica comprar segun tu presupuesto y los modelos que quieres ejecutar.
- Mejores Mini PC para IA Local - Equipos compactos para montar un servidor de IA en casa.
- Mejores Modelos Open Source para Chat - Ranking general de modelos open source mas alla de Ollama.
En resumen
El ecosistema de modelos disponibles en Ollama ha madurado enormemente en 2026. Ya no estamos en la epoca en que ejecutar IA en local significaba sacrificar calidad. Modelos como Qwen 3, DeepSeek V3, Llama 3.3 y Gemma 3 ofrecen resultados que compiten directamente con servicios de pago, con la ventaja de privacidad total y coste cero por consulta.
La clave para elegir el modelo correcto es ser honesto con tu hardware. Si tienes 8 GB de VRAM, no intentes forzar un modelo de 32B con offloading a CPU porque la experiencia sera frustrante. En su lugar, usa Qwen 3 7B o Gemma 3 9B y disfruta de respuestas rapidas y coherentes. Si tienes una RTX 4090 o un Mac con 36 GB de memoria, puedes aspirar a modelos de 32-34B que realmente transforman lo que puedes hacer en local.
Tres recomendaciones finales:
- Empieza con Llama 3.3 8B. Descargalo, pruebalo, y usa esa experiencia como referencia para comparar otros modelos.
- Especializa por tarea. No busques un modelo que lo haga todo. Usa DeepSeek-Coder para codigo, nomic-embed-text para embeddings y Qwen 3 para chat.
- Mide tu hardware. Ejecuta
ollama run llama3.3:8by observa los tokens por segundo. Eso te dira exactamente que puedes esperar de modelos mas grandes o mas pequenos.
La IA en local ya no es una curiosidad tecnica. Es una herramienta practica, accesible y cada vez mas potente. Ollama hace que acceder a ella sea tan facil como escribir un comando en la terminal.