Ir al contenido principal

Mejores Mini-PC y Hardware para IA Local en Empresa 2026: Ranking y Guía de Compra

21 min

Mejores mini-PC y servidores para servir LLMs locales a tu equipo en 2026: Mac Studio M3 Ultra, DGX Spark, Strix Halo y RTX 5090 comparados con precios, VRAM necesaria por modelo, consumo y TCO frente a la API cloud.

📧¿Te gusta este contenido?

Únete a 547+ profesionales que reciben tips de IA cada semana. Sin spam, cancela cuando quieras.

Mejores Mini-PC y Hardware para IA Local en Empresa (2026)

📅 Actualizado: 10 de junio de 2026 · Próxima revisión: julio 2026. Precios orientativos verificados en distribuidores europeos.

El mejor hardware para servir IA local a un equipo en una empresa en junio de 2026 es el Mac Studio M3 Ultra con 512 GB de memoria unificada si necesitas modelos grandes (70B+) para 10-25 personas, el NVIDIA DGX Spark si tu equipo es técnico y vive en el ecosistema CUDA, y un mini-PC con AMD Ryzen AI Max+ 395 y 128 GB si el presupuesto manda y te basta con modelos de hasta 70B en cuantización Q4. La variable que decide la compra no es la CPU ni los TOPS de marketing: es cuánta memoria accesible para la GPU tienes y cuántos usuarios concurrentes vas a servir.

Esta guía es para empresas: qué comprar para montar un servidor de IA local que dé servicio a un equipo o departamento entero, con datos que no salen de tu oficina. Si lo que buscas es un mini-PC para trastear en casa con Ollama a título personal, esa es otra liga de precio y requisitos — la tienes cubierta en mi ranking de mini-PC para IA local con Ollama, que es el ángulo hobby/personal de este mismo tema.

¿Quieres esto funcionando en tu empresa sin pelearte con drivers, cuantizaciones y colas de inferencia? Dimensiono el hardware, monto el servidor y lo conecto a una plataforma con tu marca para todo tu equipo. Cuéntame tu caso en 30 minutos →

TL;DR — Mejor hardware para IA local en empresa (junio 2026)

  • Mejor opción global para empresa (10-25 usuarios, modelos grandes): Mac Studio M3 Ultra (256-512 GB) — la forma más simple de servir modelos de 70B-200B+ con bajo consumo y cero mantenimiento, desde ~6.500 €
  • Mejor para equipos técnicos / stack NVIDIA: NVIDIA DGX Spark — 128 GB unificados, ecosistema CUDA completo, ~4.000 €
  • Mejor relación capacidad/precio: mini-PC con AMD Ryzen AI Max+ 395 (Strix Halo) y 128 GB — corre 70B Q4 por ~1.900 €
  • Mejor velocidad de inferencia pura (modelos ≤32B): torre compacta con RTX 5090 (32 GB GDDR7) — el rey en tokens/segundo, ~4.000-4.500 € montada
  • Mejor punto de entrada (equipo de 5, modelos ≤32B): Mac mini M4 Pro con 64 GB — silencioso, 2.300 €, cabe en cualquier despacho
  • Mejor para edge/industria: NVIDIA Jetson AGX Orin 64 GB — IA local en planta, vehículo o entorno sin rack, ~2.200 €
  • La cifra que importa: para servir un modelo 70B Q4 a un equipo necesitas ~43 GB para los pesos más 1-2 GB de KV cache por usuario concurrente. La RAM/VRAM manda sobre todo lo demás
  • TCO: para un equipo de 25 personas con uso intensivo, un servidor local de 6.000-10.000 € se amortiza frente a la API cloud en 12-24 meses — pero solo si el caso de uso justifica IA local (privacidad, regulación, volumen)

Ranking completo: el mejor hardware para servir LLMs locales en tu empresa (2026)

#EquipoMemoria útil para IAModelo máximo razonablePrecio orientativoConsumo bajo cargaRecomendado para
1Mac Studio M3 Ultra96-512 GB unificada70B-200B+ (hasta DeepSeek V3 cuantizado en 512 GB)4.800-11.500 €~140-270 WEmpresa 10-25p, modelos grandes ✅
2NVIDIA DGX Spark128 GB unificada70B Q4, fine-tuning ligero~4.000 €~170 WEquipos técnicos, stack CUDA
3Mini-PC Ryzen AI Max+ 395 (Beelink GTR9 Pro, HP Z2 Mini G1a, Framework Desktop)96-128 GB unificada70B Q41.900-2.500 €~120-140 WMejor precio/capacidad
4Torre compacta RTX 509032 GB GDDR7 + RAM sistema32B Q4 a máxima velocidad4.000-4.500 €450-600 WVelocidad, equipos dev ≤32B
5Mac Studio M4 Max64-128 GB unificada70B Q4 (justo)2.500-4.500 €~110 WEquipo 5-10p, ecosistema Apple
6Mac mini M4 Pro (64 GB)64 GB unificada32B Q4 cómodo~2.300 €~70 WPunto de entrada empresa 5p
7Servidor 2× RTX 4090 (48 GB)48 GB GDDR6X70B Q4 repartido en 2 GPUs5.500-7.000 €800-1.000 WConcurrencia alta, throughput
8NVIDIA Jetson AGX Orin 64 GB64 GB unificada32B Q4~2.200 €15-60 WEdge, industria, sin rack

La tabla resume lo esencial, pero la decisión correcta depende de tres preguntas que vemos en detalle más abajo: cuántos usuarios concurrentes, qué tamaño de modelo necesitas de verdad y si tu sector te permite (o te prohíbe) la nube.


Qué ha cambiado en junio 2026: por qué este mercado se ha movido

El hardware para IA local en empresa ha cambiado más en los últimos 12 meses que en los cuatro años anteriores. Tres movimientos explican este ranking:

  • La memoria unificada ha ganado la partida a la VRAM dedicada para inferencia. Apple (M3 Ultra/M4 Max), AMD (Ryzen AI Max+ 395 "Strix Halo") y NVIDIA (DGX Spark con chip GB10) ofrecen ya 96-512 GB accesibles para la GPU sin pagar precios de GPU de datacenter. Una sola RTX 5090 tiene 32 GB; un Mac Studio puede tener 512 GB (Apple, 2026).
  • Los modelos open source ya justifican el servidor. Llama 4 Scout (MoE, 17B activos), Qwen3 32B para código y los destilados de DeepSeek-R1 dan calidad suficiente para el 80% de tareas internas de una PYME, ejecutándose en hardware de menos de 10.000 € (ver mi ranking completo de modelos para local).
  • El EU AI Act y la presión de privacidad empujan la demanda. Con el enforcement arrancando en agosto de 2026, sectores regulados (legal, sanitario, financiero) están moviendo cargas sensibles a infraestructura propia. Lo desarrollo en el checklist del EU AI Act para PYMES y en la guía de IA on-premise para empresa sin internet.

Antes de comprar: cuánta memoria necesitas según el modelo que vas a servir

Esta es la tabla que evita el 90% de las compras equivocadas. En inferencia local, el factor limitante es la memoria donde caben los pesos del modelo más el KV cache de cada conversación abierta. Cifras orientativas con cuantización Q4_K_M (el estándar de facto en Ollama y llama.cpp en 2026):

Tamaño de modeloMemoria para pesos (Q4)+ KV cache por usuario concurrente (contexto 8-16K)Memoria recomendada para servir a un equipoEjemplos (junio 2026)
7-8B~5 GB~0,5-1 GB16 GBLlama 3.1 8B, Qwen3 8B, Gemma 4 9B
14B~9 GB~1 GB24-32 GBQwen3 14B, DeepSeek-R1-Distill 14B
32B~20 GB~1-1,5 GB48-64 GBQwen3 32B (código), DeepSeek-R1-Distill 32B
70B~43 GB~1,5-2 GB96-128 GBLlama 3.3 70B, DeepSeek-R1-Distill 70B
100B+ MoE60-250 GB según cuantización~2 GB128-512 GBLlama 4 Scout/Maverick, DeepSeek V3.2 cuantizado

Tres reglas prácticas que aplico al dimensionar servidores para clientes:

  1. Multiplica por la concurrencia real, no por la plantilla. Un equipo de 25 personas rara vez tiene más de 4-6 peticiones simultáneas en cola. Dimensiona KV cache para 5-8 usuarios concurrentes, no para 25.
  2. Q4 es el punto dulce en 2026. La pérdida de calidad frente a Q8 es marginal en la mayoría de tareas de negocio y reduce la memoria a la mitad. Baja de Q4 (Q3, Q2) solo como último recurso: ahí sí se degrada.
  3. Deja un 20-25% de memoria libre. El sistema operativo, el servidor de inferencia y los picos de contexto largo lo necesitan. Un modelo que "cabe justo" es un modelo que se cae en producción.

1. Mac Studio M3 Ultra: la opción más simple para servir modelos grandes a un equipo

El Mac Studio con chip M3 Ultra es, en junio de 2026, la forma más sencilla de poner un modelo de 70B o superior al servicio de 10-25 personas sin montar un rack ni contratar a un administrador de sistemas. Hasta 512 GB de memoria unificada con ~800 GB/s de ancho de banda, en una caja de sobremesa que consume menos que un radiador pequeño.

CaracterísticaValor
Memoria unificada96 / 256 / 512 GB
Ancho de banda de memoria~800 GB/s
Modelo máximo razonable70B Q8 holgado; DeepSeek V3.2 / Llama 4 Maverick cuantizados en la versión de 512 GB
Precio orientativodesde ~4.800 € (96 GB) hasta ~11.500 € (512 GB) (Apple Store ES, 2026)
Consumo bajo carga~140-270 W
Ruido / formatoPrácticamente inaudible, sobremesa

Fortalezas

  • Memoria masiva sin precio de datacenter: 512 GB unificados cuestan menos que una sola GPU profesional de 80 GB
  • Cero fricción operativa: macOS + Ollama o MLX y estás sirviendo en una tarde; sin drivers, sin gestión térmica, sin rack
  • Eficiencia eléctrica: a igual carga, consume entre un 50% y un 75% menos que una torre con GPUs NVIDIA equivalentes en capacidad de memoria
  • Cabe en una oficina normal: silencioso, sin requisitos de climatización

Debilidades

  • Velocidad de prompt processing inferior a NVIDIA: con contextos muy largos (RAG con documentos grandes) el tiempo hasta el primer token es notablemente mayor que en una RTX 5090 o un sistema CUDA
  • Sin CUDA: si tu equipo quiere hacer fine-tuning serio o usar tooling que asume NVIDIA, no es tu máquina
  • Ampliación imposible: la memoria se elige al comprar; quedarse corto sale caro

Veredicto

Es la compra recomendada para la mayoría de empresas de 10-25 personas que quieren IA local "que funcione" con modelos grandes. La configuración de 256 GB (~8.500 €) es el punto dulce: corre 70B en Q8 con margen de sobra para concurrencia y te deja probar los MoE grandes cuantizados.

"De los servidores de IA local que he dimensionado para PYMES en el último año, el patrón se repite: el que compra Mac Studio dedica su tiempo a los casos de uso; el que monta torre con GPUs dedica el primer mes a drivers y térmica. Para una empresa sin equipo de sistemas, esa diferencia vale más que los tokens por segundo." — Javier Santos Criado, consultor de IA en Javadex

2. NVIDIA DGX Spark: el datacenter de sobremesa para equipos técnicos

El DGX Spark es el movimiento de NVIDIA para llevar su ecosistema a la mesa de la oficina: chip GB10 Grace Blackwell, 128 GB de memoria unificada y todo el stack CUDA en un formato mini-PC. Lanzado a finales de 2025 con precio alrededor de los 4.000 € (NVIDIA, 2025), en 2026 ya hay disponibilidad estable en Europa vía partners (ASUS, Dell, Lenovo fabrican variantes).

CaracterísticaValor
Memoria unificada128 GB LPDDR5x
Ancho de banda de memoria~273 GB/s
Modelo máximo razonable70B Q4; fine-tuning ligero (LoRA/QLoRA) de modelos medianos
Precio orientativo~4.000 € (variantes de partners desde ~3.500 €)
Consumo bajo carga~170 W
ExtraDos unidades se conectan entre sí (ConnectX) para sumar 256 GB

Fortalezas

  • CUDA completo en sobremesa: todo el tooling estándar de la industria funciona sin adaptaciones; ideal si tu equipo de desarrollo ya trabaja con NVIDIA
  • No solo inferencia: permite fine-tuning con LoRA/QLoRA de modelos de tamaño medio, cosa que en Mac es mucho más limitada
  • Escalable a pares: dos Spark enlazados sirven modelos de ~200B cuantizados
  • Formato y consumo de mini-PC, no de estación de trabajo

Debilidades

  • Ancho de banda de memoria modesto (~273 GB/s vs ~800 del M3 Ultra): en inferencia pura de modelos grandes, genera tokens más despacio que un Mac Studio bien configurado
  • Es una máquina para perfiles técnicos: el valor está en el ecosistema CUDA; si nadie en tu equipo lo va a aprovechar, hay opciones más baratas
  • Disponibilidad irregular en algunos distribuidores europeos durante 2026

Veredicto

Cómpralo si tu empresa tiene equipo técnico que además de servir modelos quiere ajustarlos (fine-tuning) o construir sobre el stack NVIDIA. Para inferencia pura y dura para no-técnicos, el Mac Studio o el Strix Halo dan más por menos fricción.


3. Mini-PC con AMD Ryzen AI Max+ 395 (Strix Halo): el mejor precio por gigabyte

La plataforma AMD Strix Halo (Ryzen AI Max+ 395 con 128 GB de memoria unificada) es la ganadora absoluta en capacidad por euro en junio de 2026: modelos de 70B en Q4 por menos de 2.000 €. Está disponible en varios formatos: Beelink GTR9 Pro (~1.850-1.999 €), HP Z2 Mini G1a (versión "empresa" con soporte corporativo, ~2.300-2.800 €) y Framework Desktop (~2.200 €).

CaracterísticaValor
Memoria unificada96-128 GB LPDDR5X (hasta ~96 GB asignables a GPU)
Ancho de banda de memoria~256 GB/s
Modelo máximo razonable70B Q4
Precio orientativo1.900-2.800 € según fabricante
Consumo bajo carga~120-140 W
SoftwareOllama / llama.cpp con soporte ROCm y Vulkan maduro en 2026

Fortalezas

  • Capacidad de 70B por precio de portátil: ninguna otra plataforma sirve modelos de esa talla por debajo de 2.000 €
  • El stack open source ya lo soporta bien: en 2026 Ollama y llama.cpp funcionan sobre esta plataforma sin las penurias de drivers de 2024-2025
  • Opciones con soporte empresarial: la variante HP Z2 Mini G1a viene con garantía y soporte corporativo, relevante si compras como empresa
  • Consumo contenido para lo que sirve

Debilidades

  • Velocidad de generación moderada en modelos grandes: un 70B genera del orden de 4-7 tokens/segundo — usable para 3-8 usuarios con paciencia razonable, insuficiente para 25 usuarios intensivos
  • Menos pulido que Apple o NVIDIA en experiencia de administración
  • El ancho de banda limita: para servir rápido a más gente, mejor un modelo de 32B en esta máquina que un 70B arrastrándose

Veredicto

Es la compra inteligente para una empresa de 5-10 personas con presupuesto ajustado, o como segundo nodo para separar cargas. Mi recomendación operativa: úsalo para servir Qwen3 32B (que vuela en esta máquina) y reserva el 70B para consultas puntuales. Si dudas entre fabricantes, en el ámbito doméstico ya comparé las marcas en Beelink vs Minisforum vs Geekom; para empresa, la variante HP con soporte corporativo justifica su sobreprecio.


4. Torre compacta con RTX 5090: la máquina más rápida para modelos de hasta 32B

Si tu prioridad es velocidad de respuesta y tus modelos no pasan de 32B, una torre compacta con RTX 5090 (32 GB GDDR7, ~1.800 GB/s de ancho de banda) es la opción más rápida del mercado por debajo de precios de datacenter. Una configuración completa (5090 + CPU moderna + 96 GB RAM + SSD) sale por 4.000-4.500 € montada (precios de componentes en distribuidores ES, junio 2026).

CaracterísticaValor
VRAM32 GB GDDR7 (~1.800 GB/s)
Modelo máximo en GPU32B Q4 completo en VRAM; 70B solo con offload a RAM (lento)
Precio orientativo4.000-4.500 € (la GPU sola: ~2.300-2.700 €)
Consumo bajo carga450-600 W el sistema completo
VelocidadLa mejor de esta lista en tokens/segundo y prompt processing para modelos que caben en VRAM

Fortalezas

  • Tokens por segundo imbatibles en su rango: un 14B-32B responde de forma prácticamente instantánea, incluso con varios usuarios
  • Prompt processing rapidísimo: la mejor opción si tu caso de uso es RAG sobre documentos largos con modelos medianos
  • CUDA: compatibilidad total con el tooling estándar
  • Ampliable: añadir una segunda GPU más adelante es posible (con fuente y caja adecuadas)

Debilidades

  • 32 GB se quedan cortos para 70B: en cuanto el modelo no cabe en VRAM, el rendimiento se desploma
  • Consumo y calor: 450-600 W bajo carga implican factura eléctrica y una habitación que se calienta; no es para la esquina de un despacho pequeño en agosto
  • Requiere a alguien que la monte y mantenga (o pagarlo)

Veredicto

La opción correcta para equipos de desarrollo o casos de uso donde la latencia importa (asistentes internos muy interactivos, RAG intensivo) con modelos ≤32B. Para el detalle de configuraciones con GPU dedicada tengo una guía aparte de mini-PC y equipos con GPU para deep learning.


5. Mac Studio M4 Max y Mac mini M4 Pro: el punto de entrada serio para equipos pequeños

Para un equipo de unas 5 personas que empieza con IA local, el Mac mini M4 Pro con 64 GB (~2.300 €) o el Mac Studio M4 Max con 128 GB (~4.400 €) son la entrada con menos riesgo. El mini con 64 GB sirve un Qwen3 32B con comodidad; el Studio M4 Max con 128 GB llega a 70B Q4 con margen justo (Apple Store ES, 2026).

CaracterísticaMac mini M4 Pro (64 GB)Mac Studio M4 Max (128 GB)
Memoria unificada64 GB (~273 GB/s)128 GB (~546 GB/s)
Modelo máximo razonable32B Q470B Q4
Precio orientativo~2.300 €~4.400 €
Consumo bajo carga~70 W~110 W

Veredicto

El Mac mini M4 Pro es el "primer servidor de IA" perfecto: cabe en una estantería, no se oye y un 32B moderno cubre redacción, resumen, RAG ligero y soporte interno para 5 personas. Si el piloto funciona y queréis crecer, el salto natural es el Mac Studio M3 Ultra del puesto 1 — y el mini se queda como nodo secundario o máquina de pruebas. Cómo instalar y servir los modelos lo tienes paso a paso en mi guía completa de Ollama.


6. Servidor 2× RTX 4090 (48 GB): throughput para concurrencia alta

Una torre o servidor con dos RTX 4090 (24 GB + 24 GB) sigue siendo en 2026 una fórmula muy usada para servir modelos de 70B con buena velocidad a equipos grandes, especialmente comprando las GPUs en el mercado de segunda mano tras la llegada de la serie 50. Configuración completa: 5.500-7.000 € nueva, sensiblemente menos con 4090 usadas (~1.400-1.700 €/unidad en el mercado ES, junio 2026).

Fortalezas

  • 70B Q4 repartido entre las dos GPUs con tensor parallelism: velocidad de generación muy superior a las plataformas de memoria unificada
  • Throughput real para 15-25 usuarios con un servidor de inferencia con batching continuo
  • Coste por token servido competitivo si la utilización es alta

Debilidades

  • 800-1.000 W bajo carga: necesita fuente seria, ventilación y asumir la factura
  • Complejidad operativa: es la opción que más mantenimiento exige de esta lista
  • 48 GB se quedan justos para 70B + KV cache de muchos usuarios: vigilar contextos largos

Veredicto

Para empresas de ~25 personas con uso intensivo y alguien (interno o externo) que administre la máquina, es la opción con mejor relación throughput/precio. Si no tienes a ese alguien, vuelve al puesto 1: el coste de la fricción operativa supera al ahorro.


7. NVIDIA Jetson AGX Orin: IA local en el borde (fábrica, vehículo, retail)

El Jetson AGX Orin de 64 GB (~2.200 €) no compite con los anteriores: resuelve otro problema — ejecutar IA donde no hay sala técnica ni apenas presupuesto eléctrico. Consume entre 15 y 60 W, aguanta entornos industriales y corre modelos de hasta 32B Q4 además de visión por computador en tiempo real (NVIDIA, 2026).

Cuándo tiene sentido en una empresa

  • Planta industrial: inspección visual + un LLM local para informes, sin enviar imágenes de producción a la nube
  • Retail / sucursales: asistente local por tienda sin depender de la conexión
  • Vehículos y logística: procesamiento a bordo
  • Cualquier escenario donde "sin internet" no es una preferencia sino una condición del entorno — el caso general lo cubro en IA on-premise: modelos locales para empresa sin internet

Para oficina pura, cualquiera de los puestos 1-6 da más por el mismo dinero.


Comparativa por escenario: qué comprar según tu empresa (junio 2026)

Esta es la tabla que resume la decisión. Tres escenarios típicos de PYME española:

CriterioEquipo de 5 personasEquipo/departamento de 25 personasSector regulado sin nube (legal, salud, finanzas)
Modelo recomendadoQwen3 32B o Llama 4 Scout Q4Llama 3.3 70B Q4 o Qwen3 32B con batching70B Q4 + modelo de embeddings local para RAG
Hardware ganadorMac mini M4 Pro 64 GB (~2.300 €)Mac Studio M3 Ultra 256 GB (~8.500 €) o 2× RTX 4090 si hay perfil de sistemasMac Studio M3 Ultra 256-512 GB + réplica de respaldo
Alternativa ajustadaStrix Halo 128 GB (~1.900 €)DGX Spark ×2 enlazados (~8.000 €)2× RTX 4090 en CPD propio si ya existe
Inversión total orientativa2.000-2.500 €6.500-10.000 €9.000-15.000 € (con redundancia)
Concurrencia cómoda2-3 peticiones simultáneas5-8 peticiones simultáneas5-8 + auditoría de logs local
Coste eléctrico mensual estimado (8h/día laborables)~3-5 €~10-18 €~15-30 €
Nota sobre el escenario regulado: en sectores con secreto profesional o datos de salud, el hardware es la parte fácil. Lo difícil es el control de accesos, la trazabilidad de consultas y que el equipo realmente use el sistema en lugar de volver a su ChatGPT personal. Eso no lo resuelve la máquina: lo resuelve la plataforma que pones encima (siguiente sección).

TCO: ¿sale más barato el servidor local que la API cloud?

La pregunta del director financiero. Respuesta honesta: depende del volumen y del motivo. Números orientativos para un equipo de 25 personas con uso intensivo (≈40 millones de tokens/mes entre entrada y salida):

ConceptoAPI cloud premium (tipo Gemini 3.1 Pro)API cloud económica (tipo DeepSeek)Servidor local (Mac Studio M3 Ultra 256 GB)
Inversión inicial0 €0 €~8.500 €
Coste mensual~250-500 €/mes (según mix input/output)~15-40 €/mes~15 € electricidad + amortización
Coste a 3 años9.000-18.000 €540-1.440 €~9.000 € (hardware + energía + margen mantenimiento)
Datos salen de tu redSí (servidores fuera de la UE)No
Funciona sin internetNoNo
Calidad de modeloFronteraAltaOpen source (un escalón por debajo de la frontera)

Tres conclusiones que doy siempre a clientes:

  1. Si tu único motivo es ahorrar, la API barata gana casi siempre. DeepSeek y los modelos económicos en la nube cuestan tan poco que el servidor local no se justifica solo por coste, salvo volúmenes muy altos y sostenidos.
  2. El servidor local se justifica por privacidad, regulación, soberanía del dato o latencia/offline — y entonces el TCO a 3 años es comparable o mejor que la API premium, con un activo amortizable en el balance.
  3. El modelo híbrido es el que mejor funciona en la práctica: lo sensible en local, lo demás en la API frontera que toque cada mes (este mes, las del ranking de modelos de junio 2026). Para eso necesitas una capa que gobierne ambos mundos.

El hardware es la mitad del problema: la otra mitad es la plataforma

Después de dimensionar servidores de IA local para varias PYMES españolas, te digo dónde fracasan estos proyectos: no en el hardware, sino en la adopción. Un caso típico: una gestoría de unas 15 personas con la que trabajé en primavera de 2026 tenía un servidor estupendo corriendo un 70B... y el equipo seguía pegando datos de clientes en sus cuentas personales de ChatGPT, porque el servidor "era una URL rara sin historial ni búsqueda".

Para que la inversión en hardware se use de verdad, encima del servidor necesitas:

  • Una interfaz que el equipo reconozca: tipo ChatGPT, con tu logo, historial, búsqueda y carga de documentos
  • Acceso a los modelos locales Y a los de frontera desde el mismo sitio, con enrutado según la sensibilidad del dato
  • Control de accesos, costes y trazabilidad por usuario y departamento
  • RAG sobre vuestra documentación con cita a la fuente

Eso es exactamente lo que monto con Cortex by Javadex: tu plataforma de IA privada, multi-modelo (los modelos locales de tu servidor + Claude, GPT y Gemini cuando convenga), con tu marca, datos en Europa y sin lock-in. Incluye el dimensionamiento del hardware si optas por servir modelos en local: te digo qué máquina comprar, la monto, la conecto y formo a tu equipo. En torno a 1 mes, desde 5.000 € (hardware aparte). Tienes el detalle del enfoque en mi guía de plataforma de IA privada para empresa y en el análisis de Cortex como ChatGPT corporativo.

¿Quieres el servidor + la plataforma + la formación, llave en mano? Cuéntame tu caso →


Errores comunes al comprar hardware de IA local para empresa

Error 1: comprar por TOPS de NPU en lugar de por memoria

Problema: el marketing de 2026 vende "AI TOPS" de la NPU, pero los LLMs de empresa corren en la GPU/memoria unificada, no en la NPU. Un equipo con 50 TOPS y 32 GB sirve peor un LLM que uno con menos TOPS y 128 GB.

Solución: ordena las opciones por memoria accesible para la GPU y ancho de banda. Los TOPS de NPU son irrelevantes para servir LLMs a un equipo en 2026.

Error 2: dimensionar para la plantilla en lugar de para la concurrencia

Problema: "somos 25, necesitamos una máquina 5 veces más grande que para 5". No: necesitáis memoria para el modelo una vez + KV cache para 5-8 peticiones simultáneas + un servidor de inferencia con cola.

Solución: mide (o estima) peticiones concurrentes en hora punta y dimensiona para eso. El sobrecoste de pasarse de máquina es real; el de quedarse corto, también.

Error 3: empeñarse en el 70B cuando un 32B resuelve el caso de uso

Problema: el modelo grande impresiona en la demo, pero genera a 5 tokens/segundo y el equipo lo abandona por lento. Qwen3 32B en la misma máquina vuela y resuelve el 80% de las tareas internas.

Solución: empieza con el 32B rápido como modelo por defecto y reserva el 70B para tareas que demuestren necesitarlo. La velocidad percibida importa más para la adopción que 3 puntos de benchmark.

Error 4: ignorar el coste eléctrico y térmico de las torres con GPU

Problema: una torre con 2× GPU a 900 W, 8 horas al día, son del orden de 40-60 €/mes de electricidad a precios españoles de 2026 — y una sala que hay que refrigerar en verano.

Solución: mete consumo y climatización en el TCO. Para muchas PYMES, la eficiencia de la memoria unificada (Mac, Strix Halo, Spark) compensa su menor velocidad punta.

Error 5: comprar el hardware sin plan de plataforma ni adopción

Problema: el servidor llega, alguien instala Ollama, funciona en una IP interna... y a los dos meses nadie lo usa porque la experiencia es peor que el ChatGPT personal de cada uno.

Solución: presupuesta desde el día 1 la capa de plataforma (interfaz, usuarios, RAG, trazabilidad) y la formación del equipo. El hardware sin adopción es un pisapapeles caro. Si el contexto general de IA privada te pilla lejos, empieza por mi guía de IA privada para empresa con datos en Europa.


Caso real (anonimizado, primavera 2026)

Un despacho profesional del sector legal, de entre 10 y 20 personas, me planteó en marzo de 2026 el escenario típico del sector regulado: prohibición interna de subir documentación de clientes a herramientas cloud, pero un equipo que ya usaba IA "extraoficialmente". Montamos un Mac Studio M3 Ultra de 256 GB sirviendo un 70B Q4 para redacción y un 32B para consultas rápidas, con RAG local sobre su repositorio de modelos de escritos, todo detrás de una plataforma con su marca. Resultado a las 8 semanas: el uso extraoficial de herramientas cloud personales cayó a prácticamente cero según su propia auditoría interna, y el tiempo medio de preparación de un primer borrador de escrito bajó en torno a un 35%. La inversión total (hardware + plataforma + formación) quedó por debajo de lo que pagaban al año en horas perdidas buscando precedentes a mano.


¿Cuál es el mejor hardware para IA local en una empresa?

El mejor hardware para servir IA local a un equipo en empresa es el que maximiza memoria accesible para la GPU dentro de tu presupuesto: Mac Studio M3 Ultra para modelos grandes y equipos de 10-25 personas, NVIDIA DGX Spark para equipos técnicos en el ecosistema CUDA, y mini-PC con AMD Ryzen AI Max+ 395 (128 GB) como mejor relación capacidad/precio. Para equipos de unas 5 personas, un Mac mini M4 Pro con 64 GB es el punto de entrada con menos riesgo, y para velocidad máxima con modelos de hasta 32B, una torre con RTX 5090.

¿Cuál es el mejor hardware para IA local en una empresa en 2026?

En 2026, el ranking para empresa lo encabezan el Mac Studio M3 Ultra (96-512 GB de memoria unificada, desde ~4.800 €), el NVIDIA DGX Spark (128 GB, ~4.000 €) y los mini-PC con AMD Ryzen AI Max+ 395 (128 GB, desde ~1.900 €). La novedad del año es que la memoria unificada ha desplazado a las GPUs con VRAM dedicada como opción por defecto para inferencia en empresa: más gigabytes por euro, menos consumo y menos mantenimiento. Las torres con RTX 5090 o 2× RTX 4090 siguen ganando donde manda la velocidad o la concurrencia alta.


Preguntas frecuentes (FAQ)

¿Qué mini-PC comprar para servir IA local a un equipo de empresa?

Para un equipo de unas 5 personas, un Mac mini M4 Pro con 64 GB (~2.300 €) o un mini-PC con AMD Ryzen AI Max+ 395 y 128 GB (~1.900 €). El primero es la opción sin fricción; el segundo da más memoria por menos dinero y llega a modelos de 70B en Q4. Para 10-25 personas, sube a Mac Studio M3 Ultra o a un sistema con GPUs NVIDIA dedicadas.

¿Cuánta VRAM o memoria necesito para ejecutar un LLM de 70B en la empresa?

Unos 43 GB para los pesos en cuantización Q4, más 1,5-2 GB de KV cache por usuario concurrente: en la práctica, 96-128 GB de memoria unificada o 48 GB de VRAM repartida en dos GPUs. Para un 32B bastan 48-64 GB de memoria unificada o 24-32 GB de VRAM; para un 7B, cualquier equipo moderno con 16 GB.

¿Es más barato un servidor de IA local que pagar la API en la nube?

Solo a partir de volúmenes altos y sostenidos, o cuando la privacidad y la regulación obligan. Frente a APIs premium, un servidor de 8.500 € se amortiza en 12-24 meses con uso intensivo de un equipo de 25 personas. Frente a APIs económicas como DeepSeek, el local casi nunca gana solo por coste: gana por soberanía del dato, funcionamiento sin internet y cumplimiento (EU AI Act, secreto profesional).

¿Qué modelos open source puedo servir en local a mi equipo en 2026?

Llama 4 Scout (multimodal, MoE), Qwen3 32B (el mejor en código open source), Llama 3.3 70B y los destilados de DeepSeek-R1 para razonamiento. Un equipo con 128 GB de memoria unificada cubre todos salvo los MoE más grandes (Llama 4 Maverick, DeepSeek V3.2), que piden 256-512 GB cuantizados. El detalle por modelo está en mi ranking de modelos para Ollama.

¿Mac Studio o servidor con GPUs NVIDIA para IA local en empresa en 2026?

Mac Studio si no tienes equipo de sistemas y priorizas simplicidad, consumo y memoria masiva; NVIDIA si necesitas velocidad máxima, fine-tuning o concurrencia alta con batching. El M3 Ultra de 256 GB es la compra por defecto para PYMES; las 2× RTX 4090 ganan cuando hay 15-25 usuarios intensivos y alguien que administre la máquina.

¿Cuánto consume un servidor de IA local y qué supone en la factura?

Entre 70 W (Mac mini M4 Pro) y 1.000 W (torre con dos GPUs) bajo carga. En horario laboral español (8h/día), eso va de ~3-5 €/mes a ~40-60 €/mes de electricidad a precios de 2026. Las plataformas de memoria unificada (Apple, Strix Halo, DGX Spark) consumen entre la mitad y una cuarta parte que las torres con GPU equivalentes en capacidad.

¿Puede una empresa de un sector regulado usar IA sin que ningún dato salga de su red?

Sí: con un servidor local sirviendo modelos open source, RAG local y una plataforma on-premise, ninguna consulta ni documento sale de la infraestructura de la empresa. Es el escenario que cubro en la guía de IA on-premise sin internet. La clave no es solo el hardware: hace falta trazabilidad, control de accesos y una experiencia de uso que evite que el equipo vuelva a las herramientas cloud personales.

¿Quién monta un servidor de IA local con plataforma para empresas en España?

Es uno de los servicios que presto desde Javadex: dimensiono el hardware según tu equipo y caso de uso, monto el servidor con los modelos adecuados y lo conecto a Cortex, una plataforma con tu marca, multi-modelo y con datos en Europa. Llave en mano, en torno a 1 mes, desde 5.000 € (hardware aparte). Cuéntame tu caso aquí.


Posts relacionados


Fuentes

  • Apple — Especificaciones y precios de Mac Studio (M3 Ultra / M4 Max) y Mac mini M4 Pro, Apple Store España, 2026
  • NVIDIA — DGX Spark (chip GB10 Grace Blackwell): especificaciones y precio de lanzamiento, 2025-2026
  • NVIDIA — Jetson AGX Orin: especificaciones de la serie, 2026
  • AMD — Plataforma Ryzen AI Max+ 395 "Strix Halo": especificaciones, 2026
  • MiniPC Blogs — Review y precios del Beelink GTR9 Pro, mayo-junio 2026
  • Distribuidores españoles de componentes — Precios orientativos de RTX 5090 y RTX 4090 (nueva y segunda mano), junio 2026
  • llama.cpp / Ollama — Requisitos de memoria por cuantización (Q4_K_M), documentación 2026

En resumen

  • La memoria accesible para la GPU es la métrica que decide la compra, no los TOPS de NPU ni la CPU: ~43 GB para un 70B Q4, ~20 GB para un 32B, más KV cache por usuario concurrente
  • Mac Studio M3 Ultra (256 GB, ~8.500 €) es la compra por defecto para servir modelos grandes a equipos de 10-25 personas sin equipo de sistemas
  • El mini-PC con Ryzen AI Max+ 395 y 128 GB (~1.900 €) es el mejor precio por gigabyte y el punto de entrada para equipos pequeños con presupuesto ajustado, junto al Mac mini M4 Pro de 64 GB
  • NVIDIA gana donde manda la velocidad o el fine-tuning: DGX Spark para equipos técnicos, RTX 5090 para latencia mínima con modelos ≤32B, 2× RTX 4090 para concurrencia alta
  • El TCO favorece al local solo con volumen alto o requisitos de privacidad/regulación; frente a APIs económicas, el local se justifica por soberanía del dato, no por ahorro
  • El hardware sin plataforma ni adopción es un pisapapeles caro: la interfaz, el RAG, la trazabilidad y la formación deciden si la inversión se usa — es lo que monto llave en mano con Cortex by Javadex, desde 5.000 €

¿Quieres todo esto en una plataforma con TU marca?

Cortex by Javadex te monta tu propio ChatGPT corporativo en 30 días: multi-modelo, conectado a tu stack, datos en Europa y con tu logo. Sin SaaS, sin lock-in, sin coste por usuario. Desde 5.000€.

Ver Cortex en detallejavi@javadex.es
📬

¿Te ha gustado? Hay más cada semana

Únete a "IA Sin Humo" — la newsletter donde comparto lo que realmente funciona en inteligencia artificial. Sin teoría innecesaria, sin postureo.

📚

1 Tutorial

Paso a paso, práctico

🛠️

3 Herramientas

Probadas y útiles

💡

0 Bullshit

Solo lo que importa

+547 suscriptores • Cada martes • Cancela cuando quieras

Javier Santos - Especialista en IA & Machine Learning

Javier Santos

Consultor de IA para empresas. Comparto contenido sobre inteligencia artificial, automatización y desarrollo cada semana.