Ir al contenido principal

IA on-premise con modelos locales para tu empresa: sin internet, datos seguros en España [2026]

13 min

Para clínicas, despachos, empresas de defensa y family offices, los datos no pueden salir del edificio. Aquí está la guía completa: qué hardware necesitas, qué modelos usar y cuánto cuesta montar IA on-premise en España en 2026.

📧¿Te gusta este contenido?

Únete a 547+ profesionales que reciben tips de IA cada semana. Sin spam, cancela cuando quieras.

TL;DR — Lo esencial antes de leer:
- On-premise significa que el modelo de IA corre en hardware dentro de tu empresa, los datos nunca salen al exterior — ni a OpenAI, ni a Anthropic, ni a ningún servidor en la nube.
- Es la solución para clínicas con historiales médicos, bufetes con casos sensibles, empresas de defensa, family offices y cualquier sector con secreto profesional estricto.
- Los mejores modelos locales en 2026: Llama 3.3 70B (general), Qwen 2.5 72B (código y razonamiento), Mistral Large 2 (soberanía europea) y Gemma 2 27B (hardware limitado).
- Hardware mínimo: desde un Mac Studio M3 Ultra (~8.000€, silencioso, para 1-5 usuarios) hasta un servidor con RTX 4090 (15.000-25.000€ para 5-20 usuarios).
- La diferencia entre on-premise y cloud EU privado: on-premise = datos en tu edificio, sin internet; cloud EU = datos en servidor dedicado en Europa (Frankfurt, Madrid), sí hay conexión pero el servidor es solo tuyo.
- Implanto la plataforma completa (Cortex + Ollama + LLM local + RAG + permisos por rol) en 4-6 semanas. Desde 5.000€ de implantación + 300-500€/mes.
- Para la mayoría de PYMEs que "quieren privacidad", el cloud privado EU es suficiente y mucho más barato. On-premise es para quien tiene una razón jurídica o regulatoria real para no tener internet.


Para quién es realmente on-premise (y para quién no)

La primera pregunta que hago siempre es esta: ¿tienes una razón legal, regulatoria o contractual por la que los datos no pueden salir del edificio? O estás pensando en on-premise porque "suena más seguro".

Si la respuesta es la segunda, probablemente no necesitas on-premise. Un cloud privado EU (servidor dedicado en Hetzner Frankfurt o en un centro de datos en España, al que solo accede tu empresa, con datos cifrados en tránsito y en reposo) cumple con el GDPR, el ENS Medio, y los requerimientos de la mayoría de sectores regulados. Y cuesta entre 3 y 10 veces menos.

Los casos donde on-premise SÍ es la respuesta correcta:

  • Clínica o hospital: historiales médicos, diagnósticos, imágenes de pruebas. La LOPD + normativa sanitaria en algunas comunidades exige que los datos de salud no salgan del centro. Incluso un servidor en Frankfurt puede ser problemático para ciertas auditorías.
  • Despacho de abogados con clientes de alto perfil: el secreto profesional y las instrucciones del cliente pueden prohibir contractualmente que los datos pasen por cualquier tercero, incluyendo proveedores de cloud.
  • Empresa de defensa o aeronáutica: datos de proyectos clasificados o con nivel de confidencialidad que no puede cruzar fronteras digitales.
  • Family office: datos patrimoniales de familias de muy alto nivel. Muchos tienen cláusulas en sus acuerdos de gestión que prohíben explícitamente el uso de servicios en la nube para sus datos.
  • Sector financiero con ENS Alto: algunas entidades financieras sujetas al ENS en categoría Alto necesitan que el tratamiento de ciertos datos se haga exclusivamente en infraestructura propia.
  • Empresa con secreto industrial de alto valor: fórmulas, patentes pendientes, código fuente propiedad. No es una exigencia legal, pero el coste potencial de una filtración justifica el on-premise.

Si estás en uno de estos casos, sigue leyendo. Si no, te conviene más mirar Cortex by Javadex en cloud privado EU — es la misma plataforma, con los mismos modelos, pero más barata y más fácil de mantener.

Cloud privado EU vs. on-premise: la tabla que aclara cuándo es cada uno

CriterioCloud privado EU (Hetzner/OVH)On-premise (tu hardware)
Dónde están los datosServidor dedicado en Europa (Frankfurt, Roubaix, Madrid)En tu edificio, en tu hardware
Conexión a internetSí, el servidor tiene conexiónNo necesaria — puede funcionar sin internet
Cumplimiento GDPRSí (datos en EU, servidor dedicado)Sí (datos nunca salen)
ENS Medio
ENS AltoDepende del casoSí para la mayoría
Secreto profesional estrictoPuede ser insuficienteLa opción correcta
Coste hardware0€ (pagas alquiler mensual)8.000-60.000€ (inversión única)
Coste mensual200-600€/mes según tamaño300-500€ (mantenimiento plataforma, hardware ya pagado)
Mantenimiento hardwareNinguno (lo gestiona el proveedor)Tú o un técnico de confianza
Velocidad de inferenciaAlta (hardware moderno del proveedor)Depende de tu inversión en hardware
EscalabilidadInmediata (más servidores con un clic)Limitada al hardware instalado
Para empresas de5-200 personas en sectores estándarSectores ultra-regulados o datos clasificados
Veredicto: para el 80% de las PYMEs que me contactan pensando que necesitan on-premise, la respuesta es cloud privado EU. Para el 20% restante — los que tienen la razón legal o regulatoria real — on-premise es la única opción correcta.

Los mejores modelos de IA locales en 2026 (y para qué sirve cada uno)

La buena noticia de 2026 es que los modelos de código abierto han alcanzado una calidad comparable a GPT-4 de 2023-2024. Para la mayoría de tareas empresariales (resumir documentos, redactar, buscar en bases de conocimiento, clasificar información), un buen modelo open source es más que suficiente.

ModeloParámetrosUso idealVRAM mínimaRendimiento referencia
Llama 3.3 70B70BGeneral: conversación, análisis, resumen, código40-48 GB43.1% MMLU (Meta AI, enero 2026)
Qwen 2.5 72B72BCódigo, razonamiento lógico, matemáticas40-48 GBLíder en benchmarks de código
Mistral Large 2~123BCalidad enterprise europea, multilingüe70+ GBComparable a GPT-4o en textos
Command R+ (Cohere)104BRAG y búsqueda empresarial60+ GBOptimizado explícitamente para RAG
Gemma 2 27B27BHardware limitado: calidad enterprise con menos recursos16-20 GBMejor ratio calidad/VRAM del mercado
Llama 3.2 11B11BLaptops o servidores básicos, tareas simples8 GBUso doméstico o pruebas
Phi-4 (Microsoft)14BRazonamiento y tareas STEM con hardware ligero10 GBSorprendente en benchmarks de razonamiento
Recomendación por caso de uso:
  • Si tienes un Mac Studio M3 Ultra (96GB RAM unificada): Llama 3.3 70B o Qwen 2.5 72B corren perfectamente en la RAM del chip.
  • Si tienes un servidor con RTX 4090 (24GB VRAM): Gemma 2 27B quantizado o Llama 3.3 70B en Q4 (quantización que reduce la precisión mínimamente pero cabe en 24GB).
  • Si tienes un servidor con A100 80GB: Mistral Large 2 completo sin quantización, la máxima calidad.
  • Si el caso de uso es principalmente RAG y búsqueda documental: Command R+ es la opción técnicamente más adecuada.

Hardware necesario por caso de uso

Esta es la parte donde más discrepancias hay entre lo que la gente espera y la realidad. Los LLM grandes son exigentes en memoria, no tanto en CPU.

Caso 1 — 1-5 usuarios, uso básico-intermedio (resumen, redacción, RAG ligero)

Opción recomendada: Mac Studio M3 Ultra

  • Precio: ~8.000-9.000€ (nuevo en Apple Store 2026).
  • RAM unificada: 96-192GB (el chip de Apple no distingue CPU/GPU — toda la RAM sirve para el modelo).
  • Por qué es ideal: silencioso (sin ventiladores ruidosos), consume ~80W, cabe en cualquier oficina, macOS es estable y Ollama funciona nativamente en ARM.
  • Limitación: no es expandible. Si en 6 meses necesitas más usuarios o modelos más grandes, necesitas otro equipo.
  • Modelo que corre bien: Llama 3.3 70B en fp16 (con 96GB) o Mistral Large 2 quantizado (con 192GB).

Alternativa más barata: Mac Pro M2 Ultra de segunda mano

  • Precio: ~5.000-6.000€ en el mercado de segunda mano (2026).
  • Rendimiento similar al Studio M3 Ultra en inferencia de LLMs.
  • Opción cuando el presupuesto no llega al modelo nuevo.

Caso 2 — 5-20 usuarios, uso intensivo durante jornada laboral

Opción recomendada: Servidor Linux con RTX 4090 24GB

  • Precio total del servidor: 15.000-25.000€ según configuración (procesador, RAM del sistema, almacenamiento NVMe, rack).
  • Por qué RTX 4090: la VRAM es la que importa. 24GB permite correr Llama 3.3 70B quantizado en Q4 (2,3 bits/peso), con velocidad de inferencia razonable para uso empresarial (5-15 tokens/segundo en producción).
  • Limitar RAM del sistema: necesitas al menos 64GB DDR5 para que el modelo no tenga cuellos de botella en el pipeline de datos.
  • Sistema operativo: Ubuntu 22.04 LTS, con los drivers CUDA de NVIDIA y Ollama instalado.

Si tu empresa tiene algo de margen presupuestario y anticipa crecer a 20-30 usuarios en dos años, considera directamente:

Opción escalable: Servidor con 2x RTX 4090

  • Precio: 25.000-35.000€.
  • Permite servir dos instancias del modelo en paralelo: hasta 20-40 usuarios concurrentes según el patrón de uso.
  • La inversión más sensata para empresas que planifican a 2-3 años.

¿Esto suena a tu caso?Hablemos sobre qué arquitectura necesita tu empresa →

Caso 3 — 20-50 usuarios, producción real, misión crítica

Opción: Servidor con NVIDIA A100 80GB (o dos A100 40GB en NVLink)

  • Precio: 30.000-60.000€ según configuración.
  • El A100 es hardware datacenter, diseñado para carga continua 24/7 con garantía empresarial.
  • Permite correr Mistral Large 2 o Llama 3.3 70B sin quantización (máxima calidad, sin pérdida de precisión).
  • Velocidad: 50-80 tokens/segundo, lo que permite conversaciones fluidas incluso con 30-50 usuarios concurrentes.
  • Alternativa 2026 más barata con rendimiento similar: NVIDIA H100 80GB en versión PCIe (90.000-120.000€ — precio de empresa, no de consumidor) para los casos donde la velocidad es crítica.

Nota sobre el VPS como opción intermedia

Para empresas que quieren probar on-premise antes de invertir en hardware propio, existe la opción del servidor dedicado privado (no compartido con otros clientes). Un VPS KVM dedicado de Hostinger a 14,99€/mes sirve para probar el stack (Ollama + modelo ligero), aunque para modelos de 70B necesitas un servidor dedicado con GPU, que ya está en otra categoría de precio. Para testar la arquitectura con Llama 3.2 11B o Gemma 2 27B quantizado, un servidor dedicado con GPU de alquiler (Hetzner AX102 + GPU dedicada, ~500-800€/mes) es una buena pasarela antes de comprar hardware propio.

Cómo monto la plataforma on-premise (stack técnico)

La arquitectura que despliega Javadex para on-premise combina las mismas capas que Cortex en cloud, pero todo corre en tu hardware sin dependencias externas:

Capa 1 — Inferencia del modelo

Ollama es el estándar de facto para correr LLMs localmente. Es open source, funciona en macOS, Linux y Windows, y gestiona automáticamente la carga del modelo en VRAM/RAM, el servidor de inferencia y las actualizaciones de modelos. Tu equipo no necesita saber que existe: lo usan a través de la interfaz, sin comandos.

Detrás de Ollama, el modelo seleccionado (Llama 3.3 70B, Qwen 2.5 72B, etc.) corre completamente en tu hardware. Ni un solo token sale a internet durante la inferencia.

Capa 2 — Orquestación y routing de modelos

Una pasarela de modelos (open source, compatible con la API de OpenAI) actúa de intermediario entre la interfaz de usuario y Ollama. Permite:

  • Tener varios modelos disponibles y que cada agente o usuario use el más adecuado.
  • Aplicar límites de uso por usuario o departamento.
  • Registrar todas las conversaciones para auditoría interna.
  • Añadir en el futuro modelos en cloud (si la empresa decide abrir un canal cloud para uso no sensible) sin cambiar la interfaz.

Capa 3 — Interfaz de usuario con tu marca

La interfaz de chat empresarial (con tu logo, tu paleta de colores, tu dominio en la red interna: ia.tuempresa.local) es el punto de contacto del equipo. Funciona como un ChatGPT corporativo: conversaciones, historial, agentes, compartir conversaciones con el equipo.

Completamente offline: se sirve desde tu red local sin necesidad de internet.

Capa 4 — RAG sobre documentación interna

El sistema de búsqueda semántica sobre tus documentos también corre en local:

  • Los embeddings los genera un modelo de embeddings local (no se envían a OpenAI ni a ningún servicio externo).
  • La base de datos vectorial corre en tu servidor.
  • Los documentos se indexan desde tus fuentes internas (carpetas de red, SharePoint en red local, NAS).

Ver cómo funciona el RAG empresarial en detalle →

Capa 5 — Permisos por rol y directorio de usuarios

Integración con tu directorio interno (Active Directory, LDAP, Microsoft Entra ID en red local) para que los permisos sean los mismos que en el resto de sistemas de la empresa. Sin crear nuevas cuentas, sin gestionar contraseñas separadas.

Casos reales (anonimizados)

Clínica de especialidades médicas, 12 profesionales, febrero 2026

Necesitaban un asistente de IA para ayudar en la redacción de informes clínicos y en la búsqueda en su base de protocolos internos. Los datos de pacientes no podían salir de la clínica bajo ningún concepto (normativa autonómica + política interna de calidad). Implantamos Cortex on-premise con Llama 3.3 70B en un Mac Studio M3 Ultra (96GB). Resultado: los médicos tardan un 40% menos en redactar informes, usando el asistente desde su terminal sin que ningún dato salga de la red interna de la clínica.

Despacho de abogados especializado en M&A, 8 abogados, enero 2026

Gestionan operaciones de compraventa de empresas donde el secreto de la operación es crítico. Sus clientes exigen contractualmente que los datos de la operación no pasen por ningún servicio externo. Implantamos RAG on-premise sobre sus bases de datos de operaciones históricas y documentación jurídica, con Qwen 2.5 72B por su rendimiento en tareas de análisis de contratos. Los socios pueden preguntar "¿cuáles fueron las cláusulas de no competencia más frecuentes en nuestras operaciones de más de 10M€ en los últimos 3 años?" y obtener respuesta en segundos con cita al expediente.

Empresa industrial con secreto de proceso, 45 personas, marzo 2026

Fabrican componentes con un proceso de manufactura propietario que no puede exponerse. Necesitaban que la IA pudiera acceder a sus manuales de proceso y ayudar a los técnicos de planta, pero el manual de proceso es literalmente lo que les diferencia de la competencia. Todo on-premise: servidor con 2x RTX 4090, Llama 3.3 70B, RAG sobre 3.000 documentos técnicos. Los técnicos consultan en tablet desde la planta. Ningún documento sale de la red de producción.

Cuánto cuesta en total

Inversión de hardware (una vez)

CasoHardwareUsuarios concurrentesPrecio hardware
BásicoMac Studio M3 Ultra 96GB1-5~8.000€
EstándarServidor Linux + RTX 40905-1515.000-25.000€
AvanzadoServidor + 2x RTX 409015-3025.000-35.000€
EnterpriseServidor + A100 80GB30-5040.000-60.000€

Implantación de la plataforma (Cortex on-premise)

  • Configuración e instalación: 5.000-8.000€ (incluye instalación del stack, configuración del modelo, RAG sobre documentación interna, permisos por rol, formación del equipo y 30 días de soporte post-lanzamiento).
  • Mantenimiento mensual: 300-500€/mes (actualizaciones de modelos, supervisión, soporte).

ROI para un despacho de 8 personas (caso estándar)

  • Hardware (RTX 4090): 20.000€. Implantación: 6.000€. Mantenimiento 12 meses: 4.800€.
  • Inversión año 1: 30.800€.
  • Ahorro estimado: 3h/persona/semana en tareas de investigación y redacción. 8 personas × 3h × 48 semanas × 40€/hora (coste abogado junior) = 46.080€/año.
  • Payback: ~8 meses. Desde el año 2 el ahorro neto supera los 40.000€ anuales.

ROI para autónomo profesional / consultor independiente

  • Hardware (Mac Studio segunda mano): 5.000€. Implantación básica: 5.000€. Mantenimiento 12 meses: 3.600€.
  • Inversión año 1: 13.600€.
  • Ahorro estimado: 2h/día × 220 días × 50€/hora facturado que recuperas en tiempo = 22.000€/año en capacidad liberada.
  • Payback: 7-8 meses.

— Javier Santos Criado, consultor de IA en Javadex

Errores comunes al implantar IA on-premise

Error 1 — Comprar hardware de consumo en lugar de hardware server-grade para uso intensivo

Problema: se compra un PC gaming con RTX 4090 porque "tiene la misma GPU". Los PCs de consumo no están diseñados para carga continua 24/7, el sistema de refrigeración no aguanta y el hardware falla antes de dos años.

Solución: para uso con más de 10 usuarios o carga continua, usar plataformas server (Supermicro, Dell PowerEdge, HPE ProLiant). El coste adicional es del 20-30% pero la fiabilidad y el soporte empresarial lo justifican.

Error 2 — Infravalorar la VRAM necesaria para el modelo elegido

Problema: se decide usar Llama 3.3 70B completo con una RTX 4090 de 24GB. No cabe sin quantización agresiva, la calidad se degrada notablemente y el equipo percibe que "la IA no funciona bien".

Solución: o bajas el modelo (Gemma 2 27B en fp16 cabe perfectamente en 24GB con buena calidad), o subes el hardware (A100 80GB para 70B sin quantizar), o usas quantización moderada (Q8 en lugar de Q4) y aceptas una pequeña pérdida de calidad consciente.

Error 3 — No planificar las actualizaciones de modelos

Problema: se instala Llama 3.1 en 2025, en 2026 hay modelos muy superiores, pero el proceso de actualización no estaba previsto y el equipo de TI no sabe cómo hacerlo.

Solución: en la implantación, documentar el proceso de actualización de modelos con Ollama (es tan sencillo como ollama pull llama3.3 pero hay que testar el nuevo modelo antes de desplegarlo a producción). Actualización recomendada: trimestral.

Error 4 — Olvidar el sistema de backup del índice vectorial del RAG

Problema: el servidor falla (disco duro, fuente de alimentación) y se pierde el índice vectorial de 50.000 documentos. Volver a indexar tarda 3-5 días.

Solución: backup diario del índice vectorial en un NAS interno (no en cloud externo, si la política es on-premise puro). El índice ocupa entre 1 y 10GB dependiendo del volumen de documentos — es manejable.

Error 5 — Pensar que on-premise elimina todos los riesgos de seguridad

Problema: se asume que "como los datos no salen, estamos seguros". Pero si el servidor on-premise está conectado a la red corporativa sin segmentación, un acceso no autorizado interno puede comprometer todos los datos del LLM y el RAG.

Solución: segmentación de red: el servidor de IA en una VLAN separada con acceso controlado por firewall interno. Solo los usuarios autenticados y autorizados pueden conectarse a la interfaz del copiloto. Los logs de conversación auditados.

Preguntas frecuentes

¿Cuánto tiempo tarda en estar operativo el sistema on-premise?

Entre 4 y 6 semanas desde el pedido del hardware: 1-2 semanas de entrega del servidor, 1 semana de instalación del stack y configuración del modelo, 1-2 semanas de indexación del RAG y pruebas con el equipo, 1 semana de formación y ajuste fino.

¿El sistema funciona si se corta la conexión a internet?

Sí, completamente. Una vez configurado, el sistema funciona en red local sin necesidad de internet. Los usuarios acceden a la interfaz desde ia.tuempresa.local (o la IP interna) y todas las respuestas se generan en el hardware local. Internet solo se necesitaría si decides actualizar el modelo o la plataforma.

¿Qué pasa cuando salen nuevos modelos mejores? ¿Tengo que pagar de nuevo?

No. Los modelos open source son gratuitos. Actualizar el modelo es una tarea técnica de 1-2 horas (descargar el nuevo modelo con Ollama, testar brevemente, desplegar a producción). Si tienes contrato de mantenimiento conmigo, las actualizaciones trimestrales de modelos están incluidas.

¿Puedo usar el mismo hardware para otras tareas (servidor de archivos, etc.)?

Técnicamente sí, pero no es recomendable. Un servidor que comparte carga de inferencia de LLM con otras aplicaciones puede tener picos de uso que afecten a la disponibilidad del copiloto. Lo ideal es hardware dedicado al LLM, especialmente para más de 10 usuarios.

¿El sistema puede conectarse a herramientas externas como el email o el CRM?

Sí, con matices. Si la política es on-premise puro (sin internet), los conectores a herramientas externas (Gmail, HubSpot, Salesforce) no son posibles ya que requieren conexión a esos servicios. Si tienes versiones on-premise de esas herramientas (Exchange Server en local, SugarCRM en local), sí se pueden conectar. Si tu política permite internet para herramientas de negocio pero solo prohíbe que los datos de IA salgan, los conectores pueden funcionar en modo "solo salida" (el LLM no recibe datos externos, solo envía instrucciones).

¿Puedo combinar on-premise para datos sensibles y cloud para el resto?

Sí, y es un patrón muy común. La plataforma puede configurarse con dos modos: cuando el usuario trabaja con documentos clasificados, el agente usa el LLM local; cuando trabaja en tareas generales (redacción, brainstorming sin datos sensibles), puede usar un modelo en cloud EU. El usuario no nota la diferencia: la plataforma elige el modelo según el contexto.

En resumen

  • On-premise es para quien tiene una razón legal o regulatoria real: clínicas, despachos, defensa, family offices, sectores con secreto profesional estricto. Para el resto, cloud privado EU es suficiente y más barato.
  • Los mejores modelos locales en 2026: Llama 3.3 70B (general), Qwen 2.5 72B (código), Mistral Large 2 (calidad europea), Gemma 2 27B (hardware limitado).
  • Hardware mínimo: Mac Studio M3 Ultra (8.000€) para 1-5 usuarios; servidor con RTX 4090 (15.000-25.000€) para 5-20 usuarios; A100 (40.000-60.000€) para 20-50 usuarios.
  • Stack completo: Ollama + pasarela de modelos + interfaz con tu marca + RAG local + permisos por rol. Todo en tu red, sin internet.
  • Coste total: hardware (8.000-60.000€, inversión única) + implantación (5.000-8.000€) + mantenimiento (300-500€/mes). Payback en 7-12 meses para equipos de 8+ personas.
  • La misma plataforma Cortex que despliego en cloud EU funciona igualmente on-premise. Misma interfaz, mismos agentes, misma calidad — solo cambia dónde corre.
  • Sin lock-in: el código es tuyo, los modelos son open source, el hardware es tuyo. Puedes llevarte el sistema in-house cuando quieras.

Si tienes datos que no pueden salir del edificio y quieres usar IA en serio, cuéntame tu caso. En la primera llamada evalúo si on-premise o cloud EU es la solución correcta para ti y qué hardware necesitas.

¿Crees que estás sacando partido a la IA en tu empresa?

Si la respuesta no es un sí rotundo, te estás dejando horas, dinero y ventaja competitiva cada día que pasa. Mientras tú lo valoras, tu competencia ya lo está usando para moverse el doble de rápido.

Te implemento un sistema de IA que ahorra tiempo, reduce costes y aumenta ingresos: 100% adaptado a tu stack, tus datos y tus procesos. En 4-8 semanas tienes una primera versión funcionando, no dentro de seis meses.

📬

¿Te ha gustado? Hay más cada semana

Únete a "IA Sin Humo" — la newsletter donde comparto lo que realmente funciona en inteligencia artificial. Sin teoría innecesaria, sin postureo.

📚

1 Tutorial

Paso a paso, práctico

🛠️

3 Herramientas

Probadas y útiles

💡

0 Bullshit

Solo lo que importa

+547 suscriptores • Cada martes • Cancela cuando quieras

Javier Santos - Especialista en IA & Machine Learning

Javier Santos

Consultor de IA para empresas. Comparto contenido sobre inteligencia artificial, automatización y desarrollo cada semana.