¿Cuánto tiempo tarda en estar operativo el sistema de IA on-premise?

Entre 4 y 6 semanas desde el pedido del hardware: 1-2 semanas de entrega del servidor, 1 semana de instalación y configuración del modelo, 1-2 semanas de indexación del RAG y pruebas, 1 semana de formación del equipo.

¿El sistema de IA on-premise funciona si se corta la conexión a internet?

Sí, completamente. Una vez configurado, el sistema funciona en red local sin necesidad de internet. Los usuarios acceden desde la red interna y todas las respuestas se generan en el hardware local.

¿Qué pasa cuando salen nuevos modelos de IA? ¿Tengo que pagar de nuevo?

No. Los modelos open source son gratuitos. Actualizar el modelo con Ollama es una tarea técnica de 1-2 horas. Si tienes contrato de mantenimiento con Javadex, las actualizaciones trimestrales están incluidas.

¿Cuánto cuesta montar una IA on-premise en España?

Hardware: 8.000-60.000€ según el número de usuarios (Mac Studio para 1-5 usuarios, servidor con RTX 4090 para 5-20). Implantación de la plataforma: 5.000-8.000€. Mantenimiento mensual: 300-500€. El payback es de 7-12 meses para equipos de 8 o más personas.

¿Cuál es la diferencia entre IA on-premise y cloud privado EU?

On-premise significa que el modelo corre en hardware dentro de tu edificio, sin internet necesario. Cloud privado EU significa que corre en un servidor dedicado (solo tuyo) en Europa, con conexión a internet pero cumpliendo GDPR. Para la mayoría de empresas el cloud privado EU es suficiente y mucho más barato.

¿Puedo combinar IA on-premise para datos sensibles y cloud para el resto?

Sí, y es un patrón muy común. La plataforma puede configurarse con dos modos: LLM local para documentos clasificados y modelo en cloud EU para tareas generales. El usuario no nota la diferencia.

IA on-premise con modelos locales para tu empresa: sin internet, datos seguros en España [2026]

Q: ¿Puedo usar el mismo hardware para otras tareas (servidor de archivos, etc.)?

Técnicamente sí, pero no es recomendable. Un servidor que comparte carga de inferencia de LLM con otras aplicaciones puede tener picos de uso que afecten a la disponibilidad del copiloto. Lo ideal es hardware dedicado al LLM, especialmente para más de 10 usuarios.

Q: ¿El sistema puede conectarse a herramientas externas como el email o el CRM?

Sí, con matices. Si la política es on-premise puro (sin internet), los conectores a herramientas externas (Gmail, HubSpot, Salesforce) no son posibles ya que requieren conexión a esos servicios. Si tienes versiones on-premise de esas herramientas (Exchange Server en local, SugarCRM en local), sí se pueden conectar. Si tu política permite internet para herramientas de negocio pero solo prohíbe que los datos de IA salgan, los conectores pueden funcionar en modo "solo salida" (el LLM no recibe datos externos, solo envía instrucciones).

TL;DR — Lo esencial antes de leer:

- On-premise significa que el modelo de IA corre en hardware dentro de tu empresa, los datos nunca salen al exterior — ni a OpenAI, ni a Anthropic, ni a ningún servidor en la nube.

- Es la solución para clínicas con historiales médicos, bufetes con casos sensibles, empresas de defensa, family offices y cualquier sector con secreto profesional estricto.

- Los mejores modelos locales en 2026: Llama 3.3 70B (general), Qwen 2.5 72B (código y razonamiento), Mistral Large 2 (soberanía europea) y Gemma 2 27B (hardware limitado).

- Hardware mínimo: desde un Mac Studio M3 Ultra (~8.000€, silencioso, para 1-5 usuarios) hasta un servidor con RTX 4090 (15.000-25.000€ para 5-20 usuarios).

- La diferencia entre on-premise y cloud EU privado: on-premise = datos en tu edificio, sin internet; cloud EU = datos en servidor dedicado en Europa (Frankfurt, Madrid), sí hay conexión pero el servidor es solo tuyo.

- Implanto la plataforma completa (Cortex + Ollama + LLM local + RAG + permisos por rol) en 4-6 semanas. Desde 5.000€ de implantación + 300-500€/mes.

- Para la mayoría de PYMEs que "quieren privacidad", el cloud privado EU es suficiente y mucho más barato. On-premise es para quien tiene una razón jurídica o regulatoria real para no tener internet.

Para quién es realmente on-premise (y para quién no)

La primera pregunta que hago siempre es esta: ¿tienes una razón legal, regulatoria o contractual por la que los datos no pueden salir del edificio? O estás pensando en on-premise porque "suena más seguro".

Si la respuesta es la segunda, probablemente no necesitas on-premise. Un cloud privado EU (servidor dedicado en Hetzner Frankfurt o en un centro de datos en España, al que solo accede tu empresa, con datos cifrados en tránsito y en reposo) cumple con el GDPR, el ENS Medio, y los requerimientos de la mayoría de sectores regulados. Y cuesta entre 3 y 10 veces menos.

Los casos donde on-premise SÍ es la respuesta correcta:

Clínica o hospital: historiales médicos, diagnósticos, imágenes de pruebas. La LOPD + normativa sanitaria en algunas comunidades exige que los datos de salud no salgan del centro. Incluso un servidor en Frankfurt puede ser problemático para ciertas auditorías.
Despacho de abogados con clientes de alto perfil: el secreto profesional y las instrucciones del cliente pueden prohibir contractualmente que los datos pasen por cualquier tercero, incluyendo proveedores de cloud.
Empresa de defensa o aeronáutica: datos de proyectos clasificados o con nivel de confidencialidad que no puede cruzar fronteras digitales.
Family office: datos patrimoniales de familias de muy alto nivel. Muchos tienen cláusulas en sus acuerdos de gestión que prohíben explícitamente el uso de servicios en la nube para sus datos.
Sector financiero con ENS Alto: algunas entidades financieras sujetas al ENS en categoría Alto necesitan que el tratamiento de ciertos datos se haga exclusivamente en infraestructura propia.
Empresa con secreto industrial de alto valor: fórmulas, patentes pendientes, código fuente propiedad. No es una exigencia legal, pero el coste potencial de una filtración justifica el on-premise.

Si estás en uno de estos casos, sigue leyendo. Si no, te conviene más mirar Cortex by Javadex en cloud privado EU — es la misma plataforma, con los mismos modelos, pero más barata y más fácil de mantener.

Cloud privado EU vs. on-premise: la tabla que aclara cuándo es cada uno

Criterio	Cloud privado EU (Hetzner/OVH)	On-premise (tu hardware)
Dónde están los datos	Servidor dedicado en Europa (Frankfurt, Roubaix, Madrid)	En tu edificio, en tu hardware
Conexión a internet	Sí, el servidor tiene conexión	No necesaria — puede funcionar sin internet
Cumplimiento GDPR	Sí (datos en EU, servidor dedicado)	Sí (datos nunca salen)
ENS Medio	Sí	Sí
ENS Alto	Depende del caso	Sí para la mayoría
Secreto profesional estricto	Puede ser insuficiente	La opción correcta
Coste hardware	0€ (pagas alquiler mensual)	8.000-60.000€ (inversión única)
Coste mensual	200-600€/mes según tamaño	300-500€ (mantenimiento plataforma, hardware ya pagado)
Mantenimiento hardware	Ninguno (lo gestiona el proveedor)	Tú o un técnico de confianza
Velocidad de inferencia	Alta (hardware moderno del proveedor)	Depende de tu inversión en hardware
Escalabilidad	Inmediata (más servidores con un clic)	Limitada al hardware instalado
Para empresas de	5-200 personas en sectores estándar	Sectores ultra-regulados o datos clasificados

Veredicto: para el 80% de las PYMEs que me contactan pensando que necesitan on-premise, la respuesta es cloud privado EU. Para el 20% restante — los que tienen la razón legal o regulatoria real — on-premise es la única opción correcta.

Los mejores modelos de IA locales en 2026 (y para qué sirve cada uno)

La buena noticia de 2026 es que los modelos de código abierto han alcanzado una calidad comparable a GPT-4 de 2023-2024. Para la mayoría de tareas empresariales (resumir documentos, redactar, buscar en bases de conocimiento, clasificar información), un buen modelo open source es más que suficiente.

Modelo	Parámetros	Uso ideal	VRAM mínima	Rendimiento referencia
Llama 3.3 70B	70B	General: conversación, análisis, resumen, código	40-48 GB	43.1% MMLU (Meta AI, enero 2026)
Qwen 2.5 72B	72B	Código, razonamiento lógico, matemáticas	40-48 GB	Líder en benchmarks de código
Mistral Large 2	~123B	Calidad enterprise europea, multilingüe	70+ GB	Comparable a GPT-4o en textos
Command R+ (Cohere)	104B	RAG y búsqueda empresarial	60+ GB	Optimizado explícitamente para RAG
Gemma 2 27B	27B	Hardware limitado: calidad enterprise con menos recursos	16-20 GB	Mejor ratio calidad/VRAM del mercado
Llama 3.2 11B	11B	Laptops o servidores básicos, tareas simples	8 GB	Uso doméstico o pruebas
Phi-4 (Microsoft)	14B	Razonamiento y tareas STEM con hardware ligero	10 GB	Sorprendente en benchmarks de razonamiento

Recomendación por caso de uso:

Si tienes un Mac Studio M3 Ultra (96GB RAM unificada): Llama 3.3 70B o Qwen 2.5 72B corren perfectamente en la RAM del chip.
Si tienes un servidor con RTX 4090 (24GB VRAM): Gemma 2 27B quantizado o Llama 3.3 70B en Q4 (quantización que reduce la precisión mínimamente pero cabe en 24GB).
Si tienes un servidor con A100 80GB: Mistral Large 2 completo sin quantización, la máxima calidad.
Si el caso de uso es principalmente RAG y búsqueda documental: Command R+ es la opción técnicamente más adecuada.

Hardware necesario por caso de uso

Esta es la parte donde más discrepancias hay entre lo que la gente espera y la realidad. Los LLM grandes son exigentes en memoria, no tanto en CPU.

Caso 1 — 1-5 usuarios, uso básico-intermedio (resumen, redacción, RAG ligero)

Opción recomendada: Mac Studio M3 Ultra

Precio: ~8.000-9.000€ (nuevo en Apple Store 2026).
RAM unificada: 96-192GB (el chip de Apple no distingue CPU/GPU — toda la RAM sirve para el modelo).
Por qué es ideal: silencioso (sin ventiladores ruidosos), consume ~80W, cabe en cualquier oficina, macOS es estable y Ollama funciona nativamente en ARM.
Limitación: no es expandible. Si en 6 meses necesitas más usuarios o modelos más grandes, necesitas otro equipo.
Modelo que corre bien: Llama 3.3 70B en fp16 (con 96GB) o Mistral Large 2 quantizado (con 192GB).

Alternativa más barata: Mac Pro M2 Ultra de segunda mano

Precio: ~5.000-6.000€ en el mercado de segunda mano (2026).
Rendimiento similar al Studio M3 Ultra en inferencia de LLMs.
Opción cuando el presupuesto no llega al modelo nuevo.

Caso 2 — 5-20 usuarios, uso intensivo durante jornada laboral

Opción recomendada: Servidor Linux con RTX 4090 24GB

Precio total del servidor: 15.000-25.000€ según configuración (procesador, RAM del sistema, almacenamiento NVMe, rack).
Por qué RTX 4090: la VRAM es la que importa. 24GB permite correr Llama 3.3 70B quantizado en Q4 (2,3 bits/peso), con velocidad de inferencia razonable para uso empresarial (5-15 tokens/segundo en producción).
Limitar RAM del sistema: necesitas al menos 64GB DDR5 para que el modelo no tenga cuellos de botella en el pipeline de datos.
Sistema operativo: Ubuntu 22.04 LTS, con los drivers CUDA de NVIDIA y Ollama instalado.

Si tu empresa tiene algo de margen presupuestario y anticipa crecer a 20-30 usuarios en dos años, considera directamente:

Opción escalable: Servidor con 2x RTX 4090

Precio: 25.000-35.000€.
Permite servir dos instancias del modelo en paralelo: hasta 20-40 usuarios concurrentes según el patrón de uso.
La inversión más sensata para empresas que planifican a 2-3 años.

¿Esto suena a tu caso? → Hablemos sobre qué arquitectura necesita tu empresa →

Caso 3 — 20-50 usuarios, producción real, misión crítica

Opción: Servidor con NVIDIA A100 80GB (o dos A100 40GB en NVLink)

Precio: 30.000-60.000€ según configuración.
El A100 es hardware datacenter, diseñado para carga continua 24/7 con garantía empresarial.
Permite correr Mistral Large 2 o Llama 3.3 70B sin quantización (máxima calidad, sin pérdida de precisión).
Velocidad: 50-80 tokens/segundo, lo que permite conversaciones fluidas incluso con 30-50 usuarios concurrentes.
Alternativa 2026 más barata con rendimiento similar: NVIDIA H100 80GB en versión PCIe (90.000-120.000€ — precio de empresa, no de consumidor) para los casos donde la velocidad es crítica.

Nota sobre el VPS como opción intermedia

Para empresas que quieren probar on-premise antes de invertir en hardware propio, existe la opción del servidor dedicado privado (no compartido con otros clientes). Un VPS KVM dedicado de Hostinger a 14,99€/mes sirve para probar el stack (Ollama + modelo ligero), aunque para modelos de 70B necesitas un servidor dedicado con GPU, que ya está en otra categoría de precio. Para testar la arquitectura con Llama 3.2 11B o Gemma 2 27B quantizado, un servidor dedicado con GPU de alquiler (Hetzner AX102 + GPU dedicada, ~500-800€/mes) es una buena pasarela antes de comprar hardware propio.

Cómo monto la plataforma on-premise (stack técnico)

La arquitectura que despliega Javadex para on-premise combina las mismas capas que Cortex en cloud, pero todo corre en tu hardware sin dependencias externas:

Capa 1 — Inferencia del modelo

Ollama es el estándar de facto para correr LLMs localmente. Es open source, funciona en macOS, Linux y Windows, y gestiona automáticamente la carga del modelo en VRAM/RAM, el servidor de inferencia y las actualizaciones de modelos. Tu equipo no necesita saber que existe: lo usan a través de la interfaz, sin comandos.

Detrás de Ollama, el modelo seleccionado (Llama 3.3 70B, Qwen 2.5 72B, etc.) corre completamente en tu hardware. Ni un solo token sale a internet durante la inferencia.

Capa 2 — Orquestación y routing de modelos

Una pasarela de modelos (open source, compatible con la API de OpenAI) actúa de intermediario entre la interfaz de usuario y Ollama. Permite:

Tener varios modelos disponibles y que cada agente o usuario use el más adecuado.
Aplicar límites de uso por usuario o departamento.
Registrar todas las conversaciones para auditoría interna.
Añadir en el futuro modelos en cloud (si la empresa decide abrir un canal cloud para uso no sensible) sin cambiar la interfaz.

Capa 3 — Interfaz de usuario con tu marca

La interfaz de chat empresarial (con tu logo, tu paleta de colores, tu dominio en la red interna: ia.tuempresa.local) es el punto de contacto del equipo. Funciona como un ChatGPT corporativo: conversaciones, historial, agentes, compartir conversaciones con el equipo.

Completamente offline: se sirve desde tu red local sin necesidad de internet.

Capa 4 — RAG sobre documentación interna

El sistema de búsqueda semántica sobre tus documentos también corre en local:

Los embeddings los genera un modelo de embeddings local (no se envían a OpenAI ni a ningún servicio externo).
La base de datos vectorial corre en tu servidor.
Los documentos se indexan desde tus fuentes internas (carpetas de red, SharePoint en red local, NAS).

Ver cómo funciona el RAG empresarial en detalle →

Capa 5 — Permisos por rol y directorio de usuarios

Integración con tu directorio interno (Active Directory, LDAP, Microsoft Entra ID en red local) para que los permisos sean los mismos que en el resto de sistemas de la empresa. Sin crear nuevas cuentas, sin gestionar contraseñas separadas.

Casos reales (anonimizados)

Clínica de especialidades médicas, 12 profesionales, febrero 2026

Necesitaban un asistente de IA para ayudar en la redacción de informes clínicos y en la búsqueda en su base de protocolos internos. Los datos de pacientes no podían salir de la clínica bajo ningún concepto (normativa autonómica + política interna de calidad). Implantamos Cortex on-premise con Llama 3.3 70B en un Mac Studio M3 Ultra (96GB). Resultado: los médicos tardan un 40% menos en redactar informes, usando el asistente desde su terminal sin que ningún dato salga de la red interna de la clínica.

Despacho de abogados especializado en M&A, 8 abogados, enero 2026

Gestionan operaciones de compraventa de empresas donde el secreto de la operación es crítico. Sus clientes exigen contractualmente que los datos de la operación no pasen por ningún servicio externo. Implantamos RAG on-premise sobre sus bases de datos de operaciones históricas y documentación jurídica, con Qwen 2.5 72B por su rendimiento en tareas de análisis de contratos. Los socios pueden preguntar "¿cuáles fueron las cláusulas de no competencia más frecuentes en nuestras operaciones de más de 10M€ en los últimos 3 años?" y obtener respuesta en segundos con cita al expediente.

Empresa industrial con secreto de proceso, 45 personas, marzo 2026

Fabrican componentes con un proceso de manufactura propietario que no puede exponerse. Necesitaban que la IA pudiera acceder a sus manuales de proceso y ayudar a los técnicos de planta, pero el manual de proceso es literalmente lo que les diferencia de la competencia. Todo on-premise: servidor con 2x RTX 4090, Llama 3.3 70B, RAG sobre 3.000 documentos técnicos. Los técnicos consultan en tablet desde la planta. Ningún documento sale de la red de producción.

Cuánto cuesta en total

Inversión de hardware (una vez)

Caso	Hardware	Usuarios concurrentes	Precio hardware
Básico	Mac Studio M3 Ultra 96GB	1-5	~8.000€
Estándar	Servidor Linux + RTX 4090	5-15	15.000-25.000€
Avanzado	Servidor + 2x RTX 4090	15-30	25.000-35.000€
Enterprise	Servidor + A100 80GB	30-50	40.000-60.000€

Implantación de la plataforma (Cortex on-premise)

Configuración e instalación: 5.000-8.000€ (incluye instalación del stack, configuración del modelo, RAG sobre documentación interna, permisos por rol, formación del equipo y 30 días de soporte post-lanzamiento).
Mantenimiento mensual: 300-500€/mes (actualizaciones de modelos, supervisión, soporte).

ROI para un despacho de 8 personas (caso estándar)

Hardware (RTX 4090): 20.000€. Implantación: 6.000€. Mantenimiento 12 meses: 4.800€.
Inversión año 1: 30.800€.
Ahorro estimado: 3h/persona/semana en tareas de investigación y redacción. 8 personas × 3h × 48 semanas × 40€/hora (coste abogado junior) = 46.080€/año.
Payback: ~8 meses. Desde el año 2 el ahorro neto supera los 40.000€ anuales.

ROI para autónomo profesional / consultor independiente

Hardware (Mac Studio segunda mano): 5.000€. Implantación básica: 5.000€. Mantenimiento 12 meses: 3.600€.
Inversión año 1: 13.600€.
Ahorro estimado: 2h/día × 220 días × 50€/hora facturado que recuperas en tiempo = 22.000€/año en capacidad liberada.
Payback: 7-8 meses.

— Javier Santos Criado, consultor de IA en Javadex

Errores comunes al implantar IA on-premise

Error 1 — Comprar hardware de consumo en lugar de hardware server-grade para uso intensivo

Problema: se compra un PC gaming con RTX 4090 porque "tiene la misma GPU". Los PCs de consumo no están diseñados para carga continua 24/7, el sistema de refrigeración no aguanta y el hardware falla antes de dos años.

Solución: para uso con más de 10 usuarios o carga continua, usar plataformas server (Supermicro, Dell PowerEdge, HPE ProLiant). El coste adicional es del 20-30% pero la fiabilidad y el soporte empresarial lo justifican.

Error 2 — Infravalorar la VRAM necesaria para el modelo elegido

Problema: se decide usar Llama 3.3 70B completo con una RTX 4090 de 24GB. No cabe sin quantización agresiva, la calidad se degrada notablemente y el equipo percibe que "la IA no funciona bien".

Solución: o bajas el modelo (Gemma 2 27B en fp16 cabe perfectamente en 24GB con buena calidad), o subes el hardware (A100 80GB para 70B sin quantizar), o usas quantización moderada (Q8 en lugar de Q4) y aceptas una pequeña pérdida de calidad consciente.

Error 3 — No planificar las actualizaciones de modelos

Problema: se instala Llama 3.1 en 2025, en 2026 hay modelos muy superiores, pero el proceso de actualización no estaba previsto y el equipo de TI no sabe cómo hacerlo.

Solución: en la implantación, documentar el proceso de actualización de modelos con Ollama (es tan sencillo como ollama pull llama3.3 pero hay que testar el nuevo modelo antes de desplegarlo a producción). Actualización recomendada: trimestral.

Error 4 — Olvidar el sistema de backup del índice vectorial del RAG

Problema: el servidor falla (disco duro, fuente de alimentación) y se pierde el índice vectorial de 50.000 documentos. Volver a indexar tarda 3-5 días.

Solución: backup diario del índice vectorial en un NAS interno (no en cloud externo, si la política es on-premise puro). El índice ocupa entre 1 y 10GB dependiendo del volumen de documentos — es manejable.

Error 5 — Pensar que on-premise elimina todos los riesgos de seguridad

Problema: se asume que "como los datos no salen, estamos seguros". Pero si el servidor on-premise está conectado a la red corporativa sin segmentación, un acceso no autorizado interno puede comprometer todos los datos del LLM y el RAG.

Solución: segmentación de red: el servidor de IA en una VLAN separada con acceso controlado por firewall interno. Solo los usuarios autenticados y autorizados pueden conectarse a la interfaz del copiloto. Los logs de conversación auditados.

Preguntas frecuentes

¿Cuánto tiempo tarda en estar operativo el sistema on-premise?

Entre 4 y 6 semanas desde el pedido del hardware: 1-2 semanas de entrega del servidor, 1 semana de instalación del stack y configuración del modelo, 1-2 semanas de indexación del RAG y pruebas con el equipo, 1 semana de formación y ajuste fino.

¿El sistema funciona si se corta la conexión a internet?

Sí, completamente. Una vez configurado, el sistema funciona en red local sin necesidad de internet. Los usuarios acceden a la interfaz desde ia.tuempresa.local (o la IP interna) y todas las respuestas se generan en el hardware local. Internet solo se necesitaría si decides actualizar el modelo o la plataforma.

¿Qué pasa cuando salen nuevos modelos mejores? ¿Tengo que pagar de nuevo?

No. Los modelos open source son gratuitos. Actualizar el modelo es una tarea técnica de 1-2 horas (descargar el nuevo modelo con Ollama, testar brevemente, desplegar a producción). Si tienes contrato de mantenimiento conmigo, las actualizaciones trimestrales de modelos están incluidas.

¿Puedo usar el mismo hardware para otras tareas (servidor de archivos, etc.)?

Técnicamente sí, pero no es recomendable. Un servidor que comparte carga de inferencia de LLM con otras aplicaciones puede tener picos de uso que afecten a la disponibilidad del copiloto. Lo ideal es hardware dedicado al LLM, especialmente para más de 10 usuarios.

¿El sistema puede conectarse a herramientas externas como el email o el CRM?

Sí, con matices. Si la política es on-premise puro (sin internet), los conectores a herramientas externas (Gmail, HubSpot, Salesforce) no son posibles ya que requieren conexión a esos servicios. Si tienes versiones on-premise de esas herramientas (Exchange Server en local, SugarCRM en local), sí se pueden conectar. Si tu política permite internet para herramientas de negocio pero solo prohíbe que los datos de IA salgan, los conectores pueden funcionar en modo "solo salida" (el LLM no recibe datos externos, solo envía instrucciones).

¿Puedo combinar on-premise para datos sensibles y cloud para el resto?

Sí, y es un patrón muy común. La plataforma puede configurarse con dos modos: cuando el usuario trabaja con documentos clasificados, el agente usa el LLM local; cuando trabaja en tareas generales (redacción, brainstorming sin datos sensibles), puede usar un modelo en cloud EU. El usuario no nota la diferencia: la plataforma elige el modelo según el contexto.

En resumen

On-premise es para quien tiene una razón legal o regulatoria real: clínicas, despachos, defensa, family offices, sectores con secreto profesional estricto. Para el resto, cloud privado EU es suficiente y más barato.
Los mejores modelos locales en 2026: Llama 3.3 70B (general), Qwen 2.5 72B (código), Mistral Large 2 (calidad europea), Gemma 2 27B (hardware limitado).
Hardware mínimo: Mac Studio M3 Ultra (8.000€) para 1-5 usuarios; servidor con RTX 4090 (15.000-25.000€) para 5-20 usuarios; A100 (40.000-60.000€) para 20-50 usuarios.
Stack completo: Ollama + pasarela de modelos + interfaz con tu marca + RAG local + permisos por rol. Todo en tu red, sin internet.
Coste total: hardware (8.000-60.000€, inversión única) + implantación (5.000-8.000€) + mantenimiento (300-500€/mes). Payback en 7-12 meses para equipos de 8+ personas.
La misma plataforma Cortex que despliego en cloud EU funciona igualmente on-premise. Misma interfaz, mismos agentes, misma calidad — solo cambia dónde corre.
Sin lock-in: el código es tuyo, los modelos son open source, el hardware es tuyo. Puedes llevarte el sistema in-house cuando quieras.

Si tienes datos que no pueden salir del edificio y quieres usar IA en serio, cuéntame tu caso. En la primera llamada evalúo si on-premise o cloud EU es la solución correcta para ti y qué hardware necesitas.