Intel·ligència Artificial

LLMOps: com gestionar models de llenguatge en producció

Q: ¿Qué diferencia hay entre MLOps y LLMOps?

MLOps cubre las operaciones generales de machine learning: pipelines de entrenamiento, feature stores, model serving. LLMOps extiende esto con necesidades específicas de modelos de lenguaje: prompt versioning, evaluación de calidad de texto, control de alucinaciones, gestión de costes de inferencia y guardrails de seguridad.

Q: ¿Necesito LLMOps si solo uso la API de OpenAI?

Sí. Aunque no entrenes modelos propios, necesitas monitorizar costes, latencia, calidad de respuestas y cumplimiento normativo. Sin LLMOps, no detectarás degradación del modelo, picos de costes o respuestas que incumplen tus políticas.

Q: ¿Cuánto cuesta la inferencia de LLMs en producción?

Depende del modelo y volumen. GPT-4 Turbo cuesta aproximadamente 10-30 USD por millón de tokens. Con optimización (caching, batching, modelos más pequeños para tareas simples) se puede reducir el coste un 30-60% sin perder calidad perceptible.

Q: ¿Qué es AgentOps y por qué importa?

AgentOps es la operacionalización de sistemas multi-agente basados en LLMs. Cuando tienes múltiples agentes de IA colaborando, necesitas trazabilidad de sus decisiones, control de bucles infinitos, gestión de herramientas y monitorización del coste acumulado de cada cadena de agentes.

Q: ¿Cómo afecta el EU AI Act a las operaciones de IA?

El EU AI Act clasifica los sistemas de IA por niveles de riesgo. LLMs en producción pueden caer en riesgo alto si se usan para decisiones que afectan a personas. Esto requiere documentación técnica, evaluaciones de conformidad, logging de decisiones y supervisión humana.

Q: ¿Qué métricas debo monitorizar en un LLM en producción?

Las métricas esenciales son: latencia p50/p95/p99, tasa de alucinación, coste por request, calidad evaluada con datasets curados, drift del modelo respecto al baseline, y tasa de intervención humana.

Per Josep Purroy

14 de març del 2026

Actualitzat 15 de març del 2026

12 min de lectura

Infraestructura LLMOps per a gestió de models de llenguatge en producció

LLMOps és la disciplina d'enginyeria que converteix un model de llenguatge que funciona en un notebook en un sistema fiable, escalable i amb costos controlats en producció. Si la teva empresa ja fa servir GPT-4, Claude o Llama i necessita escalar més enllà de prototips, LLMOps és el que separa un experiment interessant d'un actiu de negoci real.

El mercat ho confirma: el sector LLMOps/MLOps creix a un 39,8 % CAGR segons Business Research Insights. No és una moda — és la resposta a un problema concret que tota empresa amb IA en producció afronta.

MLOps vs LLMOps: diferències clau que importen

Si vens del món del machine learning tradicional, ja coneixes MLOps: pipelines d'entrenament, feature stores, model serving, monitorització de mètriques. LLMOps comparteix aquesta base, però afegeix capes que no existien abans.

La diferència fonamental és el no determinisme. Un model de regressió entrenat amb les mateixes dades produeix sempre la mateixa predicció. Un LLM, davant el mateix prompt, pot generar respostes diferents. Això trenca els enfocaments clàssics de testing i obliga a dissenyar avaluacions estadístiques, no binàries.

Altres diferències crítiques:

Prompt management: a MLOps no existeix el concepte. A LLMOps, els prompts són codi que es versiona, testeja i desplega amb CI/CD.
Cost d'inferència: un model clàssic costa fraccions de cèntim per predicció. Un LLM pot costar diversos euros per conversa complexa.
Avaluació de qualitat: factualitat, coherència, seguretat i al·lucinacions requereixen mètriques específiques que MLOps no contempla.
Gestió de proveïdors: amb APIs externes (OpenAI, Anthropic), depens de la disponibilitat, preus i polítiques d'un tercer.

A la pràctica, LLMOps no reemplaça MLOps — l'estén per cobrir les particularitats de treballar amb models generatius a escala.

Els 6 pilars de LLMOps

Després de més de 50 projectes LLM desplegats a Kiwop, hem condensat les operacions en sis verticals. Cadascuna respon a un problema real que apareix quan un model passa de "funciona a la meva màquina" a "serveix milers de peticions al dia".

1. Desplegament i serving de models

El primer repte és tècnic: empaquetar el model en un contenidor, desplegar-lo en infraestructura amb GPUs i configurar autoescalat. Però els detalls marquen la diferència.

Un desplegament professional inclou blue-green deployments per a actualitzacions sense downtime, GPU scheduling amb NVIDIA Triton o TGI (Text Generation Inference de Hugging Face), i autoescalat basat en queue depth — no en CPU, que és irrellevant per a càrregues d'inferència.

A Kubernetes (EKS o GKE), això significa configurar node pools específics amb GPUs, definir resource requests i limits per compartir GPUs entre models, i mantenir warm pools per evitar cold starts que degradin l'experiència de l'usuari.

2. Prompt engineering com a codi

Els prompts no són text estàtic: són la interfície entre la teva lògica de negoci i el model. Tractar-los com a tal significa versionar-los a Git, avaluar-los amb datasets de referència i desplegar-los amb CI/CD.

Eines com LangSmith o Braintrust permeten A/B testing de prompts en producció. Pots mesurar quina versió produeix millors resultats i a quin cost, i fer rollback si una nova versió degrada la qualitat. És el mateix principi que l'A/B testing en frontend, aplicat a la capa d'IA.

3. Avaluació i assegurament de qualitat

Aquí és on la majoria de projectes fallen. Sense avaluació sistemàtica, no saps si el teu model al·lucina l'1 % o el 15 % de les vegades — i la diferència pot destruir la confiança de l'usuari.

Un pipeline d'avaluació robust mesura quatre dimensions:

Factualitat: la resposta és verificablement correcta?
Coherència: té sentit lògic internament?
Rellevància: respon al que es va preguntar?
Seguretat: genera contingut danyós, esbiaixat o inapropiat?

Les avaluacions automàtiques es complementen amb revisió humana periòdica (human-in-the-loop) per calibrar els avaluadors automàtics i detectar patrons que les mètriques quantitatives no capturen.

4. Observabilitat i monitorització

Un model en producció sense observabilitat és una bomba de rellotgeria. Necessites instrumentar cada crida: latència p50/p95/p99, tokens consumits, cost per request i qualitat de resposta.

L'stack típic combina traces (LangSmith o Braintrust per a la cadena completa de RAG/agents), mètriques (Prometheus + Grafana per a dashboards operatius) i alertes configurades amb runbooks automatitzats. La detecció de drift — quan el model comença a degradar-se per canvis en les dades d'entrada — és crítica per actuar abans que els usuaris ho notin.

5. FinOps per a IA

La inferència de LLMs és cara. GPT-4o costa ~$2,5 per milió de tokens d'entrada. Amb volums alts, la factura escala ràpidament. FinOps per a IA aplica les mateixes pràctiques d'optimització de costos cloud, però adaptades a càrregues d'inferència.

Les tres palanques principals:

Caching semàntic: respostes similars a preguntes similars es serveixen des de memòria cau, evitant crides al model.
Model routing: preguntes simples van a models barats (GPT-4o-mini, Haiku); preguntes complexes van al model potent.
Batching intel·ligent: agrupar requests redueix overhead i millora throughput.

Als projectes de LLMOps que gestionem a Kiwop, l'optimització típica aconsegueix una reducció del 30-60 % en costos d'inferència sense sacrificar qualitat.

6. AgentOps: operar sistemes agèntics

AgentOps és l'evolució natural de LLMOps. Quan passes d'un model que respon preguntes a un agent que usa eines, pren decisions multi-step i orquestra altres models, les operacions es compliquen un ordre de magnitud.

Un sistema agèntic necessita traçabilitat de cada decisió, circuit breakers per tallar execucions errònies, control granular de les eines que l'agent pot usar i timeouts que evitin costos descontrolats. És el futur de les operacions d'IA, i les empreses que inverteixin ara tindran avantatge operatiu quan els agents siguin mainstream.

Infraestructura: stack open-source vs serveis gestionats

La decisió entre construir amb eines open-source o usar plataformes gestionades depèn del volum, l'equip i el nivell de control necessari.

Stack open-source típic:

Avantatge de l'open-source: control total, sense vendor lock-in, costos predictibles a escala. Trade-off: necessites un equip capaç d'operar la infraestructura.

Serveis gestionats (AWS SageMaker, Azure ML, Vertex AI) simplifiquen les operacions, però impliquen dependència del proveïdor i costos que escalen amb l'ús. Per a molts equips, un enfocament híbrid — infraestructura pròpia per a models open-source i APIs gestionades per a models propietaris — és la decisió més pragmàtica.

Optimització de costos: reduir inferència un 30-60 %

El cost d'inferència és l'elefant a l'habitació de qualsevol projecte d'IA en producció. Mentre que entrenar un model és un cost puntual, la inferència és un cost recurrent que creix linealment amb l'ús.

Un projecte típic que processa 100.000 requests al dia amb GPT-4o pot generar factures de $5.000-15.000 mensuals només en tokens. Amb les optimitzacions correctes, aquesta xifra es redueix dràsticament.

La clau és no tractar totes les peticions igual. Un sistema intel·ligent classifica la complexitat de cada request i l'encamina al model més eficient. El 60-70 % de les consultes en un chatbot empresarial són repetitives o simples — no necessiten un model de $15/milió de tokens quan un de $0,15 produeix el mateix resultat.

Combinant model routing amb caching semàntic i batching, hem aconseguit consistentment reduccions del 30-60 % en costos d'inferència als projectes que operem. La integració de LLMs ben dissenyada des de l'inici facilita enormement aquesta optimització posterior.

Qualitat en producció: al·lucinacions, guardrails i drift

La qualitat d'un LLM es degrada de maneres subtils. No falla de cop com un servidor que cau — es deteriora gradualment, i quan te n'adones, ja ha generat respostes incorrectes a centenars d'usuaris.

Detecció d'al·lucinacions

Les al·lucinacions són el risc més conegut. Un LLM genera informació falsa amb la mateixa confiança amb la qual genera informació correcta. La mitigació combina diverses capes:

RAG (Retrieval-Augmented Generation): ancorar les respostes en dades verificades redueix al·lucinacions significativament. Un sistema RAG empresarial ben implementat és la primera línia de defensa.
Validació d'outputs: regles programàtiques que verifiquen format, consistència i plausibilitat de cada resposta abans de lliurar-la a l'usuari.
Avaluació contínua: pipelines que mesuren la taxa d'al·lucinacions amb datasets de referència i alerten si supera el llindar (objectiu: <2 %).

Guardrails

Els guardrails són filtres que protegeixen tant l'usuari com l'empresa. Inclouen filtres de contingut inapropiat, rate limiting per usuari, validació de PII (dades personals) i audit logging de cada interacció. Amb l'EU AI Act ja en vigor, els guardrails no són opcionals — són requisit legal per a sistemes d'IA d'alt risc.

Detecció de drift

El drift es produeix quan les dades d'entrada canvien amb el temps i el model, que va ser optimitzat per a un tipus de consultes, comença a rebre consultes diferents. Finestres lliscants sobre mètriques de qualitat detecten la degradació abans que impacti l'usuari. Si la qualitat cau per sota del llindar definit, el sistema executa rollback automàtic a la versió anterior.

AgentOps: la frontera que ve

2026 marca la transició de "models que responen" a "agents que actuen". Un agent d'IA no només genera text — navega per webs, executa codi, consulta APIs, pren decisions i encadena múltiples passos per completar tasques complexes.

Operar agents és fonamentalment diferent d'operar un model:

Traçabilitat end-to-end: cada decisió de l'agent ha de quedar registrada. No n'hi ha prou amb saber què va respondre — necessites saber per què va prendre cada pas, quines eines va usar i quines alternatives va descartar.
Circuit breakers: si un agent entra en un bucle o comença a prendre decisions errònies, el sistema l'ha de tallar automàticament.
Costos impredictibles: un agent que decideix fer 50 crides a un LLM per completar una tasca pot generar un cost inesperat. Els límits de despesa per execució són obligatoris.
Seguretat ampliada: un agent amb accés a eines (bases de dades, APIs, sistemes d'arxius) té una superfície d'atac molt més gran que un model que només genera text.

Les empreses que estableixin pràctiques sòlides d'AgentOps ara estaran preparades per escalar quan els agents autònoms siguin la norma, no l'excepció.

Preguntes freqüents sobre LLMOps

Quina diferència hi ha entre MLOps i LLMOps?

MLOps cobreix les operacions generals de machine learning: pipelines d'entrenament, feature stores, model serving. LLMOps estén MLOps amb pràctiques específiques per a models de llenguatge: prompt versioning, avaluació de qualitat no determinista, control d'al·lucinacions i optimització de costos per token. No són disciplines separades — LLMOps és una especialització de MLOps.

Necessito LLMOps si només faig servir l'API d'OpenAI?

Sí. Usar una API no elimina la necessitat d'operacions. Continues necessitant monitoritzar costos, detectar degradació de qualitat, gestionar prompts com a codi, implementar fallbacks quan l'API falli i complir amb regulacions. De fet, la dependència d'una API externa fa que LLMOps sigui més crític, no menys.

Quant temps es tarda a implementar LLMOps?

Un pipeline bàsic (serving + monitorització) s'implementa en 4-6 setmanes. Un pipeline complet amb avaluació, guardrails, FinOps i CI/CD requereix 8-12 setmanes. Depèn de la complexitat dels models, la infraestructura existent i els requisits regulatoris.

Quant costa la inferència de LLMs en producció?

Varia enormement segons el model i el volum. GPT-4o: ~$2,5/milió de tokens d'entrada. Claude Sonnet: ~$3. Models open-source com Llama 3 en infraestructura pròpia: ~$0,2. Amb optimitzacions de FinOps (caching, batching, model routing), la reducció típica és del 30-60 % sobre el cost base.

Què és AgentOps i per què importa?

AgentOps és l'evolució de LLMOps per a sistemes agèntics: models que fan servir eines, prenen decisions encadenades i col·laboren entre si. Requereix traçabilitat de decisions, circuit breakers, control d'eines i límits de despesa per execució. És la disciplina operativa que farà viable el desplegament d'agents autònoms a escala.

Com afecta l'EU AI Act a les operacions d'IA?

L'AI Act classifica els sistemes d'IA per nivell de risc. Per a sistemes d'alt risc, exigeix audit logging obligatori, documentació tècnica, transparència en les decisions del model i supervisió humana. Un LLMOps ben implementat cobreix aquests requisits des del disseny: traces completes, guardrails documentats i registres de totes les interaccions.

Puc fer servir models open-source en lloc d'APIs comercials?

Sí. Llama 3, Mistral i Qwen són alternatives viables per a molts casos d'ús. L'avantatge: cost predictible, sense dependència de tercers, dades a la teva infraestructura. El trade-off: necessites GPUs i expertise per operar el serving. La decisió òptima sol ser un enfocament híbrid — open-source per a càrregues base i APIs comercials per a pics o tasques que requereixen els models més avançats.

Quines mètriques he de monitoritzar en un LLM en producció?

Les mètriques essencials són: latència (p50, p95, p99), throughput (requests per segon), taxa d'errors, cost per request, qualitat de resposta (factualitat, coherència, rellevància) i taxa d'al·lucinacions. Per a agents, afegeix: passos per execució, taxa d'èxit de tasques i cost per tasca completada.

Conclusió

LLMOps no és un luxe ni una capa opcional — és el que determina si la teva inversió en IA genera retorn o es queda en un experiment de laboratori. Les sis verticals (desplegament, prompts com a codi, avaluació, observabilitat, FinOps i AgentOps) formen un framework complet per operar models de llenguatge amb rigor d'enginyeria.

Si tens models d'IA que funcionen en un notebook però no en producció, o si ja ets en producció però sense visibilitat sobre costos i qualitat, el nostre equip de LLMOps pot ajudar-te a tancar aquesta bretxa en 4-12 setmanes.

Preguntes freqüents

¿Qué diferencia hay entre MLOps y LLMOps?