Cómo implementar evals como unit tests para LLMs

Qué son los evals; los unit test de los LLMs

Tiempo estimado de lectura: 4 min

Los evals son unit tests para sistemas basados en LLMs: pipelines reproducibles que miden si un modelo/prompt/pipeline sigue entregando lo que el negocio necesita.
Tipos de evaluadores: determinista (regex/JSON Schema), semántico (embeddings + similitud) y LLM-as-a-Judge.
Práctica: crea un dataset representativo, define la métrica principal, implementa runner y scorer, e integra en CI/CD.

Introducción

Que son los evals; los unit test de los llms. Lo repito porque es la pregunta que nadie hace en serio hasta que algo falla en producción y empiezan a llover tickets.

Resumen rápido (lectores con prisa)

Eval: pipeline reproducible con dataset (golden set), runner, scorer y reporte que actúa como CI para la parte probabilística del sistema. Busca señales (factualidad, coherencia, formato), no igualdad exacta. Usa validación determinista, similitud de embeddings o un LLM-judge según el caso.

¿Qué son los evals; los unit test de los llms?

Un eval es un pipeline reproducible: un dataset de entradas y salidas (golden set), un runner que envia prompts al modelo, un scorer que compara la respuesta con criterios, y un reporte que te dice si rompiste algo. Piénsalo como CI para la parte probabilística del sistema.

A diferencia de un test unitario clásico, aquí no buscas igualdad exacta: buscas señales. Precisión factual, coherencia, formato JSON válido, ausencia de alucinaciones, y que el tono encaje con la interfaz. Todo eso se mide con métricas y reglas. Y sí: algunas veces el “juez” también es otro LLM.

Tipos prácticos de evaluadores (y cuándo usarlos)

Descripción breve de los enfoques más prácticos para evaluar salidas de LLMs y cuándo aplicarlos.

Determinista

Regex, validación de esquema (JSON Schema), comprobaciones de campo. Útil cuando la salida debe ser parseable. Ejemplo: validar que el LLM devuelva {"name": "...", "email": "..."}.

Semántico

Embeddings + similitud coseno. Ideal para summarization y Q&A donde importa el sentido, no la palabra exacta.

LLM-as-a-Judge

Un LLM potente evalúa las respuestas según una rúbrica. Sirve para tono, coherencia o seguridad, pero introduce sesgo y coste.

No mezcles métricas porque sí. Prioriza la que más impacta tu negocio: si tu app depende de JSON bien formado, la métrica principal es “JSON parseable + campos obligatorios”.

Herramientas y referencias prácticas

Empieza con herramientas que ya existen:

Estos proyectos te dan fixtures, runners y ejemplos para arrancar. No reinventes la rueda: adapta un benchmark a tu caso de uso.

Cómo montar tu primer eval (en 5 pasos reales)

Pasos concretos para crear un eval operativo.

1. Crea un dataset de 50–100 ejemplos representativos

Incluye casos comunes y edge cases que te aterran.

2. Define la métrica principal

Ej.: exact match para IDs, coseno>0.85 para respuestas semánticas, 0-1 score para seguridad.

3. Implementa el runner

Script que llama al LLM con el prompt actual y guarda outputs.

4. Añade el scorer

Validación JSON + embeddings o LLM-judge según necesites.

5. Integra en CI/CD

Si la puntuación baja del umbral, el pipeline falla y se bloquea el despliegue.

Resultado: antes de tocar el botón de deploy sabes si rompiste la experiencia.

Ejemplo corto: validar extracción de entidades en n8n

Tienes un workflow que extrae nombre, email y producto de emails entrantes. Tu eval debería:

Enviar 200 emails sintéticos + reales.
Comprobar que el JSON sea válido.
Verificar que el campo email pase regex.
Comparar entidades con embeddings para detectar ocasionalmente false negatives.

Si el score cae de 0.92 a 0.82 tras un cambio de prompt, no lo llames “variación normal”. Llama a la rollback.

Peligros reales (y cómo evitarlos)

Data contamination: cuidado con ejemplos de test que el modelo ya vio en entrenamiento. Usa datos frescos.
Varianza: ejecuta cada caso varias veces (n=3–5) y usa la media o el percentil.
Métricas irrelevantes: BLEU o ROUGE por costumbre no te salvan; usa métricas alineadas con el objetivo del negocio.
Juez sesgado: si usas un LLM como juez, documenta la rúbrica y haz validaciones humanas periódicas.

Punto para líderes técnicos

Los evals transforman subjetividad en trazabilidad. Permiten comparar coste vs. calidad (GPT-4o-mini vs. otro) con cifras, no con intuiciones. Integrar evals es un paso pequeño en esfuerzo y gigante en reducción de riesgos.

Haz esto ahora: crea un mini-eval con 50 ejemplos, añade una job en tu CI que ejecute el runner y falle si el score < 0.8. Si en 2 semanas no tienes alertas útiles, sube el umbral.

No es sexy. Es necesario. Y cuando el sistema falle a las 3 a.m., agradecerás haberlos hecho.

Dominicode Labs

Si trabajas con automatización, IA aplicada, n8n o workflows, puede interesarte explorar recursos adicionales en Dominicode Labs. Es una continuación lógica para prototipar mini-evals y automatizar runners en pipelines existentes.

FAQ

Preguntas frecuentes — haz clic en una pregunta para ir a la respuesta.

¿Qué es un eval?
¿Cuándo usar evaluadores deterministas?
¿Por qué usar embeddings en evaluaciones semánticas?
¿Cómo integrar evals en CI/CD sin frenar despliegues válidos?
¿Qué precauciones tomar si uso un LLM como juez?

¿Qué es un eval?

Un eval es un pipeline reproducible que incluye un dataset (golden set), un runner que llama al modelo, un scorer que compara salidas según reglas o métricas y un reporte que indica si el rendimiento cumple el umbral esperado.

¿Cuándo usar evaluadores deterministas?

Usa evaluadores deterministas cuando la salida debe ser parseable y exacta (por ejemplo JSON con campos obligatorios). Validaciones por regex y JSON Schema son adecuadas en esos casos.

¿Por qué usar embeddings en evaluaciones semánticas?

Porque las tareas como summarization y Q&A requieren comparar significado, no coincidencia literal. Embeddings + similitud coseno capturan la proximidad semántica entre la salida y la referencia.

¿Cómo integrar evals en CI/CD sin frenar despliegues válidos?

Define umbrales claros y ejecuta las evaluaciones en una job separada. Si el score baja del umbral, falla la job y bloquea el despliegue. Ajusta el umbral basado en datos y monitoriza alertas para evitar falsos positivos.

¿Qué precauciones tomar si uso un LLM como juez?

Documenta la rúbrica, valida el juez con comparaciones humanas periódicas y considera el sesgo y coste. Guarda ejemplos y decisiones para auditoría.