Tag: Programación

Implementación de memoria en agentes de IA para una gestión eficiente
Memoria en agentes de IA — CoALA, Mem0, Letta, Zep

Tiempo estimado de lectura: 4 min
Ideas clave
- La memoria separada convierte demos en productos: el diseño determina seguridad, costo y utilidad.
- CoALA propone cuatro capas de memoria para organizar responsabilidades y políticas.
- Mem0, Letta y Zep cubren distintos niveles: personalización entre sesiones, RAM operativa y memoria a escala respectivamente.
- Implementa gates, versionado, trazabilidad y pruebas de regresión para evitar drift y conflictos.
Tabla de contenidos
Introducción

La memoria en agentes de IA — CoALA, Mem0, Letta, Zep no es un tema académico bonito: es la diferencia entre un asistente útil y un agente que toma decisiones peligrosas después de tres días de uso. Si construyes agentes, tienes que decidir qué recordar, cómo hacerlo y quién corrige cuando la memoria miente. Punto.

Resumen rápido (lectores con prisa)

CoALA: arquitectura conceptual con cuatro capas de memoria para separar responsabilidades. Mem0: persistencia de perfil y preferencias entre sesiones. Letta: gestión del contexto operativo (RAM vs disco) para agentes de larga duración. Zep: infraestructura asíncrona para memoria a escala y baja latencia. Usa gates, versionado y trazabilidad para mitigar drift y conflictos.

Memoria en agentes de IA — qué propone CoALA (y por qué importa)

CoALA (Cognitive Architectures for Language Agents) es el mapa mental que deberías leer antes de elegir tecnología. No es una librería; es una arquitectura conceptual que separa responsabilidades de memoria en cuatro capas:

Memoria de trabajo

la ventana de contexto activa del LLM — efímera y cara.

Memoria episódica

historial de eventos y acciones — útil para debugging y trazabilidad.

Memoria semántica

hechos estables y preferencias del usuario — lo que define el perfil.

Memoria procedimental

herramientas, prompts y rutinas — cómo actúa el agente.

Diseñar según CoALA significa decidir por anticipado qué pertenece a cada capa y qué políticas aplicas para mover datos entre ellas. Sin ese mapa, cualquier solución termina en un RAG desordenado o en una “caja negra” que acumula ruido.

Mem0: memoria de usuario para personalización

Mem0 es la categoría de herramientas centradas en persistir hechos del usuario y preferencias. En la práctica:
- Extrae entidades y preferencias desde la conversación.
- Las indexa en un vector store + metadatos.
- Cuando el usuario regresa, inyecta solo lo necesario: preferencias, roles, restricciones.
Cuándo usar Mem0: productos donde la coherencia entre sesiones importa (soporte, asistentes personales, CRMs conversacionales). No esperes de Mem0 la gestión de contexto operativo de un agente que corre tareas autónomas por horas; su foco es perfilización y personalización.

Letta: el agente que administra su propia RAM

Letta aborda la memoria como un sistema operativo para agentes. Conceptualmente:
- Divide el contexto en Main Context (RAM) y External Context (disco).
- El agente tiene funciones para decidir qué traer a RAM, cuándo resumir episodios y cuándo purgar información.
- Aplica paginación y compactación automática para mantener la relevancia dentro del límite de tokens.
Cuándo usar Letta: agentes autónomos de larga duración — research agents, asistentes de coding que mantienen estado operativo o pipelines que deben razonar sobre eventos pasados extensos. Letta añade autonomía, pero también complejidad operacional: monitorización, logs y políticas de gobernanza son obligatorios.

Zep: memoria a escala y baja latencia para producción

Zep es la opción de infraestructura: microservicio que procesa memoria de forma asíncrona y entrega contexto prefiltrado con baja latencia.
- Extrae hechos, construye resúmenes y grafos de conocimiento en background.
- Reduce el coste en inferencia en tiempo real porque el trabajo pesado está hecho antes.
- Ideal para entornos B2B de alto tráfico donde milisegundos y consistencia importan.
Cuándo usar Zep: productos que atienden muchos usuarios concurrentes y necesitan recuperar relaciones complejas entre entidades sin sacrificar SLA.

Criterio para elegir (resumen práctico)
- Necesitas perfilamiento entre sesiones → Mem0.
- Necesitas un agente que se gestione a sí mismo durante horas/días → Letta.
- Necesitas latencia baja a escala y relaciones entre entidades → Zep.
- Necesitas diseñar el sistema completo antes de implementar → CoALA como guía.
Riesgos técnicos que no puedes ignorar

– Memory drift: si un agente almacena una inferencia incorrecta, esa “mentira” contamina decisiones futuras. Implementa mecanismos de verificación y anclaje (por ejemplo, expiración automática o validación humana).

– Conflictos de memoria: cuando dos hechos contradictorios coexisten, la resolución automática es no determinista. Loggear confianza, orígenes y versiones de cada hecho ayuda a auditar.

– Derecho al olvido y cumplimiento: borrar vectores y metadatos es posible, pero garantizar que el agente “olvide” inferencias derivadas de esos datos es técnicamente complejo. Diseña flujos de eliminación y revisiones humanas para datos sensibles.

– Observabilidad y gobernanza: sin trazabilidad de qué dato fue recuperado y por qué, no puedes depurar ni atribuir responsabilidad. Cada recuperación debe registrar fuente, score y prompt usado.

Implementación: checklist mínimo antes de producción
- Define qué tipos de memoria necesita tu agente (CoALA).
- Añade gates en la recuperación: score mínimo, límite de tokens y razón de inclusión.
- Versiona la memoria: cada actualización con sello temporal y origen.
- Pruebas de regresión para el comportamiento basado en memoria (no solo unitarias).
- Monitoreo de drift: alertas automáticas cuando la tasa de correcciones humanas sube.
La memoria transforma agentes de demos en productos reales. No es una feature; es una capa de infraestructura con requerimientos de producto, seguridad y mantenimiento. Si vas a construir agentes que duren, diseña memoria con criterio ahora — después ya será demasiado caro corregirlo. En los próximos posts de Dominicode veremos ejemplos prácticos: pipeline de Mem0 para asistentes y cómo instrumentar Letta en un agente de investigación.

Dominicode Labs

Si trabajas en automatización, agentes o IA aplicada y quieres ejemplos prácticos y pipelines listos para producción, explora recursos y experimentos en Dominicode Labs. Es una continuación lógica para ver implementaciones de Mem0, Letta y arquitecturas inspiradas en CoALA.
FAQ
¿Qué es CoALA?

CoALA es una arquitectura conceptual que separa responsabilidades de memoria en cuatro capas: memoria de trabajo, episódica, semántica y procedimental. No es una librería, sino un mapa mental para diseñar memoria en agentes.

¿Para qué sirve Mem0?

Mem0 persiste hechos del usuario y preferencias entre sesiones. Se usa para perfilamiento y personalización en productos donde la coherencia inter-sesiones importa (por ejemplo, CRMs conversacionales o asistentes personales).

¿Cuándo debo usar Letta?

Usa Letta para agentes autónomos de larga duración que necesitan gestionar activamente su contexto (RAM vs disco), como research agents o asistentes de coding que operan durante horas o días.

¿Qué aporta Zep a producción?

Zep ofrece una capa de infraestructura que procesa memoria en background, construye resúmenes y grafos, y entrega contexto prefiltrado con baja latencia, útil en entornos B2B de alto tráfico.

¿Cómo mitigo el memory drift?

Implementa mecanismos de verificación, expiración automática, validación humana, trazabilidad de orígenes y versionado para detectar y corregir inferencias incorrectas almacenadas en memoria.

¿Qué pruebas son críticas antes de lanzar?

Además de pruebas unitarias, haz pruebas de regresión específicas para comportamiento influido por memoria, monitoriza drift y añade alertas cuando sube la tasa de correcciones humanas.
June 6, 2026
Implementando Claude Code para la automatización de desarrollo en Angular y NestJS
Claude Code como herramienta diaria de desarrollo

Tiempo estimado de lectura: 5 min
- Orquestación de tareas multi-archivo y ejecución de CLI para migraciones, generación de boilerplate y correcciones automáticas.
- Requiere contexto persistente (ej. archivo CLAUDE.md) para evitar alucinaciones y errores arquitectónicos.
- Útil para flujos repetibles y tests automatizados; no ideal para retoques UI o tareas atómicas simples.
Resumen rápido (lectores con prisa)

Claude Code es un agente orientado a orquestar tareas que implican múltiples archivos y ejecución de CLI. Úsalo cuando necesites migraciones, generación de boilerplate, tests y correcciones automáticas a partir de stack traces. No es la mejor opción para escribir una sola función o pulir UI.

Por qué usar (o no) Claude Code en tu flujo diario

Claude Code Claude Code está pensado para tareas que van más allá del autocompletado: migraciones, generación de boilerplate, tests y correcciones automáticas tras detectar fallos en la terminal. No es mejor que Copilot para escribir una función; es más útil cuando la tarea implica múltiples archivos y ejecución de CLI.

Ventajas reales:
- Orquestación multi-archivo y ejecución de comandos.
- Correcciones automáticas tras leer stack traces.
- Generación de tests y refactors repetibles.
Limitaciones reales:
- Consumo alto de contexto/token en sesiones largas.
- Riesgo de sobreescritura si la instrucción es ambigua.
- Posible bucle de corrección ante errores complejos.
Decisión simple: úsalo para tareas de orquestación; no para retoques visuales ni diseño fino de UI.

Preparación: cómo darle contexto al agente

Sin contexto, el agente alucina. La práctica que funciona es tener un archivo de contexto que el agente lea antes de actuar. Crea CLAUDE.md en la raíz:
```
# CLAUDE: reglas del repo
Stack:
- Backend: NestJS 10 (TypeScript estricto)  https://nestjs.com/
- Frontend: Angular 17 (standalone components, Signals)  https://angular.io/

Convenciones:
- DTOs con class-validator
- Servicios inyectados por constructor
- Componentes standalone, sin NgModules
- Commits en Conventional Commits
```
Ese archivo actúa como prompt persistente. Reduce alucinaciones arquitectónicas y mejora resultados.

Tutorial práctico: flujo real con NestJS y Angular

Objetivo: crear recurso Products en backend (NestJS) y consumirlo desde Angular, con tests básicos.

1) Generar recurso en NestJS

En la carpeta del backend:
```
# instrucción al agente
claude "Lee CLAUDE.md. Genera recurso Products en NestJS: Controller, Service, DTO CreateProductDto con class-validator. Ejecuta npm run build y corrige errores."
```
Qué hará:
- Ejecutará nest g res products o creará manualmente los archivos.
- Insertará DTOs con validaciones (@IsString, @IsNumber).
- Ejecutará npm run build; si TypeScript falla, leerá el stack trace y aplicará correcciones iterativas.
Ejemplo mínimo de DTO que el agente debe crear:
```
// create-product.dto.ts
import { IsString, IsNumber } from 'class-validator';
export class CreateProductDto {
  @IsString()
  name: string;

  @IsNumber()
  price: number;
}
```
2) Consumir endpoint desde Angular

En la carpeta del frontend:
```
claude "Crea ProductService usando provideHttpClient y un componente ProductFormComponent standalone. Usa Signals para estado de formulario. Ejecuta ng build y corrige tipados."
```
Qué esperar:
- Creación de product.service.ts con funciones que llaman al endpoint.
- ProductFormComponent standalone con Signals para isLoading y errors.
- ng build que verifica tipado y dependencias; el agente corrige importaciones o tipos si hay fallos.
Fragmento esperado en Angular:
```
// product.service.ts (simplificado)
import { inject } from '@angular/core';
import { HttpClient } from '@angular/common/http';
export const ProductService = () => {
  const http = inject(HttpClient);
  return {
    create: (payload: any) => http.post('/api/products', payload)
  };
};
```
3) Generar tests automatizados

Comando recomendado:
```
claude "Genera tests Jest para products.service.ts y products.controller.ts. Ejecuta npm run test y corrige mocks hasta que la suite pase."
```
Valor: te ahorra el 70% del trabajo repetitivo de mocks y boilerplate.

Riesgos y contramedidas operativas
1. Trabaja siempre en una rama aislada:
  – git checkout -b feat/claude-codex
  – Nunca en main o develop.
2. Limita la ventana de contexto:
  – Corta sesiones largas. Ejecuta tareas atómicas y revisa resultados antes de continuar.
3. Evita permisos globales de escritura en archivos sensibles:
  – Usa .claudeignore para bloquear rutas (si la herramienta lo soporta) o un wrapper que restrinja paths.
4. Plan para fallos en node_modules:
  – Si entra en bucle, interrumpe y ejecuta npm ci o reinstala dependencias; luego reintenta con más contexto.
Checklist para adopción en equipo
- [ ] CLAUDE.md con convenciones del repo.
- [ ] Branching obligatorio para sesiones de agente.
- [ ] Scripts de CI que validen outputs generados por el agente.
- [ ] Monitoreo de consumo de API/tokens.
- [ ] Política interna para revisar commits automáticos antes de merge.
Claude Code no es una varita mágica; es una herramienta poderosa si la gobiernas. Si empiezas documentando el proyecto y limitando sus permisos, te dará horas de productividad en tareas repetitivas y orquestación. Si no, corregirás borradores y rollbacks a mano. La diferencia está en las reglas y la disciplina.

Relacionado: visita Dominicode Labs para ver experimentos y guías sobre agentes y automatización. Esta mención encaja como continuación lógica para equipos que exploran flujos de IA aplicada y agentes.

FAQ
¿Qué es Claude Code y para qué sirve?

Claude Code es un agente diseñado para orquestar tareas que implican múltiples archivos y comandos de terminal: migraciones, generación de boilerplate, tests y correcciones automáticas tras fallos. Es especialmente útil cuando la tarea requiere ejecutar CLI y aplicar cambios iterativos.

¿Cuándo debería usar Claude Code en lugar de Copilot?

Usa Claude Code cuando la tarea sea multi-archivo, requiera ejecución de comandos o correcciones a partir de stack traces. Para pequeñas funciones o autocompletado local, Copilot suele ser más eficiente.

¿Cómo debo preparar mi repo antes de usar el agente?

Crea un archivo de contexto persistente (por ejemplo CLAUDE.md) con stack, convenciones y reglas del repo. Trabaja en una rama aislada y asegúrate de tener scripts de CI que validen cambios automáticos.

¿Qué riesgos operativos debo mitigar?

Principales riesgos: sobreescritura de archivos, consumo excesivo de tokens en sesiones largas y bucles de corrección. Mitígalo con ramas aisladas, límites de sesión y mecanismos para restringir paths sensibles (por ejemplo .claudeignore o wrappers).

¿Cómo integro tests automatizados en el flujo del agente?

Pide al agente generar tests Jest para servicios y controladores, ejecutar npm run test y corregir mocks hasta que la suite pase. Complementa con scripts de CI que validen los cambios generados antes del merge.

¿Qué hacer si el agente entra en bucle de correcciones?

Interrumpe la sesión, ejecuta npm ci o reinstala dependencias, revisa el contexto y reintenta con instrucciones más atómicas y detalladas. Limitar la ventana de contexto también ayuda a evitar bucles.
June 5, 2026
Cómo gestionar PRs generadas por agentes en la revisión de código
Code review en equipos con agentes — qué cambia cuando el 60% del código no lo escribió un humano

Tiempo estimado de lectura: 4 min
- La revisión pasa de comprobación sintáctica a auditoría semántica y arquitectónica.
- El volumen y la fatiga de revisión aumentan; los humanos agregan criterio, no velocidad pura.
- Reglas operativas: prompts en PR, PRs pequeñas, tests deterministas y gates automáticos.
- Responsabilidad y formación deben definirse: ownership legal y mentoría combinada hombre-máquina.
Code review en equipos con agentes — qué cambia cuando el 60% del código no lo escribió un humano: esa frase ya debería sonar como una alarma. Si tu repositorio empieza a parecer una fábrica de PRs escritas por LLMs, no estás ante una mejora de productividad: estás ante un cambio de paradigma en la gobernanza del código.

El problema no es que el código generado sea malo. Es que es convincente. Y lo convincente pasa sin pedir permiso por la puerta de revisión.

Resumen rápido (lectores con prisa)

Qué es: Código producido por agentes (LLMs/agentes automatizados) que entra al repositorio vía PR.

Cuándo usarlo: Cuando buscas acelerar tareas repetibles, con controles automáticos y ownership claro.

Por qué importa: Cambia la revisión de sintaxis a auditoría de dominio, coherencia y riesgos.

Cómo funciona: Implementa gates automáticos, exige prompts en PRs, fragmenta PRs grandes y usa agentes como primer filtro.

Cuando la mayoría del código viene de agentes

Cuando la mayoría del código viene de agentes, la revisión deja de ser corrección ortográfica. Pasa a ser auditoría semántica, arquitectónica y de riesgos. La prioridad deja de ser “¿compile?” y pasa a ser “¿esto respeta nuestro dominio, nuestras abstracciones y nuestras reglas de operación?”.

A partir de ahí, todo cambia: volumen de PRs, tipos de errores dominantes, responsabilidad técnica y los criterios mínimos para aceptar cambios.

Los cuatro efectos inmediatos que verás

1. Fatiga de revisión a escala

Un agente puede abrir varias PRs en minutos. Leer código cuesta. El riesgo real es aprobar por inercia. No es moral; es una falla de proceso.

2. Ruido ejecutivo: syntactic correctness ≠ business correctness

Linters y tipado son una alfombra. Bajo ella puede haber duplicaciones, incompatibilidades con contratos internos o decisiones de diseño rotas.

3. Pérdida de contexto global

Los agentes funcionan bien en ámbitos locales. Fallan cuando hay decisiones históricas, utilidades compartidas o patrones no escritos. El repo se fragmenta si nadie vigila la coherencia.

4. Reasignación del valor humano

El humano deja de competir en velocidad y pasa a proporcionar criterio: editor, arquitecto y protector de deuda técnica.

Reglas prácticas para revisar PRs generadas por IA

Obligatoriedad del prompt en la PR

Cada PR que provenga de un agente debe incluir: el prompt completo, parámetros del agente (temperature, model, herramientas usadas) y, si aplica, los snippets intermedios que el agente evaluó. Sin esto, rechaza la PR.

PRs pequeñas y cambiables

Límite duro: <400 líneas por PR. Si un agente genera más, fracciona. Revisa unidades pequeñas y reusables, no borradores monolíticos.

Pipeline que no negocia: tests + validadores automáticos

Nada pasa si no hay tests deterministas. Añade validadores automatizados (SAST, DAST, complejidad ciclomática) y gates en CI que bloqueen merges hasta cumplir umbrales.

Agentes revisando a agentes (primer filtro)

Usa workflows (p. ej. n8n) para que un agente verificador haga la primera pasada: seguridad, duplicados, dependencias nuevas. Solo PRs filtradas llegan a humanos.

Código como contrato: exige integraciones con Code Owners

Que las áreas propietarias (backend, auth, shared-utils) deban aprobar cambios automáticos en su zona. No delegues ownership a un bot.

Criterios claros para aprobar o rechazar (chequeo rápido)

Aprueba manualmente si:
- Prompt incluido y comprensible.
- PR ≤ 400 líneas.
- Tests cubren casos límite relevantes.
- No introduce dependencias externas sin aprobación.
- Integra con abstractions/shared modules existentes.
Rechaza o solicita rework si:
- No hay prompt o está incompleto.
- Replica utilidades existentes.
- Falla validadores automáticos de seguridad o complejidad.
- No hay evidencia de decisión humana sobre trade-offs.
Riesgos no técnicos que debes tener en cuenta

Responsabilidad y ownership: una vulnerabilidad surgida de un output de IA que fue aprobada por cansancio recae en personas y procesos. Define legalmente quién firma cambios críticos.

Formación del equipo: si los juniors solo “pegotean” código generado, la curva de aprendizaje se aplana. Plan de mentoría obligatorio: revisiones combinadas hombre-máquina para formación.

Conclusión: el criterio gana peso

Si 60% del código viene de agentes, tu ventaja competitiva no estará en cuánto puedes generar, sino en cuánto puedes coordinar, auditar y dar criterio sobre ese output. El trabajo humano deja de ser teclear y pasa a ser decidir.

¿Quieres dejar de sufrir LGTM y convertir a tus agentes en productores útiles en lugar de ruido? Empieza por exigir prompts en cada PR, probar todo y automatizar el primer filtro con agentes. Si lo haces, ganarás velocidad sin perder control.

Apúntate a la newsletter de Dominicode para recibir plantillas de prompts, ejemplos de pipelines en n8n y una checklist lista para aplicar mañana.

Dominicode Labs

Si trabajas con automatización, IA aplicada, n8n, agentes o workflows, puedes encontrar recursos y ejemplos prácticos en Dominicode Labs. Es una continuación lógica para plantillas de prompts y pipelines aplicables de inmediato.

FAQ
Respuesta: Cada PR debe incluir el prompt completo, parámetros del agente (por ejemplo: temperature, model, herramientas usadas) y los snippets intermedios que el agente evaluó. Sin esto, la PR debe rechazarse.

Respuesta: Aplica un límite duro: <400 líneas por PR. Si un agente genera más, fracciona en unidades pequeñas y revisables. Revisa unidades reusables, no borradores monolíticos.

Respuesta: Nada debe pasar sin tests deterministas. Añade validadores automatizados (SAST, DAST, complejidad ciclomática) y gates en CI que bloqueen merges hasta cumplir umbrales.

Respuesta: Usa workflows para que un agente verificador haga la primera pasada (seguridad, duplicados, dependencias). Ejemplo de herramienta citada: n8n. Solo las PRs filtradas llegan a revisión humana.

Respuesta: La responsabilidad recae en personas y procesos si una vulnerabilidad aprobada por cansancio entra en producción. Define legalmente quién firma cambios críticos.

Respuesta: Implementa un plan de mentoría obligatorio: revisiones combinadas hombre-máquina para asegurar que los juniors aprendan criterio, no solo a pegar código generado.
June 5, 2026
Cómo garantizar la confiabilidad del código generado por IA
Vibe Coding: la trampa del 84%

Tiempo estimado de lectura: 3 min
Ideas clave
- El 84% de desarrolladores usa IA a diario, pero solo el 29% confía en el código generado — la brecha es riesgo operativo.
- Los LLMs generan código verosímil pero frágil: happy-paths, alucinaciones de API y antipatrones a escala.
- Auditoría práctica: validar dependencias, exigir sad-paths desde el prompt, tests humanos para edge cases, auditar queries y requerir métricas.
- Aplicar Zero Trust: checklist de confianza y CI que impida merges sin cobertura e instrumentación.
Tabla de contenidos
Introducción

Vibe Coding: la trampa del 84% no es un titular sensacionalista: es una advertencia práctica. El 84% de los desarrolladores usa IA diariamente, pero solo el 29% confía en el código que obtiene. Esa brecha no es una estadística; es un agujero por donde entra la deuda técnica, la fuga de datos y las regresiones en caliente. (Fuente: Stack Overflow Developer Survey 2024)

Este artículo te da un marco operativo: cómo revisar, auditar y —sobre todo— confiar en código generado por modelos de lenguaje sin que la velocidad mate la fiabilidad.

Resumen rápido (lectores con prisa)

Los LLMs generan código verosímil pero no garantizan manejo de errores ni adaptación al dominio. Valida dependencias, exige sad-paths desde el prompt, escribe tests humanos para edge cases y exige métricas y trazas antes de mergear.

Vibe Coding: la trampa del 84% — por qué sucede y qué rompe

El problema no es que la IA escriba mala sintaxis. Es que escribe código verosímil. Y lo verosímil engaña al ojo. Un LLM predice tokens; no entiende tu dominio, tus SLAs ni tu topología de datos. Eso genera tres fallos constantes:
- Happy-path en serie: el código funciona cuando todo va bien. No maneja latencias, timeouts o datos corruptos.
- Alucinaciones de API: métodos que “suenan” correctos pero no existen en tu versión de la librería.
- Antipatrones a escala: consultas N+1, bloqueos por locks mal usados, o rutas críticas sin instrumentación.
Aceptar ese output sin auditoría es como aceptar un merge request sin tests: rápido, pero peligroso.

Auditoría práctica: pasos que aplicas hoy mismo

Cambia tu rol: con IA, no recibes código; recibes la propuesta de un “junior hiperproductivo”. Revíalo como tal.

1) Valida dependencias antes de instalar
- No copies imports sin comprobar. Busca la API en la documentación oficial.
- Consulta npm para fecha de publicación y descargas.
- Ejecuta npm audit tras añadir paquetes y antes de mergear. Herramienta: docs.npmjs.com/cli/v9/commands/npm-audit
2) Obliga el Sad Path desde el prompt
- No pidas solo “la función”. Pide manejo de fallos, retries y logging contextual.
- Prompt débil: “Genera una función que llame a la API de pagos”
- Prompt fuerte:
  "Genera una función que llame a la API de pagos. Incluye: - timeout y retry con backoff exponencial, - logging con requestId y contexto, - pruebas de unidad para timeouts y respuestas 5xx, - no devolver datos sensibles en la respuesta."
3) Tests: el humano decide los edge cases
- No dejes que la IA escriba tanto la función como los tests críticos.
- Define tú los casos límite y las aserciones. La IA puede generar mocks y el setup repetitivo.
- Cubre: inputs inválidos, latencias extremas, concurrencia (race conditions) y fallos de autenticación.
4) Base de datos: audita las queries antes de producción
- Habilita logging de queries en dev y revisa el número de hits por operación.
- Verifica índices para columnas filtradas.
- Comprueba serialización de objetos para no exponer campos sensibles.
5) Métricas y observabilidad como contrato
- Exige que cualquier cambio generado incluya: métricas (latencia, error rate), trazas correlacionadas y logs estructurados.
- Si el PR no contiene instrumentación mínima, reviértelo.
Checklist de confianza (Zero Trust aplicado)
- [ ] Prompts que exigen Sad Path y límites de recursos.
- [ ] Dependencias verificadas y npm audit limpio.
- [ ] Tests escritos por humanos para edge cases críticos.
- [ ] Logging y tracing incluidos en el cambio.
- [ ] Revisión de queries e índices en DB.
- [ ] Branch aislado y CI que rechaza merge sin cobertura mínima.
Cuándo delegar y cuándo no

Usa IA para acelerar tareas repetitivas y de bajo riesgo:
- Boilerplate, DTOs, validaciones simples, plantillas de tests, conversiones de sintaxis.
No delegues a la IA decisiones de criterio:
- Modelado de dominio, reglas de autorización, diseño de esquemas, SLAs o decisiones que impacten seguridad y privacidad.
Cierre directo

La diferencia entre el 84% que usa IA y el 29% que confía en ella no es tecnología: es proceso y criterio. Si tu equipo aprende a auditar como si cada PR viniera de un “junior sin contexto”, reducirás fallos graves sin renunciar a la velocidad.

La IA debe ahorrar tipeo; no debe asumir la responsabilidad arquitectónica. Haz que ese sea tu contrato interno hoy.

Una continuación práctica y recursos relacionados están disponibles en Dominicode Labs, donde se publican frameworks y workflows para auditoría y observabilidad integrables en equipos que usan IA.

FAQ
¿Por qué no confiar de entrada en código generado por IA?

Porque los LLMs generan código verosímil sin comprender tu dominio, SLAs o topología de datos. Ese código puede funcionar en happy-paths pero fallar en latencia, datos corruptos o versiones de librerías.

¿Qué preguntas agregar al prompt para obtener código más fiable?

Exige manejo de fallos, retries con backoff, timeouts, logging contextual (requestId), pruebas unitarias para errores 5xx y restricciones sobre datos sensibles.

¿Cómo validar dependencias antes de instalarlas?

Comprueba la API en la documentación oficial, revisa fecha de publicación y descargas en npm y ejecuta npm audit tras añadir paquetes y antes de mergear.

¿Qué tests deben escribir los humanos?

Los humanos deben definir y escribir tests para edge cases críticos: inputs inválidos, latencias extremas, condiciones de carrera y fallos de autenticación. La IA puede generar mocks y setups repetitivos.

¿Qué instrumentación mínima exigir en un PR?

Métricas de latencia y tasa de error, trazas correlacionadas y logs estructurados. Si el PR no contiene instrumentación mínima, debería revertirse.

¿Cuándo es apropiado delegar tareas a la IA?

Para tareas repetitivas y de bajo riesgo: boilerplate, DTOs, validaciones simples, plantillas de tests y conversiones de sintaxis. No para modelado de dominio, reglas de autorización, diseño de esquemas o decisiones que afecten seguridad y privacidad.
June 4, 2026
Cómo mejorar la calidad del código con Spec-Driven Development
Spec-Driven Development en la práctica: del prompt al código mantenible — Un walkthrough real mostrando cómo una buena spec cambia la calidad del output de Claude Code o Cursor. Caso antes/después

Tiempo estimado de lectura: 6 min
- Ideas clave:
- Una spec técnica reduce la ambigüedad en prompts y convierte salidas generativas en contratos verificables.
- Sin spec, los LLMs tienden a producir código rápido pero frágil y con deuda técnica.
- Una spec mínima (stack, artefactos, contratos, edge cases) es suficiente para outputs reproducibles y testeables.
- Integra specs en CI/PR para automatizar comprobaciones y mantener control humano sobre arquitectura.
Tabla de contenidos
Spec-Driven Development en la práctica: del prompt al código mantenible — esto no es una etiqueta elegante. Es la diferencia entre código que sobrevive y código que tendrás que reescribir dentro de tres sprints. Si usas Claude Code, Cursor o cualquier herramienta generativa, sin una spec clara estás empujando decisiones arquitectónicas a un modelo estadístico.

En estas primeras líneas: definimos el problema, mostramos un caso antes/después y entregamos una receta práctica para que tu equipo obtenga salidas reproducibles y revisables por humanos.

Resumen rápido (lectores con prisa)

Qué es: Una spec técnica es un documento corto que define stack, artefactos, contratos de datos y criterios de aceptación.

Cuándo usarla: Antes de pedirle a un LLM que genere código o acciones automáticas; imprescindible para features que afectan arquitectura o seguridad.

Por qué importa: Reduce ambigüedad, limita el espacio de decisión del modelo y convierte output en un contrato auditables y testeable.

Cómo funciona: Provee stack y contratos (ej. Zod schemas, tipos TS, API contracts) que el agente implementa exactamente, produciendo artefactos modulares y testeables.

Por qué una spec cambia todo

Los LLMs son excelentes en patrones, no en contexto de producto. Cuando reciben un prompt abierto, generan la solución más probable según su entrenamiento: ejemplos de tutoriales y antipatrón comunes. Esa es la razón por la que el output suele ser rápido pero frágil.

Una especificación técnica (spec) reduce el “espacio de probabilidad” del modelo. Le das:
- el stack exacto,
- las restricciones arquitectónicas,
- los contratos de datos,
- y los criterios de aceptación/edge cases.
Con esa entrada, herramientas como Cursor o Claude dejan de improvisar y comienzan a implementar un contrato.

Walkthrough real: formulario de registro en Next.js

Escenario: crear un registro de usuario con validación Zod y Server Actions (Next.js App Router). Te muestro el antes y el después, sin adornos.

Antes — Prompt conversacional (vibe coding)

Prompt enviado al modelo:

“Crea un formulario de registro en Next.js con email, password y confirmación. Conéctalo a la API.”

Salida típica:
- Un solo archivo RegisterForm.tsx con JSX, estado useState y fetch mezclados.
- Validación DIY con regex.
- Manejo de errores = console.log.
- Tipos débiles (any o sin tipos).
- No hay tests ni contractos reutilizables.
Resultado: funciona en local. Falla en producción. Es deuda técnica con firma.

Después — Prompt con spec (Spec-Driven Development)

Antes de preguntar al modelo, escribes spec-auth-register.md y lo adjuntas.

Fragmento de spec:
```
# Spec: Registro de usuario
Stack: Next.js App Router, React Hook Form, Zod
Outputs: 3 archivos
  - src/lib/validations/auth.ts (registerSchema)
  - src/actions/auth.actions.ts (Server Action) -> devuelve { success: boolean; error?: string }
  - src/components/auth/RegisterForm.tsx
UI: usar useTransition para isPending; mostrar errores por campo; redirigir a /dashboard en éxito.
Edge cases: handling de timeouts, duplicados, validación server-side.
```
Prompt al modelo:

“Lee @spec-auth-register.md e implementa exactamente los archivos descritos, respetando tipos y contratos.”

Salida típica con spec:
- registerSchema en auth.ts (Zod) reutilizable en cliente y servidor.
- Server Action tipada que devuelve { success, error }.
- Componente de presentación que usa React Hook Form y solo hace binding.
- Estados de UI y manejo de errores explícito.
- Código modular, testeable y legible.
La diferencia es clara: la spec obliga al modelo a ceñirse a un contrato verificable. Lo que se genera se puede code-reviewar, testear e integrar.

Plantilla mínima de spec que funciona

No necesitas escribir una novela. Esta plantilla (portable en .specs/feature.md) es suficiente:
1. Contexto de negocio (1-2 líneas).
2. Stack y restricciones (libraries permitidas/prohibidas).
3. Artefactos esperados (files + path).
4. Contratos de datos (TS interfaces o Zod schemas).
5. Estados UI y criterios de aceptación.
6. Edge cases y métricas de éxito.
Incluye URLs útiles en la spec para librerías: Zod, OWASP para seguridad, documentación de Cursor si lo usas.

Integración práctica en el flujo de trabajo
- Guarda specs en .specs/ y referencia el archivo en el prompt (Cursor soporta @Files).
- Automatiza comprobaciones básicas con linters/CI: que exista un schema Zod, que acciones devuelvan un tipo estándar, que tests unitarios pasen.
- Añade una regla en code review: si el cambio viene de un agente, el PR debe acompañar la spec original y un ADR si la modificación afecta arquitectura.
- No olvides observabilidad y testing: cada tool o action generada debe tener tests unitarios independientes del LLM.
Conclusión: la IA ejecuta, el ingeniero decide

Spec-Driven Development no elimina la IA; la pone en su lugar. En lugar de confiar en la creatividad del modelo, confías en el criterio técnico del equipo para dirigirlo. Los equipos que adoptan specs claras convierten a Claude Code y Cursor en herramientas productivas en lugar de fuentes de deuda técnica. Implementar specs no es una carga extra: es la inversión que transforma prototipos de IA en software mantenible y auditable.

La siguiente pieza en esta serie mostrará ejemplos de specs reales y scripts de CI que validan la conformidad automática entre spec y código.

Para continuidad con iniciativas de automatización y prácticas de ingeniería aplicadas a IA, revisa recursos adicionales y experimentos en Dominicode Labs. Estos materiales complementan la adopción de specs y proporcionan plantillas y scripts para integrar comprobaciones automatizadas en CI/PR.

FAQ
¿Qué es una spec técnica y cuánto debe medir?

Una spec técnica es un documento conciso que define contexto, stack, artefactos requeridos, contratos de datos y criterios de aceptación. Suele medir entre 1 y 2 páginas; la clave es ser suficiente para convertir decisiones arquitectónicas en reglas ejecutables.

¿Qué diferencia hay entre una spec y una historia de usuario?

Una historia de usuario describe el problema de negocio y la necesidad. La spec técnica traduce esa necesidad en artefactos técnicos concretos (files, tipos, contratos, edge cases) que un agente o desarrollador implementará.

¿Qué herramientas debo pedir en la spec para validación de datos?

Especifica la librería (por ejemplo, Zod), el archivo donde residirá el schema y el contrato de retorno esperado para server actions. Indica validación client/server y casos límite relevantes.

¿Cómo integro specs en CI?

Automatiza comprobaciones que verifiquen la presencia de schemas Zod, la firma de acciones y tests unitarios mínimos. Añade una regla en PRs que requiera la spec original cuando cambios provengan de un agente.

¿Qué hacer si el LLM ignora la spec?

Ajusta el prompt para referenciar explícitamente la spec (ej. @spec-auth-register.md), valida output contra tests automatizados y rechaza cambios que no cumplan contratos en CI. Mantén revisión humana obligatoria para PRs generados por agentes.
June 3, 2026
Construye un agente de IA en TypeScript: stack mínimo para 2026
El stack mínimo para un agente de IA en TypeScript en 2026

Tiempo estimado de lectura: 4 min

Ideas clave
- Anthropic SDK + Zod + tsx + dotenv es la combinación práctica para agentes en producción: observabilidad, tipado y control.
- Zod como frontera: declara schemas de herramientas, valida args y convierte a JSON Schema para pasar al modelo.
- Bucle explícito: orquesta tool-calls en un único proceso, limita iteraciones y registra cada uso.
- No es minimalismo estético: es técnica operativa para que el equipo pueda depurar y reparar a cualquier hora.
- Escala solo cuando métricas y requisitos lo exijan: añade memoria, orquestadores o trazas distribuidas según necesidad.
Tabla de contenidos
El stack mínimo propuesto es una combinación práctica y limitada de dependencias enfocadas a reducir superficie de fallo, mantener trazabilidad y controlar consumo de tokens: Anthropic SDK para el motor, Zod para contratos, tsx para ejecución TypeScript rápida y dotenv para gestionar secretos.

Resumen rápido (lectores con prisa)

Stack: Anthropic SDK + Zod + tsx + dotenv. Usa Zod para declarar y validar schemas de herramientas, convierte Zod a JSON Schema para pasárselo al modelo y orquesta tool-calls en un bucle explícito. Añade PostgreSQL+pgvector, orquestadores o trazas solo cuando lo exijan métricas y requisitos.

tsx + dotenv — entorno y secretos

tsx te permite ejecutar TypeScript directamente en Node sin compilar manualmente. En desarrollo y CI rápidos esto reduce ciclos de retroalimentación.

dotenv mantiene las claves fuera del repo: ANTHROPIC_API_KEY, DATABASE_URL, etc. Ambos son higiene operativa, no glamour.

Anthropic SDK — motor cognitivo directo

Usa el SDK oficial: Anthropic SDK. Evita enrutadores genéricos que suavizan diferencias entre modelos y esconden comportamientos de tool-calling. Anthropic devuelve explícitamente cuándo el modelo quiere invocar una herramienta; tú ejecutas la función y devuelves el resultado, con control total del flujo.

Zod — contrato entre texto probabilístico y tipos

Zod es la frontera. Define los schemas de herramientas y valida los argumentos que el modelo genera. Convierte Zod a JSON Schema con zod-to-json-schema para declarar las herramientas al modelo. Resultado: menor tasa de alucinaciones en tool_use y errores tipo detectables y manejables.

Por qué este stack vence en producción (ejemplos técnicos)

1) Trazabilidad total

Cuando el modelo pide usar una herramienta, el SDK devuelve nombre + args. Antes de ejecutar, haces schema.safeParse(args). Si falla, capturas el error, lo loggeas y agregas ese fallo al historial que reenvías al modelo. No hay retries automáticos “mágicos” que oculten la causa.

2) Menor latencia y coste

Un único proceso que orquesta tool-calls evita encadenados innecesarios. Si cada handoff fuera otra llamada LLM, multiplicas tokens y TTFT. Con un loop explícito controlas el número máximo de iteraciones y evitas bucles de cortesía.

3) Menos superficie de bugs

Las capas extra (framework + adaptadores) introducen incompatibilidades y reintentos implícitos. Tener cuatro dependencias estables reduce puntos de falla.

El patrón de implementación: el loop explícito

Escribes un bucle claro. Pseudodiagrama:
1. Inicializar cliente Anthropic con la API key desde dotenv.
2. Preparar mensajes (system + user + tool_history).
3. Llamar a client.messages.create(…) con tool definitions derivadas de Zod.
4. Si respuesta es texto → devolver.
5. Si respuesta es tool_use → validar con Zod; si válido ejecutar función; añadir resultado al historial; repetir.
Ese flujo se implementa en 30–80 líneas y es 100% controlable. No es necesario heredar de clases ni integrar callbacks crípticos.

Validación práctica y contratos: ejemplo de herramientas

Define una tool con Zod:
```
- ticketId: z.string().regex(/^[A-Z]+-\d+$/)
- includeComments: z.boolean().default(false)
```
Convierte esto a JSON Schema y pásalo a Anthropic. Cuando el LLM devuelva args, safeParse te dice inmediatamente si se puede ejecutar. Si no, devuelves el error al modelo como contexto y le pides corrección. Ese patrón reduce las llamadas inválidas y mejora la seguridad.

Qué no cubre este stack y cuándo añadir componentes
- Memoria de largo plazo: integra PostgreSQL + pgvector si necesitas retrieval persistente.
- Flujos empresariales largos (days/weeks): añade un orquestador (n8n o LangGraph) para persistencia de estado y control de aprobaciones humanas.
- Observabilidad distribuida: añade OpenTelemetry o similar si tu cluster requiere trazas correlacionadas a escala.
Empieza simple; añade estas piezas solo con datos que demuestren necesidad.

Reglas operativas antes de desplegar
- Nunca expongas una herramienta sin Zod schema.
- Registra cada tool_use y su validación. Logs estructurados; no texto plano.
- Limita iteraciones del loop por petición (por ejemplo, max 5 reintentos).
- Implementa el patrón Result (ok/error) en todas las funciones ejecutadas por el agente.
Conclusión práctica

El stack mínimo para un agente de IA en TypeScript en 2026 devuelve poder al equipo de ingeniería: trazabilidad, tipos y control operativo. Para la mayoría de agentes productivos —consultas a APIs, limpieza de datos, consultas SQL parametrizadas— esta pila es suficiente y más fiable que una montaña de frameworks. Escala solo cuando las métricas (latencia, coste por token, fallos en producción) y los requisitos (memoria, durabilidad) lo exijan. Así evitas añadir complejidad por moda y mantienes un sistema que puedas entender, auditar y mejorar.

Dominicode Labs

Para quienes construyen agentes y workflows, una referencia útil y complementaria sobre prácticas operativas y plantillas de integración está disponible en Dominicode Labs. Considera consultarlo como continuación lógica al patrón de loop explícito y validación con Zod.

FAQ
¿Por qué usar Anthropic SDK en vez de adaptadores genéricos?

Porque el SDK oficial expone el comportamiento nativo del modelo (por ejemplo, tool_use) sin abstracciones que oculten diferencias entre modelos. Esto permite un control más preciso sobre cuándo y cómo ejecutar herramientas.

¿Cuál es el papel exacto de Zod en este stack?

Zod define los schemas de las herramientas y valida los argumentos generados por el modelo. Convertir esos schemas a JSON Schema permite declararlos al modelo y reducir llamadas inválidas y alucinaciones en tool_use.

¿Necesito tsx en producción?

tsx facilita ciclos de desarrollo y CI al evitar compilación manual. En producción puedes seguir usándolo o compilar, según tu pipeline; la recomendación es usarlo para reducir fricción durante desarrollo y pruebas.

¿Cómo reducir costes de tokens con este patrón?

Orquesta tool-calls en un único proceso, limita iteraciones del loop y evita encadenar llamadas LLM por cada handoff. Controlar explícitamente el número de iteraciones reduce tokens enviados y latencia.

¿Cuándo añadir bases de datos y vectores (pgvector)?

Añade PostgreSQL + pgvector cuando necesites retrieval persistente y la memoria a corto plazo del agente no sea suficiente para tus casos de uso.

¿Qué límites de seguridad operativa aplicar al expositor de herramientas?

Nunca expongas una herramienta sin schema Zod, registra cada tool_use con logs estructurados, limita reintentos y aplica validaciones estrictas (Result ok/error) en todas las funciones ejecutadas por el agente.
June 2, 2026
Cómo medir el rendimiento de agentes de IA con evals efectivos
Evals para código generado por IA — cómo medir si tu agente está mejorando o empeorando con tu spec

Tiempo estimado de lectura: 6 min
- Combina validación determinista y semántica: ambas dimensiones son necesarias para señales accionables.
- Golden Dataset + rúbricas: versiona casos reales con criterios explícitos para comparar versiones del spec.
- Two-speed pipeline: validación determinista en cada PR; juez LLM y revisiones completas en merges/release.
- Métricas operativas clave: pass rate, semantic score, flakiness, coste por eval y regression rate.
Si cambias una línea en tu CLAUDE.md o ajustas las instrucciones del sistema y luego aceptas código “porque se ve bien”, estás apostando a que la intuición compense la probabilidad. No lo hace. Necesitas implementar evals para código generado por IA — cómo medir si tu agente está mejorando o empeorando con tu spec para convertir esa intuición en métricas reproducibles.

Este artículo explica qué medir, cómo construir un pipeline fiable, qué herramientas usar y las decisiones operativas que separan a los equipos que gestionan agentes con criterio de los que lo hacen por esperanza.

Resumen rápido (lectores con prisa)

Qué es: Un enfoque combinado de evals deterministas y semánticos para código generado por IA.

Cuándo usarlo: Siempre que tu agente genere código que afecte producción o el diseño arquitectónico.

Por qué importa: Transforma intuición en métricas reproducibles y reduce regresiones al cambiar el spec.

Cómo funciona: Golden Dataset versionado + pipeline: determinista rápido en PRs, juez LLM y/o humanos en merges y releases.

¿Qué miden los evals para código generado por IA — cómo saber si tu agente mejora o empeora?

Un eval profesional mide dos dimensiones complementarias:
- 1. Validación determinista — ¿el output cumple reglas objetivas?
- 2. Validación semántica — ¿el output cumple criterios arquitectónicos, de seguridad y estilo que sólo pueden evaluarse con criterio?
Si sólo ejecutas una, te quedas cojo. Combínalas y obtendrás señales accionables.

Validación determinista

Objetivos claros y automatizables:
- Síntaxis / AST: el código parsea sin errores.
- Linter/style: ESLint/Prettier pasan según la configuración del repo.
- Tests unitarios de integración en sandbox: el código generado se inyecta en un contenedor efímero y ejecuta Jest/Vitest/PyTest.
- Reglas binarias del spec: por ejemplo, “no usar fetch en cliente” → comprobación estática.
Resultado: métricas binarias y tasas de paso (pass rate) que puedes agregar y comparar entre versiones del spec.

Validación semántica — LLM-as-a-Judge y estrategias híbridas

Algunos criterios no son booleanos: diseño, seguridad implícita, uso idiomático. Aquí entra un juez LLM:
- El juez recibe: el spec original, el código generado, y una rúbrica estructurada.
- Produce: una puntuación y un reasoning structured (json) que explica fallos de arquitectura, riesgos de seguridad, o desviaciones de estilo.
Precaución: existe sesgo de auto-preferencia. Mitigaciones prácticas:
- Usar un modelo juez distinto y preferible más capaz (ej. GPT‑4o o Claude avanzado).
- Ensembles: combinar juicios de 2–3 modelos y una muestra humana para calibrar.
- Registrar justificaciones (no sólo la puntuación).
Cómo construir un pipeline de Evals paso a paso

1. Golden Dataset (20–50 casos reales)
- Casos representativos del código y dominios del producto.
- Cada caso: input, contexto (memory files relevantes), criterios de éxito explícitos.
- Versionado en Git junto al spec.
2. Frameworks y herramientas
- Promptfoo — orquestación de evals en CLI.
- LangSmith (observabilidad y tracing).
- Braintrust (plataformas de evals y datasets).
- Integrar linters, AST analyzers y runners de tests (Jest/Vitest/PyTest).
3. Sandbox seguro para deterministas
- Contenedores efímeros sin red ni credenciales, preferiblemente con políticas de seccomp/gVisor o Firecracker para microVMs.
- Tiempo límite por test y quotas de CPU/RAM.
4. LLM-as-a-Judge
- Definir rúbricas concretas (JSON schema) por caso del Golden Dataset.
- Ejecutar juez sólo en merges o nightly builds si el coste es alto; o en un flujo “two-speed” (ver abajo).
5. Métricas y alertas
- Pass rate determinista por caso y agregado.
- Puntuación semántica media y desviación estándar.
- Flakiness rate (casos con resultados inconsistentes entre corridas).
- Cost per eval (tokens, wall time).
- Guardrails: bloquear PRs si la adherencia agregada cae por debajo de un umbral (ej. 85–90%).
6. Integración CI/CD
- Disparar evals cuando cambie el spec (CLAUDE.md, AGENTS.md, memory files).
- Pipeline típico: generar → determinista (rápido) → reporte → si pasa, opcional: juez LLM → aprobar o bloquear PR.
Estrategia operativa: coste vs seguridad vs velocidad
- Two-speed pipeline: Validación determinista ligera en cada PR; validación semántica completa en merges a main o releases. Reduce coste y mantiene seguridad.
- Ensembles y muestreo: Si el coste de juez LLM es prohibitivo, ejecuta juez en una muestra estadística del Golden Dataset por cada cambio mayor.
- Human-in-the-loop: para nuevas rules o casos edge, requiere revisión humana antes de aceptar un cambio en el spec.
Métricas que realmente importan
- Regression rate por cambio de spec (número de casos del Golden Dataset que empeoran).
- Mean Semantic Score delta entre versiones del spec.
- Time-to-fix promedio cuando un eval falla.
- Token cost por ejecución y coste por PR.
- Porcentaje de automatización (qué % de PRs infractions se bloquean automáticamente vs requieren intervención humana).
Conclusión operativa

Trata tu spec como código crítico: versiona, prueba y monitoriza. Implementar evals para código generado por IA transforma la gestión de agentes de una caja de sorpresas a un proceso auditable. Si quieres que el agente mejore con cambios en tu spec, mide, automatiza y obliga a retroalimentación continua. Sin datos no hay control; sin control, el agente termina rompiendo más de lo que arregla.

Si trabajas con automatización, agentes o workflows y quieres ejemplos prácticos y experimentos reproducibles, revisa Dominicode Labs. Encontrarás recursos y prototipos alineados con pipelines de evals y prácticas de integración.

FAQ
Respuesta: Miden dos dimensiones complementarias: validación determinista (sintaxis, linters, tests, reglas binarias) y validación semántica (diseño, seguridad, estilo evaluados por un juez LLM o humanos).

Respuesta: Es la comprobación automática y objetiva: el código parsea, pasa linters, ejecuta tests en sandbox y cumple reglas estáticas definidas en el spec.

Respuesta: Reúne 20–50 casos reales representativos. Cada caso debe incluir input, contexto relevante y criterios de éxito explícitos; versiona el dataset en Git junto al spec.

Respuesta: Ejecuta juez LLM en merges o nightly builds si el coste es alto, o en un flujo two-speed donde aplicas juez a cambios aprobados determinísticamente o a muestras estadísticamente relevantes.

Respuesta: Pass rate determinista, mean semantic score, regression rate por cambio de spec, flakiness rate, token cost por ejecución y time-to-fix promedio.

Respuesta: Usa una validación determinista ligera en cada PR y ejecuta validación semántica completa en merges/releases. Muestrea casos para reducir coste y aplica ensembles o revisión humana en casos críticos.
June 2, 2026
Cómo funcionan los Signals en Angular 22 y React 19
Signals en Angular 22 y React 19: el nuevo modelo de reactividad

Tiempo estimado de lectura: 4 min

Ideas clave
- Reactividad de grano fino actualiza solo los nodos del DOM que dependen de un valor.
- Angular 22 introduce Signals explícitos, elimina Zone.js y ofrece formularios sincronizados basados en Signals.
- React 19 apuesta por optimizaciones vía compilador y el hook use() en lugar de un primitivo signal.
- Elegir entre ambos depende de control/depurabilidad (Angular) vs. fricción y compatibilidad con código existente (React).
Tabla de contenidos
Signals en Angular 22 y React 19: el nuevo modelo de reactividad es la discusión que está redefiniendo cómo pensamos la UI: menos trozos de árbol reevaluados, más actualizaciones puntuales y menos sorpresas en producción. Si tu equipo decide entre control explícito o automatización por compilador, este artículo te da criterios prácticos y ejemplos reales para elegir con criterio.

Resumen rápido (lectores con prisa)

Fine-grained reactivity actualiza solo dependencias directas. Angular 22 introduce Signals (signal(), computed(), effect()) y formulas sin Zone.js. React 19 usa el React Compiler para inferir memoización y añade use() para leer Promises/recursos en render. Ambos mejoran escalabilidad; Angular es explícito y más trazable, React reduce fricción de adopción.

Signals en Angular 22 y React 19: el nuevo modelo de reactividad (explicación rápida)

La reactividad de grano fino significa actualizar únicamente el nodo del DOM que depende de un valor concreto. Angular 22 lo hace declarando Signals (signal(), computed(), effect()), eliminando Zone.js y ofreciendo formularios basados en Signals. React 19 opta por no añadir un primitivo signal; en su lugar usa el React Compiler para inferir memoización y añade el hook use() para leer Promises/recursos en render. Documentación oficial Angular. Blog oficial React 19.

¿Por qué importa la reactividad de grano fino?

Los problemas reales aparecen en aplicaciones con alta densidad de datos:
- Dashboards financieros con cientos de celdas que actualizan simultáneamente.
- Formularios complejos con validaciones cruzadas y campos dependientes.
- UIs que requieren latencia mínima y CPU predecible en clientes de bajo rendimiento.
La solución tradicional (Virtual DOM diffs o Zone.js) escala mal: consumes CPU revisando cosas que no cambiaron. Fine-grained reactivity evita ese trabajo inútil.

Angular 22: Zoneless, Signals y formularios sincronizados

Angular reescribió su motor de detección. Resultado práctico:
- Renderizado Zoneless: sin interceptar microtasks; si no cambia un Signal, no hay re-render.
- Signals explícitos: control total sobre qué es reactivo y cuándo muta.
- Signal-based Forms: lectura síncrona del estado del formulario, menos RxJS, menos suscripciones que se filtran.
Ejemplo Angular
```
import { signal } from '@angular/core';

const count = signal(0);
count.set(count() + 1); // solo actualiza los lectores de `count`
```
Para convivir con código existente, Angular ofrece utilidades toSignal() / toObservable(), facilitando migraciones incrementales. Guía.

Ventajas concretas: trazabilidad, depuración directa (sabes qué mutó), rendimiento determinista. Coste: curva de aprendizaje y refactor en bases de código grandes.

React 19: Reactividad inferida vía compilador y hook use()

React evita imponer nuevos primitivos. Estrategia:
- React Compiler: analiza en build y genera memos/mecanismos de actualización automáticos.
- use(): permite consumir Promises o recursos directamente en render, funcionando con <Suspense> para carga declarativa.
- Server Actions / useActionState: reduce boilerplate del ciclo formulario → servidor → feedback.
Ejemplo React
```
function Product({ id }) {
  const product = use(fetchProduct(id)); // Suspense maneja loading
  return <div>{product.name}</div>;
}
```
Ventajas: baja fricción de adopción; equipo no reescribe mentalmente la app. Coste: optimizaciones «invisibles» por el compilador que pueden complicar diagnóstico fino; depuración menos directa que en Angular.

React Suspense referencia

Comparativa práctica (qué esperar en producción)
- Performance pura: ambos escalan mucho mejor que modelos antiguos. Angular da mayor predictibilidad por su modelo explícito; React consigue grandes ganancias sin romper DX.
- Depuración: Angular facilita trazar el origen del update; en React necesitas entender qué transformó el compilador.
- Migración: Angular exige trabajo incremental (conversión de formularios y algunos patrones de RxJS). React permite migración más suave, porque el compilador optimiza el código existente.
- Formularios complejos: Angular gana por tipado y sincronía; React compensa con Server Actions para patrones CRUD.
Recomendaciones prácticas para equipos
1. Haz un piloto con módulos concretos. No migres todo de golpe.
2. Para UIs de alta densidad de datos, prioriza Angular 22 si necesitas control y trazabilidad estricta.
3. Si tu stack ya es Next.js / SSR y quieres mejorar rendimiento sin reeducar al equipo, React 19 es opción pragmática.
4. Añade pruebas de rendimiento (microbenchmarks) y observabilidad: mide renders por segundo, tamaño de paint y memoria.
5. Documenta patrones: en Angular, establece cómo y cuándo crear Signals; en React, especifica cómo instrumentar y auditar transformaciones del compilador.
Conclusión práctica

Signals en Angular 22 y React 19 solucionan el mismo problema con filosofías distintas: Angular te da el control explícito; React te lo facilita automáticamente. No hay «mejor» universal: hay mejor para tu equipo. Si quieres predictibilidad y depurabilidad en sistemas críticos, apuesta por Angular 22. Si prefieres un camino de menor fricción y eres heavy-SSR, React 19 acelera el time-to-market. Dominar fin-grained reactivity es ahora requisito, no lujo.
FAQ
Respuesta: La reactividad de grano fino actualiza solo los nodos del DOM que dependen de un valor específico, en lugar de reevaluar grandes porciones del árbol. Reduce trabajo innecesario de CPU y mejora latencia en UIs densas.

Respuesta: Angular 22 elimina la dependencia de Zone.js y usa Signals declarativos. En lugar de interceptar microtasks para detectar cambios, los Signals notifican solo a sus lectores cuando cambian, proporcionando renders deterministas.

Respuesta: No: React 19 no introduce un primitivo signal. Usa el React Compiler para inferir memoización y optimizaciones, y añade use() para consumo de Promises/recursos en render.

Respuesta: Los Signal-based Forms permiten lectura síncrona del estado del formulario, reducen la necesidad de RxJS y evitan suscripciones filtradas. Mejoran trazabilidad y simplifican validaciones dependientes.

Respuesta: Haz un piloto. Si necesitas control y trazabilidad estricta para sistemas críticos, Angular 22 es preferible. Si buscas mínima fricción y tu stack ya usa SSR/Next.js, React 19 reduce fricción de adopción.

Respuesta: Parcialmente. Angular ofrece utilidades como toSignal() / toObservable() para migraciones incrementales, pero adaptar formularios y patrones RxJS puede requerir refactor. React 19 suele permitir migración más suave gracias al compilador.
June 2, 2026
Implementación de Generics para Wrappers de IA en TypeScript
Generics para wrappers de IA en TypeScript

Tiempo estimado de lectura: 4 min
- Evita desincronización: usa un wrapper genérico withAI<T>() para enlazar firma TypeScript y validación Zod.
- Zod‑first: Zod en runtime + z.infer en TypeScript ofrece validación práctica frente al type erasure.
- Autodocumentación y registros: genera descripciones básicas y registra prompt, rawResponse y resultado de Zod.
- Operación segura: define límites de reintentos y métricas; en sistemas críticos separa intención (LLM) de efecto (máquina de estado).
Tabla de contenidos
Generics para wrappers de IA en TypeScript: si vas a exponer funciones de negocio a agentes, necesitas una forma segura y mantenible de hacerlo. En las primeras líneas: usar generics y Zod evita duplicar contratos y convierte la exposición de funciones en un proceso reproducible y tipado. Aquí explico por qué funciona, cómo implementarlo y qué decisiones arquitectónicas debes tomar.

Resumen rápido (lectores con prisa)

Patrón Zod‑first: pasa un esquema Zod al wrapper y usa z.infer<…> para que TypeScript infiera tipos. El wrapper genérico withAI<T> enlaza la firma de la función con el esquema, validando en runtime y detectando incompatibilidades en compilación.

Úsalo cuando expongas funciones a LLMs o agentes; mejora seguridad estática, validación runtime y trazabilidad.

Por qué necesitas Generics para wrappers de IA en TypeScript

Exponer una función como herramienta para un LLM suele generar cuatro elementos repetitivos: descripción, esquema de validación, bindings del SDK y la ejecución. Ese boilerplate se desincroniza con el tiempo: la firma cambia, el esquema no, y el error aparece en producción, no en el IDE.

La solución es un wrapper genérico —withAI<T>()— que capture la firma de la función mediante tipos TypeScript y reciba un esquema Zod en runtime. Zod vive en ejecución; TypeScript no. Esta combinación (TypeScript + Zod) te da lo mejor de ambos mundos: seguridad estática y validación runtime.

Limitación real: type erasure y la decisión Zod‑first

TypeScript suprime tipos en runtime (type erasure). No puedes inspeccionar en ejecución que un parámetro se llama userId y es string. Por eso hay dos rutas:
- Extraer metadatos en build time (AST/JSDoc) — viable pero compleja.
- Patrón Zod‑first — práctico y fiable: pasas un esquema Zod al wrapper, Zod valida en runtime y TypeScript infiere tipos con z.infer<…>.
Recomiendo Zod‑first. Es simple, robusto y encaja con flujos CI/CD.

Implementación: withAI<T> paso a paso

Idea: recibir la función original, su esquema Zod y devolver una herramienta lista para el SDK de IA (p. ej. Vercel AI SDK https://sdk.vercel.ai/docs). El genérico obliga a coherencia entre firma y esquema.

Ejemplo reducido
```
import { z } from 'zod';
import { tool } from 'ai'; // Vercel AI SDK

export function withAI>(
  fn: T,
  schema: z.ZodType<Parameters<T>[0]>,
  description?: string
) {
  const autoDesc = description ?? generateDescription(fn.name, schema);

  return tool({
    description: autoDesc,
    parameters: schema,
    execute: async (args) => {
      // args ya validado por Zod cuando el SDK integra la validación
      return await fn(args as Parameters<T>[0]);
    },
  });
}
```
Claves:
- Parameters<T>[0] enlaza el tipo esperado del primer argumento de fn con el esquema.
- Si la firma de fn cambia y el esquema no, TypeScript marcará el error en compilación.
- tool() es una abstracción; adapta al SDK que uses (Vercel, OpenAI, etc.).
Autodocumentación práctica

El wrapper puede generar una descripción básica a partir del nombre de la función y las claves del esquema. No es NLP mágico, pero reduce trabajo manual y mejora la señal hacia el modelo.
```
function generateDescription(name: string, schema: z.ZodTypeAny) {
  const readable = name.replace(/([A-Z])/g, ' $1').trim().toLowerCase();
  const params = schema instanceof z.ZodObject ? Object.keys(schema.shape).join(', ') : 'input object';
  return `Use this tool to ${readable}. Parameters: ${params}.`;
}
```
Para funciones críticas, proporciona siempre una descripción manual y ejemplos de uso. Puedes enriquecer la doc con ejemplos JSON y constraints — los modelos modernos respetan instrucciones claras (ver Structured Outputs de OpenAI: https://platform.openai.com/docs/guides/structured-outputs).

Buenas prácticas operativas
- Valida con .safeParse() en agentes que puedan autocorregirse; usa .parse() para endpoints que deban fallar rápido.
- Registra siempre: prompt, rawResponse, resultado de Zod (error.flatten()), la herramienta invocada y contexto. Sin esto, los postmortems son inútiles.
- Mide: tasa de validación fallida, latencia de autocorrección, reintentos por prompt y degradaciones a humano.
- Define límites: si tras N reintentos no hay corrección, encola para revisión humana. Evita loops que consuman tokens/requests.
Trade‑offs y decisiones arquitectónicas
- Autogeneración vs. precisión: la descripción automática agiliza pero no sustituye documentación humana para casos sensibles.
- Structured Outputs + generateObject (OpenAI) reducen errores de formato, pero no reemplazan validaciones semánticas (p. ej. rangos, signos). Zod sigue siendo necesario.
- En sistemas críticos, deja que el LLM decida la herramienta, pero que una máquina de estado (n8n, XState) controle la ejecución final; así separas intención y efecto.
Ejemplo completo: patrón en producción

1. Define la función pura:
```
async function getOrder(args: { orderId: string }) { /* ... */ }
```
2. Define esquema Zod:
```
const OrderSchema = z.object({ orderId: z.string().uuid() });
```
3. Envuelve:
```
const getOrderTool = withAI(getOrder, OrderSchema, 'Obtiene estado de un pedido por ID');
```
4. Registra y mide cada llamada. Si Zod falla, serializa error.flatten() y envíalo al LLM para autocorrección o al equipo de soporte.

Conclusión

Generics para wrappers de IA en TypeScript no es un truco académico: es una medida práctica para escalar agentes sin introducir deuda técnica. El patrón Zod‑first con withAI<T> convierte la exposición de funciones en una operación segura, rastreable y testeable. Si tu agente escribe en bases de datos, llama APIs facturadas o ejecuta efectos críticos, aplica este patrón hoy: te evitará errores que sólo descubres en producción.

Para equipos que diseñan flujos de agentes y workflows relacionados con automatización e IA aplicada, puede ser útil revisar trabajos y herramientas experimentales. Más recursos y experimentos están disponibles en Dominicode Labs.

FAQ
¿Qué es exactamente el patrón Zod‑first?

Es la práctica de definir esquemas de validación con Zod en runtime y usar z.infer<…> para que TypeScript derive los tipos, evitando depender de metadatos de tipos en ejecución.

¿Cuándo debo usar safeParse() vs parse()?

Usa safeParse() cuando el agente pueda autocorregirse o cuando quieras manejar errores sin lanzar. Usa parse() en endpoints que deban fallar rápido y propagar excepciones.

¿Cómo detecta TypeScript desalineaciones entre firma y esquema?

El wrapper genérico usa tipos como Parameters<T>[0]. Si la firma de la función cambia y el esquema suministrado no coincide, TypeScript emitirá un error en compilación por incompatibilidad de tipos.

¿Qué hacer si Zod falla de forma recurrente?

Registra el resultado de error.flatten(), envía el fallo al LLM para autocorrección o encola el caso para revisión humana si supera N reintentos. Mide la tasa de validación fallida para priorizar correcciones.

¿Puedo usar este patrón con otros SDKs además de Vercel?

Sí. tool() en el ejemplo es una abstracción; adapta la forma de registrar parámetros, validar y ejecutar según el SDK (Vercel, OpenAI u otros).

¿Cómo debo registrar errores y métricas?

Registra prompt, rawResponse, resultado de Zod (error.flatten()), herramienta invocada, contexto y métricas como latencia y reintentos. Estos datos son esenciales para postmortems y mejoras iterativas.
June 1, 2026
Angular 22: Implicaciones técnicas y coste real de migrar en 2026
Angular 22 vs el resto: lo que nadie te dice sobre migrar en 2026

Tiempo estimado de lectura: 4 min
- Modernización estructural: Zoneless por defecto, Signals y Control Flow nativo cambian la forma de detectar cambios y escribir templates.
- Contextos de ventaja: Angular 22 aporta coherencia en equipos grandes y proyectos de larga vida útil; no es la opción por defecto para prototipado rápido.
- Coste real de migración: incluye trabajo manual de refactor y coste de formación; planifica recursos y tiempo (ej. 3–6 meses para monorepos medianos).
- Testing y despliegue: migrar a Jest + Angular Testing Library es parte crítica del plan; usa despliegues canarios y métricas para validar.
Buscar Angular 22 vs el resto: lo que nadie te dice sobre migrar en 2026 no es una charla de café. Es una decisión de arquitectura con consecuencias inmediatas en costes, ritmo de desarrollo y mantenimiento. Angular 22 ya no es el framework “pesado” que recuerdas. Pero esa modernización trae costes de migración reales y decisiones estratégicas que no aparecen en la documentación oficial.

Resumen rápido (lectores con prisa)

Angular 22 introduce Zoneless por defecto, Signals y Control Flow nativo en templates. Mejora TTI y reduce renders innecesarios. Es una buena opción para equipos grandes y proyectos de larga duración; la migración requiere refactor y formación. Incluye la migración del stack de testing a Jest + Angular Testing Library como parte del plan.

Angular 22 vs el resto: lo que cambia y por qué importa

Zoneless por defecto

Se abandona Zone.js. La detección de cambios pasa de ser global e impulsiva a ser controlada y granular. Resultado: TTI más bajo y menos renders innecesarios.

Signals como primitivo de reactividad

Reactividad sin subscriptions masivas. Signals reduce la boilerplate de RxJS para estado local y mejora predictibilidad.

Control Flow nativo en templates (@if, @for)

El compilador procesa control de flujo a nivel de AST, lo que incrementa rendimiento y legibilidad.

Traducido: Angular ya compite en métricas de rendimiento con frameworks “reactivos” como Solid o con Vue, pero manteniendo un conjunto de herramientas integradas (DI, routing, forms) que otros frameworks dejan al ecosistema.

Comparativa honesta: cuándo Angular gana y cuándo no

Angular no es la mejor opción por defecto. Es la mejor opción para ciertos contextos.
- Si ganas con opinión y consistencia: equipos de >10 devs, código con vida útil >3 años, requisitos de accesibilidad y compliance, Angular aporta coherencia y reduce decisiones ad-hoc.
- Si priorizas libertad y prototipado rápido: React o Vue siguen siendo más ágiles. Next.js / Nuxt dominan en SSR/Server Components y experiencia híbrida contenido-aplicación.
Arquitectura

Angular = opinado; React = flexible; Vue = progresivo.

Reactividad

Angular = Signals; React = Hooks/Virtual DOM; Vue = Composition API.

SSR y SEO

Next.js/Nuxt > Angular Universal (mejora pero no centro de innovación).

Mantenimiento en equipos grandes

Angular > React (por la opinión y patrones forzados).

Lo que nadie te cuenta sobre el coste real de migrar

Hay dos costes que muchos subestiman.

1) Coste técnico (trabajo manual)

Actualizar con el CLI es el viaje fácil. El trabajo duro es refactorizar: pasar de NgModules a Standalone Components, reescribir flujos con Signals, adaptar templates a Control Flow nativo. Eso no se hace con sed. Es trabajo de diseño con pruebas y revisiones de arquitectura.

2) Coste de conocimiento (formación)

Si tu equipo maneja Angular 8–12 y nunca siguió la evolución, la migración se convierte en un proceso de aprendizaje. No es solo código; es cambiar patrones mentales.

Estimación práctica: para un monorepo mediano (~50–100 paquetes) con Angular legacy, planifica entre 3–6 meses de esfuerzo de ingeniería + formación (una squad dedicada en paralelo). Para apps pequeñas, 2–4 semanas si controlas las dependencias.

Testing: la parte que obliga a modernizar

Karma y Jasmine están oficialmente deprecados. Seguir con ellos en 2026 equivale a cargar deuda técnica que ralentiza CI. El estándar actual es Jest + Angular Testing Library: tests por comportamiento, más rápidos y menos frágiles ante refactors.

Si vas a migrar, incluye la migración del stack de testing en el plan. No lo dejes para “después”; las pruebas son el talón de Aquiles de cualquier transición grande.

Plan de migración (práctico y priorizado)
1. Auditoría de superficie: identifica paquetes que usan NgModules, transformadores de compilador o dependencias tightly-coupled.
2. Formación y pilot: entrena 2–3 leads en Standalone + Signals. Ejecuta un pilot migrando un módulo crítico.
3. Reescritura incremental: migrar componentes a Standalone, adaptar servicios a nuevo DI y sustituir RxJS local por Signals donde aplique.
4. Testing first: antes de cambiar templates, adapta tests a Jest + Testing Library.
5. Despliegue canario: canary en producción para un subset de usuarios. Monitorea TTI, errores y coste de CI.
6. Feedback loop: métricas + sesiones de code review para homogeneizar patrones.
Formación recomendada (práctica)

Si tu equipo necesita acelerar la adopción, dos recursos útiles y prácticos:
- Curso Angular Moderno
- Testing en Angular con Jest + Testing Library
Ambos cubren desde conceptos arquitectónicos hasta patrones aplicables en migraciones reales.

Conclusión: criterio para decidir en 2026

Angular 22 es una opción sólida cuando necesitas previsibilidad, escalabilidad y uniformidad. No es una moda; es una apuesta por la ingeniería predecible. Pero la migración exige plan, formación y disciplina. Si tu prioridad es velocidad de lanzamiento inmediata y equipo pequeño, otras opciones siguen siendo más prácticas. Si en cambio trabajas en dominios donde la UI es infraestructura con vida útil larga —migrar a Angular 22 tiene sentido y trae beneficios tangibles: menos renders innecesarios, menos deuda y mejores métricas de rendimiento.

Migrar no es solo actualizar dependencias. Es reescribir la forma en que piensas la UI. Hazlo con criterio.

FAQ
¿Qué es Zoneless en Angular 22?

¿Qué son Signals y cuándo conviene usarlos?

¿Cuánto tiempo toma migrar un monorepo mediano?

¿Por qué migrar el stack de testing ahora?

¿Qué partes deben pilotearse primero?

¿Angular 22 mejora SEO comparado con Next.js?
Respuesta: Zoneless significa que Angular deja de depender de Zone.js para la detección de cambios. La detección se vuelve más controlada y granular, lo que reduce renders innecesarios y mejora TTI.

Respuesta: Signals son un primitivo de reactividad que permiten manejar estado local sin la sobrecarga de subscriptions masivas. Conviene usarlos para reducir boilerplate y mejorar la predictibilidad del estado local.

Respuesta: Estimación práctica indicada en el artículo: para un monorepo mediano (~50–100 paquetes) planifica entre 3–6 meses de esfuerzo de ingeniería + formación con una squad dedicada en paralelo.

Respuesta: Karma y Jasmine están deprecados; mantenerlos añade deuda técnica y ralentiza CI. Migrar a Jest + Angular Testing Library hace los tests más rápidos y menos frágiles ante refactors, y debe formar parte del plan de migración.

Respuesta: Pilotear un módulo crítico con leads formados en Standalone + Signals es la recomendación: forma 2–3 leads y ejecuta un pilot antes de reescrituras a gran escala.

Respuesta: En SSR y SEO Next.js/Nuxt suelen ofrecer una experiencia más avanzada; Angular Universal ha mejorado pero no es el centro de innovación en este espacio.
June 1, 2026