Category: AI

Usa el sistema de tipos de TypeScript como documentación para IA
El type system de TypeScript como documentación para tu agente de IA

Tiempo estimado de lectura: 4 min
- El type system actúa como contrato para agentes IA: reduce ambigüedad y alucinaciones.
- Proveer tipos reales al modelo mejora la integración: interfaces y uniones limitan las soluciones válidas.
- Prácticas recomendadas: evita any, usa uniones discriminadas, y documenta intenciones clave con JSDoc.
- Aplica en sistemas críticos: APIs públicas, lógica financiera, workflows y automations en producción.
Tabla de contenidos
El type system de TypeScript como documentación para tu agente de IA funciona mejor que mil parrafadas: le das al modelo un contrato, no una novela. Si quieres que Claude, GPT o cualquier agente genere código real y alineado con tu arquitectura, empieza por entregarle los tipos —no descripciones— y observa cómo las alucinaciones desaparecen.

¿Por qué? Porque un tipo es una restricción matemática. Un LLM con contexto tipado no puede inventar propiedades, estados o firmas que no existen.

Resumen rápido (lectores con prisa)

Qué: Usa el type system de TypeScript como contrato para agentes IA.

Cuándo: En APIs públicas, lógica crítica y workflows en producción.

Por qué importa: Reduce alucinaciones y errores de integración.

Cómo: Pega las interfaces, enums y tipos en el prompt y obliga al agente a cumplir firmas y uniones discriminadas.

Qué cambia en tu flujo de trabajo

Los modelos de lenguaje predicen tokens; no “entienden” tus necesidades de negocio. Cuando les ofreces solo lenguaje natural, abrazan convenciones comunes y rellenan huecos con suposiciones populares. Resultado: código que “parece” correcto pero falla en integrarse con tu stack.

Si en cambio inyectas las interfaces, enums y tipos de tu proyecto, reduces drásticamente el espacio de soluciones válidas. El agente no elige entre cien estructuras posibles: respeta la tuya.

No es teoría. Es práctica:
- Tipos explícitos delimitan estados válidos ('pending' | 'completed' | 'failed').
- Relaciones entre interfaces exponen dependencias y claves foráneas.
- Uniones discriminadas fuerzan el manejo correcto de errores y casos límite.
Fuentes prácticas: documentación oficial de TypeScript, guías de APIs y plataformas de agentes como OpenAI o Anthropic.

Ejemplo práctico: deja de explicar, pega el tipo

Imagina que quieres delegar la lógica de cambio de estado de pedidos.

Sin tipos: “Crea una función para actualizar el estado de un pedido”. El modelo inventa estados. Problema.

Con tipos reales:
```
type OrderStatus = 'pending' | 'confirmed' | 'dispatched' | 'delivered' | 'refunded';

interface Order {
  id: string;
  status: OrderStatus;
  customerId: string;
  updatedAt: string; // ISO UTC
}

type UpdateOrderStatusResult = 
  | { success: true; order: Order }
  | { success: false; error: 'ORDER_NOT_FOUND' | 'INVALID_TRANSITION' };
```
Pega esto en el prompt o en el contexto del agente (Cursor, GitHub Copilot, flujos custom via API) y pide: “Implementa updateOrderStatus que valide transiciones y devuelva UpdateOrderStatusResult”. Ahora el agente debe cumplir la firma. No habrá processing fantasmas ni retornos desordenados.

Reglas prácticas para construir el contexto tipado

1. Evita any como si fuera veneno

any es una puerta abierta a alucinaciones.

2. Prefiere uniones discriminadas sobre booleans dispersos

Las banderas (isLoading, isError) permiten estados imposibles; una unión no.

3. Añade JSDoc breve cuando la intención no sea obvia

Ejemplo: /** Fecha en UTC. No convertir a local. */

4. Expone las relaciones

Usa referencias: invoice.orderId: Order['id']. El agente lo interpreta como clave foránea.

5. Incluye los tipos de retorno claros (Result/Either)

Obliga a manejar errores, no a ignorarlos.

Herramientas que usan este enfoque

Herramientas que usan este enfoque: n8n para orquestación, GitHub Copilot y Cursor en editores. También puedes integrar directamente archivos .d.ts en el contexto de la llamada a la API.

¿Cuándo aplicar Type-Driven Development con agentes?

Úsalo cuando la consistencia importa: APIs públicas, lógica financiera, workflows críticos, transformaciones de datos y automations en producción. Evítalo solo en prototipos tempranos donde los modelos de datos cambian cada dos días.

No confundas disciplina con burocracia: diseñar tipos claros al principio acelera todo lo demás. Es una inversión que reduce revisiones manuales y bugs silenciosos.

Resultado esperado y próximos pasos

Si empiezas hoy, el cambio es tangible: menos iteraciones, menos PRs arreglando supuestos imposibles y, sobre todo, código que entra en tu base sin romper contratos. El tipo es el contrato. El agente es el implementador.

Haz esto ahora: copia el archivo de tipos relevante (o el fragmento clave) en el prompt de tu agente, pide una implementación concreta y compara el PR generado con lo que haría un desarrollador. Notarás dos cosas: consistencia y menos errores lógicos. Si trabajas con n8n, añade los tipos a los nodos o workflows para que los agentes que automatan tareas respeten tus contratos.

No acaba aquí: diseña un checklist de tipos antes de delegar, prueba un par de endpoints y verás cómo el modelo deja de “inventar”. ¿Quieres un checklist listo para usar? Haz esto primero: pega tu index.d.ts en el prompt y pide al agente “Genera tests unitarios que verifiquen las transiciones permitidas”. Verás la diferencia al instante.

Si quieres profundizar con proyectos y experimentos, revisa también los recursos y experimentos de Dominicode Labs. Es un buen complemento para validar patrones de Type-Driven Development aplicados a agentes y workflows antes de llevarlos a producción.

FAQ
¿Por qué usar tipos en lugar de solo lenguaje natural?

Porque los tipos actúan como restricciones matemáticas que reducen el espacio de soluciones válidas. Forzan al agente a no inventar propiedades o estados que no existen.

¿Qué tipos debo compartir primero?

Empieza por los tipos que definen estados y contratos públicos: DTOs, modelos de entidad y tipos de retorno de API. Luego añade relaciones y uniones discriminadas.

¿Cómo evito que el agente ignore los tipos?

Entrega los tipos en el contexto del prompt y pide explícitamente que la implementación cumpla las firmas. Usa ejemplos de tests o resultados (Result/Either) para que el agente devuelva formas esperadas.

¿Qué herramientas facilitan este flujo?

Editores y orquestadores que soportan contexto tipado: Cursor, GitHub Copilot y plataformas de orquestación como n8n.

¿Es útil en prototipos rápidos?

En prototipos muy tempranos donde los modelos de datos cambian constantemente, puede ser una carga. Para prototipos más avanzados o cuando la estructura es estable, sí acelera la integración.

¿Cómo manejar cambios de tipos en producción?

Versiona tus tipos y mantén contratos retrocompatibles siempre que sea posible. Añade migraciones y tests que verifiquen transiciones permitidas entre versiones.

¿Debo incluir ejemplos de datos junto a los tipos?

Sí. Ejemplos concretos ayudan al agente a mapear tipos a estructuras reales y generan pruebas útiles para validar implementaciones.
May 29, 2026
Claude Opus 4.8: novedades para desarrolladores (Claude Code, Effort Control y más)
Anthropic acaba de lanzar Claude Opus 4.8, y ellos mismos lo describen como una mejora “modesta” sobre Opus 4.7. Es una descripción honesta, pero engañosa: las mejoras de calidad de vida son justo las que más se notan cuando trabajas con esto todos los días.

En este artículo voy directo a lo que importa si programas: qué cambia de verdad, qué es marketing, y cómo encaja en un flujo de trabajo serio.

Qué es Opus 4.8 en una frase

Opus 4.8 reemplaza a 4.7 dentro de la misma familia de modelos. Mismo precio, pero más fiable y con mejor criterio cuando trabaja en modo agente. El identificador del modelo en la API es claude-opus-4-8.

La jugada interesante de este lanzamiento no es el modelo en solitario, sino lo que Anthropic construyó alrededor de él. Vamos por partes.

1. Dynamic Workflows en Claude Code

Esta es la novedad grande, y de momento está en research preview.

Claude Code ahora puede planificar una tarea de gran tamaño, lanzar cientos de subagentes en paralelo dentro de una misma sesión, verificar sus propios resultados y recién entonces reportarte. El ejemplo que pone Anthropic es ambicioso: migraciones de código a escala de cientos de miles de líneas, desde el arranque hasta el merge, usando tu propia suite de tests como criterio de aceptación.

El detalle a tener en cuenta: esta capacidad está disponible en los planes Enterprise, Team y Max. Si estás en otro plan, no la tendrás todavía.

Para quien delega tareas largas, este es el cambio con más potencial a medio plazo.

2. Effort Control: tú decides cuánto piensa

Ahora puedes elegir el nivel de “esfuerzo” del modelo desde un control junto al selector de modelo.
- Más esfuerzo: razona más profundo y entrega mejores respuestas.
- Menos esfuerzo: responde más rápido y consume menos de tus límites de uso.
Por defecto viene en high. Por encima tienes la opción “extra” —que en Claude Code corresponde a xhigh— y “max”. La recomendación oficial es usar “extra” para tareas difíciles y flujos asíncronos largos. A diferencia de Dynamic Workflows, Effort Control está disponible en todos los planes.

3. Un modelo más honesto (menos bugs silenciosos)

Esta es, para mí, la mejora que más se nota en el día a día del código.

Anthropic entrenó el modelo para que no cante victoria sin evidencia. El dato concreto: Opus 4.8 tiene aproximadamente cuatro veces menos probabilidad que su predecesor de dejar pasar un fallo —en código que él mismo escribió— sin señalártelo.

Traducido: menos “ya está listo” cuando en realidad no lo está. Si delegas tramos grandes de trabajo, esa honestidad te ahorra horas de revisión y depuración.

Novedad para quien construye sobre la API

Si desarrollas agentes sobre la API, hay un cambio silencioso pero práctico: la Messages API ahora acepta entradas de tipo system dentro del array de mensajes. Esto te permite actualizar las instrucciones de Claude a mitad de una tarea —permisos, presupuesto de tokens, contexto del entorno— sin romper el prompt cache ni tener que colarlo como un turno de usuario. Para harnesses de agentes que corren de forma autónoma, limpia bastante la arquitectura.

Precios y velocidad

Opus 4.8 mantiene el precio de 4.7:
- Modo regular: 5 USD por millón de tokens de entrada, 25 USD por millón de salida.
- Modo fast: 10 USD por millón de entrada, 50 USD por millón de salida, a 2,5× la velocidad. Anthropic indica que este modo fast es alrededor de tres veces más barato que en modelos anteriores.
En resumen: mejor modelo, mismo costo. Difícil quejarse de eso.

Mi opinión: no es un salto generacional, y está bien

Seamos claros: Opus 4.8 no te va a volar la cabeza. Es una mejora de calidad de vida, no un cambio de generación. Pero precisamente por eso se siente: el mejor criterio agéntico y la honestidad encajan a la perfección con un flujo de Spec-Driven Development (SDD).

Si el modelo respeta mejor el spec, se atreve a frenar cuando el plan no cuadra y no te miente con un “terminé” falso, entonces puedes delegar tramos más grandes con menos revisión manual. Esa es la dirección que importa: el desarrollador como director de la IA, no como su competidor.

Conclusión

Claude Opus 4.8 no es un titular espectacular, pero es una actualización sólida para quien vive dentro de Claude Code. Dynamic Workflows y la honestidad extra del modelo son lo que de verdad vale la pena, y el Effort Control le da un control fino que se agradece.

Si trabajas con SDD y Claude Code, este lanzamiento te toca de lleno. En las próximas semanas haré un experimento práctico combinando Dynamic Workflows con specs bien definidas; lo compartiré por aquí.

¿Ya probaste Opus 4.8? ¿Qué tarea grande le tirarías primero a los Dynamic Workflows? Cuéntame en los comentarios.
May 29, 2026
Construyendo Agentes Rápidos con TypeScript y Vercel AI SDK
TypeScript + Vercel AI SDK: la combinación que uso para construir agentes rápido

Tiempo estimado de lectura: 4 min
- Tipado + validación: TypeScript en la superficie y Zod en runtime reducen errores silenciosos y permiten refactors seguros.
- API unificada: Vercel AI SDK conecta proveedores y ofrece streaming y herramientas tipadas.
- Extracción y control: generateObject y esquemas evitan ingeniería de prompt frágil y JSON truncado.
- UX y operaciones: streamText mejora la percepción de latencia; métricas y circuit breakers mantienen robustez en producción.
TypeScript + Vercel AI SDK: la combinación que uso para construir agentes rápido. Si vas a poner agentes en producción, necesitas que la capa que conecta al LLM con tus herramientas sea predecible, tipada y validada desde el primer día. Esa combinación reduce errores silenciosos, acelera refactors y convierte promesas estocásticas en contratos verificables.

Resumen rápido (lectores con prisa)

TypeScript para tipado estático, Zod para validación en runtime y Vercel AI SDK como API unificada. Juntos: herramientas tipadas, extracción estructurada (generateObject), y streaming (streamText) para agentes más seguros y previsibles.

TypeScript + Vercel AI SDK: por qué funciona para agentes rápidos

Tres problemas recurrentes al construir agentes:

1. El LLM alucina parámetros para las herramientas (tool calls)

Los modelos pueden generar parámetros inválidos o inventados para llamadas a herramientas, lo que puede llevar a ejecuciones peligrosas si no se validan antes.

2. Las respuestas JSON vienen envueltas en markdown o truncadas

Solemos ver JSON con backticks, texto adicional o respuestas incompletas que complican el parsing confiable.

3. Cambios en la API del proveedor rompen integraciones silenciosamente

Actualizar modelos o proveedores puede introducir cambios incompatibles si no hay contratos y pruebas robustas.

La solución práctica es simple: tipos en la superficie (TypeScript), contratos ejecutables (Zod) y una API que integra ambas cosas (Vercel AI SDK). Beneficios concretos:
- Autocompletado que evita buscar docs.
- Tool calls que no se ejecutan si los datos no validan.
- Extracción de objetos estructurados (generateObject) sin ingeniería de prompt frágil.
- Streaming nativo (streamText) para UX reactiva.
Tool calls tipados: la barrera que evita ejecuciones peligrosas

Definir herramientas con esquemas evita que el agente ejecute acciones con parámetros inventados. Ejemplo:
```
import { tool } from 'ai';
import { z } from 'zod';

const searchOrders = tool({
  description: 'Busca pedidos por ID de cliente',
  parameters: z.object({
    customerId: z.string().uuid(),
    status: z.enum(['pending','shipped','delivered']).optional(),
  }),
  execute: async ({ customerId, status }) => {
    return queryOrdersDatabase({ customerId, status });
  },
});
```
Si el LLM devuelve un customerId inválido, Zod lo rechazará antes de llamar a execute. Resultado: menos excepciones en la base de datos y trazabilidad clara del fallo (prompt → validación → rechazo).

generateObject: extracción fiable de datos estructurados

generateObject obliga al modelo a respetar un esquema y te devuelve un objeto tipado sin hacer JSON.parse() manual. Ejemplo práctico:
```
import { generateObject } from 'ai';
import { openai } from '@ai-sdk/openai';
import { z } from 'zod';

const schema = z.object({
  sentiment: z.enum(['positive','neutral','negative']),
  confidence: z.number().min(0).max(1),
  topics: z.array(z.string()).max(5)
});

const { object } = await generateObject({
  model: openai('gpt-4o'),
  schema,
  prompt: 'Analiza la reseña y devuelve sentiment, confidence y topics.'
});

// object ya está tipado según schema
```
Esto reduce la ingeniería de prompts (“Devuelve SOLO JSON”) y aumenta la tasa de respuestas utilizables desde el primer intento.

streamText: UX que comunica progreso y permite pasos intermedios

Los agentes suelen ejecutar varias herramientas en cadena. streamText permite emitir texto progresivo y reflejar estados intermedios (p. ej. “consultando base de datos…”) en la UI sin arquitectura adicional:
- Emite tokens progresivamente al frontend.
- Reporta eventos de invocation/execute de herramientas.
- Funciona tanto en Server (Next.js) como en cliente con hooks (useChat).
Esto mejora la percepción de latencia y permite interacciones más naturales con agentes multi‑paso.

Integración práctica y operaciones en producción

Patrón recomendado
1. Diseña esquemas Zod como fuente única de verdad.
2. Expón el esquema (o ejemplo) en el prompt para guiar al LLM.
3. Usa safeParse() para reintentos y autocorrección de prompts; usa parse() para endpoints que deben fallar rápido.
4. Loguea prompt, raw response y error de Zod (flatten) para trazabilidad.
Medidas operativas
- Métricas: tasa de validación fallida, latencia media por herramienta, reintentos por prompt.
- Retries limitados con backoff y contador de intentos (p. ej. 2 reintentos de autocorrección antes de degradar a humano).
- Circuit breaker para evitar invocar herramientas costosas si la validación falla en cascada.
Limitaciones y decisions trade‑offs
- No eliminas la estocasticidad del LLM; la controlas. Algunos casos requerirán supervisión humana.
- generateObject y Structured Outputs reducen errores de formato, pero no sustituyen la validación semántica (p. ej. números positivos). Zod sigue siendo necesaria.
- Tipar desde el día 0 impone disciplina, pero acelera onboarding y refactors.
Conclusión

TypeScript + Vercel AI SDK: la combinación que uso para construir agentes rápido no es un truco de marketing. Es una estrategia concreta: tipos para detectar cambios, Zod para validar en runtime, y un SDK que une proveedores, streaming y herramientas tipadas. Si tu objetivo es desplegar agentes que actúen sobre sistemas reales—bases de datos, pedidos, o infraestructuras—esta pila reduce fallos silenciosos y convierte iteración rápida en ingeniería sostenible.

Para equipos que exploran automatización y agentes como flujo de trabajo productivo, una guía práctica y recursos adicionales están disponibles en Dominicode Labs. Es una continuación lógica para quienes quieren aterrizar estas prácticas en sistemas reales.

FAQ
¿Por qué combinar TypeScript con Zod y un SDK como Vercel AI SDK?

TypeScript aporta seguridad estática y autocompletado; Zod proporciona validación en runtime; y Vercel AI SDK unifica la interacción con proveedores, streaming y herramientas tipadas. La combinación reduce errores silenciosos y facilita refactors.

¿Cómo evitan las herramientas tipadas ejecuciones peligrosas?

Al definir parámetros con esquemas Zod, cualquier dato que no valide se rechaza antes de ejecutar la función execute, evitando operaciones con parámetros inventados o inválidos.

¿Qué ventaja ofrece generateObject frente a parsear JSON manualmente?

generateObject obliga al modelo a respetar un esquema y devuelve un objeto ya tipado, evitando la ingeniería de prompt para forzar JSON y reduciendo errores por markdown, texto adicional o truncado.

¿Cuándo debo usar streamText?

Cuando quieras mejorar la UX en interacciones multi‑paso: emitir tokens progresivamente, mostrar estados intermedios y reportar eventos de invocation/execute sin añadir complejidad arquitectónica.

¿Qué métricas operativas son críticas?

Métricas como tasa de validación fallida, latencia media por herramienta y reintentos por prompt son esenciales para monitorear la salud y eficacia del agente.

¿Cuáles son las limitaciones principales de esta pila?

No elimina la estocasticidad del LLM; solo la controla. También requiere validación semántica adicional (p. ej. asegurar números positivos). Tipar desde el día 0 impone disciplina, aunque acelera onboarding y refactors.
May 28, 2026
Recursos prácticos para aprender Spec-Driven Development
Listado de recursos para aprender SDD en castellano

Tiempo estimado de lectura: 4 min
- Ideas clave:
- Spec-Driven Development (SDD) propone escribir especificaciones deterministas antes de codificar.
- Un buen spec es el contrato entre el equipo humano y los agentes de IA; cuando es claro, reduce fragilidad en el código generado.
- Lee la teoría primero, aplica en un proyecto pequeño y luego usa agentes (por ejemplo Claude Code) para cerrar el ciclo.
- Versiona specs junto al código, declara contratos formales (OpenAPI/JSON Schema) y valida en runtime.
Tabla de contenidos
Introducción

El Spec-Driven Development (SDD) ya no es una moda: es la forma práctica de obtener código fiable cuando trabajas con agentes de IA. Si buscas un listado de recursos para aprender SDD en castellano, este artículo reúne lo esencial —teoría, práctica y pasos accionables— y muestra cómo convertir especificaciones en artefactos ejecutables por agentes como Claude Code.

En las primeras líneas: el Spec-Driven Development consiste en escribir especificaciones deterministas antes de codificar. Esa especificación es el contrato que el equipo humano y el agente de IA van a cumplir. Si no está clara, el código generado será frágil; si está bien definida, el agente actúa como un ejecutor reproducible.

Resumen rápido (lectores con prisa)

SDD = escribir especificaciones deterministas y ejecutables antes de codificar. Úsalo cuando delegues trabajo repetible a agentes de IA o necesites contratos claros entre equipos. Importa porque reduce errores de generación y facilita trazabilidad. Funciona definiendo contratos formales (OpenAPI/JSON Schema), validándolos en runtime y versionándolos junto al código.

Listado de recursos para aprender SDD en castellano

SDD — Spec-Driven Development (libro)

SDD — Spec-Driven Development

Por qué leerlo: es la base conceptual sobre cómo diseñar especificaciones que funcionen tanto para personas como para modelos. Explica estructura de especificaciones, convenciones de contratos, ejemplos de modelos de datos y patrones para casos límite. Ideal para tech leads y arquitectos que deben estandarizar cómo se escribe el “qué” antes de generar el “cómo”.

Construye con IA: de la idea al producto con Claude Code (curso Udemy)

Construye con IA: de la idea al producto con Claude Code (curso Udemy)

Por qué hacerlo: Claude Code es un agente que opera en tu entorno de desarrollo. El curso enseña a estructurar especificaciones que el agente pueda ingerir, supervisar la ejecución y corregir desviaciones. Es la práctica necesaria para ver cómo una especificación bien escrita reduce iteraciones y errores de generación.

Cómo usar estos recursos de forma práctica (secuencia recomendada)

1. Lee el libro primero. Construye el marco mental: ¿qué debe contener una especificación? ¿cómo documentar invariantes, límites y errores esperados?

2. Aplica lo leído a un pequeño proyecto: escribe una especificación completa (archivo Markdown) para una funcionalidad simple: endpoint, modelo de datos y flujos de error.

3. Realiza el curso y usa Claude Code para ejecutar la especificación. Observa dónde el agente alucina o omite pasos; corrige la especificación y repite.

Esta secuencia cierra el ciclo: teoría → especificación real → ejecución con agente → ajuste de especificación.

Paso 1

Lee el libro y define la estructura mínima de tu spec: título, objetivo, invariantes y errores esperados.

Paso 2

Escribe la especificación en Markdown dentro del repo y convierte contratos en OpenAPI/JSON Schema.

Paso 3

Usa Claude Code para ejecutar; recopila fallos, ajusta la spec y repite hasta estabilidad.

Plantilla mínima de una especificación SDD (práctica)

Incluye estos apartados en un archivo Markdown dentro del repo (Docs-as-code):
- Título y objetivo (1–2 frases).
- Requisitos no funcionales (latencia, SLAs, seguridad).
- Modelos de datos (ej. JSON Schema / OpenAPI snippets).
- Casos de uso y flujos (máquina de estados simplificada).
- Invariantes y restricciones (qué no debe pasar).
- API contract (endpoint, métodos, parámetros, errores).
- Tests de aceptación (inputs esperados y resultados).
- Checklist de despliegue y rollback.
Guardar la especificación cerca del código facilita que los agentes la lean como contexto y que el equipo la mantenga sincronizada.

Buenas prácticas técnicas para equipos que adoptan SDD
- Versiona las especificaciones en el mismo repo que el código. Nada de Confluence aislado.
- Declara contratos formales (OpenAPI, JSON Schema). Convierte esos esquemas en herramientas ejecutables por agentes.
- Usa prompts y archivos de contexto estándar (por ejemplo .cursorrules o system prompts) para que los agentes carguen las convenciones del proyecto.
- Implementa validación: transforma tus schemas en validadores runtime (Zod o Ajv) y aplícalos a cada tool_use.
- Instrumenta trazabilidad: cada ejecución automatizada debe dejar un rastro del prompt, la versión del spec y el resultado del agente.
Limitaciones y siguientes pasos

El ecosistema en castellano está creciendo; estos dos recursos son el núcleo. Para necesidades avanzadas —memoria a largo plazo, flujos que duran días, trazabilidad distribuida— añade prácticas e infraestructuras: persistencia (PostgreSQL/pgvector), orquestadores (n8n, LangGraph) y observabilidad (OpenTelemetry). Pero no conviertas la arquitectura en excusa: domina la especificación primero.

Conclusión

Si vas a trabajar con agentes de IA, aprender SDD es priorizar el acto más rentable: especificar bien. Empieza por leer el libro en Leanpub y practica con Claude Code en Udemy. Transforma la especificación en contrato vivo, versionado y ejecutable. Con eso, reduces iteraciones, controlas costos por token y, sobre todo, dejas de depender de la suerte cuando delegas en agentes.

Para equipos interesados en implementar prácticas de SDD y automatización con agentes, una continuación lógica es revisar recursos y experimentos en Dominicode Labs.

FAQ
Respuesta: SDD consiste en escribir especificaciones deterministas antes de codificar; estas actúan como contrato entre equipos humanos y agentes de IA.

Respuesta: Versionar las especificaciones en el mismo repo garantiza sincronía con el código, facilita revisiones y evita documentación aislada que se queda obsoleta.

Respuesta: Se recomiendan contratos formales como OpenAPI y JSON Schema porque son legibles por herramientas y agentes, y permiten generar validadores y mocks.

Respuesta: Transforma tus schemas en validadores runtime (por ejemplo Zod o Ajv) y ejecútalos en cada tool_use o etapa donde el agente entregue artefactos.

Respuesta: Agentes como Claude Code ejecutan especificaciones en tu entorno; su papel es reproducir flujos definidos por la spec y permitir iteración rápida sobre fallos.

Respuesta: Tras la teoría, aplica en un proyecto pequeño: escribe una spec, ejecútala con un agente, corrige las desviaciones y automatiza validaciones y trazabilidad.
May 27, 2026
Aprende a escribir especificaciones efectivas para LLMs
Por qué dejé de escribir código desde cero y empecé a hacer specs primero

Tiempo estimado de lectura: 3 min
- Menos correcciones manuales: las specs reducen el tiempo invertido en ajustar código generado por LLMs.
- Contratos ejecutables: una spec bien definida evita ambigüedades y deuda técnica.
- Escalabilidad y previsibilidad: la spec es la fuente de verdad para cambios y nuevos colaboradores.
¿Sabes qué consume más tiempo que escribir código? Corregir el código que generó la IA porque nadie le dejó claro qué hacer.

Hace un par de años disfrutaba abrir un editor en blanco. Era adrenalina pura: estructura, imports, resolver problemas “sobre la marcha”. Parecía productividad. Era ilusión.

La transición a escribir specs primero cambió eso por completo. No porque sea más elegante, sino porque es más efectivo. Aquí te cuento por qué dejé de escribir código desde cero y empecé a hacer specs primero, qué contiene una spec útil y cómo eso transforma la relación entre humanos, agentes y código.

Resumen rápido (lectores con prisa)

Spec‑Driven Development: definir specs precisas antes de implementar reduce ambigüedades, minimiza correcciones manuales y convierte la spec en la fuente de verdad. Útil cuando el producto se mantiene, la lógica es compleja o hay múltiples integradores. Implementación: especifica stack, datos, contratos de API, reglas de negocio y casos de aceptación.

Por qué dejé de escribir código desde cero y empecé a hacer specs primero

El catalizador fue simple: gastaba horas ajustando código generado por LLMs. No es culpa de la IA. Es culpa de la ambigüedad. Un modelo no conoce tus convenciones, tus límites ni las decisiones que tomaste el martes. Para un LLM, lo que no está escrito no existe.

Cuando trabajas sin spec, cada prompt es un microcontrato mal redactado. Resultado: fragmentos que funcionan aisladamente y rompen la coherencia global. El coste no es solo tiempo; es deuda técnica que aparece en sprint 3 y se siente en el cuello del repo.

Escribir specs primero no es volver a la documentación de los 90. Es escribir contratos ejecutables: lo suficiente para que un agente implemente sin inventar nada. Eso cambió mi productividad: menos correcciones, menos parches, más iteraciones reales.

¿Qué lleva una spec que funcione con IA?

No basta con una descripción bonita. Una spec útil es precisa, limitada y accionable. Esto es lo que siempre incluyo:
- Stack exacto con versiones. No “React moderno”. React 18.3, Next.js 14, etc.
- Modelo de datos. Tablas, campos, tipos y restricciones. Si usas UUID, dilo.
- Contratos de API. Endpoints, payloads de ejemplo, códigos de error y formatos.
- Reglas de negocio explícitas. Qué hacer y, más importante, qué no hacer.
- Casos de aceptación. Escenarios claros que definen el comportamiento visible.
- Límites del MVP. Qué se queda fuera en esta iteración y por qué.
El documento vive en el repo (spec.md), versionado. Si algo cambia, la spec cambia primero. No al revés.

Si quieres una guía práctica para redactar specs que funcionen con LLMs, uso y recomiendo el libro Spec‑Driven Development.

Cómo cambiaron mis sesiones con agentes

Antes: abría un chat, pedía componentes, pegaba código. Después de dos horas, el sistema era Frankenstein.

Ahora: escribo la spec, lanzo al agente en terminal con la instrucción clara—lee spec.md e implementa la Fase X—y reviso diffs. El agente crea archivos, instala dependencias y propone un conjunto coherente desde la raíz. Mi rol pasa de “peón que teclea” a “arquitecto que aprueba”.

Regla de oro

Nunca corrijo el código directamente para resolver una ambigüedad. Actualizo la spec y mando al agente a refactorizar. Si corriges el código sin tocar la spec, el día siguiente volverás a ver el mismo fallo cuando el agente regenera algo incompatible.

Beneficios reales (sin poesía)
- Menos tiempo en ajustes menudos. Más tiempo en decisiones estratégicas.
- Menos deuda técnica porque las reglas de diseño se establecen antes.
- Cambios más predecibles: si una feature cambia, la spec es la fuente de verdad.
- Escalabilidad del equipo: nuevos desarrolladores o agentes arrancan en horas, no en días.
Cuando esto no aplica

No todos los proyectos necesitan SDD. Si estás escribiendo un script de 50 líneas o prototipando algo desechable para validar una idea, un prompt rápido tiene sentido. SDD brilla cuando el producto crece, hay datos críticos o múltiples integradores.

Regla práctica: si la base de código será mantenida más de un mes o la lógica de negocio es compleja, escribe la spec.

El cambio de rol del developer

Adoptar specs no elimina el trabajo humano; lo eleva. Ahora se pide que tomes decisiones tempranas y explícitas: límites, trade-offs, casos borde. La ejecución se delega, la responsabilidad de diseño sigue siendo humana.

Ese es el valor real: profesionales que saben diseñar sistemas se vuelven más valiosos porque delegan la repetición y retienen la toma de decisiones estratégicas.

El libro Spec‑Driven Development recoge las plantillas, patrones y ejemplos que uso todos los días para que un LLM implemente sin inventos. Si estás cansado de arreglar lo que la IA rompe, empieza por escribir la spec. Es incómodo al principio, pero harás más en menos tiempo y sin excusas.

La próxima iteración de tu proyecto debería empezar con un archivo spec.md, no con un editor en blanco. Hazlo y verás que tu trabajo deja de parecer frenético: se vuelve deliberado.

Para equipos que adoptan automatización y agentes como parte del flujo de desarrollo, una práctica centralizada de especificaciones acelera la coordinación entre humanos y máquinas. Si estás explorando flujos donde agentes y workflows son críticos, mira iniciativas y recursos prácticos en Dominicode Labs para ejemplos aplicables y plantillas.

FAQ
Respuesta: Spec‑Driven Development es la práctica de definir especificaciones precisas y accionables antes de implementar. Las specs actúan como contratos ejecutables para equipos humanos y agentes.

Respuesta: Escribe una spec cuando la base de código será mantenida más de un mes, la lógica de negocio es compleja o hay múltiples integradores. Para scripts pequeños o prototipos muy tempranos, un prompt rápido puede bastar.

Respuesta: Una spec mínima incluye: stack y versiones, modelo de datos, contratos de API con ejemplos, reglas de negocio claras y casos de aceptación. También define los límites del MVP.

Respuesta: Mantén la spec en el repo, lanza al agente con instrucciones que apunten al archivo (por ejemplo, “lee spec.md e implementa la Fase X”) y revisa diffs en lugar de editar código directamente.

Respuesta: Si alguien modifica código sin actualizar la spec, la siguiente regeneración por parte del agente puede reintroducir el fallo. La regla de oro es: actualiza la spec y vuelve a ejecutar al agente.

Respuesta: Guarda las specs en el repositorio como archivos versionados (ej.: spec.md). Cualquier cambio debe pasar por control de versiones para que la spec sea la fuente de verdad.
May 26, 2026
Aprende a convertirte en AI Engineer en 2026
De dev a AI Engineer: qué necesitas aprender en 2026

Tiempo estimado de lectura: 3 min
Ideas clave
- Prompt Engineering como contrato tipado y versionable para reducir alucinaciones.
- Tool Calling y agentes: definir herramientas con responsabilidades únicas y schemas JSON.
- RAG en producción usando embeddings, chunking y pgvector para memoria privada eficiente.
- LLMOps con tracing y LLM-evaluadores para medir costes y alucinaciones.
Tabla de contenidos
Introducción

Buscar De dev a AI Engineer: qué necesitas aprender en 2026 ya no es curiosidad de fin de semana; es una decisión profesional con impacto directo en tu carrera. Si vienes de React, Angular o NestJS, tienes la base técnica. Lo que falta es reaprender cómo estructurar sistemas cuando la lógica principal es probabilística y depende de modelos externos.

En las siguientes líneas encontrarás un roadmap concreto, orientado a ingenieros web/backend, con prioridades prácticas, enlaces a documentación útil y criterios para decidir qué aprender primero.

Resumen rápido (lectores con prisa)

Prompt Engineering: diseñar prompts como artefactos versionables que produzcan salidas tipadas y validables.

Tool Calling / Agentes: definir herramientas con schemas JSON y orquestar invocaciones desde un Agent Loop.

RAG: almacenar embeddings por chunk (pgvector), recuperar top-k y re-rankear antes de inyectar contexto.

LLMOps: traza sesiones, registra tokens y usa un LLM evaluador para medir pertinencia y alucinaciones.

De dev a AI Engineer: qué necesitas aprender en 2026 (roadmap concreto)

No te doy una lista genérica. Te doy cuatro pilares con tareas prácticas y recursos.

1) Prompt Engineering estructurado — De texto a contrato
- Qué aprender: diseñar prompts como artefactos versionables: system prompts, ejemplos (few-shot), y salidas tipadas.
- Práctica concreta: escribe prompts que devuelvan JSON con un esquema Zod; automatiza tests que validen esos esquemas en CI.
- Por qué importa: reduce alucinaciones y permite integrar respuestas en pipelines sin parsing frágil.
- Recurso: Vercel AI SDK para integrar outputs tipados en TypeScript.
2) Tool Calling y diseño de agentes — Orquesta, no suplentes
- Qué aprender: definir herramientas (APIs) como JSON-schema que el LLM puede invocar (function/tool calling).
- Práctica concreta: implementa un Agent Loop mínimo en NestJS:
  
  Enviar mensaje + herramientas (schemas) al LLM.
  
  Si respuesta indica tool_use, validar args y ejecutar el Service correspondiente.
  
  Devolver tool_result y repetir hasta end_turn.
- Criterio: cada herramienta = responsabilidad única (no “herramienta dios”).
- Recurso: Anthropic Tool Use
3) RAG (Retrieval-Augmented Generation) avanzado — Memoria privada usable
- Qué aprender: embeddings, chunking semántico, re-ranking y vectores en producción.
- Práctica concreta: usa pgvector sobre PostgreSQL para empezar; implementa pipeline:
  
  Normaliza y chunkea documentos.
  
  Genera embeddings por chunk.
  
  Recupera top-k por similitud y re-rankea por señal de negocio antes de inyectar al prompt.
- Criterio: prioriza latencia y coste. Evita enviar “todo” en cada petición.
- Recurso: pgvector
4) LLMOps y Evaluaciones — Operar lo no determinista
- Qué aprender: tracing por sesión, LLM-as-a-judge y métricas de negocio.
- Práctica concreta: registra cada interacción (tokens, latencia, tools invocadas). Configura un job que use un LLM evaluador para puntuar respuestas por pertinencia y alucinaciones.
- Herramientas: Langfuse para trazabilidad, LangSmith para visualización.
- Métricas clave: coste por sesión, iteraciones por solicitud, p95 latencia por tool, tasa de fallos por tool.
Stack técnico recomendado (práctico y defendible)

Si trabajas en TypeScript, prioriza estos componentes (con orden de adopción):

1. SDKs oficiales

Recomendación: Anthropic/OpenAI — aprende sus modelos, límites y formatos de tool-calling.

2. Backend

Recomendación: NestJS — implementa providers para LLM, ToolRegistry y AgentService.

3. Vector DB inicial

Recomendación: pgvector + PostgreSQL; escala a Pinecone/Qdrant si el volumen lo exige.

4. Orquestación y workflows

Recomendación: n8n para pipelines asíncronos y conectores empresariales.

5. Observabilidad

Recomendación: Langfuse o LangSmith para tracing y análisis de coste.

Evita caer en frameworks que abstraen demasiado al principio. Aprende la API real: sabes más cuanto menos le pidas al framework que haga por ti.

Errores que vas a cometer (y cómo evitarlos)
- No versionar prompts: guarda prompts junto al código y pruébalos.
- Herramientas multifunción: separa responsabilidades y aplica autorización por herramienta.
- No medir tokens: integra métricas de coste desde el primer día.
- Tests ausentes: mockea LLMs y valida esquemas de salida en CI.
Prioridad de aprendizaje (3 pasos rápidos)
1. Practica Tool Calling con un mini-proyecto en NestJS: define 4 herramientas y un Agent Loop.
2. Implementa RAG con pgvector para un dominio de 100 documentos. Mide latencia y coste.
3. Añade tracing (Langfuse) y un evaluador LLM que puntúe respuestas en lotes.
Conclusión

Convertirse en AI Engineer en 2026 no implica abandonar lo que ya sabes. Implica extender tu disciplina: convertir prompts en contratos, convertir respuestas probabilísticas en flujos controlados y operar sistemas con métricas reales. Si dominas eso, liderarás la integración de IA en producto, no sólo la experimentación.

Dominicode Labs

Para equipos que implementan agentes, RAG y pipelines de observabilidad, un siguiente paso natural es consolidar prácticas en proyectos pilotos y reproducibles. Una opción para explorar experimentos y plantillas es Dominicode Labs, que puede servir como repositorio de referencia para workflows y pruebas de concepto.

FAQ
¿Qué es Prompt Engineering estructurado?

Diseñar prompts como artefactos versionables que incluyan system prompts, ejemplos (few-shot) y produzcan salidas tipadas. El objetivo es generar respuestas que se puedan validar automáticamente (por ejemplo, JSON con esquema Zod).

¿Cómo funciona Tool Calling y por qué usarlo?

Se definen herramientas con schemas JSON que el LLM puede invocar. Un Agent Loop envía mensajes y herramientas al LLM; si el LLM indica uso de herramienta, se validan los argumentos, se ejecuta el servicio y se devuelve el resultado, repitiendo hasta finalizar.

¿Por qué usar pgvector para RAG?

pgvector sobre PostgreSQL permite comenzar con una solución integrada para embeddings y búsquedas vectoriales. Es práctica para dominios iniciales antes de escalar a Pinecone o Qdrant.

¿Qué incluye LLMOps en producción?

Tracing por sesión, registrar tokens, latencia y tools invocadas; configurar jobs que usen un LLM evaluador para puntuar respuestas por pertinencia y alucinaciones; y medir métricas como coste por sesión y p95 latencia por tool.

¿Qué stack priorizar si trabajo en TypeScript?

Prioriza SDKs oficiales (Anthropic/OpenAI), backend en NestJS, pgvector + PostgreSQL, orquestación con n8n y observabilidad con Langfuse o LangSmith.

¿Cuáles son los primeros proyectos prácticos recomendados?

Tres pasos rápidos: (1) mini-proyecto en NestJS para Tool Calling con 4 herramientas y un Agent Loop; (2) implementar RAG con pgvector para ~100 documentos; (3) añadir tracing y un evaluador LLM para puntuar respuestas.
May 25, 2026
Cómo integrar Codex CLI en tu flujo de trabajo de manera segura
posts sobre codex cli — repositorio en GitHub

Tiempo estimado de lectura: 4 min
- Ideas clave:
- Codex CLI demostró la capacidad de transformar lenguaje natural en comandos de shell; su valor actual está en el patrón arquitectónico más que en copiar la herramienta tal cual.
- Flujo seguro: captura del prompt → contexto mínimo → petición al modelo → plan → revisión humana → ejecución (sandbox opcional).
- Reglas operativas: uso estricto de git, human-in-the-loop, .codexignore, sandboxing y logs.
- Considera alternativas modernas (Copilot CLI, Aider, Claude Code) según modelo, coste y conciencia git.
Buscar “posts sobre codex cli https://github.com/openai/codex” es algo que cualquier developer que pasa tiempo en la terminal hace tarde o temprano. El repositorio de OpenAI en GitHub contiene código que convirtió instrucciones en lenguaje natural en comandos de shell ejecutables; aquí tienes un análisis técnico, práctico y con criterio para decidir si merece entrar en tu flujo de trabajo —y cómo hacerlo sin romper nada.

Resumen rápido (lectores con prisa)

Codex CLI traduce prompts en comandos de shell con confirmación humana. Úsalo para automatizar refactorizaciones y tareas repetitivas, pero siempre con git, .codexignore y sandboxing. No lo ejecutes en producción sin revisión.

posts sobre codex cli https://github.com/openai/codex — qué era y qué es hoy

Codex CLI nació como experimento para demostrar que un modelo podía traducir prompts a comandos de bash, zsh o PowerShell. El repositorio en https://github.com/openai/codex contiene el código fuente, ejemplos y el patrón básico: capturar prompt → enriquecer con contexto mínimo → pedir al modelo → mostrar comando para confirmación.

Con el tiempo el ecosistema evolucionó. Los modelos Codex originales fueron consolidados dentro de las familias GPT y las implementaciones prácticas deben adaptarse a nuevas APIs y consideraciones de seguridad. El valor técnico del repositorio no está tanto en copiar y pegar la herramienta tal cual, sino en entender su arquitectura: contexto, plano de acción propuesto por el modelo y control humano en el loop.

Arquitectura práctica del Codex CLI (resumen técnico)

Un flujo seguro y repetible que tomes del repo:

Paso 1: Captura del prompt en la CLI

Captura del prompt en la CLI.

Paso 2: Construcción de contexto

Construcción de contexto: sistema operativo, shell, archivos relevantes.

Paso 3: Petición al modelo

Petición al modelo con instrucciones claras (incluyendo límites).

Paso 4: Recepción de plan

Recepción de plan: comandos y diffs.

Paso 5: Capa de revisión humana

Capa de revisión humana (confirmación Y/N).

Paso 6: Ejecución en sandbox o contexto real

Ejecución en sandbox o en contexto real según el modo.

El repositorio muestra esa cadena end-to-end y facilita experimentar. Link: https://github.com/openai/codex

Cómo integrar Codex CLI hoy sin liarla

Si vas a usar ideas o código del repo, aplica estas reglas operativas:
- Git obligatorio: nunca en modo autónomo sin control de versiones. Todo cambio debe poder revertirse con un git reset o revert.
- Human-in-the-loop: exige confirmación explícita (Y/N) para cualquier comando que altere el FS fuera de una carpeta de prueba.
- .codexignore: crea un archivo para excluir node_modules, dist, build, archivos binarios y .env. Reduce coste de tokens y evita filtrar secretos.
- Sandboxing: para experimentos, usa contenedores Docker con red deshabilitada. Configura volúmenes limitados.
- Tokens y coste: limita el contexto que envías al modelo. No adjuntes todo el repo; adjunta solo los ficheros necesarios o extractos relevantes.
- Logs y auditoría: guarda los prompts y las respuestas (hashed si hay datos sensibles) para trazabilidad.
Ejemplo mínimo de instalación (adaptado del repo)
```
npm install -g @openai/codex
export OPENAI_API_KEY="sk-…"
codex
```
No copies sin validar; el repo original puede requerir adaptaciones a la API actual.

Casos de uso donde realmente aporta valor

No todo para todo. Usa Codex CLI (o una implementación basada en su diseño) cuando:
- Necesites refactorizaciones a escala: renombrar símbolos en todo el repo siguiendo reglas concretas.
- Generación de tests coherentes con la base existente: pide que imite la convención de tests del proyecto.
- Automatización de infra/DevOps repetitiva: plantillas de Dockerfile, small CI changes, hooks de Git.
- Onboarding: un agente que explique snippets o genere tareas repetitivas para nuevos miembros.
No lo uses para operaciones críticas sin revisión (migraciones de BD sin script probado, cambios en infra prod).

Alternativas y posición en el ecosistema

El diseño del repo de OpenAI es la semilla. Hoy existen herramientas más pulidas y con integraciones específicas (Copilot CLI, Aider, Claude Code). La decisión práctica se basa en tres factores: modelo y coste, git-awareness (capacidad para trabajar con commits y diffs), y controles de seguridad integrados.
- Si quieres integración empresarial y soporte nativo con GitHub: considera Copilot CLI.
- Si necesitas un agente git-aware que haga commits atómicos: mira Aider.
- Si trabajas con repositorios enormes y razonamiento arquitectónico: Claude Code es fuerte en contexto pesado.
Codex CLI (repositorio) sigue siendo un recurso para aprender el patrón arquitectónico y prototipar. En https://github.com/openai/codex encontrarás el material de referencia.

Conclusión: lee los posts, adapta las ideas, no copies el script

Los posts sobre codex cli https://github.com/openai/codex deben leerse con criterio. El valor real está en el patrón: contexto mínimo, plan claro, revisión humana y ejecución controlada. Si vas a incorporar agentes en tu terminal, hazlo con Git como red de seguridad, ignores claros y entornos aislados. Empieza por prototipos en carpetas no productivas, automatiza tareas repetitivas y escala solo cuando la trazabilidad y la seguridad estén resueltas.

El repo es útil. Pero la responsabilidad técnica es tuya: la IA puede sugerir un comando brillante y peligroso a la vez. Mantén el control, y usa la terminal como un asistente, no como un sustituto de tu juicio.

Dominicode Labs

Si trabajas en automatización, agentes o workflows y quieres prototipar con control de seguridad, considera explorar recursos adicionales en Dominicode Labs. Sirve como continuación lógica para experimentar con patrones de agente git-aware y sandboxing.

FAQ
¿Qué es Codex CLI y dónde está el código?

Codex CLI fue un experimento que convierte prompts en comandos de shell con confirmación humana. El código está disponible en el repositorio de OpenAI en GitHub; accede a él desde el enlace proporcionado en el artículo.

¿Por qué no debo ejecutar comandos sin control de versiones?

Sin git no puedes revertir fácilmente cambios peligrosos. Usar control de versiones permite deshacer operaciones con git reset o revertir commits, reduciendo el riesgo al probar comandos generados por IA.

¿Qué debe incluir un .codexignore?

Incluye node_modules, dist, build, archivos binarios y .env. Esto reduce coste de tokens y evita filtrar secretos al modelo.

¿Cómo aplicar sandboxing para experimentos?

Usa contenedores Docker con la red deshabilitada y volúmenes limitados para ejecutar comandos de prueba. Esto aísla el entorno y minimiza el impacto de cambios inesperados.

¿Para qué casos de uso es recomendable usar Codex CLI?

Es útil para refactorizaciones a escala, generación de tests coherentes, automatización repetitiva de infra/CI, y onboarding que requiera generación de tareas o explicaciones de snippets.

¿Qué alternativas existen hoy?

Alternativas mencionadas incluyen Copilot CLI, Aider y Claude Code, cada una con puntos fuertes según integración con GitHub, git-awareness y capacidad para contextos grandes.

¿Cómo auditar prompts y respuestas?

Guarda los prompts y respuestas en logs. Si contienen datos sensibles, almacena versiones hasheadas. Mantén trazabilidad para revisar decisiones y reproducir resultados.
May 24, 2026
Cómo usar SDKs de AI tipados en TypeScript para reducir errores
Typed AI SDKs: por qué usar el SDK de Anthropic o OpenAI en TypeScript y no JavaScript puro

Tiempo estimado de lectura: 3 min
- TypeScript tipado reduce errores silenciosos: convierte fallos indetectables en errores visibles en desarrollo.
- Zod aporta validación en runtime: evita confiar en casts y valida la forma real de respuestas del modelo.
- Patrón “esquema primero, prompt segundo”: serializa el esquema en el prompt y valida antes de persistir.
Tabla de contenidos
Typed AI SDKs: por qué usar el SDK de Anthropic o OpenAI en TypeScript y no JavaScript puro — si vas a poner LLMs en producción, esa decisión cambia el perfil de riesgo de tu sistema. TypeScript no arregla la aleatoriedad del modelo, pero convierte fallos indetectables en errores visibles mientras desarrollas. Eso es todo; y es suficiente.

Resumen rápido (lectores con prisa)

Un SDK tipado (OpenAI o Anthropic) + validación runtime (Zod) convierte errores silenciosos en errores detectables durante desarrollo. Diseña el esquema primero, serialízalo en el prompt, parsea y valida la respuesta antes de usarla.

Introducción

Cuando integras un LLM en un flujo de trabajo (agentes, pipelines n8n, microservicios de extracción) no luchas contra la IA: luchas contra su impredecibilidad. JavaScript puro acepta promesas rotas y propiedades ausentes hasta que explotjan en producción. Un SDK tipado (OpenAI o Anthropic) empuja la mayoría de esos errores al compilador.

Fuentes prácticas:
- TypeScript docs
- OpenAI SDK
- Anthropic
- Zod
- n8n
Errores en compile time, no en producción

– Modelos como valores literales: los SDK tipados exponen uniones de strings para modelos. Intentar model: 'gpt-5' fallará en el editor, no en prod.

– Parámetros obligatorios: el compilador te obliga a rellenar lo que la API realmente necesita.

– Propiedades opcionales: TS fuerza comprobaciones (?., if) antes de operar con datos potencialmente nulos.

Resultado: menos hotfixes nocturnos. Detectas que algo está mal cuando escribes, no cuando lo usan clientes.

Autocompletado real: productividad que importa

IntelliSense deja de ser un lujo y pasa a ser documentación viva. Parámetros como temperature, response_format o function_call aparecen en el editor con sus tipos exactos. En equipos, esto reduce discusiones sobre “¿qué forma tenía ese objeto?” y evita JSON mal formado en llamadas a herramientas.

La trampa del casting y por qué Zod es obligatorio

TypeScript desaparece en runtime. Hacer const x = JSON.parse(s) as MyType es mentirle al compilador. Si el modelo devuelve "age":"veinticinco" habrás metido basura en tu flujo.

Zod ofrece validación en tiempo de ejecución y genera el tipo TypeScript desde el esquema. Patrones recomendados:

Patrones recomendados
- Definir el esquema Zod como fuente única de verdad.
- Incluir el esquema (o un resumen) en el prompt para guiar al LLM.
- Parsear y validar la respuesta con Zod antes de usarla.
Ejemplo práctico (OpenAI/Anthropic + Zod):
```
import { z } from 'zod';
import OpenAI from 'openai'; // o Anthropic desde '@anthropic-ai/sdk'

const UserProfileSchema = z.object({
  fullName: z.string(),
  age: z.number().int().positive(),
  email: z.string().email(),
  tags: z.array(z.string()).max(5),
});

type UserProfile = z.infer<typeof UserProfileSchema>;

const client = new OpenAI({ apiKey: process.env.OPENAI_API_KEY });

async function extractUserProfile(text: string): Promise<UserProfile> {
  const resp = await client.chat.completions.create({
    model: 'gpt-4o',
    messages: [
      { role: 'system', content: `Devuelve solo JSON válido que cumpla este esquema: ${JSON.stringify(UserProfileSchema.shape)}` },
      { role: 'user', content: text },
    ],
    // response_format o similar según SDK
  });

  const raw = resp.choices?.[0]?.message?.content;
  if (!raw) throw new Error('Respuesta vacía del modelo');

  // Validación runtime: si falla, aquí lo capturas y reintentas o lo registras
  const parsed = UserProfileSchema.parse(JSON.parse(raw));
  return parsed;
}
```
Si usas Anthropic, adapta la llamada al cliente: la idea es la misma: pedir JSON estructurado y validar con Zod.

Patrones que escalan: esquema primero, prompt segundo
1. Diseña el esquema Zod.
2. Infiere tipos TypeScript con z.infer.
3. Serializa el esquema (o una versión legible) en el prompt.
4. Valida la respuesta antes de persistir o procesar.
Este patrón convierte al LLM en una fuente estocástica que vive dentro de un perímetro controlado. No reduces la tasa de “alucinaciones”, pero transformas una alucinación en un error tratable y reproducible.

Cuándo aplicar este enfoque

– Sistemas críticos: facturación, reconciliaciones, autorizaciones.

– Workflows orquestados en n8n donde agentes ejecutan cambios de estado.

– Microservicios que procesan datos externos y alimentan otras partes del sistema.

Evítalo solo en prototipos desechables donde la velocidad de exploración sea prioritaria frente a la robustez.

Conclusión

Usar Typed AI SDKs de Anthropic o OpenAI en TypeScript y validarlos con Zod no es postureo técnico: es una estrategia de mitigación de riesgo. Cambias errores silenciosos por fallos detectables en desarrollo, mejoras la DX y pones una barrera defensiva entre la naturaleza impredecible del LLM y la integridad de tus datos. Implementa el patrón “esquema primero, prompt segundo” y tu siguiente incidente nocturno será opcional, no inevitable.

Para trabajos relacionados con automatización, agentes y workflows en entornos de producción puedes explorar más prácticas y experimentos en Dominicode Labs. Se integra como una continuación lógica de los patrones descritos y recursos para orquestación y pruebas.

FAQ
Respuesta: TypeScript detecta discrepancias de tipos en tiempo de compilación, obligando a llenar parámetros obligatorios y a tratar opcionales. Reduce errores silenciosos que aparecerían solo en producción.

Respuesta: Comprobaciones manuales ayudan, pero son repetitivas y propensas a olvidos. Zod ofrece esquemas reutilizables y validación automatizada en runtime que complementa a TypeScript.

Respuesta: No. Zod aporta validación en runtime; TypeScript aporta seguridad en compile time. Juntos cubren ambos límites: desarrollo y ejecución.

Respuesta: Serializa el esquema o un resumen legible (ej.: propiedades y tipos esperados) y pídelo explícitamente en el prompt. Luego parsea y valida la respuesta con Zod antes de usarla.

Respuesta: Sí. El enfoque es independiente del proveedor: adapta la llamada al cliente de Anthropic pero mantiene la misma estrategia de pedir JSON estructurado y validar con Zod.

Respuesta: Evítalo en prototipos desechables donde la velocidad de exploración prima sobre la robustez. Para sistemas críticos, es la opción recomendada.
May 23, 2026
Implementación del Agentic Harness para Agentes Autónomos
Qué es el Agentic Harness y cómo aplicarlo?

Tiempo estimado de lectura: 5 min
- Idea clave: Un Agentic Harness es la infraestructura que transforma agentes autónomos experimentales en software operable y seguro.
- Idea clave: Sus componentes mínimos: sandboxing, mocking de herramientas, trazabilidad y guardrails automatizados.
- Idea clave: Integrarlo en CI/CD y usar un LLM-judge reduce riesgos antes de dar acceso a producción.
El Agentic Harness es la infraestructura que convierte agents autónomos experimentales en piezas de software operables y seguras. Si un agente entra en producción sin un harness, no es cuestión de “si” fallará: es cuestión de “cuándo” y con qué coste. Entender qué es el Agentic Harness y cómo aplicarlo es obligado para Tech Leads y equipos que despliegan agentes que actúan sobre sistemas reales.

Los LLM son probabilísticos. Un agente no devuelve solo un output: planifica, encadena herramientas y decide. Un Agentic Harness controla ese actor: lo aísla, lo simula, lo rastrea y lo limita antes de darle acceso al mundo real.

Resumen rápido (lectores con prisa)

Agentic Harness: infraestructura que aísla, simula y limita agentes que razonan. Úsalo siempre que un agente pueda modificar sistemas reales o acceder a datos sensibles. Importa porque reduce riesgos operativos y legales. Funciona combinando sandboxing, mocks, trazabilidad y guardrails automatizados.

Qué es el Agentic Harness y cómo aplicarlo en la práctica

Un Agentic Harness hereda la idea del test harness tradicional y la adapta a agentes que razonan. Su objetivo no es solo verificar resultados; es auditar trayectorias de ejecución, interceptar efectos secundarios y bloquear comportamientos peligrosos. Sus componentes mínimos son:

1) Diseño del sandbox
- Ejecuta cada run del agente en un contenedor efímero o microVM sin acceso de salida (egress blocked).
- Monta datasets de prueba y mocks en el filesystem; destruye el entorno al terminar.
- No expongas secretos ni claves reales: usa vaults de test que devuelvan credenciales ficticias.
Referencias: Docker, Firecracker.

2) Mocking y simulación de tools
- Intercepta function-calls y reemplázalas por mocks que:
- Ejemplo: delete_user(user_id) devuelve {status: "mocked", user_id} y queda registrado en trazas.
Referencia: OpenAI Function Calling docs.

3) Trazabilidad de la trayectoria (traces)
- Registra: prompts, respuestas intermedias, herramientas invocadas, embeddings consultados, scores de retrieval.
- Guarda trazas en un formato navegable (JSONL) y con versión del modelo.
- Integra una capa de observabilidad para análisis post-mortem: Langfuse u otros servicios de tracing. También se puede integrar con herramientas como LangChain/observability.
4) Guardrails cuantitativos y evaluadores automáticos
- Umbrales automáticos que abortan la ejecución:
- Métricas de seguridad: intentos de acceso a APIs prohibidas, intentos de exfiltración.
- LLM-as-a-Judge: usa un segundo modelo con temperature=0 para revisar la coherencia y seguridad de la trayectoria (evaluación estructurada: PASS/WARN/FAIL).
5) Integración en CI/CD
- Cada PR que incluya cambios en agentes debe disparar pipelines del harness.
- No permitir merge si el harness devuelve FAIL en criterios críticos (seguridad, uso de herramientas prohibidas, loops).
- Generar reportes legibles: timeline de decisiones, evidencia de mocks, recomendación humana para escalado.
Ejemplo real (simplificado)

Objetivo: “Optimizar consultas SQL lentas”.
- Sin harness: el agente propone eliminar tablas, lo ejecuta y rompe el servicio.
- Con harness: delete_table está mockeado; el agent llama la herramienta, el harness registra la decisión y el LLM-judge marca la acción como destructiva → FAIL. Equipo revisa prompt y reglas antes de permitir acción real.
Riesgos, limitaciones y gobernanza
- No existe aún un estándar único; la industria arma soluciones híbridas (Docker + observabilidad + LLM-judge).
- El harness reduce riesgos, no los elimina: necesita gobernanza humana sobre qué decisiones puede automatizar el agente.
- Monitorización continua: el harness debe seguir en producción en modo controlado (shadow runs, canary) incluso después del rollout.
Checklist mínimo antes de dar acceso real
- Contenedor sandbox probado y reproducible.
- Todas las herramientas mockeadas disponibles en harness.
- Trazas completas y auditable por humanos.
- Umbrales configurados (tokens, coste, llamadas).
- LLM-judge integrado y reglas de CI/CD que bloqueen merges.
Dominicode Labs

Para equipos que construyen infra de agentes y harnesses, explorar investigaciones y plantillas operativas puede acelerar la adopción segura. Una continuación lógica para experimentar con setups híbridos y pipelines de observabilidad es Dominicode Labs.

FAQ
Respuesta: ¿Qué es exactamente un Agentic Harness?

Es la infraestructura que aísla, simula, traza y limita la ejecución de agentes autónomos para que puedan evaluarse y auditarse antes de interactuar con sistemas reales.

Respuesta: ¿Cuándo debo usar un harness?

Cuando un agente pueda modificar sistemas, acceder a datos sensibles o ejecutar acciones con impacto operativo. Es obligatorio antes de dar acceso a producción.

Respuesta: ¿Qué herramientas necesito para empezar?

Componentes básicos: sandbox (p. ej. Docker o Firecracker), mocks de APIs, sistema de trazas (JSONL) e integración con una herramienta de observabilidad como Langfuse.

Respuesta: ¿Cómo funciona el LLM-judge?

Un segundo modelo con temperatura cero revisa la trayectoria del agente (prompts, herramientas, decisiones) y emite una evaluación estructurada (PASS/WARN/FAIL) basada en reglas predefinidas.

Respuesta: ¿El harness evita la gobernanza humana?

No. El harness reduce riesgos operativos y automatiza controles, pero requiere gobernanza humana para decidir qué acciones se delegan y qué reglas son aceptables.

Respuesta: ¿Dónde guardo las trazas y cómo las analizo?

Guarda trazas en formato navegable (por ejemplo JSONL) con versión del modelo y métadatos. Analiza con una capa de observabilidad o herramientas de tracing para post-mortem y auditoría.
May 22, 2026
Cómo montar un segundo cerebro con Claude Code para gestión del conocimiento
Como montar un segundo cerebro con Claude code

Si buscas cómo montar un segundo cerebro con Claude Code, aquí tienes una estrategia técnica, reproducible y orientada a equipos que trabajan con código. No es magia: es arquitectura. Trata tus notas como código fuente, versiona todo en Git y deja que Claude Code razone sobre Markdown estructurado para capturar, recuperar y sintetizar conocimiento técnico.

Documentación de referencia: Claude Code. Para ingesta automatizada, n8n.

Resumen rápido (lectores con prisa)

Qué es: Un repositorio de Markdown gestionado por Claude Code que actúa como segundo cerebro técnico.

Cuándo usarlo: Cuando quieras operar conocimiento técnico como código, con control de versiones, búsqueda semántica y automatización.

Por qué importa: Reduce fricción entre captura y reutilización, mejora durabilidad y facilita síntesis automatizada.

Cómo funciona (esencial): Notas en Markdown con frontmatter, indexadas por búsqueda semántica local, gobernadas por un archivo CLAUDE.md y accionadas por un agente CLI.

Ideas clave
- Texto plano + Git: durabilidad, portabilidad y trazabilidad.
- Metadatos estructurados: frontmatter obligatorio para búsquedas precisas y ahorro de tokens.
- Claude Code como motor activo: agente CLI que crea, etiqueta, sintetiza y propone cambios (PRs).
- Ingesta automatizada: usar n8n para pipelines que conviertan señales (Slack, GitHub, newsletters) en notas Markdown.
Tabla de contenidos
Como montar un segundo cerebro con Claude code: diseño y principios

El objetivo es simple: minimizar la fricción entre capturar ideas y convertirlas en artefactos reutilizables (ADRs, snippets, post-mortems). Tres principios guían el diseño:
- Texto plano y Git: durabilidad y portabilidad.
- Metadatos estructurados: permiten búsquedas precisas sin cargar todo el repositorio.
- Agente CLI como motor activo: Claude Code actúa (crea, etiqueta, sintetiza) en lugar de solo devolver resultados.
La propuesta técnica es un repositorio local de Markdown, indexado por una búsqueda semántica local y gobernado por reglas en un archivo CLAUDE.md. Claude Code usa ese contexto para operar de forma coherente.

Estructura del repositorio (parámetros prácticos)

Adapta el método PARA (Projects, Areas, Resources, Archives) con convenciones claras. Una topología sugerida:

/knowledge-base
/01-projects
/02-areas
/03-resources
/04-archives
CLAUDE.md

Adaptación del método PARA
- Archivos Markdown (.md) con YAML frontmatter en la cabecera.
- Nombres de archivo semánticos: 2026-04-migracion-postgres.md o auth-use-cases-login.md.
- Limita el tamaño de archivos (ideal < 1.5k palabras por nota) para mantener la relevancia en búsquedas semánticas.
Ejemplo de frontmatter

—
title: Rate limiting en Express con Redis
date: 2025-04-10
tags: [backend, nodejs, redis, performance]
status: active
—

El frontmatter permite a Claude filtrar sin leer todo el contenido y reduce consumo de tokens.

CLAUDE.md: memoria persistente y reglas del agente

CLAUDE.md es la gobernanza del segundo cerebro. Define el rol del agente, las reglas de ingestión, los comandos permitidos y las prioridades de búsqueda.

Contenido mínimo recomendado:
- Rol (ej. “Actúa como gestor de conocimiento técnico”).
- Reglas de escritura (frontmatter obligatorio, plantillas).
- Reglas de búsqueda (usar Semantic Search antes de cargar archivos completos).
- Protocolos de modificación (p. ej. “Mostrar PR antes de borrar”).
Con esto, cada sesión arranca con el mismo contrato operativo, evitando decisiones erráticas del modelo.

Flujos de trabajo operativos (ejemplos reales)

Algunos flujos operativos que funcionan en equipos técnicos:

1) Ingesta rápida (post-reunión)
- Acción: pega el texto bruto en la terminal.
- Prompt: “Extrae decisiones, riesgos y tareas; crea /01-projects/migracion-postgres.md con frontmatter y lista de tasks.”
- Resultado: nota creada, etiquetada y commiteada.
2) Búsqueda semántica y recuperación

Prompt: “Busca soluciones documentadas para latencia en queries SQL en los últimos 12 meses y sintetiza los patrones comunes.” Claude usa Semantic Search para limitar los archivos que carga y devuelve una síntesis accionable.

3) Generación de ADRs

Prompt: “Lee notas con tags #arquitectura y #microservicios, encuentra trade-offs recurrentes y genera un primer borrador de ADR con pros/cons y migración paso a paso.”

4) Mantenimiento automatizado

Prompt: “Lista archivos en /03-resources sin tags; propone tags automáticos y muestra la diff antes de aplicar.”

Orquestación externa: n8n para captura y pipelines

Para entradas automáticas (Slack, GitHub stars, newsletters), crea workflows en n8n que:
- Extraigan el contenido.
- Conviertan a Markdown con frontmatter básico.
- Guarden en /03-resources o /01-projects.
Así tu segundo cerebro se alimenta sin intervención manual y Claude tiene material fresco al iniciar la sesión.

Consideraciones operativas y limitaciones
- Costos y tokens: obliga al agente a usar Semantic Search local antes de enviar datos al modelo para ahorrar tokens.
- Context window: evita pedir que el agente “lea todo”; diseña prompts que recuperen subsets relevantes.
- Seguridad: el repositorio puede contener notas sensibles. Aplica cifrado o repositorios privados; controla accesos.
- Evolución: revisa periódicamente las convenciones en CLAUDE.md y actualiza plantillas.
Integración con flujo de trabajo real (CI / PRs)

Siempre que Claude genere cambios significativos:
- Crea un branch y un PR automático.
- Ejecuta CI (tests, linters, SCA) en un entorno aislado (VM/Container).
- Usa n8n o pipelines para devolver resultados al CLI y permitir que Claude revise y corrija si es necesario.
Esto evita merges automáticos sin validación humana.

Conclusión y primer paso accionable

Cómo montar un segundo cerebro con Claude code no es un truco de productividad: es una decisión de arquitectura que convierte notas en activos reutilizables. Empieza hoy con estos tres pasos:
1. crea la topología PARA en un repositorio Git,
2. añade frontmatter obligatorio y un CLAUDE.md con reglas básicas,
3. prueba un flujo de ingesta simple (reunión → nota creada por Claude).
Luego automatiza la captación con n8n y define tu política de PR/CI. Haz esto y tu conocimiento dejará de ser un archivo muerto: se convertirá en una base de decisión viva y accionable.

Mención: Dominicode Labs

Para complementar flujos de trabajo y pruebas de concepto relacionadas con automatización y agentes, considera explorar recursos prácticos y experimentos en Dominicode Labs. Es una continuación lógica para equipos que buscan implementar pipelines y agentes en entornos reales.

FAQ
Respuesta: Archivos Markdown con YAML frontmatter en la cabecera. Nombres semánticos y notas cortas (ideal < 1.5k palabras).

Respuesta: El frontmatter permite filtrar y priorizar sin cargar todo el contenido, reduciendo consumo de tokens y haciendo las búsquedas más precisas.

Respuesta: Obliga al agente a ejecutar Semantic Search localmente y solo enviar al modelo los archivos más relevantes; evita pedidos que “lean todo” el repositorio.

Respuesta: Es el contrato operativo: define el rol del agente, reglas de ingestión, plantillas, comandos permitidos y protocolos de PR/edición.

Respuesta: n8n orquesta ingestas automáticas (Slack, GitHub, newsletters): extrae contenido, genera Markdown con frontmatter y lo guarda en las carpetas correspondientes del repositorio.

Respuesta: Claude debe crear branches y PRs automáticos; la CI ejecuta tests/linters y se evita el merge automático sin validación humana.
May 22, 2026