Category: Blog

Your blog category

Stack IA agéntica en 2026: qué usar, qué ignorar y cuál elijo

El problema no es que falten herramientas para construir agentes de IA. Es que sobran.

Hace unos meses, en una sesión de Dominicode Labs, me preguntaron cuál era el stack IA agéntica 2026 que recomendaba. Empecé a responder y me di cuenta de que tenía una respuesta para cada capa — pero no tenía una respuesta integrada. Llevo varios proyectos agénticos en producción en Dominicode y cada semana aparece un nuevo framework, un nuevo modelo, un nuevo “estándar imprescindible”.

Qué modelo. Qué framework de orquestación. Qué hacer con la memoria. Cómo trazar lo que hace el agente. Dónde desplegarlo. Cada capa tiene sus propias opciones, sus propias compensaciones y su propio ecosistema de hype que no para de generar nuevas herramientas.

Este post es mi respuesta integrada: el stack que yo uso, por qué elegí cada pieza y qué descarto con criterio. No es una lista de todas las herramientas que existen. Es una guía con tesis clara sobre qué funciona en producción cuando construyes con TypeScript, para un proyecto real, sin un equipo de 20 personas.

Cómo pensar en el stack agéntico: capas, no herramientas

Antes de hablar de herramientas específicas, el marco que uso para evaluar cualquier stack agéntico. Hay cinco capas y cada una resuelve un problema diferente:

Modelo — el LLM que razona y toma decisiones
Framework de agente — el runtime que envuelve el agentic loop
Memoria y contexto — dónde vive la información entre sesiones y entre agentes
Observabilidad — cómo ves qué está haciendo el agente
Deployment — dónde corre el sistema en producción

La mayoría de los posts sobre herramientas de IA mezclan estas capas y crean confusión. LangChain no compite con Claude — compite con el SDK de Anthropic. Langfuse no compite con Pinecone — resuelven problemas en capas completamente distintas.

Cuando tienes claro qué capa resuelve cada herramienta, la decisión se vuelve mucho más simple. Si no tienes claro aún qué es el agentic loop y cómo funciona, empieza por aquí antes de elegir el stack.

Capa 1: El modelo — quién razona

La decisión más importante del stack y la que más gente toma al revés: eligen el modelo por el benchmark, no por el comportamiento en producción con herramientas.

Los benchmarks de razonamiento abstracto no predicen bien si un modelo va a gestionar correctamente el agentic loop: respetar los límites de las herramientas, detectar cuándo ha completado el objetivo, no inventarse argumentos para las tool calls, pedir confirmación cuando tiene ambigüedad.

Mi ranking para sistemas agénticos en 2026, basado en uso real:

Claude Sonnet (Anthropic) — mi elección principal. La familia Claude 4.x lidera en comportamiento agéntico: sigue instrucciones complejas del sistema prompt con más fidelidad que los competidores, gestiona bien contextos de 200k tokens, y tiene el menor índice de “tool hallucination” — inventarse argumentos para herramientas que no existen o llamar a herramientas con parámetros incorrectos. Para proyectos donde el agente tiene acceso a herramientas reales con consecuencias (escritura a disco, llamadas a APIs, base de datos), esta fidelidad importa.

Gemini 2.5 Pro (Google) — segunda opción para tareas de análisis. Tiene una ventana de contexto de 1M tokens que es genuinamente útil cuando el agente necesita procesar documentos grandes. El razonamiento es sólido. La API tiene más latencia que Anthropic en llamadas con herramientas. Lo uso puntualmente para tareas de análisis de documentos extensos, no como backbone de un sistema agéntico.

GPT-4o (OpenAI) — bueno, pero no es mi primera elección para agentes. Excelente en tareas de generación pura. En agentic loops de más de 15 iteraciones, he visto más context drift que con Claude. Para proyectos que ya tienen infraestructura en el ecosistema OpenAI, es perfectamente válido.

Llama 3.x local (Meta) — para casos específicos, no como base. Los modelos locales tienen su lugar: privacidad total, sin costos por token, sin latencia de red. Pero para sistemas agénticos complejos, la diferencia en calidad de razonamiento con los modelos de frontera es demasiado grande hoy. Los uso para tareas de clasificación simple o cuando los datos no pueden salir del entorno.

La conclusión práctica: empieza con Claude Sonnet. Si los costos escalan y la tarea lo permite, evalúa migrar partes del sistema a modelos más baratos para subtareas que no requieren razonamiento complejo.

Capa 2: El framework de agente — quién orquesta el loop

Aquí está la decisión que más polémica genera, porque hay muchas opciones y cada una tiene su comunidad apasionada.

Mi posición es clara: el framework que elijas debería desaparecer de tu código. Si tu lógica de negocio está mezclada con abstracciones del framework, tienes un problema de arquitectura, no de elección de herramienta.

Vercel AI SDK — mi elección para TypeScript

Para proyectos TypeScript, el Vercel AI SDK es el estándar más sólido hoy. Tiene tres propiedades que importan:

Primero, la abstracción es mínima. generateText, streamText, generateObject — funciones que hacen lo que dicen, con un tipo de retorno predecible. Puedes leer el código del SDK y entender qué ocurre.

Segundo, es agnóstico al proveedor. El mismo código funciona con Claude, GPT-4o y Gemini. Cambias el adaptador, no la lógica. En un año donde los modelos evolucionan rápido, esto no es un detalle menor.

Tercero, tiene soporte nativo para tool use, streaming de respuestas y generateObject con schemas Zod — lo que significa que puedes hacer que el modelo devuelva JSON tipado sin analizadores de texto frágiles.

import { generateText } from "ai";
import { anthropic } from "@ai-sdk/anthropic";
import { z } from "zod";

const result = await generateText({   model: anthropic("claude-sonnet-4-6"), // verifica el modelo vigente en docs.anthropic.com/models   tools: {     readFile: {       description: "Lee el contenido de un archivo del proyecto",       parameters: z.object({ path: z.string() }),       execute: async ({ path }) => fs.readFile(path, "utf-8"),     },   },   messages: [{ role: "user", content: userQuery }],   maxSteps: 15, // límite de iteraciones del loop });

El parámetro maxSteps es el límite de iteraciones del agentic loop. No lo omitas nunca. Un agente sin límite de pasos en producción es un bug esperando a ocurrir.

LangGraph — cuando necesitas flujos con estado y ramificaciones

LangGraph (de LangChain) resuelve un problema diferente: orquestación de flujos donde el camino de ejecución no es lineal. Si tienes un sistema donde el agente puede ir por diferentes ramas según el resultado de un paso anterior, donde necesitas estado persistente entre sesiones, o donde hay handoffs entre múltiples agentes con condiciones complejas — LangGraph tiene primitivas para eso.

No es mi primera elección para proyectos simples porque añade complejidad conceptual. Pero para sistemas multi-agente con lógica de routing elaborada, es genuinamente más potente que construir esa lógica a mano.

SDK de Anthropic directo — para control total

Cuando necesito control máximo sobre cada llamada a la API, uso el SDK de Anthropic directamente. Sin abstracciones intermedias. El agentic loop lo implemento yo, con la lógica exacta que necesito.

Esto es lo que haría si estuviera construyendo el loop desde cero con el SDK directo — el mismo patrón que cubro en detalle en el curso Construye con IA:

import Anthropic from "@anthropic-ai/sdk";

const client = new Anthropic();

async function runAgentLoop(userMessage: string, tools: Tool[]) {   const messages: Anthropic.MessageParam[] = [     { role: "user", content: userMessage },   ];

let iterations = 0;   const maxIterations = 20;

while (iterations < maxIterations) {     const response = await client.messages.create({       model: "claude-sonnet-4-6", // verifica en docs.anthropic.com/models       max_tokens: 4096,       tools,       messages,     });

// Si el modelo no llama a ninguna herramienta, ha terminado     if (response.stop_reason === "end_turn") {       return extractTextResponse(response);     }

// Procesa las tool calls y añade los resultados al contexto     const toolResults = await executeToolCalls(response.content);     messages.push({ role: "assistant", content: response.content });     messages.push({ role: "user", content: toolResults });

iterations++;   }

throw new Error(Agente excedió el límite de ${maxIterations} iteraciones); }

Lo que no uso: CrewAI, AutoGen, AgentGPT ni la mayoría de frameworks Python-first para proyectos TypeScript. No porque sean malos — CrewAI tiene ideas interesantes sobre roles y colaboración entre agentes — sino porque añadir Python al stack cuando ya tienes TypeScript es complejidad operacional que no se justifica en la mayoría de casos. Si tu equipo es Python, la ecuación cambia.

Capa 3: MCP — el protocolo que está cambiando todo

El Model Context Protocol (MCP) merece su propio apartado porque no es un framework de agentes. Es un estándar de comunicación — el equivalente a REST para que los agentes consuman herramientas y contexto de fuentes externas de forma estandarizada.

Antes de MCP, cada herramienta que querías darle a un agente requería código de integración específico. Con MCP, una herramienta bien construida se puede conectar a cualquier agente que soporte el protocolo — Claude Code, Cursor, tu propio agente custom.

Las implicaciones son grandes: en lugar de construir integraciones punto a punto, construyes servidores MCP reutilizables. Ya existe un ecosistema de servidores MCP públicos para GitHub, bases de datos, sistemas de archivos, APIs populares.

// Un servidor MCP mínimo con el SDK oficial
import { Server } from "@modelcontextprotocol/sdk/server/index.js";
import { StdioServerTransport } from "@modelcontextprotocol/sdk/server/stdio.js";
import { ListToolsRequestSchema } from "@modelcontextprotocol/sdk/types.js";

const server = new Server(   { name: "dominicode-tools", version: "1.0.0" },   { capabilities: { tools: {} } } );

server.setRequestHandler(ListToolsRequestSchema, async () => ({   tools: [     {       name: "get_post_metrics",       description: "Obtiene métricas de un post del blog por slug",       inputSchema: {         type: "object",         properties: { slug: { type: "string" } },         required: ["slug"],       },     },   ], }));

const transport = new StdioServerTransport(); await server.connect(transport);

En 2026, si construyes herramientas para agentes y no las expones como servidores MCP, estás construyendo para un solo cliente. El ecosistema ya se está moviendo en esta dirección — Anthropic, OpenAI, Google y la mayoría de los frameworks de agentes tienen soporte nativo para MCP.

Capa 4: Memoria y contexto persistente

El problema de la memoria en agentes agénticos tiene tres dimensiones distintas y cada una necesita una solución diferente.

Memoria conversacional (corto plazo) — el historial de mensajes de la sesión actual. La gestión correcta es mantenerlo en el contexto de la llamada al LLM. El truco está en la truncación inteligente: cuando el contexto se acerca al límite, no cortes los mensajes más antiguos a ciegas — resume las iteraciones antiguas y mantén los más recientes completos.

Memoria semántica (búsqueda por similaridad) — para cuando el agente necesita recuperar información relevante de una base de conocimiento grande. Las opciones que uso:

pgvector — extensión de PostgreSQL. Si ya tienes Postgres en el stack (y probablemente lo tienes), añadir pgvector es añadir una extensión. No necesitas otra base de datos. Para la mayoría de proyectos con menos de diez millones de embeddings, pgvector es suficiente y elimina complejidad operacional.
Pinecone — la opción gestionada cuando el volumen es grande o quieres zero-ops. Más caro, más simple. Para proyectos en fases tempranas con presupuesto ajustado, pgvector primero.
Supabase pgvector — pgvector sobre Supabase. La que uso en proyectos nuevos porque ya tengo Supabase en el stack para auth y database.

Memoria episódica (estado entre sesiones) — lo que el agente recuerda de sesiones anteriores con un usuario específico. Esto no es búsqueda vectorial: es estado estructurado que guardas en una tabla normal. El patrón que funciona es guardar un JSON con los hechos relevantes del usuario o proyecto y cargarlo al inicio de cada sesión como parte del system prompt.

// Carga el estado de memoria al inicio de la sesión
async function buildSystemPromptWithMemory(userId: string): Promise<string> {
  const memory = await db.query<UserMemory>(
    "SELECT facts FROM agent_memory WHERE user_id = $1",
    [userId]
  );

const memoryContext = memory.rows[0]?.facts     ? \n\nContexto previo del usuario:\n${JSON.stringify(memory.rows[0].facts, null, 2)}     : "";

return Eres un asistente técnico de Dominicode.${memoryContext}; }

Capa 5: Observabilidad — ver lo que hace el agente

Sin observabilidad, un agente en producción es una caja negra que factura. Ya hay un post completo en este blog sobre cómo instrumentar tus agentes con Langfuse y OpenTelemetry, así que aquí voy directo a las decisiones de stack:

Langfuse — la elección por defecto. Open source, autohospedable, SDK para TypeScript con integración nativa en el Vercel AI SDK. Con un experimental_telemetry en la llamada tienes trazas completas:

const result = await generateText({
  model: anthropic("claude-sonnet-4-6"), // verifica el modelo vigente en docs.anthropic.com/models
  messages,
  tools,
  experimental_telemetry: { // en Vercel AI SDK v4+ puede ser telemetry sin el prefijo
    isEnabled: true,
    metadata: { userId, sessionId, operationType: "support-agent" },
  },
});

OpenTelemetry GenAI — si ya tienes infraestructura OTEL en la empresa, las semantic conventions para IA generativa te permiten integrar las trazas de tus agentes en Grafana, Datadog o Honeycomb sin añadir otra plataforma.

Helicone — proxy sin código si necesitas observabilidad inmediata sin instrumentar. Un cambio de base URL y tienes dashboards. Útil para proyectos donde no puedes tocar el código de integración.

Capa 6: Deployment — dónde vive el agente en producción

Las opciones razonables en 2026, con criterio claro sobre cuándo usar cada una:

Railway — mi primera opción para agentes con estado o procesos de larga duración. Soporta WebSockets, procesos persistentes y tiene buena DX con Docker. Para agentes que necesitan mantener conexiones abiertas o procesar en background, Railway es más natural que Vercel.

Vercel — ideal para agentes stateless que responden a webhooks o peticiones HTTP. La integración con el Vercel AI SDK es perfecta — maxDuration hasta 300 segundos en planes Pro es suficiente para la mayoría de las respuestas agénticas. Para workflows que duran minutos, necesitas otra opción.

Cloudflare Workers + Durable Objects — la opción de mayor rendimiento para agentes edge. Durable Objects resuelve el problema de estado en entornos serverless de forma elegante. La curva de aprendizaje es mayor, pero el resultado en latencia y coste a escala es difícil de igualar.

Docker + VPS — cuando necesitas control total, costos predecibles a escala media y no quieres depender de plataformas específicas. Es lo que uso para los agentes internos de Dominicode que corren de forma continua.

Una regla práctica: si el agente responde en menos de 30 segundos y no necesita estado entre llamadas, serverless es suficiente. Si el agente trabaja durante minutos, mantiene conexiones o necesita acceso a recursos locales, necesitas un proceso persistente.

Mi stack en Dominicode: la versión concreta

Sin rodeos. Esto es exactamente lo que uso:

Capa	Herramienta	Por qué
Modelo principal	Claude Sonnet (Anthropic)	Mejor comportamiento en agentic loops, 200k contexto
Modelo para análisis	Gemini 2.5 Pro	Contexto 1M para documentos grandes
Runtime	Bun	Arranque más rápido, compatibilidad TS nativa, fetch nativo
Framework de agente	Vercel AI SDK	Tipado TS sólido, agnóstico al proveedor, `maxSteps` nativo
Herramientas custom	MCP servers propios	Reutilizables entre agentes, estándar abierto
Memoria semántica	Supabase + pgvector	Postgres ya en el stack, zero overhead operacional
Memoria episódica	Postgres (tabla JSON)	No necesita búsqueda vectorial, estado estructurado
Observabilidad	Langfuse cloud	Open source, free tier generoso, integración VAISDK
Deployment (agentes web)	Vercel	Integración natural con el SDK
Deployment (procesos)	Railway + Docker	Agentes de larga duración, procesos internos
Validación	Zod	Schemas para tool inputs y outputs tipados

La parte que más me preguntan es el runtime: por qué Bun y no Node. La respuesta corta: en scripts de agentes que arrancan y terminan frecuentemente, la diferencia de arranque es perceptible. El soporte nativo de TypeScript elimina el paso de transpilación en scripts de herramientas. Y fetch nativo sin polyfills simplifica el código de integración con APIs externas.

Lo que descarto y por qué

LangChain (la librería base) — demasiada abstracción sobre abstracciones. El problema no es que sea mala herramienta: es que cuando algo falla en un agente LangChain, la pila de herencia de clases hace que depurar sea más difícil que si hubieras implementado el loop a mano. LangGraph tiene más sentido para flujos complejos, pero la librería base la evito.

AutoGen (Microsoft) — interesante para investigación, inconsistente en producción. El modelo de conversación entre agentes es elegante en teoría, pero en proyectos reales he visto bucles de conversación que consumen tokens sin converger. Puede mejorar, pero hoy no lo usaría para un sistema que atiende usuarios reales.

Pinecone como primera opción — no porque sea malo, sino porque pgvector en Postgres elimina una dependencia externa para la mayoría de los casos de uso. Cuando el volumen de embeddings supere los diez millones o necesites búsquedas en milisegundos a escala muy alta, Pinecone tiene sentido. Antes, no.

Modelos locales como backbone — la brecha de calidad con los modelos de frontera es demasiado grande para sistemas agénticos complejos. Para clasificación de intenciones sencillas o filtros de moderación, tiene sentido. Para el loop principal de un agente que toma decisiones consecuentes, no lo haría hoy.

El stack no es el problema

La decisión de stack importa — pero menos de lo que sugiere el volumen de contenido que se publica sobre herramientas de IA cada semana.

He visto proyectos con el stack perfecto que fallaban en producción por falta de observabilidad. He visto proyectos con stacks “incorrectos” que funcionaban perfectamente porque el equipo entendía qué estaba haciendo.

El stack es el entorno. Lo que importa es entender cómo funciona el agentic loop, cómo diseñar herramientas que el modelo pueda usar de forma predecible, y cómo instrumentar el sistema para ver qué ocurre cuando algo falla.

Si quieres construir esto desde cero con criterio — desde el primer loop hasta el sistema completo en producción — en el curso Construye con IA cubrimos exactamente estas decisiones: qué stack elegir para cada tipo de proyecto, cómo estructurar el código para que sea mantenible, y cómo pasar de prototipo a sistema que funciona cuando no estás mirando.

Y si quieres el marco metodológico para especificar el sistema antes de escribir una línea de código — evitar construir el agente equivocado — el libro de Spec-Driven Development es la guía que yo sigo antes de abrir el editor.

FAQ — Preguntas frecuentes sobre el stack de IA agéntica

¿Qué framework de agentes es mejor en 2026: Vercel AI SDK, LangGraph o el SDK directo de Anthropic?

Depende de la complejidad del sistema. Para la mayoría de proyectos TypeScript con flujos lineales, el Vercel AI SDK ofrece el mejor equilibrio entre abstracción mínima y productividad: tipado sólido, soporte nativo para tool use y streaming, y compatibilidad con múltiples proveedores. LangGraph añade valor cuando el flujo tiene ramificaciones complejas, estado persistente entre pasos o múltiples agentes con routing condicional. El SDK directo de Anthropic tiene sentido cuando necesitas control total sobre cada llamada o cuando las abstracciones intermedias ocultan comportamiento que necesitas ver.

¿Necesito una base de datos vectorial para construir un agente?

No necesariamente. La memoria vectorial solo es necesaria cuando el agente necesita recuperar información relevante de un corpus grande de documentos. Si el agente trabaja con un contexto fijo que cabe en la ventana de contexto del modelo (y con 200k tokens de Claude, cabe mucho), no necesitas embeddings ni búsqueda vectorial. Cuando el corpus supera lo que cabe en contexto, empieza por pgvector en Postgres antes de añadir Pinecone u otra base de datos vectorial externa.

¿Qué es MCP y por qué debería importarme en 2026?

El Model Context Protocol es un estándar abierto que define cómo los agentes de IA consumen herramientas y contexto de fuentes externas. Su importancia práctica: en lugar de construir integraciones específicas para cada agente que quieras conectar a una herramienta, construyes un servidor MCP una vez y cualquier agente compatible puede usarlo. Claude Code, Cursor y la mayoría de los IDEs con IA ya soportan MCP. Si construyes herramientas para agentes hoy, exponerlas como servidores MCP multiplica su utilidad sin trabajo adicional.

¿Puedo usar Python para construir el stack agéntico si ya soy developer Python?

Sí, y tiene sentido si Python es tu lenguaje principal. El ecosistema de agentes en Python es más maduro en algunos aspectos: LangChain, AutoGen, CrewAI y la mayoría de frameworks de referencia nacieron en Python. Lo que pierdes en TypeScript: algunas integraciones no tienen SDK Python equivalente al mismo nivel de calidad. Lo que ganas: ecosistema de ML más rico y más documentación de referencia. La decisión debe estar en el lenguaje que dominas, no en el que tiene más hype.

¿Cómo elijo entre Railway y Vercel para desplegar un agente?

La regla práctica: si el agente responde a peticiones HTTP en menos de 60 segundos y no necesita mantener estado entre llamadas, Vercel Functions es suficiente y más simple. Si el agente trabaja en procesos de larga duración (más de un minuto), necesita WebSockets, mantiene conexiones persistentes, o accede a recursos locales del servidor, Railway con un contenedor Docker es la opción correcta. Cloudflare Workers + Durable Objects es la tercera opción para máxima performance edge cuando el coste a escala importa.

¿Qué herramienta de observabilidad recomendarías empezar primero?

Langfuse. El plan gratuito en cloud cubre 50.000 observaciones al mes, la integración con el Vercel AI SDK es de una línea de código (el parámetro experimental_telemetry), y si en algún momento necesitas privacidad total de los datos, puedes autohospedarlo con Docker. Si ya tienes infraestructura OpenTelemetry en la empresa, las semantic conventions GenAI de OTEL te permiten integrar sin añadir otra plataforma.

Por Bezael Pérez — Developer senior con más de 15 años de experiencia y fundador de Dominicode.

June 15, 2026

Las 4 habilidades que definen al programador en la era de la IA
Un cliente me llamó a las 11 de la noche. Me dijo que su equipo llevaba tres semanas con Claude Code y que la productividad se había disparado. Más código por sprint. Menos bugs. Entregas más rápidas.

Pero había un problema.

"Bezael, el equipo construye muy rápido. El problema es que construye muy rápido la cosa equivocada."

Tres semanas generando código con IA. Código correcto, bien estructurado, con tests. Y un producto que no resolvía lo que el cliente necesitaba.

Ese es el nuevo riesgo para el programador en la era de la IA. No que la IA te reemplace escribiendo código. Sino que la velocidad de producción amplifique el coste de tomar decisiones equivocadas. Antes tardabas un mes en construir algo mal. Ahora tardas tres días.

Lo que separa a los developers que avanzan de los que se atascan no son sus habilidades técnicas. Son cuatro habilidades del programador en la era de la IA que ningún LLM puede suplir.

Las habilidades del programador en la era de la IA que este post desarrolla son cuatro: entender el problema real antes de escribir una línea, comunicar la solución a stakeholders no técnicos, especificar con precisión lo que el agente debe construir, y negociar trade-offs cuando los requisitos chocan. Son las habilidades que la IA no puede ejecutar por ti — y las que determinan si su velocidad se convierte en ventaja o en ruido.

Por qué el código ya no es el cuello de botella del programador en la era IA

Durante veinte años el cuello de botella en el desarrollo de software fue escribir el código. Encontrar developers. Escalar equipos. Mantener la velocidad.

Eso ha cambiado.

Hoy un developer con Claude Code puede producir en un día lo que antes llevaba una semana. Los agentes no se cansan, no tienen bloqueos creativos, y no discuten sobre si usar tabs o spaces. El Stack Overflow Developer Survey 2025 documenta que más del 75% de developers ya usa o planea usar herramientas de IA en su flujo de trabajo — el cambio está aquí.

Pero los agentes hacen exactamente lo que les pides. Ni más, ni menos. Y si lo que les pides es impreciso, ambiguo, o directamente equivocado, producen código impecable que resuelve el problema equivocado.

El cuello de botella se ha desplazado. Ya no está en escribir. Está en pensar.

Habilidad 1: Entender el problema real antes de abrir el editor

Esta es la más subestimada y la que más dinero cuesta cuando falla.

Un cliente te dice: "Necesitamos un dashboard con métricas en tiempo real." Un developer técnico abre el editor y empieza a pensar en WebSockets, en qué charting library usar, en cómo estructurar el backend.

Un developer con criterio hace una pregunta primero: "¿Para qué vas a usar ese dashboard? ¿Quién lo mira y qué decisión toma a partir de lo que ve?"

Esa pregunta cambia todo.

A veces el dashboard en tiempo real que pedían era en realidad un email diario con tres métricas. A veces era un CSV que se cargaba en Excel. A veces ni siquiera era un problema de visualización — era un problema de que nadie en la empresa sabía qué datos tenía disponibles.

Con IA esto se vuelve crítico. Porque ahora la velocidad de producción es tan alta que el coste de empezar en la dirección equivocada es enorme. Construyes tres features completas en el tiempo que antes tardabas en escribir media. Si las tres están mal orientadas, has quemado tres veces más tiempo que antes.

La habilidad de entender el problema real — no el síntoma que te describen, sino la causa raíz que lo genera — es la que protege todo lo demás.

No se aprende con más cursos de programación. Se aprende haciendo preguntas incómodas antes de escribir una línea.

Habilidad 2: Comunicar la solución a quien no es técnico

El código más elegante del mundo no vale nada si nadie en la empresa entiende qué resuelve ni por qué importa.

Esto ha sido siempre un problema para los developers. Pero con IA se vuelve más urgente, porque ahora eres capaz de construir cosas más complejas, más rápido, con más capas de abstracción. Y cuanto más complejo es lo que construyes, más difícil es explicarlo a quien toma las decisiones de negocio.

La comunicación técnica a stakeholders no técnicos no es "simplificar para que lo entienda un niño". Es traducir impacto.

Un stakeholder no necesita entender cómo funciona una cola de mensajes asíncrona. Necesita entender que gracias a esa cola, el sistema puede procesar diez mil pedidos en paralelo sin que ningún usuario espere más de dos segundos. Eso sí lo entiende. Y eso sí cambia cómo percibe el valor de lo que has construido.

Esta habilidad también protege tu trabajo. Si tu contribución es invisible para quien decide los presupuestos, eres vulnerable. Si puedes hacer visible el impacto técnico en términos de negocio, eres indispensable.

Practica esto: después de cada feature que entregues, escribe en dos frases qué problema de negocio resuelve y qué habría pasado sin ella. Si no puedes hacerlo, tienes un problema antes de que alguien externo lo detecte.

Hay un ejercicio que funciona muy bien para esto: antes de la próxima reunión de sprint, prepara una explicación de lo que estás construyendo en menos de 60 segundos, sin usar términos técnicos. Si necesitas más tiempo o tienes que recurrir al jargon, la feature aún no está suficientemente clara en tu cabeza. Esa claridad — la que te permite explicarla en voz alta — es exactamente la que también necesitas para especificarla bien para un agente.

Esta habilidad se conecta directamente con la siguiente. Un developer que no puede explicar lo que construye a un humano tampoco puede especificarlo con precisión para una máquina.

Habilidad 3: Especificar con precisión lo que el agente debe construir

Esta es la habilidad nueva. La que no existía como tal hace tres años y que ahora es central.

Los agentes de IA son ejecutores extraordinarios de instrucciones precisas. Son ejecutores pésimos de instrucciones vagas.

"Construye un sistema de autenticación" puede producir cualquier cosa desde un JWT básico hasta un sistema OAuth completo con múltiples proveedores y gestión de sesiones. El agente hará algo. Y lo que haga puede ser técnicamente correcto y completamente inadecuado para tu contexto.

Especificar bien significa definir:
1. Qué hace el sistema — comportamiento concreto, no intención abstracta
2. Qué NO hace — los límites son tan importantes como las funcionalidades
3. Bajo qué restricciones — tecnología, rendimiento, compatibilidad, seguridad
4. Cómo se valida que está correcto — criterios de aceptación verificables
Si quieres entender mejor el perfil completo del developer que trabaja con agentes en producción, el post sobre qué es un Agentic Engineer cubre ese rol con detalle. La especificación es su primer requisito.

Llevo varios años aplicando una metodología para esto que llamo Spec-Driven Development. La idea es que antes de que el agente escriba una línea, tienes un documento que responde esas cuatro preguntas. No un documento largo ni burocrático — uno preciso. El Libro SDD documenta este proceso completo, desde cómo estructurar la especificación hasta cómo convertirla en tareas que un agente puede ejecutar sin desviarse.

La diferencia entre un developer que especifica bien y uno que no lo hace no se mide en velocidad. Se mide en cuánto código hay que tirar a la basura al final de cada sprint.

Habilidad 4: Negociar trade-offs cuando los requisitos chocan

Los requisitos siempre chocan. Siempre.

"Quiero que sea seguro, rápido, barato, flexible y que esté listo para el martes." No puedes tener las cinco cosas. Nunca has podido. Pero antes la conversación sobre qué sacrificar era más lenta porque construir era más lento. Ahora, con la velocidad que da la IA, la presión para tomarlo todo aumenta.

Un developer que sabe negociar trade-offs no es el que cede ante la presión del cliente. Es el que hace explícito el coste de cada decisión y ayuda a quien decide a entender qué están eligiendo realmente.

"Si priorizamos velocidad de lanzamiento, el sistema no va a escalar bien por encima de diez mil usuarios. Podemos lanzar en dos semanas con esa limitación asumida, o lanzar en seis semanas con una arquitectura que aguante cien mil. ¿Qué es más importante ahora mismo para el negocio?"

Esa conversación requiere que el developer entienda el negocio suficientemente bien como para hacer la pregunta correcta. Requiere que sepa comunicar la implicación técnica en términos de impacto. Y requiere que tenga la seguridad de plantear la conversación antes de que los problemas aparezcan en producción.

Con agentes de IA esto se vuelve más delicado porque la velocidad de implementación hace que sea tentador no tener esa conversación. "Lo construimos rápido, si no funciona lo cambiamos." Pero cambiar una decisión arquitectural después de que cuatro features dependen de ella no es barato, aunque la IA escriba el código.

En el curso Construye con IA dedicamos una parte específica a cómo estructurar estas conversaciones antes de empezar a generar código — porque los errores más costosos no son de sintaxis, son de dirección.

Las habilidades del programador que la IA no puede reemplazar

La IA escribe código. Lo depura. Lo refactoriza. Lo documenta. Lo testea.

No puede entrar a una reunión y detectar que lo que el cliente pide en realidad responde a un miedo que no ha verbalizado. No puede leer el contexto político de una organización para entender por qué un requisito existe. No puede mirar los ojos de un stakeholder y saber que cuando dice "necesitamos esto para el viernes" en realidad está diciendo "si esto no sale el viernes, me cuesta el trabajo".

Esas lecturas son humanas. Y en un entorno donde el código se genera en segundos, son el verdadero diferencial.

Los developers que van a crecer en los próximos años no son los que más saben de LLMs. Son los que combinan criterio técnico con las habilidades de comunicación, especificación y negociación que hacen que ese criterio tenga impacto.

El developer que va a sobrevivir a la IA

No es el que sabe más frameworks.

No es el que tiene mejores prompts para Claude.

Es el que puede entrar en una sala con personas técnicas y no técnicas, entender lo que realmente está en juego, definir con precisión lo que hay que construir, y explicar con claridad por qué ciertas cosas no se pueden tener al mismo tiempo.

Este cambio de rol — de ejecutar tareas a tomar decisiones con criterio — es lo que ya analizamos en profundidad en el post sobre el programador que se convierte en product builder. Las cuatro habilidades de este post son el motor que hace posible ese salto.

La IA amplifica la velocidad de ejecución. Las cuatro habilidades de las que hablamos hoy amplifican la calidad de las decisiones. Y en software, las decisiones siempre cuestan más que el código.

En Dominicode Labs trabajamos estos temas con developers que están construyendo con IA en proyectos reales — no ejercicios de academia, sino productos con usuarios, deadlines, y stakeholders que necesitan respuestas los lunes por la mañana.

Si quieres empezar hoy, elige la habilidad que sabes que tienes más floja de las cuatro y pasa esta semana ejerciéndola deliberadamente. Una conversación con un stakeholder. Un documento de especificación antes de abrir el editor. Una pregunta incómoda que no has hecho todavía.

El código lo escribe la IA. El criterio lo pones tú.

Preguntas frecuentes

¿Estas habilidades sustituyen al conocimiento técnico profundo?
No, lo complementan. Sin base técnica sólida no puedes especificar bien ni negociar trade-offs con conocimiento de causa. Lo que cambia es que el conocimiento técnico ya no es suficiente por sí solo — necesitas combinarlo con estas capacidades para que tenga impacto real. Un developer que solo sabe programar pero no puede comunicar ni especificar ni negociar tiene cada vez menos diferencial frente a un agente de IA.

¿Cómo se aprende a especificar para agentes de IA si nunca lo he hecho?
Empieza por escribir, antes de cualquier tarea, un documento de dos párrafos: uno con lo que el sistema debe hacer y uno con lo que no debe hacer. Con ese ejercicio simple ya estás especificando. A medida que lo practiques, irás añadiendo restricciones, criterios de aceptación y contexto. La metodología Spec-Driven Development es un marco más completo para esto, documentado en el Libro SDD.

¿Estas habilidades son más importantes para freelancers que para developers en empresa?
Son importantes en los dos contextos, pero de formas distintas. El freelance que no sabe comunicar ni negociar pierde clientes. El developer en empresa que no sabe hacer estas cosas se queda estancado en roles de ejecución y ve cómo los que ascienden son los que saben tener las conversaciones difíciles. En ambos casos, la consecuencia de no desarrollarlas es la misma: invisibilidad.

¿La velocidad que da la IA no hace que estos trade-offs sean menos importantes porque "se puede cambiar todo fácilmente"?
Es una trampa común. Sí, la IA acelera la implementación. Pero hay decisiones — de arquitectura, de modelo de datos, de contratos de API — que una vez tomadas son costosas de cambiar aunque el código lo escriba un agente.

Si tu base de datos está mal modelada, reescribir las queries con IA no resuelve el problema. El coste de las malas decisiones estructurales no ha bajado con la IA.

Lo que ha bajado es el coste de implementar la decisión, buena o mala. Eso amplifica el impacto de decidir bien tanto como el de decidir mal.

¿Existe algún perfil técnico donde estas habilidades no importan?
Si trabajas en investigación pura, en open source sin usuarios directos, o en roles muy especializados de bajo nivel donde el contacto con stakeholders es mínimo, el peso relativo de estas habilidades es menor. Pero para la mayoría de developers que trabajan en productos, servicios o consultoría — que es la mayoría — estas cuatro capacidades son cada vez más determinantes para el crecimiento profesional.

Por Bezael Pérez — Developer senior con más de 15 años de experiencia y fundador de Dominicode.
June 15, 2026

Proyecto greenfield con SDD: spec global + slices verticales

Hace unas semanas un developer del canal me contó lo que había pasado en su último proyecto.

Seis horas. Eso tardó en planificar un proyecto greenfield con SDD usando slices verticales. Tenía un spec global, features bien definidas, tareas granulares. Parecía perfecto.

Ejecutó el primer slice con su agente IA. La app funcionaba. Autenticación, flujo de datos, navegación — todo correcto.

Y era completamente gris. Sin estilos. Sin diseño. Una interfaz que parecía sacada de 1998.

No había especificado nada sobre la UI en su spec. Ni colores, ni componentes, ni sistema de diseño. El agente hizo exactamente lo que se le pidió: implementar la lógica. Y lo hizo bien.

El problema no era el agente. Era el spec.

El error que nadie te dice sobre SDD en proyectos nuevos

Spec-Driven Development (SDD) es una metodología en la que cada feature comienza con un documento de especificación estructurado — el spec — antes de escribir código. El spec define qué hace la feature, cómo se ve, y qué criterios debe cumplir para considerarse completa.

Cuando descubres SDD, la primera intuición es clara: especifica todo antes de escribir una línea de código. Visión, usuarios, funcionalidades, arquitectura, flujos.

Y esa intuición es correcta… pero incompleta.

Hay dos errores que se cometen casi siempre en un proyecto greenfield con SDD:

El primero es intentar especificar el proyecto completo antes de tocar el teclado. Un spec monolítico de 40 páginas que detalla hasta la última feature antes de que exista una sola línea de código. Es atractivo. Se siente seguro. Y casi siempre es un error.

El segundo es lo que le pasó a ese developer: especificar las features en términos de lógica y flujos, pero olvidar que las features tienen una cara visible. Que los usuarios las ven. Que el diseño no es una capa que se añade al final — es parte de la feature.

Ambos errores llevan al mismo resultado: rediseño tardío, deuda técnica, y la sensación de que SDD no funciona cuando el problema real es la estrategia, no la metodología.

La estructura que sí funciona: spec global ligero + slices con UI

La solución tiene dos capas. Una sesión corta de spec global que define las reglas del juego, y luego un ciclo de feature-por-feature donde cada spec incluye explícitamente la UI.

Capa 1: El spec global ligero

Este documento no especifica features. Especifica el contexto en el que todas las features van a vivir. Se hace una sola vez, en una sola sesión, y no debería tomar más de 45 minutos.

# Spec Global — [Nombre del proyecto]
_Versión: 1.0 | Fecha: YYYY-MM-DD_

## Visión
[Una sola frase que describe qué es el producto y para quién.]

## Stack técnico
- Frontend: Angular 22 con Signals
- Backend: NestJS + Supabase
- Estilos: Tailwind CSS v4
- Testing: Jest + Testing Library

## Sistema de diseño
- Librería de componentes: Angular Material / PrimeNG / custom
- Paleta de colores: primario #1A73E8, fondo #F8FAFC, texto #0F172A
- Tipografía: Inter, base 16px
- Espaciado: escala de 4px (4, 8, 12, 16, 24, 32, 48...)
- Breakpoints: sm 640px / md 768px / lg 1024px / xl 1280px

## Convenciones de arquitectura
- Estructura: feature-based (cada feature es un módulo independiente)
- Estado global: NgRx Signal Store
- Llamadas HTTP: Resource API (Angular 22)
- Validación: Zod en schemas compartidos

## Decisiones técnicas ya tomadas
- Autenticación: Supabase Auth (no reinventar)
- Despliegue: Vercel (frontend) + Railway (backend)
- No usar: Redux clásico, Class Components, módulos NgModule legacy

## Features planificadas (sin detallar)
1. Autenticación
2. Dashboard principal
3. Gestión de proyectos
4. Reportes

Eso es todo. No más. El spec global no detalla cómo funciona cada feature — solo establece las reglas que todas van a respetar.

Lo más importante de ese documento son las secciones de sistema de diseño y convenciones de arquitectura. Son el contrato que el agente va a respetar en cada feature. Si no las defines aquí, las decide él — y probablemente no va a coincidir con lo que tienes en la cabeza.

Capa 2: El spec de cada feature — con sección UI obligatoria

Aquí está el cambio que lo transforma todo. Cuando vas a implementar una feature, escribes su spec detallado en ese momento, no antes. Y ese spec siempre incluye una sección de UI/UX.

# Feature 1: Autenticación
_Contexto: spec global v1.0 | Estado: en implementación_

## Qué hace
Permite al usuario crear cuenta, iniciar sesión y recuperar contraseña.
Usa Supabase Auth. No hay lógica de autenticación propia.

## Flujos principales
1. Registro: email + contraseña → verificación por email → redirect a dashboard
2. Login: email + contraseña → redirect a dashboard (o a la ruta que intentaba visitar)
3. Recuperación: email → link con token → nueva contraseña → login

## UI/UX (obligatorio)
- Layout: columna centrada, max-width 400px, padding 24px
- Componentes a usar: InputField, Button, Alert — todos del sistema de diseño global
- Estados visuales a implementar:
  - Loading: botón con spinner, campos desactivados
  - Error: Alert rojo con mensaje específico (no "algo salió mal")
  - Éxito: redirect inmediato, sin pantalla intermedia
- Mobile first: el form debe funcionar bien en 320px
- No inventar componentes nuevos — usar los del spec global

## Criterios de aceptación
- [ ] El usuario puede registrarse con email válido
- [ ] El usuario recibe email de verificación
- [ ] El usuario puede iniciar sesión y llega al dashboard
- [ ] Los estados de loading y error son visibles
- [ ] El form es usable en móvil

## Lo que NO hace esta feature
- No maneja OAuth (Twitter, Google) — queda para v2
- No maneja roles de usuario — eso es responsabilidad del dashboard

La sección UI/UX no es opcional. Es donde especificas exactamente qué tiene que ver el usuario cuando interactúa con esta feature. Si la omites, el agente tomará esa decisión por ti, y probablemente tomará la decisión más rápida, no la más correcta.

Spec total upfront vs spec incremental — la comparativa real

La tentación de escribir el spec completo del proyecto antes de arrancar tiene sentido desde afuera. La realidad es diferente.

	Spec total upfront	Spec incremental (global ligero + features)
Tiempo inicial	2-3 días o más	45 min (spec global) — hasta 20× más rápido para arrancar
Riesgo	Alto — cambias de opinión cuando ves el código real	Bajo — ajustas cada feature antes de implementarla
UI/UX	Probablemente omitida o abstracta	Concreta en cada feature, con contexto real
Consistencia	Dependes de que el spec inicial fuera perfecto	El spec global garantiza coherencia entre features
Deuda de redesign	Alta — aparece cuando el 80% del código ya existe	Baja — se elimina en cada ciclo de validación visual
Útil con agentes IA	Solo si el agente tiene memoria perfecta (no la tiene)	Sí — cada prompt incluye contexto concreto y actualizado

El spec incremental no significa improvisación. Significa que el contexto que tienes cuando implementas la feature 4 es mejor que el que tenías antes de escribir una sola línea de código. Y ese contexto — los componentes que ya existen, las decisiones que ya se tomaron, los problemas que ya aparecieron — enriquece el spec de la siguiente feature.

Este enfoque es una variación de la Vertical Slice Architecture documentada por Jimmy Bogard, aplicada al contexto de specs con agentes IA.

El rediseño tardío no ocurre porque el spec sea incremental. Ocurre porque no hay spec en absoluto.

El ciclo de trabajo en un proyecto greenfield SDD

El flujo que funciona es simple, y se repite para cada feature:

Escribe el spec de esa feature (con sección UI incluida)
Dáselo al agente como contexto completo
Implementa
Valida visualmente antes de marcar como hecho
Usa lo aprendido para enriquecer el spec de la siguiente feature

El paso 4 es crítico y muchos lo saltan. Validar visualmente significa abrir el navegador, probar el flujo como lo haría un usuario real, y confirmar que los estados de loading, error y éxito se ven como los especificaste. No basta con que los tests pasen.

Si en el paso 4 descubres que algo no se ve bien, arréglalo antes de avanzar. El coste de arreglar un componente mal implementado en la feature 1 es mínimo. El coste de arreglar el mismo patrón cuando ya está repetido en las features 1, 3, 5 y 7 es considerable.

Lo que cambia cuando tienes el spec global

El spec global tiene un efecto que no es obvio hasta que lo usas en producción.

Cuando llegas a la feature 4, el agente tiene contexto. Sabe que los inputs van con Tailwind, que el estado global es NgRx Signal Store, que los errores se muestran con el componente Alert del sistema de diseño. Si estás usando Angular 22, también puedes aprovechar la Resource API para centralizar las llamadas HTTP en el spec desde el principio — sin que el agente invente su propio patrón. No lo tienes que repetir en cada prompt.

Y cuando llega alguien nuevo al proyecto — o cuando tú mismo vuelves al código tres meses después — entiende en 10 minutos las decisiones que se tomaron y por qué.

Eso no lo da el código. Lo da el spec.

Si quieres profundizar en la metodología completa, en el libro de Spec-Driven Development tienes el framework completo: cómo estructurar specs, cómo trabajar con agentes IA de forma efectiva, y los patrones que se usan en proyectos reales de producción.

La UI no es una capa. Es un contrato.

El error del developer que me escribió no fue usar SDD. Fue asumir que SDD significa especificar todo el proyecto antes de arrancar.

SDD significa especificar lo suficiente, en el momento correcto, con el nivel de detalle correcto. El spec global define el campo de juego. El spec de cada feature define las reglas de ese momento.

Y la UI no es una capa que se añade al final. Es parte del contrato de cada feature.

Si quieres ver este flujo en acción — desde el spec hasta el commit — en el curso Construye con IA: De la Idea al Producto aplicamos exactamente esta metodología: spec global, slices verticales, validación visual antes de avanzar. Con agentes IA reales, en proyectos que no son de juguete.

Y si prefieres el formato comunidad, en Dominicode Labs compartimos los specs reales de los proyectos que construimos juntos — con las decisiones que se tomaron y las que se descartaron.

El spec no te quita velocidad. Te quita el coste de arreglar lo que nadie especificó.

FAQ

¿Cuánto tiempo debería tardar el spec global de un proyecto real?

Entre 30 y 60 minutos. Si tardas más, estás especificando features en el spec global, y eso no es su función. El spec global define el contexto y las reglas. Las features se detallan una a una cuando llega su turno.

¿Es obligatoria la sección UI/UX en el spec de cada feature?

En proyectos con interfaz visible, sí. Si estás construyendo una API sin frontend, la sección UI/UX no aplica, pero deberías incluir una sección de contratos de API: endpoints, tipos de respuesta, códigos de error. El principio es el mismo: especifica todo lo que el agente necesita para no tomar decisiones que tú deberías tomar.

¿Cómo manejo las features que dependen de otras que aún no están implementadas?

En el spec de la feature con dependencia, añades una sección “Asunciones” que documenta qué esperas de las features previas. Si la feature A aún no existe, especificas el contrato que A debería cumplir — y cuando implementes A, ese contrato ya está documentado. Es una forma de diseño by contract que funciona muy bien con agentes.

Por Bezael Pérez — Developer senior con más de 15 años de experiencia y fundador de Dominicode.

June 14, 2026

Harness Engineering con Codex de OpenAI: el arte de que tu agente de IA funcione de verdad

Llevaba una hora con GPT-4o intentando refactorizar un servicio de autenticación en NestJS. El modelo era bueno. La tarea era sencilla. Y aun así el agente leyó los archivos equivocados, modificó código que nadie le pidió tocar y entró en un bucle explicando por qué había hecho algo que nunca debió hacer.

Ese día entendí qué es harness engineering — y por qué importa más que el modelo.

Si tu agente de IA hace cosas raras, borra lo que no debe, o simplemente no termina la tarea, casi nunca es el modelo el problema. Es el sistema que rodea al modelo. Ese sistema tiene nombre: harness. Y diseñarlo bien es la diferencia entre un agente que funciona y uno que frustra.

En este post vas a ver cómo funciona el harness, qué elementos lo componen y cómo configurarlo con Codex de OpenAI como caso concreto. He aplicado estos principios en proyectos reales de Dominicode — en el curso Angular Moderno, en el repositorio ShopFlow y en varios workflows de automatización — y estos son los patrones que funcionan.

Qué es harness engineering: definición y concepto clave

El modelo de lenguaje es solo el cerebro. Un cerebro sin ojos, sin manos y sin memoria no hace gran cosa.

El harness es todo lo demás: las instrucciones que recibe al arrancar, las herramientas que puede usar, qué archivos puede leer y escribir, qué comandos puede ejecutar, qué recordará la próxima sesión y qué no, cómo escala la complejidad cuando la tarea crece.

Harness engineering es la disciplina de diseñar, configurar y optimizar ese sistema — no el modelo — para obtener resultados predecibles y de calidad de un agente de IA.

Piensa en ello como la diferencia entre contratar a un developer senior excelente y meterlo en una empresa sin onboarding, sin acceso a los repositorios correctos, sin saber cuál es el stack ni los estándares del proyecto. Ese developer se va a equivocar. No porque sea malo — sino porque no tiene el contexto para operar.

Un harness bien diseñado responde estas preguntas antes de que el agente empiece a trabajar:

¿Qué sabe el agente sobre este proyecto?
¿Qué herramientas tiene disponibles?
¿Qué puede hacer sin pedir permiso y qué no?
¿Cómo gestiona situaciones de ambigüedad?
¿Qué pasa cuando algo falla?

Cada agente de IA moderno — Claude Code, Cursor, Codex — tiene su propio mecanismo para configurar el harness. En Codex de OpenAI, ese mecanismo se llama AGENTS.md.

Harness vs system prompt: la diferencia que importa

Mucha gente confunde el harness con un system prompt. No son lo mismo.

Un system prompt clásico es estático, vive fuera del repositorio y generalmente lo escribe el equipo que construye la herramienta de IA. Es el contexto base del modelo, pero no sabe nada de tu proyecto específico.

El harness es específico a tu proyecto y tu contexto. Vive dentro del repositorio, se versiona con git, puede tener múltiples capas (uno en la raíz, otros en subdirectorios para módulos específicos), y está diseñado para agentes que operan sobre código concreto. Es la capa que tú controlas — y la que determina si el agente opera en tu proyecto o en uno imaginario.

Cómo instalar y configurar Codex CLI de OpenAI

OpenAI lanzó Codex CLI como su apuesta para el desarrollo asistido por agentes directamente desde el terminal. Usa el modelo codex-1, optimizado específicamente para tareas de código, y puede ejecutar comandos, leer y escribir archivos, y razonar sobre tu codebase de forma autónoma.

Instalación

npm install -g @openai/codex

Necesitas una API key de OpenAI exportada como variable de entorno:

export OPENAI_API_KEY=sk-...

Modos de operación

Codex tiene dos modos principales que controlan cuánta autonomía le das al agente:

# Modo sugerencia — el agente propone, tú apruebas cada acción codex --approval-mode suggest "refactoriza el servicio de autenticación" # Modo automático — el agente ejecuta sin pedir confirmación

codex --approval-mode auto "añade tests unitarios al módulo de usuarios"

La diferencia no es trivial. En modo suggest puedes revisar cada paso antes de que ocurra. En modo auto el agente opera con autonomía total — lo que significa que un harness mal configurado puede hacer daño real antes de que te des cuenta.

Regla básica: empieza siempre con suggest. Mueve a auto solo cuando el harness esté probado y el alcance de la tarea esté bien definido.

Codex vs otros agentes: comparativa de harness

Codex CLI

Claude Code

Cursor Agent

Archivo de harness	`AGENTS.md`	`CLAUDE.md`	`.cursorrules`
Soporte MCP	Sí	Sí (amplio)	Limitado
Modos de aprobación	`suggest` / `auto`	Por herramienta	Por acción
Sandboxing de red	Estricto por defecto	Configurable	No aplica
AGENTS.md en subdirectorios	Sí (monorepo)	Sí	No
Modelo base	`codex-1` (o3)	Claude Sonnet/Opus	GPT-4o / Claude

El concepto de harness engineering aplica a los tres. Lo que cambia es el nombre del archivo y algunos detalles de configuración.

Qué es AGENTS.md y cómo configurarlo en Codex

Cuando Codex arranca en un directorio, busca AGENTS.md en la raíz del proyecto. En proyectos monorepo también puede leer AGENTS.md en subdirectorios — el más específico tiene precedencia sobre el de la raíz.

Si no existe, el agente opera sin contexto. Si existe pero está mal escrito, opera con contexto equivocado. Las dos situaciones producen resultados impredecibles.

Un AGENTS.md bien estructurado tiene estas secciones:

# AGENTS.md Contexto del proyecto [Qué hace este proyecto, stack tecnológico, arquitectura general] Reglas de operación [Qué puede y no puede hacer el agente sin preguntar] Convenciones del código [Estilo, nomenclatura, patrones usados en el proyecto] Herramientas disponibles [Comandos de build, test, lint que el agente puede ejecutar] Flujo de trabajo esperado

[Cómo debe abordar las tareas: leer primero, preguntar si hay ambigüedad, etc.]

Ejemplo concreto para un proyecto NestJS:

# AGENTS.md — ShopFlow API
Contexto del proyecto
API REST en NestJS 10 + TypeScript. Base de datos PostgreSQL con TypeORM.
Autenticación con JWT. Testing con Jest. Endpoints bajo /src/modules/.
Stack
Runtime: Node.js 20 + Bun para scripts
Framework: NestJS 10
ORM: TypeORM
Tests: Jest + Supertest
Lint: ESLint + Prettier

Reglas de operación
NUNCA modificar archivos en src/migrations/ sin instrucción explícita
NUNCA eliminar archivos. Si algo ya no se necesita, comentarlo y avisar
Si hay ambigüedad sobre el alcance de la tarea, preguntar antes de ejecutar
Ejecutar npm run lint y npm run test después de cualquier cambio

Convenciones
Nombres de archivos: kebab-case
Servicios: sufijo .service.ts
DTOs: sufijo .dto.ts, ubicados en dto/ dentro de cada módulo
Interfaces: prefijo I (IUser, IProduct)

Comandos disponibles
npm run build — compilar
npm run test — tests unitarios
npm run test:e2e — tests end-to-end
npm run lint — verificar estilo

Flujo esperado
Leer los archivos relevantes antes de modificar cualquier cosa
Si la tarea afecta a más de un módulo, listar los archivos involucrados antes de empezar
Al terminar, ejecutar lint y tests y reportar el resultado

Este AGENTS.md elimina la mayoría de los errores típicos: el agente sabe qué tocar, qué no tocar, cómo llamar a las cosas y cómo verificar que su trabajo está bien hecho.

Los 5 elementos de un harness de agente IA bien diseñado

El AGENTS.md es el núcleo, pero un harness completo tiene más capas. Estos son los cinco elementos que marcan la diferencia.

1. Contexto del proyecto con suficiente densidad

El error más común: escribir un AGENTS.md de tres líneas.

El agente necesita saber lo suficiente para razonar bien. No todo — pero sí el stack, la estructura de directorios, las decisiones de arquitectura más importantes y las restricciones no negociables.

Si el proyecto tiene una convención no obvia (por ejemplo, “todos los handlers de errores van en src/shared/errors/“), escríbelo explícitamente. El agente no puede adivinar convenciones que no están en ningún archivo.

2. Límites claros de autonomía

Define explícitamente qué puede hacer el agente sin preguntar y qué requiere confirmación.

## Autonomía permitida
Crear archivos nuevos en src/modules/
Ejecutar npm run test y npm run lint
Instalar dependencias de desarrollo con npm install --save-dev

Requiere confirmación explícita
Modificar package.json en sección scripts
Tocar cualquier archivo de configuración de base de datos
Eliminar o renombrar archivos existentes

Sin estos límites, el agente toma decisiones basándose en lo que parece razonable. A veces acierta. Muchas veces no.

3. Herramientas y comandos verificables

El agente necesita poder verificar su propio trabajo. Si no tiene acceso a los comandos de test y lint, no puede saber si lo que hizo funciona.

## Verificación
Después de cualquier cambio de código:
npm run lint — debe pasar sin errores
npm run test -- --passWithNoTests — los tests existentes deben pasar
Si hay tests fallando que NO estaban fallando antes, reportarlo antes de continuar

Este punto es especialmente importante en modo auto. Un agente con capacidad de verificación autónoma puede detectar que rompió algo y corregirlo antes de que tú lo veas.

4. Gestión explícita de la ambigüedad

Los agentes tienden a asumir en vez de preguntar. Eso produce trabajo que hay que deshacer.

## Manejo de ambigüedad
Si una tarea puede interpretarse de más de una manera, listar las interpretaciones y preguntar
Si no encuentras el archivo mencionado en la tarea, preguntar en vez de crearlo desde cero
Si la tarea requiere modificar lógica crítica (pagos, auth, permisos), confirmar antes de ejecutar

5. Instrucciones de salida y reporte

El agente necesita saber qué se espera de él al terminar.

## Al finalizar cada tarea
Proporciona:
Lista de archivos modificados o creados
Resumen en 2-3 líneas de lo que hiciste
Resultado de lint y tests
Si hay algo que no pudiste completar, explicarlo con el motivo

Sin esta instrucción, algunos agentes terminan con un párrafo de texto que no dice nada concreto. Con ella, tienes un log estructurado que revisas en segundos.

Harness débil vs harness fuerte: la misma tarea, dos mundos distintos

Tarea concreta: “Añade validación de email al endpoint de registro de usuarios.”

Sin harness

Con harness

Archivos leídos	Varios al azar	`register.dto.ts` y `auth.controller.ts`
Dependencias	Instala `class-validator` (ya estaba)	Detecta que ya existe en `package.json`
Cambios realizados	DTO + guard de auth “por si acaso”	Solo `@IsEmail()` en el DTO
Verificación	No ejecuta tests (no sabe el script)	`npm run lint` y `npm run test` — pasan
Reporte final	Dos páginas explicando cada decisión	“Un archivo. Lint y tests pasan.”
Tiempo de revisión	20 minutos	30 segundos

La diferencia no está en el modelo. Está en el harness.

Errores comunes al configurar el harness de Codex CLI

Error 1: AGENTS.md demasiado vago

# Proyecto web en TypeScript. Usa buenas prácticas.

Esto no es un harness. Es un deseo. El agente no sabe qué son “buenas prácticas” en tu proyecto.

Error 2: No definir qué NO debe tocar

Si no dices “no toques las migraciones”, el agente podría modificarlas si cree que tiene sentido. Los límites negativos son tan importantes como los positivos.

Error 3: Empezar en modo auto sin probar primero

Úsalo en modo suggest en varias tareas distintas. Observa dónde el agente malinterpreta las instrucciones. Ajusta el AGENTS.md. Luego sube a auto.

Error 4: Un AGENTS.md genérico para todos los proyectos

El harness es específico al proyecto. Un AGENTS.md copiado de Angular en un proyecto NestJS produce confusión. Uno por proyecto, aunque sea corto.

Error 5: No actualizar el harness cuando cambia el proyecto

El stack cambia. Las convenciones evolucionan. Si el AGENTS.md describe el proyecto de hace seis meses, el agente opera con un mapa desactualizado.

Cómo crear tu primer harness con Codex: guía paso a paso

Paso 1: Instala Codex CLI

npm install -g @openai/codex

export OPENAI_API_KEY=tu-api-key

Paso 2: Crea un AGENTS.md mínimo pero útil

Con estos cinco bloques ya tienes algo funcional:

# AGENTS.md
Proyecto
[Descripción en 2-3 líneas. Stack principal.]
Estructura relevante
[Dónde vive el código importante. Directorios a conocer.]
Convenciones
[Nomenclatura. Patrones. Lo que hace raro a este proyecto.]
Comandos
[Build, test, lint — los scripts exactos de package.json]
Restricciones
[Qué no debe tocar nunca. Qué requiere confirmación.]

Paso 3: Prueba con una tarea pequeña en modo suggest

codex --approval-mode suggest "lista los archivos del módulo de usuarios"

Observa cómo razona. Dónde se pierde. Qué asume incorrectamente. Ajusta el AGENTS.md.

Paso 4: Itera subiendo la complejidad

Del “lista archivos” al “añade un campo al DTO” al “crea un nuevo módulo completo con tests”. Cada tarea te dice algo sobre qué falta en el harness.

Paso 5: Documenta los patrones que funcionan

Cuando encuentres una instrucción que produce resultados consistentemente buenos, guárdala. El AGENTS.md es un documento vivo.

El agente que fallaba en NestJS al principio de este post no era el problema. Era yo — operando sin harness, esperando que el modelo adivinara el contexto de un proyecto que nunca le había explicado. Con un AGENTS.md bien escrito, esa misma tarea tarda tres minutos y no requiere revisión manual.

Si quieres profundizar en cómo diseñar sistemas con IA que funcionen en proyectos reales, tengo el curso Construye con IA: de la idea al producto con Claude Code donde aplicamos estos principios desde cero. Y si buscas el marco para especificar antes de soltar al agente, el Libro de Spec-Driven Development te da el sistema completo — que encaja perfectamente con harness engineering.

También publico sobre esto regularmente en el canal de YouTube.

FAQ — Preguntas frecuentes sobre harness engineering y Codex

¿El concepto de harness aplica solo a Codex o también a otros agentes?

Es completamente agnóstico al modelo. Claude Code usa CLAUDE.md con el mismo rol que AGENTS.md en Codex. Cursor usa .cursorrules. La disciplina de harness engineering aplica a cualquier agente porque el problema que resuelve — dar contexto estructurado al sistema que rodea al modelo — es universal. Lo que cambia entre herramientas es el nombre del archivo y algunos detalles de configuración.

¿Qué diferencia hay entre harness engineering e ingeniería de prompts?

La ingeniería de prompts optimiza la instrucción puntual que le das al modelo en una conversación. El harness engineering diseña el sistema persistente que define cómo el agente opera en tu proyecto de forma continua. Un buen prompt en un harness malo produce resultados inconsistentes. Un prompt mediocre en un harness bien diseñado produce resultados predecibles. El harness tiene más impacto a largo plazo.

¿Es seguro usar el modo --approval-mode auto?

Depende del harness. En modo auto el agente ejecuta acciones sin confirmación — comandos de terminal incluidos. Si el harness define bien qué puede y no puede hacer, y el agente tiene acceso a verificación (lint, tests), es razonablemente seguro para tareas bien acotadas. Para operaciones destructivas o sobre sistemas en producción, siempre modo suggest. Y siempre con el repositorio en un estado limpio de git antes de empezar.

¿Cuánto tiempo lleva escribir un buen AGENTS.md?

Para un proyecto nuevo, entre 20 y 45 minutos la primera vez. La clave es empezar con la versión mínima (5 secciones) y enriquecerla después de las primeras sesiones con el agente. En proyectos que ya tienen documentación, muchas veces es adaptar lo que existe al formato del harness.

¿Codex de OpenAI puede conectarse a MCP servers como Claude Code?

Sí, Codex soporta MCP (Model Context Protocol) para conectar herramientas externas — bases de datos, APIs, sistemas de ficheros remotos. La configuración es similar a Claude Code, aunque el ecosistema de servidores MCP disponibles sigue siendo más amplio para Claude. Para la mayoría de casos de uso de desarrollo, las herramientas nativas de Codex son suficientes.

¿Necesito saber usar la API de OpenAI para usar Codex CLI?

Solo necesitas una API key de OpenAI y tener créditos disponibles. No necesitas saber programar contra la API — Codex CLI abstrae todo eso. La curva de entrada es baja: instalar el paquete npm, exportar la API key y escribir el AGENTS.md. El coste por uso depende de cuánto contexto maneja el agente en cada sesión.

Por Bezael Pérez — Developer senior con más de 15 años de experiencia y fundador de Dominicode.

June 14, 2026

	Agent harness	Framework de agentes
Qué resuelve	Conectar un modelo con la realidad de forma fiable	Orquestar uno o varios agentes entre sí
Nivel de abstracción	Bajo: loop, tools, guardrails, verify	Alto: chains, grafos, roles, equipos
Ejemplos	Pi, el harness de Claude Code, Flu	LangChain, CrewAI, LangGraph
Cuándo usarlo	Siempre — todo agente corre dentro de uno	Cuando orquestas flujos multi-agente complejos

Nivel	Ubicación	Alcance
Global	`~/.claude/CLAUDE.md`	Se aplica a todos los proyectos del usuario
Proyecto	`CLAUDE.md` en la raíz	Se aplica a ese repositorio; se puede compartir vía git
Subdirectorio	`src/CLAUDE.md`, `api/CLAUDE.md`, etc.	Instrucciones específicas de esa carpeta

Sección	Qué contiene	Por qué importa
Descripción del proyecto	Qué hace la app, stack principal, versiones clave	El agente necesita saber el dominio para tomar buenas decisiones
Comandos habituales	Build, test, lint, dev server — exactamente cómo se ejecutan	Evita que el agente proponga `npm install` cuando usas `bun`
Arquitectura y convenciones	Estructura de carpetas, patrones usados, capas y sus reglas	Sin esto genera código que no encaja en el diseño del proyecto
Reglas de nomenclatura	Cómo se nombran archivos, clases, variables, branches y commits	Consistencia automática sin revisión manual
Restricciones explícitas	Qué NO debe hacer el agente — tecnologías prohibidas, capas que no se pueden mezclar	Las restricciones son tan importantes como las instrucciones positivas
Contexto de negocio	Decisiones de diseño no obvias y el porqué detrás de ellas	El agente que entiende el “por qué” toma mejores decisiones cuando hay ambigüedad

Un junior del equipo me enseñó hace poco un computed() que calculaba el total de un carrito. Funcionaba. Pero me dijo una frase que lo delata todo: “le metí un console.log dentro y no se imprime cuando cambio la cantidad… hasta que abro el modal del total”.

No estaba roto. Estaba haciendo exactamente lo que debe hacer.

El problema no era su código. Era su modelo mental. No conocía el grafo reactivo de Angular, la estructura que decide qué se recalcula y cuándo. Pensaba que un computed() se recalcula cuando cambian sus datos. Y no. Se recalcula cuando alguien lo lee. Esa diferencia, que parece un detalle, es la puerta de entrada a entender cómo piensa Angular por dentro.

Porque eso es justo lo que vive debajo de signal(), computed() y effect(): un grafo que casi nadie se molesta en entender, y que lo explica todo.

¿Qué es el grafo reactivo de Angular?

El grafo reactivo de Angular es la estructura interna que el framework construye con su sistema de Signals para saber, en todo momento, qué valores dependen de qué otros. No es una API que tú llamas. Es el motor que se monta solo cuando declaras signals, computeds y effects, y es lo que permite que Angular recalcule únicamente lo que cambió en lugar de revisar la aplicación entera.

Los Signals son estables desde Angular 16-17 (2023), y son la base sobre la que se apoya el modo zoneless, disponible como opción de producción a partir de Angular v20.

Imagínalo literalmente como un grafo: nodos conectados por flechas. Los nodos son tus valores reactivos. Las flechas son las dependencias entre ellos. Cuando un valor cambia, Angular recorre esas flechas para decidir qué tocar y qué dejar en paz.

Y la clave —la que casi nadie explica— es que esas flechas no las dibujas tú. Las descubre Angular en tiempo de ejecución.

Vamos por partes.

Los nodos: productores y consumidores

Todo en el grafo es una de dos cosas (o las dos a la vez). Te lo presento como modelo conceptual, no como API pública: Angular no te expone estos nombres, pero entenderlos cambia cómo lees tu propio código.

Un signal() es un productor puro. Tiene un valor, otros lo leen, pero él no depende de nadie. Es una raíz del grafo.
Un computed() es consumidor y productor a la vez. Lee otros signals (consume) y a su vez otros lo leen a él (produce). Es un nodo intermedio.
Un effect() es un consumidor puro. Lee signals y reacciona, pero nadie lee a un effect. Es una hoja del grafo, el final de la cadena.

import { signal, computed, effect } from '@angular/core';

const precio = signal(100);          // productor puro (raíz)
const cantidad = signal(2);          // productor puro (raíz)

const total = computed(() =>         // consumidor (lee precio y cantidad)
  precio() * cantidad());            // + productor (otros leerán 'total')

effect(() => {                       // consumidor puro (hoja)
  console.log('Total actual:', total());
});

El grafo aquí tiene una forma clarísima: precio y cantidad apuntan a total, y total apunta al effect. Cuatro nodos, tres flechas.

Pero tú no escribiste ni una sola de esas flechas.

Las aristas: tracking dinámico de dependencias

Aquí está la primera idea que separa a quien usa signals de quien los entiende.

Las dependencias no se declaran. Angular las descubre.

Cuando un computed() o un effect() se ejecuta, Angular activa un registro temporal: “todo signal que se lea durante esta ejecución se anota como dependencia”. Lees precio() dentro del computed → se crea la flecha precio → total. Lees cantidad() → se crea cantidad → total. Termina la ejecución, se cierra el registro.

Esto tiene una consecuencia preciosa: las dependencias pueden ser condicionales. Cada ejecución puede producir un conjunto distinto de aristas.

const modoOscuro = signal(false);
const colorClaro = signal('#ffffff');
const colorOscuro = signal('#1a1a1a');

const colorFondo = computed(() => {
  if (modoOscuro()) {
    return colorOscuro();   // solo se lee si modoOscuro es true
  }
  return colorClaro();      // solo se lee si modoOscuro es false
});

Cuando modoOscuro es false, este computed depende de modoOscuro y de colorClaro. No depende de colorOscuro en absoluto. Si cambias colorOscuro mientras estás en modo claro, colorFondo no se marca como sucio, no se recalcula, no pasa nada.

Cambia modoOscuro a true y, en el siguiente recálculo, el grafo se reconfigura: ahora la flecha sale de colorOscuro y la de colorClaro desaparece.

Esto no lo consigues gratis con RxJS combinando observables. Aquí es el comportamiento por defecto, sin esfuerzo. Es exactamente este tipo de detalle el que trabajamos a fondo en el curso de Angular Moderno, porque entender el grafo cambia cómo estructuras el estado de toda la app.

Push y pull: por qué el `computed` de mi compañero no se ejecutaba

Volvamos a la historia del principio. El console.log que no se imprimía.

El grafo reactivo funciona con dos fases distintas, y casi todo el mundo solo conoce la primera.

Fase push (cuando cambias un signal). Llamas a cantidad.set(5). Angular recorre el grafo hacia abajo y marca a los consumidores como “sucios” (stale). total se marca sucio. El effect que depende de total se marca sucio. Y ya. No se recalcula nada todavía. Solo se propaga una marca de “esto podría haber cambiado”.

Fase pull (cuando alguien lee). El valor de un computed() solo se recalcula cuando alguien lo lee y está marcado sucio. Es perezoso (lazy) y memoizado: si nadie lo lee, no se ejecuta jamás.

const a = signal(1);
const b = signal(2);

const suma = computed(() => {
  console.log('¡Calculando suma!');   // ¿cuándo se imprime esto?
  return a() + b();
});

a.set(10);
a.set(20);
a.set(30);
// Hasta aquí: el log NO se ha impreso ni una vez.

console.log(suma());  // AHORA imprime "¡Calculando suma!" y luego 32
console.log(suma());  // NO vuelve a imprimir: valor memoizado

Tres cambios en a y cero recálculos, porque nadie leyó suma. La leemos una vez y se calcula una vez. La leemos de nuevo sin cambios de por medio y devuelve el valor cacheado sin recalcular.

Por eso el computed() del carrito “no se ejecutaba” hasta abrir el modal: ningún template estaba leyendo ese valor. En cuanto el modal lo renderizó, lo leyó, y entonces —y solo entonces— se recalculó.

No era un bug. Era el grafo trabajando exactamente como debe: no malgastar ni un ciclo de CPU en valores que nadie está mirando.

Consistencia glitch-free: nunca verás un estado intermedio falso

Pregunta incómoda: ¿qué pasa cuando un nodo depende del mismo origen por dos caminos distintos?

const base = signal(10);

const doble = computed(() => base() * 2);
const triple = computed(() => base() * 3);

const resumen = computed(() => `${doble()} y ${triple()}`);

resumen depende de doble y de triple, y ambos dependen de base. Hay dos rutas desde base hasta resumen.

Cuando cambias base, un sistema reactivo mal diseñado podría recalcular resumen dos veces (una por cada ruta) o, peor, calcularlo con doble ya actualizado pero triple todavía viejo. Eso es un glitch: un estado intermedio que nunca debió existir.

El grafo de Angular es glitch-free. Ante un cambio en base, resumen se recalcula una sola vez, y cuando lo hace, tanto doble como triple ya están coherentes. Nunca observas la mezcla rara. El orden de evaluación del grafo (pull bajo demanda) junto con el versionado de cada nodo garantizan que un consumidor con varias rutas hacia el mismo origen converja en un único recálculo consistente.

Esto importa de verdad en producción. Es la diferencia entre una UI que parpadea con valores intermedios y una que actualiza limpio.

Versiones e igualdad: la poda que ahorra renders

Aquí entra el matiz que convierte el grafo en algo eficiente y no solo correcto.

Cada productor lleva, conceptualmente, una versión. Cuando un consumidor está sucio y va a recalcular, primero compara: “¿la versión de mis dependencias cambió de verdad respecto a la última vez que las usé?”. Si nada cambió realmente, no recomputa.

Y hay una segunda poda, más conocida: la función de igualdad. Por defecto, un signal usa Object.is para decidir si el nuevo valor es distinto del anterior. Si haces set con un valor igual al actual, el grafo no propaga nada aguas abajo.

const estado = signal('activo');

const etiqueta = computed(() => {
  console.log('Recalculando etiqueta');
  return estado().toUpperCase();
});

etiqueta();              // imprime "Recalculando etiqueta" → "ACTIVO"
estado.set('activo');    // mismo valor: Object.is da true → NO propaga
etiqueta();              // NO recalcula: el grafo nunca se marcó sucio

Puedes personalizar esa comparación cuando trabajas con objetos:

const usuario = signal(
  { id: 1, nombre: 'Ana' },
  { equal: (a, b) => a.id === b.id }   // igual si el id no cambia
);

Ahora, si emites un objeto nuevo con el mismo id, el grafo lo considera igual y corta la propagación ahí mismo. Menos recálculos, menos renders. Esta equal es tu palanca para podar el grafo a mano cuando lo necesitas.

Effects y el scheduler: por qué no son síncronos

Un detalle que confunde: los effect() no corren en el instante exacto en que cambias un signal.

Cuando un signal del que depende un effect cambia, el effect se marca sucio y se agenda (scheduler). Angular lo ejecuta de forma agrupada, ligado normalmente a su ciclo de detección de cambios. Esto evita que un effect se dispare diez veces si haces diez set seguidos en la misma tarea: se ejecuta una vez, con el estado final.

const x = signal(0);

effect(() => console.log('x es', x()));

x.set(1);
x.set(2);
x.set(3);
// El effect NO imprime tres veces seguidas.
// Se agenda y corre una vez, con el valor final: "x es 3"

Si vienes de pensar en callbacks síncronos, este es el ajuste mental que necesitas. El effect reacciona, pero reacciona cuando toca, no a cada microcambio.

El contraste que lo explica todo: grafo vs. Zone.js

Ahora la pieza que da sentido a todo lo anterior.

Durante años, Angular detectó cambios con Zone.js + dirty checking. El modelo era de fuerza bruta: cuando algo podía haber cambiado (un click, un timeout, una respuesta HTTP), Angular recorría todo el árbol de componentes comprobando cada binding por si acaso. Funcionaba, pero el framework no sabía qué había cambiado. Solo sabía que algo pudo cambiar, y revisaba entero por si las moscas.

El grafo reactivo invierte el modelo. Angular ya no necesita preguntar “¿cambió algo en alguna parte?”. El propio grafo sabe exactamente qué signal cambió y qué nodos dependen de él. La actualización deja de ser una búsqueda y pasa a ser una notificación dirigida.

	Zone.js + dirty checking	Grafo reactivo (Signals)
¿Qué sabe el framework?	Que algo pudo cambiar	Qué signal cambió exactamente
Alcance de la revisión	Todo el árbol de componentes	Solo el nodo y sus dependientes
Disparo	Cualquier evento async (click, timeout, HTTP)	El cambio concreto de un signal
Coste	Proporcional al tamaño del árbol	Proporcional a lo que de verdad cambió
Viabilidad zoneless	No (necesita Zone.js)	Sí (Angular puede prescindir de Zone.js)

Esto es la base técnica de zoneless —opción de producción desde Angular v20— y de la detección de cambios granular: si todo tu estado vive en signals, Angular puede prescindir de Zone.js por completo, porque el grafo ya le dice qué refrescar. Pasas de “revisa todo el árbol por si acaso” a “actualiza este nodo y sus tres dependientes, nada más”.

Si quieres ver dónde encaja esto en la versión actual, lo cuento en detalle en las novedades de Angular v22, y cómo este mismo grafo gobierna la carga de datos asíncrona en el post sobre la Resource API de Angular 22.

Qué puedes hacer con esto hoy

No necesitas memorizar internals para escribir signals. Pero con este modelo en la cabeza dejas de programar a ciegas:

Mete tu lógica derivada en computed() sin miedo a la performance: si nadie lo lee, no cuesta nada.
Deja de “optimizar” recálculos a mano — el grafo ya memoiza y poda por ti.
Usa equal personalizado cuando trabajes con objetos y veas renders de más.
Mueve estado de RxJS a signals donde la lógica sea síncrona y derivada; reserva RxJS para flujos de eventos reales.

La próxima vez que un computed() “no se ejecute cuando esperabas”, ya no vas a pensar que está roto. Vas a saber que el grafo está esperando, perezoso y eficiente, a que alguien lea el valor.

Si quieres dominar Signals con esta profundidad —el grafo, los effects, la migración desde RxJS y los patrones que aguantan en producción— eso es justo lo que construimos paso a paso en el curso de Angular Moderno. Y si quieres seguir afilando el modelo mental con la comunidad, te espero en Dominicode Labs.

Preguntas frecuentes

¿El grafo reactivo es lo mismo que los Signals?

No exactamente. Los Signals (signal, computed, effect) son las APIs que tú usas; el grafo reactivo es la estructura interna que Angular construye a partir de ellas para saber qué depende de qué. Tú escribes signals; Angular monta el grafo automáticamente por debajo.

¿Necesito entender el grafo reactivo para usar Signals?

Para escribir código que funcione, no. Para escribir código eficiente y entender por qué un computed() se comporta como lo hace —cuándo recalcula, cuándo no, por qué no parpadea— sí. Es la diferencia entre usar signals y dominarlos.

¿El grafo reactivo reemplaza a RxJS?

No lo reemplaza, lo complementa. El grafo de Signals brilla en estado síncrono y valores derivados. RxJS sigue siendo la mejor herramienta para flujos de eventos complejos, streams asíncronos y operadores como debounce o switchMap. Muchos proyectos usan ambos: signals para el estado, RxJS para los flujos.

¿Qué relación tiene con zoneless?

Total. El modo zoneless elimina Zone.js, y solo es viable porque el grafo reactivo ya le dice a Angular exactamente qué cambió y qué refrescar. Sin el grafo, Angular tendría que volver a revisar todo el árbol de componentes. El grafo es la condición que hace posible zoneless.

¿Un `computed()` se ejecuta siempre que cambian sus datos?

No. Es perezoso: se marca como “sucio” cuando cambia una dependencia, pero solo se recalcula de verdad cuando alguien lee su valor. Si nadie lo lee, no se ejecuta. Y una vez calculado, devuelve un valor memoizado hasta que cambie alguna dependencia.

¿Cómo evita Angular recalcular un valor dos veces ante un mismo cambio?

Gracias a la consistencia glitch-free y al versionado de nodos. Si un consumidor depende de un mismo origen por varias rutas, el grafo lo recalcula una sola vez y con valores coherentes, sin estados intermedios falsos ni recálculos duplicados.

Por Bezael Pérez — Developer senior con más de 15 años de experiencia y fundador de Dominicode.

Modelo	Tamaño	Ideal para	RAM mínima
`llama3.2:3b`	~2 GB	Tareas simples, prototipado rápido	8 GB
`llama3.1:8b`	~5 GB	Razonamiento general, chat	8 GB
`mistral:7b`	~4 GB	Instrucciones, resumen, generación de texto	8 GB
`qwen2.5-coder:7b`	~4 GB	Generación y revisión de código	8 GB
`gemma3:9b`	~6 GB	Tareas multilingues, contexto largo	16 GB
`phi4:14b`	~9 GB	Razonamiento complejo, análisis	16 GB
`llama3.3:70b`	~40 GB	Calidad cercana a GPT-4o	64 GB
`deepseek-r1:14b`	~9 GB	Razonamiento con chain-of-thought	16 GB

Criterio	Local (Ollama)	Nube (OpenAI, Anthropic, Google)
Coste por llamada	Gratis	$0.001–$0.015 por 1K tokens
Privacidad de datos	Total	Depende del proveedor y contrato
Calidad en tareas complejas	Buena (modelos 7B–14B)	Excelente (modelos frontier)
Latencia (primer token)	Baja en hardware potente	Varía: 300ms–2s
Escalabilidad	Limitada por tu hardware	Prácticamente ilimitada
Modelos de razonamiento avanzado	Limitado	o1, Claude Sonnet 4, Gemini 2.5 Pro
Setup inicial	10 minutos	Registro + API key
Trabajo offline	Sí	No
Ideal para	Prototipado, privacidad, CI/CD, dev tooling	Producción con usuarios reales, tareas complejas

Programador tradicional	Product builder
Pregunta: “¿Cómo lo implemento?”	Pregunta primero: “¿Debería implementarlo?”
Espera que alguien le diga qué construir	Tiene una tesis propia sobre qué problema merece ser resuelto
Mide su valor en líneas de código o tecnologías que domina	Mide su valor en si algo que construyó funciona para alguien real

Category: Blog

Cómo pensar en el stack agéntico: capas, no herramientas

Capa 1: El modelo — quién razona

Capa 2: El framework de agente — quién orquesta el loop

Vercel AI SDK — mi elección para TypeScript

LangGraph — cuando necesitas flujos con estado y ramificaciones

SDK de Anthropic directo — para control total

Capa 3: MCP — el protocolo que está cambiando todo

Capa 4: Memoria y contexto persistente

Capa 5: Observabilidad — ver lo que hace el agente

Capa 6: Deployment — dónde vive el agente en producción

Mi stack en Dominicode: la versión concreta

Lo que descarto y por qué

El stack no es el problema

FAQ — Preguntas frecuentes sobre el stack de IA agéntica

¿Qué framework de agentes es mejor en 2026: Vercel AI SDK, LangGraph o el SDK directo de Anthropic?

¿Necesito una base de datos vectorial para construir un agente?

¿Qué es MCP y por qué debería importarme en 2026?

¿Puedo usar Python para construir el stack agéntico si ya soy developer Python?

¿Cómo elijo entre Railway y Vercel para desplegar un agente?

¿Qué herramienta de observabilidad recomendarías empezar primero?

Por qué el código ya no es el cuello de botella del programador en la era IA

Habilidad 1: Entender el problema real antes de abrir el editor

Habilidad 2: Comunicar la solución a quien no es técnico

Habilidad 3: Especificar con precisión lo que el agente debe construir

Habilidad 4: Negociar trade-offs cuando los requisitos chocan

Las habilidades del programador que la IA no puede reemplazar

El developer que va a sobrevivir a la IA

Preguntas frecuentes

El error que nadie te dice sobre SDD en proyectos nuevos

La estructura que sí funciona: spec global ligero + slices con UI

Capa 1: El spec global ligero

Capa 2: El spec de cada feature — con sección UI obligatoria

Spec total upfront vs spec incremental — la comparativa real

El ciclo de trabajo en un proyecto greenfield SDD

Lo que cambia cuando tienes el spec global

La UI no es una capa. Es un contrato.

FAQ

Qué es harness engineering: definición y concepto clave

Harness vs system prompt: la diferencia que importa

Cómo instalar y configurar Codex CLI de OpenAI

Instalación

Modos de operación

Codex vs otros agentes: comparativa de harness

Qué es AGENTS.md y cómo configurarlo en Codex

Contexto del proyecto

Reglas de operación

Convenciones del código

Herramientas disponibles

Flujo de trabajo esperado

Contexto del proyecto

Stack

Reglas de operación

Convenciones

Comandos disponibles

Flujo esperado

Los 5 elementos de un harness de agente IA bien diseñado

1. Contexto del proyecto con suficiente densidad

2. Límites claros de autonomía

Requiere confirmación explícita

3. Herramientas y comandos verificables

4. Gestión explícita de la ambigüedad

5. Instrucciones de salida y reporte

Harness débil vs harness fuerte: la misma tarea, dos mundos distintos

Errores comunes al configurar el harness de Codex CLI

Cómo crear tu primer harness con Codex: guía paso a paso

Proyecto

Estructura relevante

Convenciones

Comandos

Restricciones

FAQ — Preguntas frecuentes sobre harness engineering y Codex

Qué es un agent harness, sin humo

La anatomía: las 6 piezas de un harness

1. Tool registry

2. El modelo

3. Gestión de contexto

4. Guardrails

5. El agent loop

6. El verify step determinista

Push y pull: por qué el `computed` de mi compañero no se ejecutaba

¿Un `computed()` se ejecuta siempre que cambian sus datos?