Category: AI

Cómo usar Claude Code para mejorar la productividad en desarrollo
Como usar Claude Code como un pro

Tiempo estimado de lectura: 4 min
- Sesiones enfocadas: abre Claude Code en la carpeta del módulo, no en la raíz del monorepo.
- Delega ciclos completos: pide flujos (tests → ejecutar → corregir → commit), no snippets aislados.
- Controla contexto: evita indexar logs, binarios y secretos; limpia filtros antes de iniciar.
- Autonomía con control: mantén confirmaciones para comandos destructivos y usa entornos efímeros para ejecuciones automáticas.
Tabla de contenidos
Si quieres transformar la terminal en un entorno de ingeniería productiva, necesitas saber como usar Claude Code como un pro desde el primer comando. Claude Code no es un complemento de autocompletado: es un agente que puede leer tu repositorio, ejecutar comandos, iterar sobre fallos y aplicar cambios. Usarlo bien implica diseño de prompts, control del contexto y reglas claras de seguridad.

Resumen rápido (lectores con prisa)

Qué es: Un agente que puede leer repositorios, ejecutar comandos y aplicar cambios.

Cuándo usarlo: Para flujos completos como refactorizaciones, tests y generación de PRs en entornos controlados.

Por qué importa: Acelera tareas completas y reduce iteraciones manuales cuando se usa con límites y control de contexto.

Cómo funciona: Indexa el directorio de sesión, ejecuta comandos permitidos y puede iterar según la salida real del sistema.
como usar Claude Code como un pro: principios prácticos

1) Trabaja en sesiones enfocadas (aprovecha el prompt caching)

Claude Code indexa el directorio en el que abres la sesión. Esa indexación se cachea para reducir latencia y coste. La regla: una sesión = un microservicio o un módulo. Cambiar de contexto dentro de la misma sesión invalida la caché y dispara costes y latencia.

Práctica: abre la CLI dentro de services/payments/, resuelve la tarea y cierra la sesión. No abras Claude Code en la raíz de un monorepo a menos que realmente necesites ver todo.

2) Delega ciclos completos, no micro-tareas

Un uso amateur pide snippets. Un uso profesional delega un flujo entero:

Prompt tipo pro:
“Refactoriza src/billing para eliminar dependencias a legacy-lib.
Crea tests Jest que cubran el 80% de las rutas críticas.
Ejecuta npm run test y corrige fallos hasta que la suite pase.
Genera un changelog corto y crea un commit.”

Resultado: código probado, commit y artefactos (tests + changelog). No más “escribe la función X”.

3) Controla el contexto y el ruido (asegura tu entrada)

Si la sesión indexa logs, bases SQLite locales o binarios, el modelo desperdicia tokens. Dos acciones imprescindibles:
- Ejecuta Claude Code desde la carpeta del módulo que interesa.
- Mantén .gitignore y filtros locales limpios; mueve o excluye archivos pesados antes de indexar.
No inventes exclusiones mágicas: la higiene del repositorio reduce errores y mejora precisión.

4) Define expectativas y contratos en el prompt

Un prompt efectivo contiene: objetivo, criterios de éxito, límites y comandos permitidos. Ejemplo breve:
- Objetivo: “Internacionalizar mensajes de error en src/errors.”
- Criterio de éxito: “Tests de integración deben pasar y la clave i18n existir en cada error.”
- Límite: “No modificar build/ ni archivos en vendor/.”
- Comandos permitidos: “npm test, git add, git commit.”
Esto evita cambios sorpresivos y deja claro qué auditar.
Integración segura: autonomía con control

La gran pregunta es siempre autonomía vs control. Claude Code pide confirmación antes de comandos destructivos; esa barrera debe mantenerse por defecto. Habilitar ejecución totalmente autónoma solo tiene sentido en entornos efímeros: contenedores Docker desechables o runners de CI con permisos mínimos.

Patrón recomendado:
- Local: Human-in-the-loop. Aprobar cambios críticos manualmente.
- CI/CD: Sesiones automáticas dentro de contenedores con snapshot y rollback.
- Producción: Nunca sin procesos de revisión y herramientas de observabilidad.
Ejemplo de entorno efímero:

docker run --rm -v $(pwd):/work -w /work node:18 bash -c "claude-code session --authed"
(Ejecutar la CLI dentro de un contenedor permite pruebas reproducibles y segura reversión).
Casos de uso donde Claude Code rinde como un pro

Ejemplos claros donde aporta valor:
- Onboarding técnico: “Lee src/ y genera un diagrama Mermaid de la arquitectura.” Resultado: documentación inicial y mapa de dependencias.
- Refactorización transversal: “Sustituye libX por libY y ejecuta linter + tests.” Resultado: cambios aplicados + report.
- Auditoría rápida: “Revisa el módulo de auth contra OWASP Top 10 y documenta hallazgos.” Resultado: lista priorizada de riesgos.
- PR autopiloto: “Analiza esta rama, aplica fixes mínimos, y crea PR con descripción técnica y checklist de QA.”
Métricas para demostrar ROI

No es magia; mide impacto con indicadores concretos:
- Tiempo medio para cerrar una tarea compleja (antes / después).
- % de PRs que pasan CI en primera corrida.
- Tiempo de onboarding de nuevos devs (documentación generada).
- Reducción de errores por regresiones introducidas manualmente.
Riesgos y cómo mitigarlos
- Fugado de secretos: asegúrate de que la CLI no indexe .env con credenciales; usar vaults y secrets managers.
- Cambios no revisados: habilita hooks que obliguen revisión humana en cambios críticos.
- Sobredependencia: Claude Code acelera, no sustituye juicio. Mantén reglas de propiedad de código.
Resumen rápido y acción inmediata

Para empezar ya: instala la CLI, abre una sesión en un módulo pequeño, prueba un prompt de TDD completo (escribir tests → ejecutar → corregir) y ejecuta todo dentro de un contenedor temporal. Documenta los resultados y ajusta prompts.

Si aprendes como usar Claude Code como un pro tendrás menos código parcheado y más flujos reproducibles. La terminal deja de ser un editor y se convierte en un orquestador: potente, pero bajo tu criterio.

Dominicode Labs

Si trabajas con agentes, automatización o workflows, considera continuar explorando patrones y experimentos en Dominicode Labs. Está diseñado como una continuación práctica para pruebas controladas y prototipos de integración.
FAQ
Respuesta: ¿Qué es Claude Code y para qué sirve?

Claude Code es un agente que puede leer tu repositorio, ejecutar comandos, iterar sobre fallos y aplicar cambios, usado para acelerar flujos completos como refactorizaciones, tests y creación de PRs.

Respuesta: ¿Cuándo debo abrir una sesión en la carpeta del módulo versus en la raíz?

Abre la sesión en la carpeta del módulo cuando trabajes en una unidad cohesionada (microservicio o paquete). Evita la raíz en monorepos grandes para no invalidar caché y aumentar coste y latencia.

Respuesta: ¿Qué debe incluir un prompt profesional?

Debe contener objetivo, criterios de éxito, límites y comandos permitidos. Ejemplo: objetivo claro, tests necesarios, carpetas prohibidas y lista de comandos autorizados.

Respuesta: ¿Cómo mitigo el riesgo de fugado de secretos?

No indexes .env ni archivos con credenciales; usa vaults y secrets managers; filtra o mueve archivos sensibles antes de iniciar la sesión.

Respuesta: ¿Es seguro habilitar ejecución autónoma en producción?

No. Habilita ejecución autónoma solo en entornos efímeros y controlados. En producción exige revisiones humanas y observabilidad.

Respuesta: ¿Qué métricas son útiles para medir ROI?

Tiempo medio para cerrar tareas complejas, porcentaje de PRs que pasan CI en la primera corrida, tiempo de onboarding y reducción de errores por regresiones manuales.
Claude Code (documentación oficial: documentación oficial) se comporta como un colaborador técnico: puede generar código, ejecutar tests y corregir errores basándose en la salida real del sistema.
April 24, 2026
Fundamentos del Spec-First Development para desarrolladores
Deja de vibe-codear: Fundamentos del Spec-First Development

Tiempo estimado de lectura: 6 min
- Spec-First invierte minutos en especificar para evitar horas de corrección posterior.
- Sin una spec, los agentes (p. ej. Claude Code) completan huecos con suposiciones que rompen invariantes.
- Una spec efectiva contiene contexto, contrato, restricciones y casos de uso.
- Usa vibe coding para prototipos; usa Spec-First para producción y sistemas compartidos.
Tabla de contenidos
Deja de vibe-codear: Fundamentos del Spec-First Development. Deja de vibe-codear: Fundamentos del Spec-First Development. Si confías en prompting improvisado para todo, acabarás con un sistema que “funciona” y nadie entiende. Spec-First Development no es paperwork; es el antídoto práctico contra las suposiciones que los agentes —incluido Claude Code— introducen cuando no hay una especificación clara.

Resumen rápido (lectores con prisa)

Spec-First Development: escribir la especificación mínima (contexto, contrato, restricciones, ejemplos) antes de implementar. Útil para producción y sistemas compartidos. Evita suposiciones de agentes y pérdida de consistencia arquitectónica. Usa vibe coding solo para prototipos.

Fundamentos del Spec-First Development: por qué importa antes de abrir Claude Code

Vibe coding acelera prototipos. Funciona hasta que el prototipo debe vivir en producción. Los agentes como Claude Code operan dentro de ventanas de contexto finitas; cuando esa ventana se cierra, el agente no recuerda decisiones previas y completa lagunas con suposiciones. Resultado: fragmentos correctos en aislamiento que, juntos, rompen invariantes del sistema.

Spec-First Development cambia el orden: primero especificas el sistema mínimo necesario (contexto, contrato, restricciones, ejemplos), y luego pides al agente que implemente. Así conviertes a Claude en un ejecutor alineado, no en un improvisador.

Fuentes útiles:
Qué falla con el vibe coding en sistemas reales
- Pérdida de memoria arquitectónica: cada sesión es una pizarra limpia; las decisiones previas no viajan implícitas.
- Suposiciones silenciosas: el agente rellena huecos según heurísticas, no según tus invariantes.
- Deuda de coherencia: el conjunto pasa tests unitarios pero falla en invariantes transversales; refactorizarlo es costoso.
No es que los agentes sean malos. Es que sin especificaciones les pides que inventen el contexto del proyecto en cada interacción.

Qué debe contener una spec efectiva (los 4 pilares)

1. Contexto del sistema

– Stack, rutas, estructura modular, patrones de estado y librerías permitidas.

– Ejemplo: “Next.js (App Router), Zustand para estado cliente, servicios de microservicios en /services, convención kebab-case para nombres de archivo.”

2. Contrato de la interfaz

– Inputs (tipos), outputs (tipos), efectos secundarios permitidos, invariantes.

– Ejemplo: “Función getUser(id: string): Promise. No realizar llamadas externas salvo a auth-service; no mutar objetos globales.”

3. Restricciones y criterios de aceptación

– Requisitos no funcionales: latencia, límites de dependencias, compatibilidad con versiones, criterios de seguridad.

– Ejemplo: “Respuesta en <200ms p95; no usar librerías con licencia X; cobertura mínima 80% en pruebas unitarias.”

4. Casos de uso y ejemplos de I/O

– Un caso nominal, al menos un caso borde y comportamiento ante error.

– Ejemplo: entrada JSON, salida esperada, salida esperada cuando falta un campo.

Estos cuatro pilares evitan que el agente “sea creativo” donde no debe.

Cómo integrar specs en tu flujo con Claude Code (pasos prácticos)

1. Escribe la spec antes de abrir la sesión del agente

– No la guardes en Google Docs. Ponla en el repo: SPEC.md junto al test file o como comentario estructurado en tests.

2. Incluye la spec textual como primer contexto en el prompt

– No resumas: copia y pega. El agente necesita reglas explícitas, no interpretaciones.

3. Pide la implementación y las pruebas asociadas

– Solicita código + tests unitarios que verifiquen los criterios de aceptación.

4. Valida resultado contra la spec antes de mergear

– Verde en CI no equivale a alineación arquitectónica. Comprueba invariantes, latencias, dependencias y contratos.

5. Versiona la spec junto al código

– Si cambian los requisitos, actualiza SPEC.md; la spec es parte del contrato del repo.

Ejemplo mínimo de SPEC.md (esquema)
- – Contexto: [stack, rutas, convenciones]
- – Contrato: [firma, tipos, efectos secundarios permitidos]
- – Restricciones: [latencia, dependencias, seguridad]
- – Casos: [input nominal → output; caso borde; error esperado]
- – Criterios de aceptación: [tests, performance, compatibilidad]
Guardarlo en el repo reduce el ciclo “pregunta-respuesta” y elimina ambigüedades en prompts posteriores.

Cuándo usar vibe coding y cuándo spec-first

– Vibe coding: validación rápida de concepto, experimentación aislada, exploración de bibliotecas.

– Spec-First: producción, microservicios compartidos, sistemas con múltiples mantenedores, integraciones críticas.

No es blanco o negro: usa vibe para idear, spec-first para construir. Esa transición mental es la diferencia entre velocidad aparente y velocidad sostenible.

Cierre: el coste real de no especificar

Un agente sin spec es un colaborador talentoso sin briefing: produce soluciones plausibles que resuelven problemas distintos al que tienes. Escribir specs no es burocracia; es invertir minutos que ahorran horas de corrección y semanas de deuda técnica. Antes de abrir Claude Code, escribe la spec. Tu base de código te lo agradecerá.

Para equipos que trabajan con automatización, agentes y workflows, una práctica complementaria es centralizar plantillas y ejemplos en un laboratorio interno. Más recursos y experimentos aplicados están disponibles en Dominicode Labs.

FAQ
Respuesta:

Spec-First Development es la práctica de definir la especificación mínima necesaria (contexto, contrato, restricciones, ejemplos) antes de implementar el sistema o función.

Respuesta:

Antes de comenzar una tarea que vaya a producción, que implique integración entre equipos o que afecte invariantes transversales. Para prototipos rápidos puedes saltarla.

Respuesta:

La spec es un contrato operativo y minimalista pensado para ejecución y validación (tests, CI), no un documento extenso de diseño. Está orientada a la implementabilidad.

Respuesta:

Sí. Los agentes consumen la spec como contexto explícito y la usan para reducir suposiciones. Es crucial pegar la spec textual en el prompt o ponerla en el repo accesible.

Respuesta:

Contexto del sistema, contrato de la interfaz, restricciones y criterios de aceptación, y casos de uso con ejemplos de I/O.

Respuesta:

Se pierde trazabilidad entre versiones del código y sus requisitos; provoca divergencias, errores en integración y mayor deuda técnica. Versionar la spec junto al código evita ambigüedades.
April 23, 2026
Implementando Plum para Gobernanza de Decisiones en Código
¿Y si te dijera que tu “spec” es una tarjeta de bienvenida para el caos si no la conviertes en evidencia viva?

Tiempo estimado de lectura: 6 min
- Plum convierte decisiones de diseño y agentes en evidencia rastreable ligada a commits.
- Fallar commits a propósito es el checkpoint que fuerza la aprobación humana y evita decisiones no registradas.
- El flujo incluye init, extracción de decisiones, bloqueo de commits si hay decisiones pendientes y sincronización spec↔tests↔código.
- Limitaciones reales: Pytest-only ahora, backfill difícil, deduping fuzzy y riesgo de ruido de interrupción.
Tabla de contenidos
Introducción

Poca gente habla claro de esto: cuando un Product Manager cambia una regla, la pregunta real no es “¿habrá que tocar el código?” sino “¿cómo sabré mañana quién decidió qué, por qué y con qué pruebas?”. Spoiler: la mayoría no lo sabe. Y con agentes de IA metidos en la cocina, ese “no saber” se vuelve que arda todo en silencio.

Esto no es teoría bonita. Es práctica sucia. Y la herramienta que te salva la vida se llama Plum. Sí, Plum. La plomada. La que te dice si lo que has levantado está vertical o te lo estás inventando sobre la marcha.

Resumen rápido (lectores con prisa)

Qué es: Plum es un guardián operativo que convierte decisiones (humanas o de LLM) en artefactos rastreables ligados a commits.

Cuándo usarlo: Cuando usas agentes o LLMs para tomar decisiones que afectan código, specs o tests.

Por qué importa: Evita que las decisiones queden atrapadas en chats y que el repositorio pierda la memoria de intención.

Cómo funciona (resumen): Hooks de Git + extracción de traces + bloqueo de commits hasta aprobación + sincronización spec↔tests↔código.

Por qué hay que preocuparse ahora

– Porque los LLMs generan código a ritmo industrial.

– Porque cambios urgentes o hotfixes se meten directo al trunk.

– Porque las decisiones que importan quedan atrapadas en chats —los famosos traces— y se evaporan al cerrar la sesión.

– Porque las especificaciones se quedan en Markdown como si fueran altares estáticos, sin reflejar lo que el código realmente hace.

La consecuencia: código que pasa tests pero no cumple intención. Tests que validan outputs, no contratos. Specs que no son contrato sino historia. Y equipos que no pueden responder cuando algo explota en producción.

Cómo funciona Plum —sin poesía— pero con sentido

1) plum init

– Crea .plum y .plumignore.

– Te pide dónde están tus specs (Markdown) y tus tests (por ahora Pytest).

– Añade hooks a Git: el commit se convierte en punto de control, no en trámite.

2) Haces código con un agente

– El agente toma decisiones en el chat. Tú las apruebas o las ajustas.

– Al intentar git commit, Plum hace su trabajo: compara diffs desde el último commit y escanea los traces del agente.

3) Plum extrae decisiones

– Deduplica (sí, imperfecto; más abajo explico por qué).

– Te presenta: “estas son las decisiones que tomaste desde el último commit. ¿Las apruebas?”.

– Si hay decisiones pendientes, el commit falla. Sí, falla a propósito. Tú apruebas o corriges.

4) Aprobadas → actualizaciones y registro

– Aprobadas => Plum actualiza la spec (Markdown) y genera un registro .jsonl con la decisión, la autoría (humano o LLM), rama, timestamps y vínculo al diff.

5) Ejecutas plum sync

– Plum te muestra las brechas entre spec, tests y código: requisitos sin tests, tests sin caso claro, etc.

Por qué no puede ser “una skill” del agente

Porque una skill es una sugerencia dentro del agente. Y las sugerencias se ignoran cuando hay prisa. Si quieres gobernanza necesitas un checkpoint externo e innegociable. Si el commit no falla, la herramienta es una opción más que nadie usa. Plum falla commits a propósito para forzar el acto reflexivo: “aprobación humana o nada”.

La plomada no pinta paredes. Te evita derrumbes.

Qué hay dentro del archivo JSONL y por qué importa

El .jsonl no es un “log más”. Es un registro de intención con metadatos para auditoría.

Ejemplo de entrada:

– question: “¿Batchear updates de spec o aplicar por decisión?”

– decision: “Batch spec updates across all decisions”

– approved_by: user@example.com

– proposed_by: LLM (o human)

– branch: feature/x

– diff_link: git://…

– timestamps: created, approved, synced

Ese registro responde a: quién decidió, qué decidió, por qué y cuándo. Lo que todo equipo serio debería exigir.

Limitaciones reales (no las bonitas)
- Pytest-only por ahora. Si usas otro runner, el análisis de cobertura falla. Esto es temporal, pero real.
- Backfill: Plum funciona mejor si la spec va adelante del código. Analizar un monolito legacy y generar spec desde cero es una tarea distinta.
- Decision deduping es fuzzy. Identificar “la misma decisión” entre conversaciones humanas y LLMs no es trivial. Depende del repo, del dominio y de tu tolerancia.
- Ruido de interrupción. Si generas cinco decisiones por un hotfix, te puede cortar el flow. Por eso Plum necesita umbrales de interrupción configurables.
- Rollbacks automáticos: si rechazas una decisión en la CLI, que se revierta el cambio en el código todavía requiere flujo claro entre agente y control de versiones. No siempre está resuelto. Lo ideal: rechazo en el CLI que abre un “rework” en el agente con rollback automático; hoy es work-in-progress.
Diseño de umbrales —el arte de no volver loco al dev

Velocidad es vida. Interrupciones matan. Así que Plum permite (y debe permitir) configurar tolerancias:
- Modo “dangerously approve all” para prototipos.
- Modo “auditable strict” para banking, salud, compliance.
- Filtros por carpeta o tipo de archivo (ej.: cambios en README no generan decisiones).
- Severidad: solo interrumpir cuando la decisión sea contradictoria con reglas previas o afecte invariantes del sistema.
- Timebox: decisiones ligeras se acumulan y se presentan en lote, las críticas se presentan inmediatamente.
Esto es clave: la herramienta debe ser lo suficientemente simple para que cada dev la mantenga en su cabeza. Si no, la ignorarán.

DSPy y la búsqueda del determinismo

No me gustan las soluciones que dependen sólo de LLMs para validar la validez de una regla. Cuando puedes usar código —tests, parsers, análisis sintáctico— úsalo. Donde no puedas, estructura las llamadas a LLMs. DSPy ayuda: define inputs/outputs tipados para las llamadas a modelos, reduce alucinaciones y permite testear las respuestas.

Ejemplo práctico:
- Deducción de decisión = tarea rápida → GPT-OSS (rápido).
- Parse semántico de spec = tarea precisa → modelo con DSPy que devuelva JSON estricto.
- Cuando falla la determinación, vuelve al humano.
Por qué esto cambia la revisión de código

Hoy revisas sintaxis y estilo. Mañana, sin estas herramientas, revisarás humo. Con Plum revisas intención. Ves “por qué existe esta función” y no sólo “si el PR es legible”. Es code review con memoria. Y esa memoria evita que los agentes te reproduzcan antiguas prohibiciones por olvido de contexto.

Checklist mínimo para empezar (15 minutos)
1. Pip install plum-dev
2. plumb init (apunta al folder de specs y a tu carpeta de tests)
3. Añade .plumignore para evitar ruido (README, docs, etc.)
4. Ajusta umbrales: prototipo vs production.
5. Corre un hotfix con agente y haz commit — observa el commit-fail, aprueba decisiones.
6. Ejecuta plum sync y revisa cobertura spec↔tests↔código.
7. Guarda el .jsonl en la rama y pásalo por review.
Casos de uso concretos
- Startups: modo “dangerously approve” para protos, switch a strict cuando tienes usuarios reales.
- Fintech / Salud: strict desde el primer día, cada micro-decision auditada.
- Open Source: Plum ayuda a traducir PRs dispersos en decisiones rastreables y aprobadas.
Metáfora breve

Tu repo es un edificio. Los agentes son una cuadrilla hiperactiva que puede añadir habitaciones a velocidad absurda. La spec es el plano. Si no actualizas planos y firmas cambios, un día entras y la escalera está en el baño. Plum es la plomada: no te dice cómo pintar, te dice si la pared está derecha.

La urgencia práctica

Si ya usas agentes y no capturas decisiones, estás construyendo un legado que nadie asumirá. La deuda técnica no es solo trabajo: es riesgo legal, fiscal y reputacional. La gobernanza no es un lujo, es supervivencia.

¿Quieres empezar ahora?

Pruébalo: pip install plum-dev y corre plum init en una rama de feature.

Si quieres que te lo haga más fácil, te doy 3 cosas ahora mismo:
- Un template de .jsonl para registrar decisiones.
- Un flujo de PR (CI) que bloquea merges hasta sync exitoso.
- Un checklist para integrar Plum en 15 minutos.
Respóndeme este mensaje y te lo envío. O instala plum-dev y me cuentas qué encuentras en tu primer commit con agente. Te prometo que descubrirás decisiones que no sabías que habías tomado.

Si el artículo y su enfoque encajan con tus flujos de automatización, considera explorar más en Dominicode Labs como continuación lógica a la integración de herramientas y procesos en equipos técnicos.

FAQ
¿Qué hace exactamente Plum cuando instalo y lo configuro?

Instala hooks de Git, identifica dónde están tus specs (Markdown) y tests (Pytest por ahora), y añade puntos de control en commits para extraer y registrar decisiones tomadas por humanos o agentes.

¿Plum genera código o modifica mi base de código automático?

No. Plum no genera código. Actualiza specs y registra decisiones; el código lo sigue haciendo la persona o el agente. Plum actúa como checkpoint y registro.

¿Qué pasa si no quiero que ciertos cambios sean bloqueados?

Puedes configurar umbrales, filtros por carpeta/tipo de archivo y modos (ej.: “dangerously approve all”) para reducir interrupciones en prototipos o áreas no críticas.

¿Plum soporta todos los frameworks de tests?

No: actualmente es Pytest-only. El análisis de cobertura falla con otros runners hasta que se añada soporte explícito.

¿Cómo se ve un registro de decisión y qué metadatos incluye?

Un .jsonl incluye: question, decision, approved_by, proposed_by (LLM o human), branch, diff_link y timestamps (created, approved, synced).

¿Qué ocurre si Plum detecta decisiones conflictivas?

Plum puede bloquear el commit y presentar las decisiones para aprobación. La resolución puede requerir rework en el agente o intervención humana; el flujo de rollback automático es work-in-progress.

¿Plum puede integrarse en CI para bloquear merges?

Sí. Un flujo de PR (CI) puede bloquear merges hasta que plum sync sea exitoso y las brechas entre spec, tests y código hayan sido resueltas.
April 21, 2026
Cómo redactar especificaciones efectivas para IA en desarrollo de software
¿Quieres que la IA escriba código que aguante en producción o prefieres pagar la reescritura con horas de sueño robadas?

Tiempo estimado de lectura: 6 min
- Sin una spec sólida, la IA falla: la salida suele ser “lo más probable” y no lo que tu sistema necesita.
- Una spec funciona como contrato: entradas, salidas y reglas inmutables (TS, DB, validadores).
- Proceso y repo: coloca SPEC.md y reglas globales en el repo; pide tests antes de código.
- Diseña para fallos: idempotencia, retries, observabilidad y mocks de LLM en CI.
Poca gente dice esto claro: sin una spec sólida, la IA no te ayuda —te traiciona con estilo. Te da un PR brillante, lo mergeas, y dos semanas después estás en modo bombero arreglando incoherencias, dependencias raras y bugs que solo existen porque nadie le dijo al modelo las reglas del juego.

Esto no es teoría. Es un manual corto y agresivo para escribir specs que conviertan a la IA en ejecutora precisa, no en improvisadora talentosa.

Resumen rápido (lectores con prisa)

La IA no entiende contexto técnico; genera lo más probable. Para usarla en producción necesitas specs como contratos: define entradas, salidas, validadores y versiones exactas del stack. Pon la spec en el repo, exige tests (mock de LLM en CI) y diseña idempotencia, retries y observabilidad desde el inicio.

Primera verdad incómoda: la IA no piensa, predice

Los modelos son máquinas de probabilidades. No entienden GDPR, SLAs o el negocio que hay detrás del botón. Si no les das límites, rellenan con lo más probable de su entrenamiento. Y lo más probable suele ser un parche bonito… que no encaja en tu arquitectura.

Qué hace una spec que realmente funcione con IA

1) Contexto de negocio (el “por qué”) — 1 párrafo

No le cuentes la historia de tu vida. Di en una frase qué problema resuelve esta feature y qué sería un fallo. Ejemplo: “Crear usuarios con verificación por email. Éxito = usuario activo; fracaso = intento de signup duplicado.” Con eso la IA prioriza seguridad y unicidad, no UX glam.

2) Contratos de datos inmutables — el núcleo

Define TODAS las formas de datos:
- Interfaces TypeScript (ej. CreateUserRequest, UserResponse).
- Esquema de DB (SQL/Prisma).
- Validadores (Zod schemas).
Si el código espera un JSON con { email: string, password: string } dilo. Congela esos contratos. Si cambian, cambia la spec. Esto transforma a la IA en un generador que cumple un contrato, no en un novelista.

3) Stack y versiones exactas — sin ambigüedades

“Usa Next.js” es basura. Di “Next.js 14 — App Router — Node 20 — Postgres 15 — pgvector”. Lista librerías permitidas y las prohibidas. Los modelos tienden a usar patrones históricos; dar versión evita sorpresas.

4) Reglas negativas — lo que NO se debe hacer

La IA ama instrucciones. Si le dices “No hagas X”, lo recuerda. Lista antipatrones:
- No exponer variables de entorno en cliente.
- No añadir dependencias sin revisión CVE.
- No implementar persistencia eventual en endpoints críticos.
5) Criterios de aceptación comprobables

Exige tests. Define qué pruebas deben pasar:
- Unit tests (ej. hashing de password).
- Integration tests (ej. createUser -> DB -> verify hash).
- Tests de resiliencia (reintentos en worker).
Pedir tests antes que código hace que la IA produzca implementaciones testables.

Cómo estructurar la spec en el repo (hazlo ya)

No metas la spec en Google Docs o Notion y esperes que la IA la lea. Ponla en el repo. Que el agente la tenga al lado del código. Dos archivos mínimos:

Archivos mínimos
- .cursorrules / .github/copilot-instructions.md — Reglas globales: stack, estilos, convenciones de nombres, políticas de seguridad. Que el agente lo lea siempre.
- SPEC.md (micro-spec por feature) — Contexto corto, contratos TS, endpoints, criterios de aceptación, reglas negativas, responsables.
Micro-spec vs contexto global: menos es más

Saturar la ventana de contexto con miles de archivos confunde. Alimenta a la IA con:
- SPEC.md del módulo.
- Tipos globales que realmente importan.
- Un archivo de reglas globales.
Menos ruido, más precisión. La IA trabaja mejor con densidad técnica, no con bibliotecas de historia.

Patrón de trabajo: plan antes de código

Nunca pidas “haz el CRUD”. Pide un plan en pasos:
1. Interfaces + DB schema.
2. Contratos OpenAPI.
3. Tests de aceptación.
4. Implementación por sprint.
Aprueba cada fase. Así evitas que la IA genere código que contradiga los contratos que aprobaste.

Herramientas que convienen y por qué

– TypeScript + Zod: transforma respuestas en contratos verificables.

– Prisma/SQL: esquemas claros y migraciones.

– OpenAPI: contratos de endpoint.

– pgvector (si usas vectores): evita añadir otro servicio.

– n8n para orquestación: sacas la lógica de integración fuera del repo y manejas retries visuales.

RAG y seguridad: nunca lo tomes a la ligera

Si vas a indexar documentos para chatear con ellos, cada vector debe llevar tenant_id. Punto. No mezcles tenants. Nunca. El filtro por tenant debe aplicarse en la consulta, no en la app. Si mezclas vectores, estás invitando a fugas de datos.

Idempotencia, retries y jobs: diseña para fallos

Asume que la IA y los servicios fallarán. Diseña:
- Jobs con estado (pending, processing, success, failed).
- Workers idempotentes por job_id.
- Dead-letter queues para errores irreparables.
- Retries con backoff exponencial y circuit breaker.
No idempotencia = facturación duplicada + datos duplicados. No es elegante. Es caro.

Observabilidad desde el minuto cero

Si no mides, no mejoras. Instrumenta:
- Traces distribuidos (OpenTelemetry).
- Métricas: latencia por modelo, tokens por job, coste por tenant.
- Logs estructurados con context_id.
- Dashboards y alertas (picos de coste, aumentos de error rates).
Tests: mockea la IA

No dependas de la API real en CI. Mockea respuestas de LLM —positivas y negativas— y tests que simulen timeouts, respuestas malformadas y ataques de prompt injection. Así la spec y los tests te protegen cuando la IA se sale del carril.

Plantilla mínima de SPEC.md (rápida y usable)

Pon esto en la raíz del módulo. No lo copies sin adaptar, pero úsalo como base.
- Título: Objetivo en una frase.
- Contexto: 2 párrafos máximos.
- Stack: versiones exactas.
- Contratos: interfaces TS + esquemas SQL/Prisma.
- Endpoints: método, path, payloads (ej. OpenAPI snippet).
- Regla negativas: lista corta.
- Criterios de aceptación: tests concretos.
- Responsables: quién aprueba merge.
El nuevo rol del senior: menos héroe, más guardián

El valor del senior hoy no es teclear más rápido. Es decidir fronteras. Es escribir specs que no fallen en producción. Si no tienes eso, la IA solo acelera el desastre.

Checklist rápido antes de pedir código a la IA
- ¿SPEC.md está en la raíz del módulo?
- ¿Interfaces TS y esquemas DB están definidos?
- ¿Reglas negativas claras?
- ¿Tests de aceptación definidos?
- ¿El prompt obliga a devolver JSON validable?
Si respondes no a cualquiera, no pidas código.

CTA

Si quieres la plantilla SPEC.md lista para pegar y un prompt maestro para Claude que funcione hoy, respóndeme “Quiero la plantilla”.

Te la envío lista para pegar en el repo y para que la IA empiece a generar código que no te rompa la vida.

Para quienes trabajan en automatización, agentes y workflows este enfoque encaja con prácticas de laboratorio y experimentación. Más recursos y experimentos vinculados a estos patrones están disponibles en Dominicode Labs, que complementan las plantillas y ejemplos prácticos descritos arriba.

FAQ
Respuesta: ¿Por qué necesito una spec si la IA puede escribir código por mí?

Porque la IA genera lo más probable, no lo correcto para tu negocio. Una spec transforma requisitos en contratos verificables que la IA puede cumplir de forma repetible.

Respuesta: ¿Qué debe contener obligatoriamente un SPEC.md?

Título objetivo, contexto corto, stack con versiones exactas, contratos (TS + DB), endpoints, reglas negativas, criterios de aceptación y responsables.

Respuesta: ¿Cómo evito fugas de datos en sistemas RAG?

Indexa vectores con tenant_id, aplica el filtro por tenant en la consulta y evita mezclar índices entre tenants.

Respuesta: ¿Qué pruebas debo pedir antes de revisar un PR generado por IA?

Unit tests, integration tests que verifiquen contratos y tests de resiliencia (timeouts, retries, respuestas malformadas).

Respuesta: ¿Cómo integro mocks de LLM en CI sin perder cobertura realista?

Mockea escenarios positivos y negativos, timeouts y prompt injections. Mantén casos representativos que reflejen errores reales observados en producción.

Respuesta: ¿Qué reglas negativas son las más críticas?

No exponer env vars en cliente; no añadir dependencias sin revisión CVE; no usar persistencia eventual en endpoints críticos; exigir tests antes del merge.
April 20, 2026
Cómo aplicar la regla del 60% en la gestión de contexto para LLMs
Gestión de contexto: la regla del 60% para sesiones en Claude Code

Tiempo estimado de lectura: 5 min
- Regla operativa: nunca dejes que una sesión consuma más del 60% de la ventana de contexto sin persistir el estado y limpiar la memoria.
- Patrón de trabajo: dividir tareas en Research → Plan → Implement → Validate, con artefactos en disco y limpieza de contexto entre fases.
- Artefactos clave: /CLAUDE.md, /RESEARCH.md, /PLAN.md, /TASK_STATE.md, /VALIDATION_REPORT.md y commits atómicos por módulo.
- Señales y métricas: observar contradicciones, repeticiones de contexto y fallos por “olvidos”; medir % de tareas con rework y tiempo de retoma.
Tabla de contenidos
Introducción

La frase “gestión de contexto: la regla del 60%” no es un eslogan. Es la regla operativa que evita que sesiones largas con agentes como Claude Code produzcan código coherente hoy y deuda técnica mañana. Si trabajas con LLMs en ingeniería, aplica esto desde el primer día: nunca dejes que una sesión consuma más del 60% de la ventana de contexto sin persistir el estado y limpiar la memoria.

Resumen rápido (lectores con prisa)

La regla del 60% limita cuánto de la ventana de contexto puede usar una sesión antes de persistir el estado. Úsala para fragmentar trabajo en sesiones controladas y guardar artefactos versionados (archivos en el repo). Aplica especialmente con agentes que leen/escriben repositorios como Claude Code.

Qué significa “Gestión de contexto: la regla del 60%” y por qué importa

Los modelos de lenguaje tienen una ventana finita de tokens. Cuando esa ventana se aproxima a su límite —y en la práctica cuando supera el 60%— el modelo comienza a priorizar lo más reciente. Eso no produce errores ruidosos: produce decisiones de diseño que olvidan criterios definidos al inicio, bugs detectados temprano y validaciones que ya no se tienen en cuenta.

La regla del 60% obliga a fragmentar el trabajo en sesiones controladas y a externalizar el estado en artefactos versionados (archivos en el repo). Con Claude Code esto es práctico y repetible porque el agente puede leer/escribir el repositorio: https://docs.anthropic.com/en/docs/agents-and-tools/claude-code/overview y https://www.anthropic.com/claude.

El patrón operativo: 4 fases limpias por sesión

Divide cualquier tarea compleja en cuatro fases: Research → Plan → Implement → Validate. Cada fase debe terminar con un artefacto en disco y una limpieza explícita del contexto antes de pasar a la siguiente.

1) Research — auditoría

– Objetivo: mapear dependencias, puntos de dolor y deuda técnica sin cambiar nada.

– Salida: RESEARCH.md con módulos auditados, preguntas abiertas y riesgos priorizados.

– Acción: cerrar sesión. No cargar más archivos que los estrictamente necesarios.

2) Plan — diseño acotado

– Objetivo: con RESEARCH.md + CLAUDE.md (contrato del proyecto) definir módulos, orden y criterios de aceptación.

– Salida: PLAN.md con tareas atómicas y criterios verificables.

– Acción: validar el plan con un humano; cerrar sesión.

3) Implement — sesiones por módulo

– Objetivo: una sesión por módulo. Cargar solo PLAN.md, CLAUDE.md y archivos del módulo.

– Salida por módulo: commit atómico + actualización de TASK_STATE.md (estado por módulo) y tests unitarios.

– Acción: limpiar contexto entre módulos (reiniciar sesión o instanciar subagente nuevo).

4) Validate — verificación objetiva

– Objetivo: sesión en blanco que lea PLAN.md y ejecute validaciones (tests unitarios, integración, contratos).

– Salida: VALIDATION_REPORT.md con pass/fail y pasos de corrección.

– Acción: abrir PR / merge si pasa; en caso contrario, agregar tareas correctivas al plan y repetir ciclo.

Ejemplo práctico (prompt y artefactos)

Estructura de archivos mínima:
```
/CLAUDE.md
/RESEARCH.md
/PLAN.md
/TASK_STATE.md
/VALIDATION_REPORT.md
/tasks/auth-migration.md
```
Prompt de recuperación inicial (Research → Plan):
```
Lee /RESEARCH.md y /CLAUDE.md. Propón un PLAN.md que divida la migración de Auth en módulos atómicos,
cada uno con criterios de aceptación y tests mínimos. No implementes código.
Guarda PLAN.md y termina la sesión.
```
Prompt para Implement (módulo user-service):
```
Lee PLAN.md y CLAUDE.md. Trabaja únicamente en src/services/user-service.* según el criterio de la tarea "UserService".
Agrega tests unitarios que validen los criterios. Actualiza TASK_STATE.md antes de hacer commit.
No toques otros módulos.
```
Regla inquebrantable: actualizar TASK_STATE.md y hacer commit antes de terminar la sesión.

Señales de que estás cruzando el 60% (y qué hacer)

– Necesitas repetir contextos largos en prompts para que el agente recuerde una regla inicial.

– El agente empieza a contradecir decisiones anteriores sin justificación.

– Validaciones fallan por “olvidos” de requisitos que estaban en el RESEARCH.md.

Si ves cualquiera de estas señales: persiste el estado en disco, cierra la sesión y reinicia con el artefacto correspondiente.

Ventajas prácticas y métricas que importan

Aplicar la regla del 60% reduce ruido y mejora trazabilidad:
- Menos reverts por decisiones olvidadas.
- Mayor porcentaje de tasks que pasan CI en el primer commit.
- Tiempo de retoma por sesión < 5 minutos (leer artefacto) en vez de re-auditar todo.
Mide: % de tareas con rework, número de bugs registrados en TASK_STATE.md, tiempo desde apertura de sesión hasta reanudación efectiva.

Límites y advertencias

Esto no sustituye especificaciones claras ni revisiones humanas. Si la planifica es ambigua, la IA persistirá ambigüedades más rápido. El patrón reduce riesgos operativos, no el riesgo conceptual de malas decisiones de diseño. Además, no necesitas este overhead para fixes rápidos o scripts aislados: aplica la regla cuando el alcance y la duración lo justifiquen.

La regla del 60% es una disciplina: no es bonita, pero evita que la IA genere parches brillantes que fallan en integración. Si automatizas en serio, diseña tu flujo con RESEARCH.md, PLAN.md, TASK_STATE.md y VALIDATION_REPORT.md, obliga a commits atómicos y reinicia sesiones a tiempo. Con eso, la memoria del modelo deja de ser un talón de Aquiles y se convierte en parte auditable de tu pipeline.

Continuación práctica y recursos: Dominicode Labs

FAQ

¿Qué es la regla del 60%?

Es una regla operativa que limita el uso de la ventana de contexto: nunca permitir que una sesión consuma más del 60% sin persistir estado y limpiar la memoria.

¿Cuándo debo aplicarla?

Aplica siempre en sesiones largas con LLMs y agentes que manejan proyectos no triviales; evita su uso solo en fixes rápidos o scripts aislados.

¿Por qué importa con Claude Code?

Porque Claude Code puede leer y escribir el repositorio; fragmentar el trabajo y persistir artefactos hace el flujo práctico y repetible.

¿Cuáles son los artefactos mínimos?

/CLAUDE.md, /RESEARCH.md, /PLAN.md, /TASK_STATE.md, /VALIDATION_REPORT.md y archivos de tareas (por ejemplo /tasks/auth-migration.md).

¿Cómo se mide el éxito?

Métricas: % de tareas con rework, número de bugs registrados en TASK_STATE.md y tiempo desde apertura de sesión hasta reanudación efectiva.

¿Qué hacer si detecto que crucé el 60%?

Persistir el estado en disco, cerrar la sesión y reiniciar con el artefacto correspondiente.
April 19, 2026
Automatiza tareas avanzadas con Claude Code sin programar
Claude Code no es solo para devs: 3 cosas que puedes hacer sin escribir una línea de código

Tiempo estimado de lectura: 4 min
- Claude (modelo) permite resolver problemas técnicos sin instalar herramientas.
- Puedes orquestar flujos en n8n, transformar datos y generar documentación técnica sin escribir JS.
- La diferencia clave: la CLI modifica repos locales; el modelo responde a instrucciones conceptuales.
Introducción

Claude Code no es solo para devs: 3 cosas que puedes hacer sin escribir una línea de código. Si leíste “CLI” y cerraste la pestaña, vuelve. La herramienta CLI existe y exige terminal, Git y permisos. Pero el ecosistema Claude —el modelo razonador accesible vía web y API— te permite resolver problemas técnicos reales sin teclear una sola línea de código. Aquí explico cómo, con ejemplos y enlaces para que lo pruebes.

Resumen rápido (lectores con prisa)

Qué es: Claude Code (CLI) es una herramienta para desarrolladores; Claude como modelo es un motor de razonamiento accesible vía web y API.

Cuándo usarlo: Usa la CLI cuando necesites que un agente toque tu repo y ejecute tests; usa el modelo web/API para diseño de flujos, limpieza de datos, diagramas o specs.

Por qué importa: Si sabes describir un problema técnico con precisión, puedes extraer valor sin instalar nada.

Cómo funciona: El CLI actúa sobre repos locales; el modelo responde a instrucciones bien formuladas y genera artefactos accionables.

1) Orquestar automatizaciones avanzadas en n8n — sin tocar JS

Problema común

Un webhook llega con JSON irregular y el flujo se rompe. Solución habitual: pedir a un dev un snippet de JavaScript. Alternativa real: usar Claude.

Qué pedirle al modelo
- “Este es el payload (pega ejemplo). Necesito extraer user.id, normalizar created_at a ISO y crear un campo active (true/false) según status. Dame el fragmento listo para pegar en un Code Node de n8n.”
Qué obtendrás
- Código listo para pegar que itera arrays, maneja nulos y transforma fechas.
- Instrucciones de configuración del nodo HTTP (headers, auth).
- Un plan de manejo de errores: retry con backoff exponencial, alertas en caso de 500/429.
Por qué importa

Reduces la fricción de integración y acortas el tiempo desde idea a flujo en producción. Documentación n8n: Documentación n8n

2) Transformar datos y generar consultas SQL sin abrir una hoja de cálculo

Caso real

Recibes CSV/XML legacy y necesitas convertirlo a un esquema usable o sacar métricas complejas.

Lo que puedes pedir
- “Toma estas 50 filas (pega muestra). Genera un JSON Schema y un script de transformación (pseudocódigo) que normalice fechas, campos anidados y valores por defecto.”
- “Explícame la regex para extraer IDs que empiezan por TX- seguido de 8 dígitos.” (Ejemplo: TX-\d{8})
Qué devuelve Claude
- JSON Schema validado y reglas de transformación.
- Consultas SQL optimizadas para tu motor (Postgres, BigQuery), con JOINs, window functions y filtros temporales.
Por qué importa: eliminas horas de limpieza manual y reduces errores humanos en pipelines de datos. Si necesitas precisión, adjunta la estructura de tablas y el motor SQL para que la query sea ajustada.

3) Generar documentación técnica y diagramas antes de la implementación

Usos prácticos
- Describe el flujo de registro y pide código Mermaid.js para un diagrama de secuencia; pega el resultado en Notion o GitHub y obtén el gráfico inmediato. (Mermaid.js (diagramas))
- Describe un endpoint (inputs, outputs, errores) y pide un contrato OpenAPI/Swagger listo para revisión. (OpenAPI Spec)
- Pide un mapa de infraestructura cloud (colas, bases, funciones) con puntos de fallo y recomendaciones de mitigación.
Qué ganas

Conversaciones técnicas más cortas, menos malentendidos y decisiones con criterios concretos en lugar de intuición.

Cómo decidir: CLI o modelo web/API

Usa Claude Code (CLI) cuando quieras que un agente toque tu repo, ejecute tests o refactorice código localmente. Requiere desenvoltura con terminal y control de versiones.

Usa Claude Web/API o integraciones (p. ej. n8n) cuando necesites diseño de flujos, limpieza de datos, diagramas o specs. Necesitas claridad conceptual, no sintaxis.

La ventaja real no es escribir código: es estructurar problemas. Si puedes describir el estado actual, los invariantes y el resultado esperado, Claude lo transforma en artefactos técnicos accionables.

Dominicode Labs

Si quieres explorar integración práctica de automatizaciones y artefactos generados por IA en procesos de ingeniería, considera profundizar con recursos adicionales en Dominicode Labs. Es una continuación lógica para llevar los fragmentos y especificaciones que genera Claude hacia pruebas reproducibles y gobernanza de despliegue.

FAQ
¿Necesito instalar algo para usar Claude como modelo?

No. Claude como modelo está accesible vía web y API, por lo que puedes usarlo sin instalar la CLI ni herramientas locales.

¿Cuándo debo preferir la CLI de Claude?

Prefiérela cuando necesites que un agente modifique repositorios locales, ejecute tests o interactúe con tu entorno de desarrollo. Requiere terminal y control de versiones.

¿Puedo usar Claude para generar código listo para n8n?

Sí. Puedes pedir fragmentos listos para pegar en Code Nodes, junto con configuración HTTP y planes de manejo de errores.

¿Claude puede generar consultas SQL optimizadas?

Sí. Claude devuelve queries ajustadas por motor (Postgres, BigQuery) incluyendo JOINs, window functions y filtros temporales si proporcionas la estructura de tablas.

¿Es seguro usar el modelo para datos sensibles?

El artículo no añade recomendaciones de seguridad concretas, pero sugiere integrar artefactos en procesos de gobernanza y despliegue para que la automatización sea segura y mantenible.

¿Dónde encuentro documentación oficial de Claude y herramientas relacionadas?

Referencias citables en el artículo: Anthropic – Claude Code overview, Claude (Anthropic), n8n (automatización), Mermaid.js (diagramas) y OpenAPI Spec.
April 17, 2026
Cómo implementar Spec-Driven Development con generación de código
Spec-Driven Development y la librería sin código: lecciones prácticas para equipos que usan IA

Tiempo estimado de lectura: 4 min
- Los tests y las especificaciones pasan a ser el activo estratégico principal.
- Los agentes aceleran la prototipación, pero la última milla exige juicio humano y arquitectura.
- Modularidad y contratos claros son imprescindibles para desarrollo paralelo con agentes.
- Trátalo como diseño de comportamiento: invierte en especificaciones y suites de pruebas vivas.
Tabla de contenidos
Spec-Driven Development con IA no es una moda; es una reordenación de prioridades. Cuando los agentes pueden generar sintaxis fiable, el verdadero valor deja de estar en el archivo .js o .rs y pasa a estar en la especificación y la suite de tests. Eso no lo hace más fácil: lo hace más exigente.

Resumen rápido (lectores con prisa)

Spec-Driven Development centra el valor en especificaciones y suites de tests para permitir que agentes generen implementaciones confiables. Útil cuando las specs y tests son completos; no sustituye el juicio humano en la última milla. Diseña módulos con contratos claros y valida invariantes del sistema.

Spec-Driven Development y la librería sin código: qué es y por qué importa

El experimento es simple y brutal. Publicas en GitHub una librería sin código: un README/markdown que define el comportamiento, cientos —o miles— de pruebas de conformidad y un prompt de instalación para que un agente genere el código. Drew Brunig y otros mostraron que eso funciona para problemas acotados y deterministas: el agente lee la spec, ejecuta tests y genera código que pasa las pruebas.

Los ejemplos más ambiciosos han escalado esto: reimplementaciones de Bash en TypeScript, intérpretes de Python en Rust o intentos de compilar C usando agentes. Vercel, Anthropic y otros equipos han probado variantes de este enfoque; el patrón es claro: la implementación fluye si la especificación y la suite de tests son precisas.

Fuentes: Anthropic, Vercel.

Tres razones por las que esto cambia la arquitectura del equipo

1) Los tests son tu nuevo activo estratégico

El código generado es barato; las pruebas no. Todos los proyectos que escalaron partieron de suites de testing masivas ya existentes. Si quieres que agentes produzcan un sistema confiable, primero inviertes en definir con precisión cada comportamiento, cada caso borde y cada ambigüedad. Eso es trabajo intelectual, no texto que copia una IA.

2) La velocidad inicial es real. La última milla, no tanto.

Con suficientes agentes y presupuesto puedes alcanzar rápidamente un prototipo que pasa el 80–90% de pruebas. Pero los últimos porcentajes —casos borde, coherencia entre módulos, performance y seguridad— requieren arquitectura, diseño y juicio humano. Ahí los agentes tropiezan: arreglar un fallo local puede romper otro subsistema.

3) La modularidad ya no es sólo bonita; es imprescindible

Si vas a ejecutar múltiples agentes en paralelo, necesitas módulos con contratos claros y dependencias mínimas. Un sistema fuertemente acoplado multiplica regresiones y conflictos de merge. Diseñar para desarrollo paralelo es diseñar para agentes: interfaces estables, tests de contrato y boundaries claros.

Qué aprenden los equipos grandes (ejemplos y síntesis)
- Reutiliza suites de tests fiables cuando existan; son la fruta madura.
- Divide el problema en paquetes pequeños y bien definidos que puedan implementarse y probarse de forma independiente.
- Añade pruebas que validen propiedades transversales (invariantes del sistema), no sólo outputs unitarios. Las pruebas que capturan invariantes evitan que arreglos locales creen fallos sistémicos.
- Mantén la especificación viva: la implementación te enseñará dónde la spec era ambigua. No es un fallo; es el flujo natural: la implementación mejora la spec.
Historia y perspectiva académica no son decoración: Margaret Hamilton acuñó “software engineering” para evitar exactamente este problema —la complejidad que excede la capacidad cognitiva de una persona— y para recordarnos que el software es diseño de sistemas, no solo código (https://en.wikipedia.org/wiki/Margaret_Hamilton_(computer_scientist)).

Cómo aplicar esto en tu equipo hoy (guía práctica)
- Prioriza las pruebas de dominio antes de automatizar la generación. Invierte en casos reales y casos borde.
- Diseña el repo como una colección de contratos y tests: cada módulo debe tener su spec y su suite independiente.
- Automate CI con pruebas de contrato y pruebas de integración reducidas que se ejecuten en cada PR generado por un agente.
- Establece guardrails: linters, análisis estático y políticas de seguridad que los agentes deben respetar.
- Trátalo como arquitectura colaborativa: los PRs no solo corrigen código; corrigen intención. Revisa tests con la misma seriedad que revisarías código.
Qué no esperar (y por qué el hype falla)

No esperes que este enfoque elimine la necesidad de ingenieros senior. No lo hará. Lo que cambia es la naturaleza del trabajo senior: menos tipografía de código, más diseño de comportamiento, más política de pruebas y más pensamiento sistémico. Los agentes son amplificadores; sin criterio técnico, amplifican errores más rápido.

No esperes soluciones mágicas para sistemas no deterministas: sistemas distribuidos, UI con estados complejos, políticas de seguridad o requisitos de latencia siguen necesitando diseño humano profundo.

Conclusión

Spec-Driven Development con IA es una herramienta poderosa, pero exige una reorientación: de escribir código a diseñar comportamientos verificables. El activo que deberías proteger no es el repo, sino la suite de pruebas y los contratos que definen tu dominio. Si empiezas hoy a convertir ambigüedades en tests, estarás construyendo la infraestructura que permite a los agentes realmente escalar tu producto sin destruirlo. Haz eso y la IA deja de ser un truco y pasa a ser una línea de producción fiable.

Para equipos que exploran flujos de trabajo con agentes y automatización, puede ser útil revisar enfoques prácticos y herramientas en Dominicode Labs. Esto complementa la práctica de convertir especificaciones en suites de tests desplegables.

FAQ
Respuesta: Spec-Driven Development con IA es un enfoque donde la especificación y una suite de tests rigurosa son la fuente de verdad; agentes generan implementaciones que son validadas contra esas pruebas.

Respuesta: Es apropiado para problemas acotados y deterministas donde puedes definir comportamientos y casos borde exhaustivamente. Funciona menos bien en dominios no deterministas sin especificaciones completas.

Respuesta: No. Los agentes amplifican productividad, pero el trabajo senior evoluciona hacia diseño de comportamiento, arquitectura de pruebas y evaluación de trade-offs.

Respuesta: Las suites de tests de dominio y las pruebas que validan invariantes transversales son las más valiosas. Tests de contrato e integración automatizados evitan que soluciones locales rompan el sistema.

Respuesta: Diseña módulos con contratos estables, limita dependencias y ejecuta pruebas de contrato en CI para cada PR generado por un agente. Linters y análisis estático ayudan como guardrails.

Respuesta: Anticipa limitaciones en casos borde, performance, seguridad y sistemas no deterministas. La última milla requiere diseño humano; no es una solución automática para todos los dominios.
April 15, 2026
Cómo sincronizar especificaciones, pruebas y código en el desarrollo
El Triángulo del Desarrollo Dirigido por Especificaciones: cómo evitar gestionar un proceso de programación que superó la capacidad de manejo de un solo hombre. Ni siquiera de un equipo; de un solo hombre..

Tiempo estimado de lectura: 5 min
- Ideas clave:
- El triángulo fundamental: especificación, tests y código deben mantenerse sincronizados.
- Los agentes aceleran implementación pero introducen decisiones trazables que deben registrarse.
- Herramientas como Plum extraen decisiones de diffs y traces para actualizar la spec y generar artefactos auditable.
- Procesos claros (captura de traces, aprobación humana, sync en CI) son necesarios para evitar deuda técnica acelerada.
El triángulo es simple y brutal: especificación, tests y código. Si uno se despega, el proyecto se rompe. So welcome: este artículo explica por qué el Spec‑Driven Development dejó de ser una ecuación lineal y cómo convertir ese triángulo en una práctica gobernable cuando agentes de IA escriben código.

Resumen rápido (lectores con prisa)

Qué es: Un enfoque que trata a la especificación, la suite de tests y el código como un triángulo que debe permanecer sincronizado.

Cuándo usarlo: Cuando agentes (LLMs/automations) o equipos múltiples generan cambios rápidos y necesitas trazabilidad.

Por qué importa: Para evitar deuda técnica acelerada y pérdida de intención por decisiones no documentadas.

Cómo funciona (resumen): Captura diffs y traces, extrae decisiones, confirma con humanos y sincroniza spec↔tests↔código.

El triángulo: Spec, Tests, Código — So welcome: por qué no basta con una spec

So welcome: si piensas que subir una spec y soltar agentes en ella es todo lo que hace falta, estás confundiendo velocidad con control. La spec define qué debe pasar. Los tests validan. El código implementa y descubre cosas. Pero la implementación introduce decisiones —humanas y de IA— que permanecen en los traces. Si no capturas esas decisiones, la spec se queda atrás y el sistema deriva. Resultado: managing a coding process that grew beyond one man’s ability to manage. Not even a team, one man.

¿Por qué esto importa hoy?
- Porque los agentes aceleran la implementación.
- Porque la implementación revela ambigüedades que la spec no anticipó.
- Porque los hotfixes y cambios urgentes suelen entrar directo al código y no a la spec.
Si no sincronizas, la velocidad se vuelve deuda técnica exponencial.

Señales que te indican que el triángulo está roto
- Commits frecuentes sin cambios en la spec.
- Pull requests que corrigen tests porque la spec no reflejaba decisiones recientes.
- Conversaciones largas con el agente donde se tomaron decisiones y nadie las documentó.
- Cobertura de tests alta en líneas, baja en intención (las pruebas no cubren los requisitos del producto).
Estas señales son tangibles. Úsalas. Git te cuenta qué cambió. Los traces de los agentes (chats, prompts, respuestas) contienen las decisiones. Los tests te dicen qué se ejecuta. Cruza esas fuentes y tendrás diagnóstico.

Plum — la plomada que mide la verticalidad del triángulo

No es teoría: existen herramientas prácticas. Plum (sí, como plomada) busca las decisiones en los diffs y en los traces y las convierte en artefactos verificables. Flujo resumido:

Plum: Flujo resumido
1. Ejecutas commit.
2. Plum lee los diffs y analiza los traces del agente.
3. Extrae decisiones, las dedupea y te pide aprobación.
4. Actualiza la spec (Markdown) según lo aprobado.
5. Ejecuta sync y te muestra brechas spec↔tests↔código.
Genera además un archivo .jsonl con el historial de decisiones: pregunta, decisión, autor (humano/LLM), rama, timestamps. Eso pasa de “intención perdida en Slack” a “artefacto auditable en el repo”.

Plum: Instalación mínima

Instalación mínima: pip install plum-dev. (Limitación actual: integrado con pytest; funciona mejor cuando la spec está por delante del código.)

Prácticas para mantener el triángulo en sincronía
- Escribe la spec como un contrato de comportamiento, no como un manifiesto aspiracional. Casos de borde incluidos.
- Prioriza la suite de tests como activo estratégico: invierte en pruebas que describan la intención, no solo en asserts unitarios.
- Trata los traces de agente como código: captúralos, régistralos y asócialos a commits.
- En cada PR generado por agente: exige la checklist de decisiones aprobadas y la actualización del spec.
- Añade pruebas de invariantes sistémicas (property tests) que detecten regresiones causadas por cambios locales.
- Diseña módulos con contratos estables para permitir paralelismo de agentes sin colisiones.
Qué no esperar de los agentes (y por qué necesitas humanos
- No esperes que un LLM mantenga la visión de producto a largo plazo. Puede sugerir cambios documentales, pero la validación de negocio es humana.
- No esperes que arreglen deuda técnica sistémica solos. Pueden parchar, pero no rediseñar la arquitectura sin dirección.
- No esperes que la spec se actualice mágicamente: necesita decisiones aprobadas y trazables.
Checklist rápido para equipos que van a integrar agentes
1. Tener specs en Markdown rastreables en repo.
2. Tener suite de tests ejecutable en CI (pytest u otro).
3. Integrar captura de traces de agentes (logs/JSON).
4. Añadir herramienta de reconciliación (ej. Plum) en el pipeline local/CI.
5. Forzar aprobación humana de decisiones extraídas antes de merge.
6. Ejecutar sync spec↔tests↔código en cada PR.
Cierre (acción clara)

Si tu equipo ya usa agentes y no tiene un proceso de reconciliación entre spec, tests y código, estás acelerando la creación de un legado ilegible. Haz esto hoy: instala plum‑dev, apunta la herramienta a tu spec y a tus tests, y corre plum sync en tu CI. Si no puedes hacerlo aún, al menos comienza a registrar las decisiones en cada PR. No es glamour. Es gobernanza. Y sin eso, la velocidad que prometen los agentes solo te dará más problemas.

Haz clic aquí para empezar: pip install plum-dev y corre plum init en un repo con spec y pytest.

Para equipos que integran agentes y workflows de automatización, una continuación natural es explorar recursos y prácticas en Dominicode Labs, donde se agrupan experimentos y herramientas relacionadas con reconciliación de specs, capture de traces y pipelines de pruebas.

FAQ
¿Qué es el “triángulo” en Spec‑Driven Development?

Es la idea de que especificación, tests y código forman un conjunto interdependiente. Si cualquiera de los tres se desincroniza, el proyecto corre riesgo de perder intención y acumular deuda técnica.

¿Por qué los agentes rompen la sincronía entre spec, tests y código?

Porque aceleran la implementación y toman decisiones durante el desarrollo (en prompts, chats, respuestas) que a menudo no quedan reflejadas en la spec ni en los tests, creando discrepancias trazables en diffs y commits.

¿Qué hace Plum exactamente?

Plum analiza diffs y traces de agentes, extrae decisiones, las dedupea, solicita aprobación y actualiza la spec en Markdown. También genera un archivo .jsonl con el historial de decisiones para auditoría.

¿Cómo debo tratar los traces de agentes?

Captúralos y regístralos como artefactos vinculados a commits; trátalos como código: deben estar versionados, asociados a PRs y revisados por humanos para extraer decisiones verificables.

¿Qué requisitos mínimos necesito para integrar este flujo?

Specs en Markdown rastreables, suite de tests ejecutable en CI (por ejemplo pytest), captura de traces (logs/JSON) e integración de una herramienta de reconciliación en el pipeline.

¿Quién debe aprobar las decisiones extraídas por herramientas automatizadas?

Siempre un humano con responsabilidad de producto o arquitectura. Las herramientas extraen y proponen; la validación de negocio y la aprobación final deben ser humanas.
April 15, 2026
Cómo construir un SaaS con IA resiliente y escalable
¿Quieres un SaaS con IA que sobreviva seis meses en producción o solo un demo viral de 48 horas?

Tiempo estimado de lectura: 5 min
- Ideas clave:
- La diferencia entre un demo viral y un SaaS real no es la idea ni el modelo, sino la arquitectura.
- Diseña asumiendo que la IA falla: latencia, rate limits y respuestas inconsistentes son inevitables.
- Separación clara de responsabilidades (frontend, backend, orquestador, workers, persistencia) y asincronía por defecto salvan proyectos.
- Contratos estrictos (JSON + validación) y observabilidad desde el inicio son imprescindibles para producción.
¿Quieres un SaaS con IA que sobreviva seis meses en producción o solo un demo viral de 48 horas?

La diferencia no es la idea ni el modelo que uses. Es la arquitectura. Y sí: la IA te hace sentir productivo en minutos. También te hace pagar por la reescritura en semanas.

Voy al grano. Si tu apuesta es “poner un prompt en un endpoint y ver qué pasa”, estás construyendo un wrapper, no un producto. Un wrapper se rompe cuando el proveedor cambia precios, cuando la latencia sube o cuando un caso borde que nunca imaginaste llega a producción. Un SaaS real convierte la IA en un componente confiable dentro de un sistema diseñado para fallar sin morir.

Aquí tienes un plan práctico y sin postureo para construir un SaaS real con IA sin improvisar.

Resumen rápido (lectores con prisa)

Qué es: Buenas prácticas de arquitectura para convertir modelos de IA en componentes fiables dentro de un SaaS.

Cuándo usarlo: Desde el MVP que pretende escalar hasta productos en producción con múltiples tenants y requisitos de coste y seguridad.

Por qué importa: Evita que un prototipo se convierta en deuda técnica cara y en incidentes de producción.

Cómo funciona, en pocas palabras: Separación de responsabilidades, asincronía por defecto, contratos estrictos (JSON + validación), observabilidad y pruebas que incluyan fallos de IA.

Primera regla: asume que la IA falla… constantemente

No es pesimismo. Es ingeniería. Latencia, rate limits, respuestas inconsistentes, cambios en la API: todo será parte de la vida diaria. Diseña para eso.

Qué separar desde el minuto uno

No mezcles interfaz, orquestación y persistencia. Divide responsabilidades claras:
- Frontend: experiencia, manejo de latencia, feedback al usuario.
- Backend de negocio: validaciones, reglas, monetización, seguridad.
- Orquestador de IA: flujos, reintentos, parsing y almacenamiento de resultados.
- Workers: procesamiento asíncrono, reintentos idempotentes.
- Persistence: PostgreSQL (con pgvector), logs, metadatos.
Si todo está en el mismo contenedor, el sistema se romperá bonito y rápido.

Patrón que salva proyectos: asincronía por defecto

Olvida la llamada síncrona “cliente→server→LLM→cliente”. Es la receta del timeout.
- Client envía tarea → server registra job (estado: pending) → responde 202.
- Worker (o n8n) toma job, hace llamadas a LLMs, actualiza estado.
- Notifica por WebSocket/SSE o el cliente hace polling leve.
Resultado: interfaz reactiva, control de reintentos y mejor experiencia cuando la IA tarda.

Orquestación: usa n8n, no code spaghetti

Sí, puedes encadenar prompts en código. También puedes terminar con funciones de mil líneas. Usa un orquestador (n8n o equivalente) para:
- Encadenar pasos (call LLM → transformación → persistencia).
- Ejecutar retries con backoff.
- Manejar errores y circuit breakers visualmente.
- Mantener logs de cada ejecución.
El día que la API de IA se ponga inestable, agradecerás no tener que rastrear todo en un repo lleno de lambdas.

Contratos > Prompts

No pidas “texto bonito”. Pide JSON estricto. No hay excusas.
- Define interfaces TypeScript o OpenAPI.
- Obliga a la IA a devolver un objeto con esquema verificado.
- Usa Zod o codegen para validar la respuesta y fallar rápido si hay desviaciones.
Esto convierte a la IA en un microservicio con contrato, no en una caja negra caprichosa.

RAG = potencia + responsabilidad

Si vas a permitir que usuarios suban documentos para chatear con ellos, aplica aislamiento absoluto:
- Cada vector con tenant_id.
- Filtrado por tenant_id a nivel de consulta (antes de enviar contexto al LLM).
- Escapa la tentación de “mezclar para mejores embeddings”. Eso rompe privacidad y compliance.
Si trabajas con datos sensibles, aíslalo, audítalo y documenta quién lo puede ver.

Costos y medición: que no te coja desprevenido

Un SaaS con IA vive o muere por el coste por petición.
- Metering por job: tokens consumidos, llamadas a terceros, tiempo de ejecución.
- Alerts por coste semanal y por job atípico.
- Fallbacks: versiones más baratas del modelo para tareas no críticas.
- Caching inteligente: respuestas deterministas pueden cachearse.
No hay nada más caro que ejecutar un modelo grande para una operación que podía resolverse con reglas.

Idempotencia y seguridad en flujos asíncronos

Reintentos inevitables → diseñalos bien:
- Usa IDs de correlación.
- Diseña workers idempotentes: reintentar no debe duplicar registros ni cobrar dos veces.
- Aplica locks por job cuando haga falta.
Observabilidad: telemetría desde el minuto cero

Si no puedes medir, no puedes mejorar. Instrumenta todo:
- Traces distribuidos (OpenTelemetry).
- Métricas por endpoint, por modelo y por tenant.
- Logs estructurados con contexto de job.
- Dashboards y alertas (latencia, error rates, coste por tenant).
Tests y contratos automáticos

Haz que cada contrato tenga tests que fallen en CI si la IA devuelve algo fuera de esquema.
- Mockea respuestas de LLM (positivas y negativas).
- Tests de integración que simulen timeouts y retries.
- Tests de seguridad: inyección de prompt, accesos cruzados entre tenants.
Checklist MVP vs. Producción

MVP mínimo viable (rápido, medible):
- Job queue + worker básico.
- Interfaces TypeScript + validación Zod.
- Persistencia en PostgreSQL + pgvector.
- Orquestación simple (n8n optional).
- Métricas básicas y alertas de coste.
Preparación para producción:
- Observabilidad completa (traces, metrics, logs).
- Políticas de multi-tenancy estrictas.
- Circuit breakers, retries con backoff y dead-letter queues.
- Billing y metering por tokens/calls.
- Testing de resiliencia y chaos experiments.
Plantilla rápida de SPEC.md que debes tener ya

Pon esto en la raíz del repo. Si no lo haces ahora, lo pagarás después.
- Objetivo del módulo (1 frase).
- Stack aprobado y versiones.
- Reglas innegociables (ej.: “No exponer secretos en frontend”, “Todo job idempotente”).
- Contratos principales: Endpoints + interfaces TS.
- Criterios de aceptación (tests que deben pasar).
- Responsable técnico y proceso de cambios.
Prompt maestro que funciona (ejemplo)

Contexto + restricciones + output estricto:

<contexto_negocio>Resumen en 3 frases</contexto_negocio>
<stack>Next.js, Node 20, Postgres + pgvector</stack>
<restricciones>No usar microservicios, respuesta JSON valida Zod</restricciones>
<output_esperado>JSON { result: string, score: number, metadata: { sourceId: string } }</output_esperado>

No es glamour. Es ingeniería que evita tickets nocturnos.

El nuevo rol del equipo: menos héroes, más guardias

Con IA el que más aporta no es el que teclea más rápido. Es el que fija límites, define contratos y establece el ritmo de iteración. El senior deja de ser “code god” para ser “arquitecto de fronteras”. Eso es lo que realmente escala.

CTA corto y útil

Si quieres, te doy ahora:
- Una SPEC.md lista para pegar en tu repo.
- Un prompt maestro para Claude + ejemplos de Zod.
- Un .n8n workflow básico para encadenar llamadas a modelos con retries.
Respóndeme con “Plantilla SaaS” y te lo envío. Hazlo ahora: crea el SPEC.md en la raíz antes del próximo commit generado por IA.

Dominicode Labs

Si quieres continuidad práctica y recursos relacionados con orquestación, workflows y automatización para productos de IA, visita Dominicode Labs. Es una continuación lógica para poner en práctica los enfoques descritos en este artículo.

FAQ
¿Por qué no debería hacer llamadas síncronas al LLM desde el cliente?

Porque los timeouts, latencias y rate limits hacen que la experiencia sea impredecible. La arquitectura asíncrona (jobs + workers) permite reintentos, control de costes y una interfaz más robusta.

¿Qué es un orquestador y por qué usar n8n?

Un orquestador encadena pasos: llamadas a LLM, transformaciones, persistencia y retries. n8n ofrece visualización de flujos, gestión de errores y menos código espagueti en repositorios complejos.

¿Cómo obligo a la IA a devolver JSON válido?

Define un contrato (TypeScript/OpenAPI) y valida con Zod u otro validador. Rechaza respuestas que no cumplan el esquema y trata esos casos en tus retries o dead-letter queues.

¿Qué medidas tomar para multi-tenancy en RAG?

Aislamiento absoluto: cada vector con tenant_id, filtrado por tenant_id antes de consultas y auditoría de accesos. No mezclar datos entre tenants.

¿Qué métricas debo medir desde el primer día?

Tokens consumidos por job, latencia por endpoint, error rate por modelo y coste por tenant. También traces distribuidos y logs estructurados por job.

¿Qué debe incluir mi SPEC.md mínimo?

Objetivo del módulo, stack y versiones, reglas innegociables, contratos principales (endpoints + interfaces TS), criterios de aceptación y responsable técnico.
April 13, 2026
Cómo gestionar la gobernanza de IA para evitar la deuda técnica
¿Te vas a mirar el correo mientras la IA reescribe tu código… y luego vuelves a casa de locos?

Tiempo estimado de lectura: 6 min
- La delegación ciega a agentes que ejecutan cambios produce deuda técnica documentada fuera del repo.
- La solución práctica es gobernar decisiones: exigir artefactos versionables con autoría y timestamp.
- Plum: herramienta que intercepta commits, extrae decisiones y fuerza aprobaciones antes del commit.
Tabla de contenidos
Poca gente lo dice en voz alta: dejar que un agente “lo corra y volvemos” es exactamente la forma más rápida de cavar una trampa de deuda técnica. Sales cinco minutos. Vuelves y el LLM te dejó un “decision” que grita: eso es una locura. No lo hagas.

Esto no es un problema de postureo. Es práctico. Es urgente.

Resumen rápido (lectores con prisa)

Un agente que ejecuta cambios sin gobernanza introduce decisiones sin autoría en el repo. Necesitas un mecanismo externo que intercepte commits, extraiga decisiones y requiera aprobación, convirtiéndolas en artefactos versionables y auditable—eso reduce deuda técnica y mejora trazabilidad.

1) Lo que pasa cuando “lo dejamos correr”

Un agente se queda ejecutando tareas. Encuentra ambigüedades. Encuentra dependencias rotas. Para avanzar, toma atajos. Guarda esos atajos en su chat. Tú haces commit y pum: el código llega a la rama, los tests pasan y la intención se evapora.

Resultado: hacks documentados en conversaciones privadas, no en el repo. Atajos que nadie planeó. Deuda técnica que aparece al lado del despliegue.

2) Por qué esto es peor que un bug cualquiera

Un bug puedes rastrearlo. Una decisión sin autoría es un agujero negro. Nadie recuerda por qué cambó la fórmula de impuestos a las 3 AM. Nadie puede auditar la razón. Y cuando el problema explota en producción, el “blame” no sirve: no hay decisión firmada, solo un commit huérfano y un chat que nadie va a revisar.

3) La solución no es prohibir la IA. Es gobernarla.

No más fe ciega. No más prompts que funcionan en beta pero rompen en prod. Necesitamos que cada decisión que importe deje rastro formal. Que sea un artefacto. Que sea buscable. Que tenga autoría y timestamp. Que puedas preguntar: “¿por qué esto existe?” y obtener una respuesta concreta.

4) Plum: la plomada que obliga a decidir en serio

Imagina una herramienta que corre al lado de Git y te fuerza a responder. No genera código por ti. No es una skill adentro del LLM. Es un checkpoint.

Básicos del flujo
- plum init → crea .plum y .plumignore, añade hooks.
- Cambias código con un agente.
- Intentas git commit. Plum compara diffs y scans de traces.
- Si hay decisiones, el commit falla hasta que apruebes, edites o rechaces.
- Si apruebas, plum actualiza la spec (Markdown) y agrega una entrada .jsonl con: pregunta, decisión, autor, branch y timestamps.
¿La ventaja? Cuando vuelvas del mail, no te encuentras sorpresas sin contexto. Te encuentras una decisión con nombre y apellido.

5) No puede ser una “skill” del agente —y punto

Una skill dentro del LLM es una sugerencia. Las sugerencias se ignoran. La gobernanza debe estar fuera. Tiene que poder bloquear commits, integrarse en CI y ser determinista. Si es opcional, no sirve.

6) ¿Qué hay dentro del .jsonl y por qué importa?

Ese archivo no es solo logs. Es la historia de la intención del proyecto. Cada entrada contiene:
- El dilema técnico.
- La decisión tomada.
- Quién aprobó.
- Si fue propuesto por el LLM o por un humano.
- Vínculo a la diff/PR.
- Marcas de tiempo.
Eso convierte la intención en dato: indexable, auditable, útil para auditorías y forensics.

7) Problemas reales —sin romanticismos
- Deduping de decisiones es fuzzy. Detectar “la misma decisión” entre conversaciones distintas no es trivial. Requiere heurísticas y ajuste repo-específico.
- Rollbacks automáticos: si rechazas la decisión, idealmente el sistema revierte el cambio o pide al agente rehacerlo. Hoy eso es work-in-progress.
- Ruido: si cada hotfix dispara cinco decisiones, la herramienta es odiada. Necesitas umbrales configurables.
- Specs crecen como malas hierbas. Hay que shardearlas en requerimientos atómicos, y sí: un LLM puede ayudar a fragmentarlas, pero diseña el flujo.
8) Umbrales: sensibilidad y contexto

La clave práctica es permitir tolerancias dinámicas:
- Modo strict: todo pasa por aprobación (fintech, salud).
- Modo sane: decisiones no críticas se agrupan y se presentan en lote.
- Modo fast-lane: “dangerously approve all” para prototipos.
- Filtros por carpeta: core = strict; ui-experiments = lenient.
Hazlo configurable por módulo y por rama. No es capricho: es supervivencia.

9) Integración con DSPy y el determinismo

Cuando puedas validar con código, hazlo. Usa parsers, tests y reglas. Donde necesites LLMs (p.ej. parse semántico del spec), estructura las llamadas con DSPy: inputs y outputs tipados. Menos alucinaciones, más predictibilidad. Enrutamiento por velocidad: dedupe puede ir a modelos OSS rápidos; parsing pesado a modelos más potentes.

10) ¿Qué debería cambiar en GitHub?

Markdown no es solo texto. Debe ser ciudadano de primera clase. Tu spec tiene que ser operable, con vínculos directos a decisiones, código y tests. Visualizar esa malla en GitHub (decisiones ↔ requisitos ↔ tests ↔ diffs) debería ser trivial. Imagina abrir un diff de markdown y ver “este requisito cambia X líneas de código” con enlaces directos. Eso es la próxima generación de repositorios.

11) Cultura y proceso: lo que no puedes automatizar

No automatices la cultura. Exige que cada PR responda:
- ¿Qué decisión justificó este cambio?
- ¿Qué requirement se actualiza?
- ¿Qué test cubre el cambio?
Haz que la herramienta extraiga esos metadatos y los convierta en entradas .jsonl. Convierte la disciplina en hábito.

12) Checklist mínimo para empezar hoy (15–30 minutos)
1. Versiona tu spec en Markdown en la raíz del repo.
2. Asegura tests automatizados (si eres Python, Pytest; si no, prepara adapter).
3. pip install plum-dev
4. plum init → apunta specs.md y carpeta de tests.
5. Añade .plumignore (README, docs, assets).
6. Configura umbrales: prod = strict; feature branches = lenient.
7. Prueba: haz un cambio via agente, intenta commit, observa el fail y aprueba la decisión.
8. Ejecuta plum sync -> revisa gaps spec↔tests↔code.
13) Si no lo haces: la factura llegará

Velocidad hoy = caos mañana. Cuando explote algo crítico a las 2 AM, nadie sabrá por qué la regla cambió. El time-to-fix se multiplicará. La deuda técnica se vuelve refractorable, y cada refactor cuesta más que el ahorro inicial de haber delegado.

14) Beneficios reales (sí, más allá del miedo)
- Auditoría real para compliance.
- Onboarding más rápido: nuevos devs leen el árbol de decisiones.
- Menos debates eternos en PRs: la intención está documentada.
- Productividad con control: velocidad sin descontrol.
15) Cierre y acción concreta

No es sexy. Es necesario. Instala la plomada. Prueba en una rama. No por postureo: por supervivencia técnica.

Quiero ayudarte a empezar ya. ¿Quieres que te mande:
- el template de .jsonl listo para copiar,
- el flujo de PR + configuración de CI que bloquea merges hasta sync exitoso,
- y un checklist de integración de Plum en 15 minutos?
Respóndeme “Mándame el template” y te lo doy ahora mismo.
Y mientras lo instalas, recuerda esto: velocidad sin plomada es solo una forma elegante de cavar tu propia trampa.

Esto no acaba aquí.

Si quieres profundizar en prácticas de gobernanza y automatización que encajan con este enfoque, revisa Dominicode Labs para recursos y experimentos relacionados.

FAQ
¿Qué hace exactamente Plum cuando detecta una decisión?

Intercepta el commit, extrae decisiones desde los traces del agente y falla el commit hasta que alguien apruebe, edite o rechace la decisión.

¿Plum bloquea commits automáticamente?

Sí: si detecta decisiones relevantes, el commit falla hasta que se resuelva la aprobación o edición de esa decisión.

¿Cómo se almacena la autoría y los timestamps?

Se agregan entradas .jsonl con campos como pregunta, decisión, autor, branch y timestamps; además la spec en Markdown se actualiza para reflejar la decisión.

¿Cómo evito que la herramienta genere ruido?

Configura umbrales y filtros por carpeta, agrupa decisiones no críticas en lotes y ajusta sensibilidad por rama o módulo.

¿Se puede integrar Plum en CI/CD?

Sí. La gobernanza debe integrarse en CI para ser efectiva; Plum puede bloquear merges hasta que el sync y las aprobaciones sean exitosas.

¿Qué contiene una entrada .jsonl?

Cada entrada incluye el dilema técnico, la decisión, quién aprobó, si fue propuesto por LLM o humano, vínculo a la diff/PR y marcas de tiempo.

¿Qué pasa si rechazo una decisión detectada?

Idealmente el sistema revierte el cambio o solicita al agente rehacerlo; hoy ese comportamiento es work-in-progress y depende de la configuración del repositorio.

¿Cómo empezar en 15 minutos?

Versiona la spec en Markdown, asegura tests automatizados, instala plum-dev, ejecuta plum init, configura .plumignore y umbrales, y prueba el flujo con un cambio vía agente.
April 12, 2026