Tag: Skills

Implementación de Agent Skills para proyectos Angular
Hacer post sobre los Agent Skills de angular: guía práctica para arquitectos y equipos

Tiempo estimado de lectura: 3 min
- Agent Skills son capacidades automatizadas para leer, analizar y proponer cambios en código Angular respetando arquitectura y límites.
- Prioridad ahora: Standalone Components, Signals, inject() y Zoneless requieren que la IA entienda contexto antes de tocar código.
- Flujo operativo: discovery read‑only → auditorías estáticas → propuestas mecánicas en rama con PR y revisión humana.
- Governance: integrar skills en CI, playbooks y dashboards para trazabilidad y control de riesgos.
Hacer post sobre los Agent Skills de angular no es levantar hype ni repetir buzzwords; es ordenar una pieza crítica del puzzle: cómo convertimos agentes de IA en revisores técnicos y refactorizadores seguros para proyectos Angular. Si tu equipo opera con monorepos, Signals y rutas lazy, necesitas que la IA entienda topología, prácticas y riesgo antes de tocar una línea de código.

Resumen rápido (lectores con prisa)

Agent Skills son capacidades programáticas para que un agente automatizado lea, analice y proponga cambios en un repo Angular respetando arquitectura. Úsalos para discovery read‑only, auditorías estáticas y para generar propuestas en ramas con revisión humana. Integrar skills en CI y playbooks es clave para trazabilidad y control de riesgo.

Qué son los Agent Skills de Angular (y por qué importan)

Los Agent Skills son capacidades programáticas que permiten a un agente automatizado leer, analizar y —con límites— transformar código Angular respetando la arquitectura del proyecto. No hablamos de completados contextuales: hablamos de habilidades concretas para mapear workspaces, auditar patrones reactivos, detectar fugas de memoria y proponer refactorizaciones alineadas con la versión del framework.

Por qué ahora

Angular cambió. Standalone Components, Signals, inject() y la tendencia Zoneless hacen que un snippet bien formado pueda ser, en contexto, una regresión. El objetivo de los Agent Skills es cerrar la brecha entre lo que el modelo “sabe” y lo que el repo “es”.

Categorías de Agent Skills (práctico y accionable)

1) Descubrimiento y topología (Read‑Only)

Mapeo de workspace

Mapeo de workspace: lee angular.json / project.json y detecta apps, librerías y fronteras de dominio. Referencia: Nx.

Árbol de dependencias

Árbol de dependencias: construye el grafo de importaciones para detectar fronteras violadas o riesgos de dependencia circular.

Regla de oro: siempre en modo solo lectura. Ejecutar antes de cualquier propuesta.

2) Auditoría y análisis estático (reportes)

Detección de fugas

Detección de fugas: localizar suscripciones sin cleanup (ngOnDestroy, takeUntilDestroyed()), event listeners no removidos o timers persistentes.

Change detection check

Change detection check: validar OnPush vs mutaciones por referencia que rompen el rendering.

Compatibilidad Zoneless

Compatibilidad Zoneless: identificar patrones que dependen de la detección implícita de zone.js. Referencia: zone.js.

Resultado: un informe accionable con líneas de riesgo, prioridad y referencia documental.

3) Modernización y refactorización (propuestas con revisión humana)

Migración a Standalone

Migración a Standalone: extraer un componente de un NgModule, aplicar standalone: true y actualizar rutas lazy.

Refactor inject()

Refactor inject(): reemplazar inyección por constructor cuando el patrón lo permita.

RxJS → Signals

RxJS → Signals: transformar estados locales sincronizados (BehaviorSubject) a signal()/computed() cuando no haya flujos asíncronos complejos.

Nota: estas operaciones deben proponerse en PRs, nunca aplicarse directamente en main sin revisión.

Ejemplo de flujo mínimo (adoptable hoy)
1. PR abierto → webhook dispara workflow.
2. Ejecutar skills Read‑Only: mapea workspace + análisis de dependencias.
3. Ejecutar auditorías: fugas, OnPush, Zoneless. Adjuntar report con URLs de documentación (angular.dev).
4. Si todo OK, ejecutar propuestas mecánicas (migración Standalone o inject()) en una rama de trabajo y abrir PR automático con checklist y pruebas.
Este flujo es orquestable con n8n o runners CI que disparen agentes y persistan resultados para trazabilidad.

Criterio técnico (lo que no debes automatizar sin control)
- No otorgues permisos de escritura globales hasta que el agente haya corrido los skills de descubrimiento y get_best_practices.
- Tratar la migración Zoneless como diagnóstico, no como parche automático: los efectos secundarios en tiempo de ejecución y librerías externas pueden romper producción.
- No convertir RxJS → Signals de forma indiscriminada; define reglas: solo estado local sincronizable y sin operadores complejos.
- Exige trazabilidad: cada recomendación viene con fragmento de doc y URL a la sección relevante de angular.dev.
Integración con gobernanza y equipos

Los Agent Skills dejan de ser experimentales cuando se integran en:
- Pipelines de CI que registran outputs de los inspectores junto al PR.
- Playbooks de revisión que establecen qué skills pueden autocorregir en ramas de feature y cuáles requieren aprobación de un Senior.
- Dashboards de deuda técnica que priorizan hallazgos del agente (fugas, violaciones de fronteras, patrones Zoneless).
Qué ganas — y cuánto riesgo evitas

Implementar Agent Skills bien definidos reduce regresiones arquitectónicas, acelera migraciones repetitivas y convierte a la IA en un revisor que aporta contexto (no solo snippets). El retorno real es tiempo de arquitecto liberado para decisiones complejas y menos deuda introducida por cambios automáticos mal contextualizados.

Cierre práctico
1. Añadir un skill de mapeo de workspace en tu pipeline.
2. Automatizar la auditoría de fugas por cada PR.
3. Pilotar migraciones Standalone en ramas feature con revisión humana.
Con eso pones la IA a trabajar para tu arquitectura, no contra ella.

Si quieres integrar estos workflows en tus pipelines y experimentos, considera explorar recursos y experiments en Dominicode Labs. Es una continuación natural para llevar skills de inspección y orquestación a pipelines con trazabilidad y playbooks.

FAQ
¿Qué son exactamente los Agent Skills en Angular?

Son capacidades programáticas que permiten a un agente automatizado leer, analizar y, con límites, transformar código Angular respetando la arquitectura del proyecto. Incluyen discovery, auditoría estática y generación de propuestas para revisión humana.

¿Cuándo debo ejecutar los skills en un PR?

El flujo recomendado es: al abrir un PR, disparar skills Read‑Only (mapeo de workspace y análisis de dependencias) y luego las auditorías (fugas, OnPush, Zoneless). Solo después de pasar estos pasos se generan propuestas mecánicas en una rama separada.

¿Puede el agente aplicar cambios directamente en main?

No. Las operaciones de modificación deben proponerse en PRs y revisarse. No otorgues permisos de escritura globales hasta validar discovery y mejores prácticas. Las transformaciones automatizadas requieren trazabilidad y aprobación.

¿Cómo integro los reports en CI?

Orquesta el flujo con webhooks o runners CI: al abrir PR disparas agentes que persisten los resultados junto al PR. Puedes usar herramientas como n8n para orquestación y almacenar informes para dashboards de deuda técnica.

¿Qué precauciones con Zoneless?

Trata la migración Zoneless como diagnóstico, no como parche automático. Identifica patrones que dependen de zone.js y evalúa efectos secundarios en tiempo de ejecución y librerías externas antes de proponer cambios.

¿Cómo asegurar trazabilidad de recomendaciones?

Cada recomendación debe incluir fragmentos de doc y un enlace a la sección relevante de angular.dev, junto con el contexto del repo (archivo, línea, grafo de dependencias) y el historial del agente que generó la sugerencia.
April 25, 2026
Cómo implementar evaluaciones automatizadas para agentes de IA
Testing Your AI Agent Skills

Testing Your AI Agent Skills debe ser el primer paso después de escribir un SKILL.md. Si no tienes una suite de evals automatizados, lo que hoy llamas “skill” es un prototipo frágil: funciona en local tres veces y falla en producción cuando más importa. Aquí explico cómo pasar de sensaciones a ingeniería sólida, con ejemplos prácticos, métricas y scripts que puedes integrar hoy mismo.

Tiempo estimado de lectura: 4 min
- Automatiza evals: una skill sin evaluación automatizada es frágil; integra graders deterministas y repite trials.
- Métricas claras: mide capacidad (pass@k), fiabilidad (pass^k) y correctitud (grader determinista con exit codes).
- Aislamiento: usa Docker para cada trial y destruye el entorno tras la verificación.
- Repetición: ejecuta >=5 trials para estimar estabilidad; optimiza para pass^k alto antes de producción.
Tabla de contenidos
Testing Your AI Agent Skills: por qué importa y qué mide un eval

Una Skill no es un prompt bonito: es documentación ejecutable que un agente usa para actuar. Cambiar una instrucción, reordenar pasos o quitar una verificación puede romper el comportamiento sin avisos. Los LLMs son no deterministas; una ejecución exitosa no prueba nada. Los evals automatizados solucionan eso midiendo tres cosas:
- Capacidad (pass@k): ¿puede el agente resolver la tarea al menos una vez en k intentos?
- Fiabilidad (pass^k): ¿la resuelve todas las veces en k intentos?
- Correctitud (grader determinista): ¿el resultado cumple la condición objetiva (compila, lint pasa, tabla creada)?
Un ejemplo realista de comando que debes poder ejecutar en CI:
```
GEMINI_API_KEY=your-key npm run eval superlint -- --provider=docker --trials=5
```
Eso encapsula aislamiento (Docker), repetición estadística (trials) y la unidad de test (la skill superlint).

Repositorio de referencia: https://github.com/mgechev/skill-eval

Arquitectura mínima de un eval efectivo

Cada tarea debe ser autocontenida y reproducible. Estructura sugerida:
```
tasks/my_task/
├── task.toml           # timeouts, recursos, límites
├── instruction.md      # el prompt único para el agente
├── environment/Dockerfile
├── tests/test.sh       # grader determinista (shell)
├── prompts/quality.md  # grader de rúbrica (opcional)
├── solution/solve.sh   # referencia
└── skills/my_skill/
    └── SKILL.md
```
Principios clave:
- El agente recibe solo instruction.md como prompt primario. Las skills viven en rutas de descubrimiento estándar (.agents/skills/ o .claude/skills/).
- Los graders deterministas deben ser código: scripts que ejecutan eslint, npm test o consultas SQL y devuelven PASS/FAIL.
- Usa Docker para aislar cada trial y destruir el contenedor tras la verificación. Documentación Docker: https://www.docker.com/
Ejemplo práctico: verificador determinista para superlint

Si la tarea es “arreglar errores de lint”, el grader no puede ser subjetivo. Un ejemplo de tests/test.sh:
```
#!/usr/bin/env bash
set -e
# Ejecuta eslint en la ruta de trabajo
npx eslint main.js --max-warnings=0
if [ $? -eq 0 ]; then
  echo "PASS"
  exit 0
else
  echo "FAIL"
  exit 1
fi
```
No preguntes al LLM “¿lo hiciste bien?”. Ejecuta eslint (https://eslint.org) y deja que el exit code decida.

Repetición y métricas: por qué 5 trials no es arbitrario

Los LLMs introducen variabilidad. Ejecutar 5 trials te da una muestra mínima para estimar estabilidad. Interpretación práctica:
- pass@5 = 100% y pass^5 = 100% → listo para producción.
- pass@5 = 100% y pass^5 = 30% → el agente puede hacerlo, pero es flaky; no desplegar.
- pass@5 < 80% → la skill necesita rediseño (más contexto, scripts deterministas, aclaraciones en SKILL.md).
Para workflows críticos (migraciones, despliegues), fija umbral >= 90% pass^k.

Integración CI: Quality Gate para Skills

Añade un job que corra los evals en cada PR que toque skills/ o tasks/:
```
name: Skill Eval
on:
  pull_request:
    paths: ['skills/**', 'tasks/**']

jobs:
  eval:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - uses: actions/setup-node@v4
      - run: npm ci
      - run: GEMINI_API_KEY=${{ secrets.GEMINI_API_KEY }} npm run eval my_task -- --trials=5 --provider=docker
```
Si la tasa de éxito cae por debajo del umbral, el PR queda bloqueado con el output del eval (trials individuales, logs, grader output). Esa transparencia es crítica para debugging rápido.

Diagnóstico accionable cuando fallan trials

Un buen eval no solo marca FAIL; explica por qué. Ejemplo de salida útil:
```
Trial 1: FAIL - Agent ran 'eslist --lint' (typo)  
Trial 2: PASS  
Trial 3: FAIL - Agent modified src/utils.js instead of src/main.js  
Trial 4: PASS  
Trial 5: PASS
```
Con esa trazabilidad ajustas SKILL.md o scripts (p. ej., forzar paths absolutos, añadir checks previos, mejorar error handling en scripts).

Recomendaciones finales y checklist rápido
- Mantén SKILL.md corto y prescriptivo; externaliza lo frágil a scripts/.
- Usa Docker para todos los evals que toquen filesystem o red.
- Implementa graders deterministas como contrato (stdout JSON + exit codes).
- Ejecuta >=5 trials; optimiza para pass^k en producción.
- Integra evals en CI como Quality Gate.
- Mantén dataset de pruebas realistas (repos con edge-cases), no solo ejemplos sintéticos.
Testing Your AI Agent Skills no es opcional. Si confías en agentes para tocar código o infra, mide su comportamiento bajo condiciones reproductibles. Implementa evals hoy y transforma tus skills de “probablemente funcionan” a “sabemos que funcionan”.

Como continuación lógica a estos procesos y para explorar integraciones y experimentos prácticos con evaluaciones de skills y pipelines de CI, visite Dominicode Labs. Allí encontrará recursos y ejemplos orientados a equipos de ingeniería que automatizan agentes y workflows.

FAQ
¿Qué es un eval para una Skill?

Un eval es una prueba autocontenida y reproducible que ejecuta una skill contra un grader determinista para verificar comportamiento objetivo (por ejemplo, lint pasa, tests verdes, tabla creada).

¿Cuántos trials debo ejecutar?

Ejecuta al menos 5 trials para estimar estabilidad. Ese número proporciona una muestra mínima para analizar variabilidad en LLMs.

¿Por qué usar Docker en cada trial?

Docker aísla el entorno, evita efectos laterales entre trials y garantiza reproducibilidad. Además permite destruir el contenedor tras la verificación.

¿Cómo debe devolver resultados un grader?

Como código: exit codes y stdout estructurado (por ejemplo JSON). Evita evaluaciones subjetivas; usa herramientas como eslint o npm test.

¿Qué hacer si pass@k es alto pero pass^k es bajo?

No desplegar. Señala que la skill es flaky; mejora el prompt, agrega verificaciones adicionales o externaliza pasos frágiles a scripts deterministas.

¿Qué umbral usar en producción?

Para workflows críticos, fija umbral ≥ 90% en pass^k. Ajusta según riesgo y gravedad del fallo.
March 24, 2026
Mejores Prácticas para Crear Habilidades de Agentes Efectivas
Best Practices for Creating Agent Skills

Tiempo estimado de lectura: 6 min

Ideas clave
- Diseñar skills con frontmatter preciso y estructura mínima para que los agentes los carguen correctamente.
- Escribir instrucciones procedimentales orientadas a máquinas, usando Progressive Disclosure para ahorrar tokens.
- Empaquetar scripts deterministas para operaciones repetitivas y definir stdout/stderr como contrato para decisiones automáticas.
- Validar skills con fases: Discovery, Logic y Edge-case testing usando LLMs.
- Documentar fallbacks y thresholds en referencias; tratar skills como componentes versionados e inspeccionables.
Tabla de contenidos
Best Practices for Creating Agent Skills: si quieres que un agente no solo arranque, sino que sobreviva en producción, necesitas más que buenos prompts. Necesitas arquitectura, disciplina y pruebas diseñadas para máquinas. Este artículo explica, con ejemplos prácticos y referencias, cómo construir skills que los LLMs realmente puedan usar.

Resumen rápido (lectores con prisa)

Definir frontmatter preciso, escribir pasos procedimentales en tercera persona imperativa, mover reglas densas a references/ y proveer scripts deterministas. Validar con tres fases (Discovery, Logic, Edge-case) y usar stdout/stderr como contrato para decisiones automáticas.

Best Practices for Creating Agent Skills: estructura, metadatos y responsabilidades claras

Los agentes ven un skill antes que nada por su frontmatter. Si ese nombre o descripción no son precisos, el agente nunca cargará tu skill. Sigue estas reglas prácticas:
- Estructura mínima obligatoria:
```
skill-name/
├── SKILL.md              # Metadatos + instrucciones core (<500 líneas)
├── scripts/              # CLIs pequeños para tareas deterministas
├── references/           # Reglas densas, esquemas, decision-trees
└── assets/               # Plantillas y JSON schemas
```
- Frontmatter: nombre exacto del skill = nombre del directorio; 1–64 caracteres, minúsculas, números y guiones.
- Descripción: 1.024 caracteres máx.; redactar en tercera persona; incluir negative triggers (qué NO debe hacer el skill).
Referencia: agentes basados en metadatos (ej.: agentskills.io).

Escribe para máquinas: instrucciones procedimentales y JiT loading

Los LLMs funcionan por patrones. Tu SKILL.md no es un manual; es el orquestador.
- SKILL.md: pasos cronológicos en tercera persona imperativa. Ejemplo:
  1. “Validate environment: run scripts/check-node-env.js.”
  2. “If fails, abort with message from stderr and surface actionable advice.”
- No copies masivas de config. Usa Progressive Disclosure: mueve plantillas y reglas densas a assets/ y references/ y obliga al agente a leerlas solo cuando las necesite.
- Rutas siempre con forward slashes (/).
Beneficio: menor consumo de tokens, decisiones más precisas.

Bundle deterministic scripts for repetitive operations

No pidas al modelo que genere parseadores complejos cada ejecución. Provee scripts probados:
- scripts/detect-commonjs.mjs — detecta módulos CommonJS problemáticos (puede usar madge: Madge).
- scripts/env-validator.mjs — valida versión de Node, gestor de paquetes y permisos.
- scripts/transform-schema.py — transforma esquemas con reglas inmutables.
Diseña los scripts para devolver errores humanos y machine-actionable por stderr/stdout. Ejemplo de stderr útil:
```
CRITICAL: package.json lacks 'build' script. Recommend: run `npx ng update @angular/cli` then retry.
```
Referencias técnicas: Vite, esbuild, Node.js.

Progressive Disclosure: cuándo cargar qué

Patrón:
- SKILL.md indica: “Si detectas X, leer references/X.md”.
- Agent only loads references/X.md when X aparece en el repo.
Ejemplo aplicado a migración Angular→Vite:
- No leer webpack-fallbacks.md salvo que angular.json contenga @angular-builders/custom-webpack.
Resultado: contexto limpio hasta el momento de la decisión.

Validación con LLMs: Discovery, Logic y Edge-case testing

Prueba tus skills con otros agentes siguiendo tres fases:
1. Discovery Validation
  - Pega solo el frontmatter en un LLM y pregúntale qué prompts deberían y no deberían activar la skill. Ajusta description hasta que el modelo sea inequívoco.
2. Logic Validation
  - Da al LLM SKILL.md + tree de archivos. Pídele simular ejecución paso a paso con monólogo interno: “¿Qué archivo leo? ¿Qué script ejecuto? ¿Dónde me obligaron a adivinar?”
  - Marca las líneas donde el agente tuvo que suponer datos.
3. Edge Case Testing
  - Pide al LLM que actúe como QA hostil y genere 3–5 preguntas que rompan la skill (p. ej. Node version < 18, custom webpack builders, imports dinámicos CommonJS).
Sugerencia de benchmark: SkillsBench para inspiración de evals (busca repositorios o frameworks de evaluación de skills).

Manejo de errores y criterios de fallback
- Stdout/stderr como contrato: script devuelve JSON estructurado para éxito o mensajes humanos para fallos.
- Define thresholds decisionales: p. ej., si detectas >3 dependencias CommonJS problemáticas, abortar migración automática y sugerir fallback híbrido.
- Documenta fallbacks en references/, no en SKILL.md.
Ejemplo rápido de decisión (pseudocódigo)
```
1. Run scripts/env-validator.mjs
2. If exit code ≠ 0 -> return error to user with remediation steps
3. Run scripts/detect-legacy-deps.mjs
4. If legacyDeps.count > 3 -> consult references/commonjs-guide.md and recommend hybrid strategy
5. Else -> read assets/vite.config.template.ts and generate vite.config.ts
```
Cierre: audiencia, responsabilidad y próxima iteración

Las Agent Skills son componentes de infraestructura: deben ser nombradas, versionadas y validadas como cualquier servicio. La disciplina (terminología única, scripts deterministas, progressive disclosure y validación con LLMs) convierte un experimento en una herramienta repetible.

Implementa estas prácticas y reduce fallos sorpresa en entornos reales. Si quieres un checklist listo para copiar en SKILL.md o ejemplos de scripts env-validator/detect-commonjs, disponemos de plantillas y pruebas automatizadas que puedes integrar hoy.

Fuentes y lectura adicional
Implementa esto ahora: estructura tu skill, saca las reglas densas a references/, empaqueta los scripts y empieza las pruebas Discovery/Logic/Edge-case con un LLM. Tu próxima iteración será menos sorpresiva y mucho más confiable.

Para continuar con herramientas y plantillas que complementan este enfoque, considera explorar Dominicode Labs como una continuación lógica de prácticas de automatización y evaluación de skills.

FAQ
¿Qué debe contener la estructura mínima de un skill?

La estructura mínima es:
```
skill-name/
├── SKILL.md
├── scripts/
├── references/
└── assets/
```
SKILL.md contiene metadatos e instrucciones core (<500 líneas); scripts/ almacena herramientas deterministas; references/ reglas densas; assets/ plantillas y esquemas.
¿Qué es Progressive Disclosure y cuándo usarlo?

Es la práctica de mover reglas y artefactos densos a archivos que se cargan solo si son necesarios. Úsalo para reducir tokens y mantener el contexto limpio hasta el momento de la decisión.
¿Cómo deben devolver los scripts errores y resultados?

Definir stdout/stderr como contrato: devolver JSON estructurado para éxitos y mensajes humanos accionables en stderr para fallos, por ejemplo:
```
CRITICAL: package.json lacks 'build' script. Recommend: run `npx ng update @angular/cli` then retry.
```
¿Qué pruebas realizar con LLMs?

Realiza tres fases: Discovery (solo frontmatter), Logic (simulación paso a paso con SKILL.md + tree) y Edge-case (QA hostil generando escenarios que rompan la skill).

¿Cuándo abortar una migración automática?

Define thresholds decisionales; por ejemplo, si detectas >3 dependencias CommonJS problemáticas, aborta la migración automática y recomienda una estrategia híbrida documentada en references/.
March 8, 2026
Cómo optimizar Agentes y Skills en Claude Code para un mejor rendimiento
entender Agentes vs Skills, en Claude code, trade-offs de los agentes, y los trade-offs de los modelos

¿Quieres que tu sistema con Claude deje de comportarse como un aprendiz despistado y empiece a trabajar como un equipo bien entrenado? entender Agentes vs Skills, en Claude code, trade-offs de los agentes, y los trade-offs de los modelos es el primer paso. No es filosofía; es diseño técnico que decide costes, latencia y confiabilidad.

En una frase: una Skill es una herramienta; un Agente es quien decide cuándo y cómo usarla. En Claude Code (y en el Model Context Protocol) esa diferencia no es semántica: define el control flow, la observabilidad y la estrategia de modelo.

Resumen rápido (lectores con prisa)

Qué es: Skill = función stateless y determinista; Agente = sistema que orquesta Skills con loop de razonamiento.

Cuándo usarlo: Skill para flujos deterministas; Agente para tareas multi-step y adaptativas.

Por qué importa: determina latencia, coste, observabilidad y riesgo de loops.

Cómo funciona (alto nivel): Agente observa, planifica, invoca Skills y verifica; Skills exponen APIs claras (MCP/HTTP).

Tiempo estimado de lectura

Tiempo estimado de lectura: 5 min

Ideas clave
- Skills son funciones deterministas y stateless; expónlas como APIs claras.
- Agentes orquestan Skills y gestionan objetivo, memoria y reintentos.
- Los agentes añaden latencia, coste e indeterminismo; requieren guardrails y observabilidad.
- Elige modelo por trade-off: Haiku (rápido/barato), Sonnet (equilibrio), Opus (máxima calidad).
- Patrón híbrido recomendado: router ligero → Skills directas → Agentes especializados → guardrails y tracing.
Tabla de contenidos
Introducción

¿Quieres que tu sistema con Claude deje de comportarse como un aprendiz despistado y empiece a trabajar como un equipo bien entrenado? entender Agentes vs Skills, en Claude code, trade-offs de los agentes, y los trade-offs de los modelos es el primer paso. No es filosofía; es diseño técnico que decide costes, latencia y confiabilidad.

Agentes vs Skills: la distinción que evita catástrofes

Skills = funciones puntuales, deterministas y stateless.

Skills
- readFile(path), runSQL(query), sendSlack(channel, text).
- Implementadas como código tradicional (JS/Python) y expuestas al modelo con una firma clara (MCP/HTTP).
- No razonan. Ejecutan.
Agentes
- Mantienen objetivo, memoria y loop de razonamiento (Observe → Plan → Act → Verify).
- Un Agente puede invocar múltiples Skills, evaluar resultados, reintentar o escalar a humano.
- En Claude Code, el Agente es la instancia del modelo que ejecuta el bucle y usa las Skills ofrecidas por el runtime.
Técnicamente: Skills son APIs; Agentes son sistemas de control y decisión que consumen esas APIs.

Por qué importa: trade-offs de los agentes

Autonomía suena bien hasta que el Agente se vuelve caro o tóxico. Estos son los efectos prácticos que deberías medir.

Latencia multiplicada

Cada paso del bucle agrega llamadas al modelo y a Skills. Una tarea que toma 2s con una Skill directa puede tardar 15–30s con un Agente que valida y reintenta. Para workflows interactivos eso mata la UX.

Riesgo de loops infinitos

Si no limitas iteraciones o detectas patrones repetitivos, el Agente puede intentar la misma corrección 1000 veces. Resultado: facturas de API astronómicas y procesos bloqueados.

Indeterminismo e idempotencia perdida

Un Agente puede resolver la misma tarea de maneras distintas. Eso da flexibilidad ante casos abiertos, pero complica testing, CI/CD y auditoría. Necesitas validaciones basadas en propiedades (constraints) en lugar de resultados fijos.

Observabilidad y debugging costosos

Debuguear un flow agéntico exige trazas por cada llamada LLM ↔ Skill, snapshots de memoria y métricas de confianza. Sin esto, los fallos solo se detectan cuando el usuario se queja.

Mitigaciones prácticas:
- Limitar pasos y tiempo por tarea (timeouts cognitivos).
- Implementar detección de retries repetidos y bloqueo.
- Validación post-acción (tests automáticos, checksums, schema validation).
- Escalada a humano cuando la confianza baja.
Trade-offs de los modelos: elegir Sonnet, Haiku u Opus

No todos los modelos sirven para todo. Aquí el criterio es coste versus capacidad de razonamiento.

Claude 3.5 Sonnet — el equilibrio
- Pros: razonamiento sólido, buen manejo de Tool Use y generación de código.
- Contras: coste y latencia moderados.
- Uso: cerebro del Agente para planificación y edición de código.
Claude 3 Haiku — router / executor barato
- Pros: rápido y barato.
- Contras: menos capaz en razonamiento profundo; mayor riesgo de alucinación en tareas complejas.
- Uso: clasificación, enrutamiento, pre-filtros, resumen rápido o conversión simple.
Claude 3 Opus — máxima calidad (cuando el coste no importa)
- Pros: razonamiento profundo y menor tasa de error en zero-shot.
- Contras: latencia y coste altos.
- Uso: análisis crítico donde la calidad es la prioridad absoluta.
Arquitectura recomendada: híbrida. Usa Haiku como router inicial; Sonnet para agentes especializados; Opus solo en batches o tareas off-line costosas.

Patrón de despliegue práctico (claude-code + MCP)

1. Router (Haiku): decide si la petición necesita Skill directa o Agente Sonnet.

2. Skill directa: ejecutar si el flujo es determinista (p. ej. ETL, queries, envíos).

3. Agente Sonnet: para tareas multi-step (refactor, investigación, remediación).

4. Guardrails: límites de iteración, chequeos de schema, registros de decisión.

5. Observabilidad: tracing por etapa (LLM prompt/responses, llamadas Skill, costos).

Para referencia del runtime y la integración con Skills revisa la documentación de Claude Code en el portal de Anthropic (y el repositorio de ejemplo).

Criterio final para un Tech Lead

Decide según tres preguntas:
- ¿Es el flujo determinista? Usa una Skill.
- ¿Requiere adaptación y varios pasos? Construye un Agente.
- ¿Cuál es el SLA de latencia y el presupuesto de coste? Selecciona Haiku/Sonnet/Opus acorde al ROI.
No es magia: es ingeniería de trade-offs. Un Agente bien diseñado reduce intervención humana y aumenta alcance, pero exige observabilidad, límites y selección cuidadosa de modelo. En Dominicode tratamos Agentes como infraestructura: medimos, protegemos y versionamos. Haz lo mismo y tu Claude Code dejará de improvisar y empezará a producir.

Dominicode Labs

Si trabajas con automatización, agentes o workflows, puedes encontrar recursos adicionales y experimentos en Dominicode Labs. Es un complemento práctico para aplicar patrones de despliegue, guardrails y observabilidad en proyectos reales.

FAQ
¿Cuándo debería preferir una Skill sobre un Agente?

Usa una Skill cuando el flujo sea determinista, idempotente y pueda representarse como una API con firma clara (por ejemplo ETL, consultas, envíos). Las Skills reducen latencia y coste y facilitan testing y CI/CD.

¿Cómo mitigo el riesgo de loops infinitos en un Agente?

Implementa límites de iteración, timeouts cognitivos y detección de patrones de retry repetidos. Añade reglas que bloqueen acciones cuando se superan umbrales y escalamiento a humano cuando la confianza sea baja.

¿Qué observabilidad mínima necesito para un Agente en producción?

Traza cada llamada LLM ↔ Skill, snapshots de memoria relevantes y métricas de confianza/decisión. Registra costos por etapa para analizar trade-offs de latencia y gasto.

¿Cómo selecciono entre Haiku, Sonnet y Opus?

Elige según coste vs capacidad de razonamiento: Haiku para routing y tareas simples; Sonnet como cerebro del Agente para planificación y edición; Opus para análisis crítico donde la calidad justifica el coste.

¿Qué prácticas recomiendan para validar acciones de un Agente?

Usa validación post-acción: tests automáticos, checksums y validación de esquema. Implementa constraints que verifiquen propiedades del resultado más que un valor exacto.

¿Debo versionar Skills y Agentes por separado?

Sí. Trata Skills como infra y versiona sus APIs. Versiona Agentes por su política de decisión, prompts y memoria para poder reproducir y auditar comportamientos en producción.
March 8, 2026
Prácticas para crear skills efectivas en agentes
Best Practices for Creating Agent Skills

Tiempo estimado de lectura: 5 min
- Diseña SKILL.md como orquestador compacto: no como una enciclopedia; enumera pasos y triggers claros.
- Externaliza lo frágil: scripts deterministas en scripts/, reglas densas en references/, templates en assets/.
- Progressive Disclosure (JiT): carga solo archivos cuando surge un trigger explícito.
- Validación en tres fases con LLMs: discovery, lógica y edge-case testing.
Introducción

¿Quieres que tus agentes dejen de fallar por cosas tontas? La mayoría lo hace porque sus skills son documentación para humanos disfrazada de herramienta para máquinas. Los agentes no leen; ejecutan. Y para ejecutar necesitan reglas claras, rutas exactas y scripts que no improvisen.

Aquí va la arquitectura práctica que uso cuando diseñamos skills que realmente funcionan en producción.

Resumen rápido (lectores con prisa)

Qué es: Un conjunto de reglas, scripts y plantillas organizadas para que un agente tome decisiones deterministas.

Cuándo usarlo: Al diseñar skills que interactúan con repositorios, migraciones, o tareas automatizadas que requieren reproducibilidad.

Por qué importa: Evita ambigüedades que causan alucinaciones y resultados inconsistentes.

Cómo funciona: SKILL.md orquesta; scripts ejecutan validaciones; references/ y assets/ se cargan sólo mediante triggers explícitos.

Estructura de una skill: la regla de hierro
```
skill-name/
├── SKILL.md              # Metadatos + instrucciones core (<500 líneas)
├── scripts/              # CLIs pequeños para tareas deterministas
├── references/           # Reglas densas, cheatsheets, esquemas
└── assets/               # Templates y archivos estáticos
```
SKILL.md es “el cerebro”: orquesta, no enciclopedia. scripts/ ejecuta lo que no puede fallar. references/ y assets/ guardan lo pesado, pero el agente sólo los lee cuando se lo indicas.

Naming y frontmatter: haz que la skill sea visible

El agente decide cargar una skill solo por el frontmatter. Si tu nombre y descripción son vagos, la skill es invisible.

Reglas:
- name = 1–64 chars, minúsculas, números y guiones. Debe coincidir exactamente con el nombre del directorio.
- descripción = máximo 1,024 caracteres, en tercera persona e incluye negative triggers.
Ejemplo práctico:
```
name: angular-vite-migrator
description: Migra proyectos Angular CLI de Webpack a Vite y esbuild. Usar para actualizar builders o reemplazar plugins de Webpack por equivalentes de Rollup. No usar para proyectos React, Svelte o para sólo actualizar la versión de Angular.
```
Eso reduce falsos positivos. Punto.

Progressive Disclosure: carga solo lo necesario

Los LLMs tienen memoria limitada. Meter 800 líneas de vite.config.ts en el prompt es pedir perdón por las alucinaciones.

Patrón: JiT (Just-in-Time).
- SKILL.md enumera pasos altos y dice exactamente cuándo abrir un archivo.
- Coloca plantillas complejas en assets/ y reglas en references/.
- Instrucción clara: “Si detectas @angular-builders/custom-webpack en angular.json, abre references/webpack-fallbacks.md”.
El agente no ve nada hasta que el trigger ocurre. Menos tokens, más precisión.

Escribe para máquinas: imperativo y pasos numerados

Las skills son código en lenguaje natural. Escribe en tercera persona, imperativo y con pasos numerados.

Correcto:
```
1. Ejecuta scripts/env-validator.mjs
2. Si el exit code es 1, reporta: "Node version incompatible. Upgrade required." Termina.
```
Incorrecto: “Quizá quieras comprobar la versión de Node…” — frase que confunde y genera ambigüedad.

Scripts deterministas: no pidas improvisación

No le pidas al LLM que escriba parsers complejos en cada ejecución. Empaqueta esos parsers y detectores como scripts pequeños y probados en scripts/. El agente los invoca con parámetros y actúa según stdout/stderr.

Ejemplo de stdout útil:
```
CRITICAL: Found legacy CommonJS 'legacy-lib' that uses dynamic require(). Recommendation: add to optimizeDeps.include or shim with esm-adapter. See references/commonjs-guide.md
```
Ese mensaje debe permitir al agente decidir el siguiente paso sin adivinar.

Templates y outputs parseables

Coloca un template en assets/ (por ejemplo, assets/vite.config.template.ts). Instrucción en SKILL.md:
- “Copia assets/vite.config.template.ts a vite.config.ts y rellena los placeholders según el mapeo en references/mapping.md.”
Los LLMs reconocen patrones; darles la plantilla evita salidas rotas y archivos inválidos.

Validación con LLMs: prueba en tres fases

Las skills las usarán LLMs, así que valídalas con LLMs.

1. Discovery Validation

Pega solo el frontmatter en un LLM limpio. Pide 3 prompts que deben activar la skill y 3 que no. Ajusta la descripción hasta que el modelo acierte.

2. Logic Validation

Pasa el SKILL.md y la estructura de archivos. Pide al LLM que actúe como agente y escriba su monólogo paso a paso: qué lee, qué ejecuta, y dónde se ve obligado a adivinar.

3. Edge Case Testing (Red Team)

Pide al LLM que te rompa la skill con preguntas concretas: Node antiguo, builders custom, imports dinámicos. Si responde con huecos, rellena referencias y scripts hasta que no queden ambigüedades.

Ejemplos de fallas comunes y cómo prepararlas
- CommonJS legacy en esbuild: añade scripts/detect-commonjs.mjs que devuelvan JSON con las dependencias problemáticas y recomendaciones.
- @angular-builders/custom-webpack en angular.json: stop automatic migration. Instruye a abrir references/webpack-fallbacks.md y proponer un plan híbrido (mantener Webpack para producción, migrar dev a Vite).
- Entorno Node no compatible: scripts/env-validator.mjs debe chequear process.version y salir con mensaje accionable.
Cierre con criterio

Construir skills no es arte ni redacción creativa: es ingeniería. Nombra con precisión, externaliza lo frágil a scripts, usa templates y obliga a los agentes a cargar sólo lo que necesitan. Haz esto y tus agentes dejarán de inventar soluciones —y empezarán a producir resultados reproducibles.

Reestructura una skill bajo estas reglas hoy y verás cómo el agente deja de improvisar. Esto no acaba aquí; las skills bien diseñadas son la base de la automatización fiable.

Dominicode Labs

Para equipos que diseñan workflows y agentes, recursos y experimentos prácticos en automatización y agentes están disponibles en Dominicode Labs. Considera revisarlo como complemento para validar skills y pipelines en entornos reales.

FAQ
¿Qué debe contener SKILL.md?

SKILL.md debe ser el orquestador: metadatos (frontmatter), pasos numerados claros, triggers explícitos sobre cuándo abrir archivos en references/ o assets/, y referencias a scripts/ ejecutables. Mantenerlo por debajo de 500 líneas.

¿Por qué externalizar parsers en scripts/?

Porque los parsers y detectores complejos son frágiles si se piden al LLM en cada ejecución. Scripts deterministas devuelven stdout/stderr o JSON que permite decisiones automáticas sin ambigüedad.

¿Cómo funciona Progressive Disclosure?

El agente solo carga información adicional cuando un trigger en SKILL.md lo indica (JiT). Así se evita saturar el prompt con archivos largos y se mejora la precisión.

¿Qué formato deben tener los outputs de los scripts?

Outputs legibles por máquina: líneas con prefijos (ej. CRITICAL:) o JSON. Deben contener suficiente contexto y una recomendación accionable para que el agente decida el siguiente paso.

¿Cuándo incluir references/webpack-fallbacks.md?

Incluirlo cuando detectes @angular-builders/custom-webpack en angular.json. La instrucción en SKILL.md debe ordenar abrir ese archivo y proponer un plan híbrido si aplica.

¿Cómo validar una skill con LLMs?

Validación en tres fases: Discovery Validation con solo frontmatter, Logic Validation con SKILL.md y estructura de archivos (monólogo del agente), y Edge Case Testing (Red Team) para cerrar huecos.
March 5, 2026