RAG – DOMINICODE

RAG Avanzado: Híbrido, Jerárquico y Multi-Vector

RAG Avanzado: Híbrido, Jerárquico y Multi-Vector. Si eso suena a demasiada ingeniería comparado con “chunk + embeddings”, es porque lo es —y la diferencia entre demo y producto está justo ahí. En producción no vale con que el LLM “suene bien”; necesitas precisión, contexto y control de coste. Este artículo explica qué técnicas añadir, por qué y cuándo.

Tiempo estimado de lectura: 4 min

Ideas clave:
La recuperación es el 80% de una buena respuesta: combina sparse (BM25) y dense (embeddings).
Arquitectura jerárquica (child + parent) equilibra precisión de fragmento y contexto coherente.
Re-ranking con cross-encoders y compresión de contexto reducen hallucinations y coste token.

Introducción

La calidad de las respuestas generadas por un sistema RAG depende mayoritariamente de la recuperación. Los vectores aportan semántica; los métodos sparse (BM25) aportan exactitud. En producción necesitas precisión, contexto y control de coste; esto implica añadir capas: híbrido, jerarquía, re-ranking, rewriting y compresión de contexto.

Resumen rápido (lectores con prisa)

RAG avanzado combina búsquedas sparse (BM25) y dense (embeddings) para precisión y semántica. Usa indexing jerárquico child→parent para fragmentos precisos con contexto. Re-rank con cross-encoders para reducir ruido. Reescribe y descompone queries; comprime contexto antes del LLM.

RAG Avanzado: implementación práctica

1) Hybrid retrieval: BM25 + embeddings

Problema: buscas “ERR-9921” y el vector devuelve “error de sistema” porque semánticamente es parecido. Solución: híbrido.

Sparse: BM25/Elasticsearch para coincidencias literales.
Dense: embeddings (OpenAI, Cohere, etc.) para intención.
Fusión: Reciprocal Rank Fusion (RRF) o combinación ponderada. Pinecone hybrid search

Patrón práctico:

Ejecuta BM25 y vector search en paralelo.
Normaliza scores.
Fusiona con RRF.
Si BM25 tiene match exacto para tokens sensibles (IDs, SKUs), priorízalo.

2) Multi-vector / Parent-Child indexación

Dilema clásico: chunks pequeños = mejor match; chunks grandes = mejor contexto. La arquitectura jerárquica arregla ambos.

Indexa embeddings a nivel child (p. ej. 200 tokens).
Mantén parent docs grandes (p. ej. 2000 tokens) con metadata.
Al recuperar un child relevante, sube el parent completo al contexto.

Implementación: LangChain ParentDocumentRetriever — LangChain ParentDocumentRetriever

Beneficio: precisión de fragmento + contexto coherente para razonamiento.

3) Re-ranking con cross-encoders

Bi-encoders: rápidos, aproximados. Cross-encoders: lentos, precisos.

Flujo:

Fast retrieval → top N (50).
Cross-encoder rerank en top N.
Selecciona top K final para el LLM.

Herramientas: sentence-transformers, Cohere Rerank. Costo: aumenta latencia; recompensa: reduce ruido que provoca hallucinations.

4) Query rewriting y decomposition

Muchos fallos vienen por queries ambiguas. No todos los problemas se arreglan en el índice.

Query rewrite: un LLM rápido reescribe la consulta con contexto de la sesión.
Multi-query: genera 3–5 variantes de la pregunta y busca por cada una.
Decomposition: divide preguntas complejas en sub-queries paralelas.

Técnica HyDE (Hypothetical Document Embeddings) es útil: genera la “respuesta hipotética”, embeddea eso y busca. Idea en práctica: mejora recall sin cambiar el índice.

5) Context compression antes del LLM

Enviar 10 documentos de 8k tokens es suicida. Comprime:

Filtrado selectivo: extrae párrafos con más evidencia.
Summarization condensado (con cuidado: pierde citas).
Algoritmos de compresión semántica como LLMLingua

Objetivo: maximizar densidad informativa dentro de la ventana del LLM.

Criterio para decidir qué añadir (roadmap pragmático)

No implementes todo a la vez. Sigue este orden iterativo:

Naive RAG. Mide recall@5 y tasa de hallucination.
Si fallan exact matches → añade Hybrid (BM25).
Si falta contexto coherente → añade Parent-Child multi-vector.
Si llega ruido que confunde al LLM → añade Re-ranking.
Si tokens exceden la ventana → añade Context Compression.

Mide antes y después. No hay excusas.

Operacional: latencia, coste y caching

Re-ranking y cross-encoders aumentan latencia 10x en la etapa de ranking. Mitiga con caching de top-N por query fingerprint.
Hybrid search añade coste infra (Elasticsearch + vector DB). Mide Cost/Accuracy.
Batch embeddings nocturnos para contenido estático. Mantén refresh policies.
Telemetría: trace request → retrieval steps → rerank → LLM call. LangFuse y LangSmith ayudan a visualizar traces (LangFuse, LangSmith).

Integración con agentes y workflows (n8n)

Pipeline ejemplo en n8n:

Node: Query Rewrite (LLM pequeño)
Node: Hybrid Search (ES + Pinecone/Qdrant)
Node: Rerank (Cross-Encoder)
Node: Parent Expander + Context Compressor
Node: LLM final (generation)
Node: Post-check (schema validation / guardrails)

Versiona prompts, registra fingerprints y alertas en drift.

Referencias operativas

Implementar RAG avanzado es menos glamour y más disciplina: medir, añadir la capa correcta y repetir. Hazlo así y tu sistema dejará de improvisar respuestas y empezará a dar respuestas que puedes explicarle al CTO.

Dominicode Labs

Si trabajas con pipelines de agentes, workflows o IA aplicada, considera explorar integraciones y experimentos prácticos en Dominicode Labs. Es una continuación lógica para prototipos operacionales y pruebas de telemetría.

FAQ

¿Por qué combinar BM25 con embeddings?
¿Qué ventaja tiene la indexación parent-child?
¿Cuándo usar cross-encoders para re-ranking?
¿Qué es HyDE y por qué usarlo?
¿Cómo mitigar la latencia al re-rankear?
¿Qué técnicas de compresión de contexto son seguras?

Respuesta: ¿Por qué combinar BM25 con embeddings?

BM25 proporciona coincidencias literales útiles para IDs, SKUs y frases exactas; los embeddings capturan intención y sinónimos. El híbrido reduce falsos positivos semánticos y mejora precisión en búsquedas sensibles.

Respuesta: ¿Qué ventaja tiene la indexación parent-child?

Permite mantener chunks pequeños para alta precisión en matching mientras se conserva contexto amplio subiendo el documento parent al LLM cuando un child es relevante.

Respuesta: ¿Cuándo usar cross-encoders para re-ranking?

Úsalos cuando el top-N recuperado contenga ruido que provoca hallucinations o respuestas incorrectas. Son adecuados para reducir falsos positivos aunque aumenten latencia y coste.

Respuesta: ¿Qué es HyDE y por qué usarlo?

HyDE (Hypothetical Document Embeddings) genera una “respuesta hipotética” desde un LLM, la embeddea y busca con esa representación. Mejora recall sin tocar el índice.

Respuesta: ¿Cómo mitigar la latencia al re-rankear?

Cachea top-N por huella de consulta, ejecuta re-ranking asíncrono donde sea posible y usa cross-encoders solo en escenarios críticos o por lotes nocturnos para contenido estático.

Respuesta: ¿Qué técnicas de compresión de contexto son seguras?

Filtrado selectivo de párrafos con evidencia, resúmenes condensados con control de citas y algoritmos semánticos como LLMLingua. Ten cuidado: la compresión puede perder citas y detalles verificables.

Tag: RAG

Mejorando la Recuperación de Información con RAG Avanzado