Fragmentación de texto para RAG y LLMs: tamaño solapamiento fronteras que funcionan
Por Redacción Safe Local Tools
RAG falla silenciosamente cuando chunks tamaño equivocado. Demasiado pequeños pierdes contexto necesario respuesta; demasiado grandes diluyen vector semántico y explotan presupuesto tokens prompt. Ventanas fijas 512 caracteres cortan frases mitad enterrando párrafo único respondía pregunta usuario porque recuperación nunca entregó fragmento coherente modelo aun LLM más caro "inteligente".
Guía explica rol chunking pipeline ingestión overlap trade-offs splitting estructural markdown HTML code funciones metadatos evaluación recall@k y por qué experimentar Safe Local Tools local navegador ayuda ajustar parámetros documentos confidenciales antes enviar corpora embedding proveedor tercero.

Qué hace chunking dentro flujo RAG típico
Secuencia habitual: ingestión documentos PDF HTML tickets, split fragmentos, embed cada chunk índice vectorial, consulta recupera top-k, ensamblas prompt LLM. Calidad chunk techo calidad respuesta—model upgrades no arreglan retrieval nunca vio párrafo correcto.
Por tanto chunking es hiperparámetro texto igual learning rate: versionar git config (chunk_tokens=600 overlap=80 splitter=markdown_sections) porque cambios pequeños overlap causan re-embed costos millones vectores.
Tokens frente caracteres porque facturación embeddings almacenamiento miden distintas unidades
Documentación técnica headings frecuentes tolera tokens 400‑800 respetando secciones. Legal prosa larga tal vez 800‑1200 overlap crítico porque cláusulas referencian frases anteriores. Código preferible cortar por funciones clases no mitad bloque indentación.
Chat logs benefician segmentos 200‑400 respetando hablantes turns porque coherencia conversacional se rompe mezclando roles.
Medir siempre tu corpus interno—español técnico mezcla inglés acrónimos tokeniza distinto monolingüe marketing.
Solapamiento 10‑20 % porque bordes oraciones atraviesan frontera
El solapamiento replica el final del fragmento N sobre el principio del N + 1, de modo que al menos uno conserva intacta la frase que antes quedaba a caballo entre límites arbitrarios de longitud.
El coste es producir más vectores y sufrir hits recuperación repetidos muy parecidos: mitigas con políticas máximos por documento tras el rerank.
Safe Local Tools permite experimentar tamaños y solapes localmente porque documentación interna no debería colarse primero en demos abiertos: así ajustas políticas antes de llegar infraestructura facturación GPU.
Preferencia frontera estructural headings párrafos oraciones código tablas
Orden lógico al trocear: encabezados Markdown/HTML (##), saltos entre párrafos, después finales de oración, y sólo como último recurso un corte arbitrario por longitud rígida. En tablas conviene repetir cabeceras y filas relacionadas porque un número aislado sin contexto apenas comparte vecindarios semánticos con el párrafo correcto cuando el modelo vectorial proyecta vectores cercanos pero irreales.
Las extracciones desde PDF pueden mezclar columnas porque el texto fluye orden distinto vista humana página doble-columna antes confiar embedding valida archivo digital vs OCR porque basura léxica aparece igual "contenidos" válidos.
El troceador de texto Safe Local Tools ejecutado sólo navegador permite inspeccionar límites visuales sin backend externo registre corporativo.
Metadatos adjuntos igual importantes vectores porque citaciones UX auditoría ACL
Almacena junto vectores campos fuente página sección fecha actualización tenant ACL chunk_index porque UI citación confiable necesita vínculos anclas verificaciones compliance GDPR borrados documento debe eliminar vectores huérfanos.
Re-ranking barato modelo cruz encoder posterior seleccionar subset top-k grande inicial reduce tokens prompt final sin perder cobertura porque primer etapa económica suficientemente amplio.
Evaluar porque intuición equipo insuficiente incidentes soporte muestran fallos silenciosos
Construye conjunto preguntas reales etiquetadas gold passage mide Recall@k MRR porque cambias una variable tamaño overlaps logging versión modelo embedding igual experimento porque upgrades silenciosos embedding space shift recall.
Hybrid BM25+vector requiere tokens raros intactos porque keyword search beneficia códigos producto PT-2048-A no dividir mitad string.
Negativos etiquetados preguntas recuperaron chunk incorrecto alimentan tuning overlaps sin overfit demos internos nunca aparecen producción.
Padre-hijo chunking costes re-embed y cuándo saltar RAG totalmente
Patrón padre-hijo: fragmentos pequeños retrieval preciso enlazan spans mayores contexto generación final porque respuestas "por qué" necesitan entorno expandido sin inflar index completo masivo.
Re-embed millones chunks porque overlap +5 % alone caro—valida holdout métricas antes jobs completos checkpoints batch off-peak.
FAQs corporativos caben modelo directamente contexto corto porque RAG mueve piezas innecesariamente aumentando superficie errores ingestion.
Safe Local Tools procesa texto navegador te da playground hiperparámetros antes infra jobs programados porque experimentación rápida local reduce ciclo revise boundaries sensibles datos.
Los trozos mal diseñados matan proyectos silenciosos de RAG que «funcionaban en el notebook» local. Primero corrige recuperación embeddings y metadatos, luego cambia modelo generativo porque la factualidad viene mucho antes de cualquier mejor retórica nuevo LLM costoso. Experimenta límites y solapes en documentación largo desde el mismo navegador con Safe Local Tools («Probar troceador de texto →») antes de lanzar trabajo batch costoso GPUs proveedor embeddings.