RAG ve LLM'ler için Metin Parçası: Boyut, Örtüşme ve İşe Yarayan Sınırlar
Yazar: Safe Local Tools Editör
Öbek hatalı olduğunda RAG sessizce başarısız olur. Çok küçük olması bağlamı kaybeder; Çok büyük olması, yerleştirmeyi sulandırır ve token bütçesinin taşmasına neden olur. Her 512 karakterin kesilmesi, cümleleri rastgele böler ve soruyu yanıtlayan paragrafı gömer. Burada kurtarma, örtüşme, yapısal bölünme için parçalamayı ve neden Safe Local Tools'u yerel olarak denemenin, yerleştirme API'sini çağırmadan önce özel oyun kitabını çevrimiçi demoya yüklemekten kaçındığını görüyorsunuz.

Parçanın boru hattına girdiği yer
Tipik akış: belgeyi alın, parçalara bölün, her birini yerleştirin, sorguda en üstteki k'yi alın, LLM istemine ekleyin. Tepki kalitesi tavanı, parça kalitesi tavanıdır - yeni model, hiçbir zaman doğru paragrafı çekmeyen kurtarmayı düzeltmez.
Jetonlara karşı karakterler ve örtüşme %10-20
Yerleştirmeler jetonlara mal olur; depolama bayt cinsinden konuşur. Başlıkları olan teknik belgeler genellikle bölümler arasında ~400-800 jetonla başlar; sohbet günlükleri ~200–400, konuşmacı sınırıyla birlikte; güçlü örtüşmelerle yasal belki 800–1200; işlev/sınıf başına kod, asla hassas bloğun ortasında değil.
Overlap, bir öbeğin kuyruğunu bir sonrakinin başıyla paylaşır, böylece sınırı aşan ifadeler en az bir vektörde bütün olarak görünür. Depolama, yerleştirme masraflarına mal olur ve tekilleştirmezseniz isabetleri çoğaltabilir; parça boyutunun %10-15'iyle başlayın ve etiketli sorulardaki hatırlama/hassaslığı ölçün.
Yapısal bölüm > ham uzunluk
Aralar için tercih sırası: İşaretleme/HTML başlıkları, paragraflar (çift satır), cümle sonu, boşluk, yalnızca sonda kesin kesme. Tablolar: tutarlı satırları tutun veya satır satır yinelenen başlık serileştirin.
Alıntıyı yeniden oluşturmak için meta veriler ekleyin: dosya, sayfa, bölüm başlığı, "updated_at", kiracı ACL, dizin ve toplam - kaynağı olmayan vektör, modeli kaynak icat etmeye zorlar.
Gerçek verilerle değerlendirin
Altın geçişli gerçek kullanıcılardan gelen 30-50 soruyu bir araya getirin. Recall@k, MRR ve sadakati (LLM hakimi veya insan) takip edin. Her seferinde bir hiperparametreyi değiştirin ve yerleştirme modelinin sürümünü günlüğe kaydedin.
Yaygın hata modları: yığın içinde gezinme ve altbilgiler, tekrarlanan ortak metin baskın benzerlik, devasa düzleştirilmiş tablo, eski süresi dolmuş belge, dillerin tek bir dizinde karıştırılması. Ön işlem: şablonları kaldırın, başlıkları tekilleştirin, sürümü ve dizini kaldırın.
Hibrit arama, kurtarma sonrası bütçe ve gizlilik
BM25 sağlam ve nadir tokenları sever; anlamsal komşuluk gibi vektörler — 'PT-2048-A' partileri gibi kodlar her ikisine de zarar verir. Mükemmel geri çağırma durumunda bile, k=8 parça × 600 jeton tüm pencereyi tüketebilir; ucuz aşamadan sonra ilk 3-5'e yeniden sıralayın.
Kurumsal taktik kitapları rastgele bulutta "yığınlayıcımızı denemeye" gitmemelidir. Safe Local Tools, yerleştirmeden önce boyutları ayarlamak ve hassas taslaklara sarmak için tarayıcıdaki metni işler.
Ebeveyn çocukları: küçük parçayı alın, son bağlamı oluştururken ebeveyn aralığına genişletin. GDPR: kaynak dosyayı silmek, aynı rutindeki yetim vektörleri silmeli.
PDF, Çok Dilli ve RAG Ne Zaman Atlanmalı?
PDF'deki çıkarma sırası görsel okumadan farklı olabilir; OCR çöpünü yerleştirmeden önce sütunları doğrulayın. Karışık EN/ZH/PT derlemleri, dil başına ayrı bir ayırıcıya veya dizine ihtiyaç duyabilir.
Tüm derlem pencereye sığarsa (hedef modelde ~8 bin jeton), vektör aşırıya kaçabilir - yığın, kazanç olmadan hareketli parçalar ekler.
Araçlara sahip aracılar, herhangi bir parçanın yutması gerekenden daha büyük JSON döndürür: aynı bölme kurallarını uygulayın veya dizin oluşturmadan önce araç çıktısını özetleyin. Gerçek kişi tarafından yapılan inceleme sıralarında "chunk_id" kullanılmış olarak gösterilmelidir; eğer gözden geçirenler her zaman alınan yığının üzerine yazıyorsa, ayırıcınız kullanıcıların asıl sorusuyla yanlış hizalanmıştır.
Örtüşme %5 değiştiği için milyonlarca vektörün yeniden indekslenmesi pahalı bir projedir; sürüm yapılandırmaları, karşılaştırmalı uzatmayı kullanın ve ancak bundan sonra işin tamamını tetikleyin. Bu arada, gizli metin içeren tarayıcıdaki test ayırıcı, PM ve mühendisliğin, kılavuzu harici hizmette yayınlamadan beklentileri uyumlu hale getirmesine olanak tanır.
Tarifi zihinsel olarak özetleyin: dahili dokümantasyon başlıklarla başlar ve ~80 örtüşme ile ~600 jetonla başlar; bilet meta verileriyle konuşma dizisine göre biletler; yüksek örtüşme ve yanıtların insan tarafından kontrol edildiği sözleşmeler; sembole göre kod; Yerleştirmeden önce navigasyonun kaldırıldığı wiki.
Kötü parçalanmış metin sessiz başarısızlık üretir: üst K değeri yüksek bile olsa, müşteri sorusunun cevaplandığı parça indekslenmediyse yanıtlar zarif görünür ama asılsız olur. Hibrit arama yaklaşımlarında az sayıda ama çıpa gibi duran rakamlar veya SKU ifadeleri varsa küçük parçayı üst blokla yeniden birleştirerek gösterin. Üretim yükleri üzerinde yalnızca bir parametreyi tek seferde oynayıp çıktının nasıl tepki verdiğini kaydetmiyorsanız overlap ve maksimum parça ilişkisini izole edemezsiniz. Gerçek sorularla oluşturulmuş ve "altın paragraf ID’leri" tutan küçük bir değerlendirme setinde hem geri çağırma hem yanlış alıntı oranını sayın; özellikle örtüşme yüzdesine duyarlılık çıkarır. Önce her sprint küçük bir gözden geçirmede altın küme kimliklerini yenilerseniz, vektör sürümünü yükseltmek genellikle eski blokları kasıtlı düşürerek yanlış alıntı riskini doğrusal biçimde kısar. Belgelerinizi üretime taşımadan önce Safe Local Tools ile gizlice denemek işe yarar çünkü Metin böleyiciyi deneyin →