Recuperare
1. Data structure
Unstructured data (text) : cea mai utilizata
Semi-structured data (o combinatie de text si tabel, de ex. pdf). Probleme:
- separarea textului poate sa fragmenteze gresit datele tabelare
- incorporarea tabelelor complica cautarile semantice bazate pe similaritate
Structured data : knowledge graphs
2. Granularitatea recuperarii
Pentru text → variaza de la token-uri, fraze, propozitii, fragmente, documente.
Pentru knowledge graph → entitate, triplet si sub-grafuri
3. Optimizarea indexarii
- Strategia fragmentarii in bucati: bucati mai mari → mai mult context dar si mai mult zgomot, un timp de procesare si cost mai mare. Duce la truncarea in propozitii
- Atasamentul de metadata : se adauga metadata la bucatile fragmentate (ex. numar de pagina, autor, categorie, timestamp)
- Index structural : fisierele sunt aranjate intr-o relatie parinte-copil cu fragmentele legate de ele. La fiecare nod este stocat cate un rezumat facilitand parcurgerea rapida.
4. Optimizarea solicitarii
- Extindere : multi-solicitari cu executie paralela sau sub-solicitari (spargerea unei probleme mari in mai multe probleme mici)
- Transformare : folosirea LLM-ului pentru rescriere; folosirea unui LM mai mic si specializat (ex. RRR = read-retrieve-read)
- Rutare : primul pas consta in extragerea cuvintelor cheie din solicitare, apoi se filtreaza pe aceste cuvinte cheie + metadata
Comentarii
Trimiteți un comentariu