Recuperare

1. Data structure

Unstructured data (text) : cea mai utilizata

Semi-structured data (o combinatie de text si tabel, de ex. pdf). Probleme:

Structured data : knowledge graphs

2. Granularitatea recuperarii

Pentru text → variaza de la token-uri, fraze, propozitii, fragmente, documente.

Pentru knowledge graph → entitate, triplet si sub-grafuri

3. Optimizarea indexarii

Strategia fragmentarii in bucati: bucati mai mari → mai mult context dar si mai mult zgomot, un timp de procesare si cost mai mare. Duce la truncarea in propozitii
Atasamentul de metadata : se adauga metadata la bucatile fragmentate (ex. numar de pagina, autor, categorie, timestamp)
Index structural : fisierele sunt aranjate intr-o relatie parinte-copil cu fragmentele legate de ele. La fiecare nod este stocat cate un rezumat facilitand parcurgerea rapida.

4. Optimizarea solicitarii

Extindere : multi-solicitari cu executie paralela sau sub-solicitari (spargerea unei probleme mari in mai multe probleme mici)
Transformare : folosirea LLM-ului pentru rescriere; folosirea unui LM mai mic si specializat (ex. RRR = read-retrieve-read)
Rutare : primul pas consta in extragerea cuvintelor cheie din solicitare, apoi se filtreaza pe aceste cuvinte cheie + metadata

RAG - Retrieval-Augmented Generation