Recuperare

   

        1. Data structure

Unstructured data (text) : cea mai utilizata

Semi-structured data (o combinatie de text si tabel, de ex. pdf). Probleme:

    • separarea textului poate sa fragmenteze gresit datele tabelare
    • incorporarea tabelelor complica cautarile semantice bazate pe similaritate

            Structured data : knowledge graphs

        2. Granularitatea recuperarii

Pentru text → variaza de la token-uri, fraze, propozitii, fragmente, documente.

Pentru knowledge graph → entitate, triplet si sub-grafuri 

        3. Optimizarea indexarii

    1. Strategia fragmentarii in bucati: bucati mai mari → mai mult context dar si mai mult zgomot, un timp de procesare si cost mai mare. Duce la truncarea in propozitii
    2. Atasamentul de metadata : se adauga metadata la bucatile fragmentate (ex. numar de pagina, autor, categorie, timestamp)
    3. Index structural : fisierele sunt aranjate intr-o relatie parinte-copil cu fragmentele legate de ele. La fiecare nod este stocat cate un rezumat facilitand parcurgerea rapida.  

        4Optimizarea solicitarii

    1. Extindere : multi-solicitari cu executie paralela sau sub-solicitari (spargerea unei probleme mari in mai multe probleme mici)
    2. Transformare : folosirea LLM-ului pentru rescriere; folosirea unui LM mai mic si specializat (ex. RRR = read-retrieve-read)
    3. Rutare : primul pas consta in extragerea cuvintelor cheie din solicitare, apoi se filtreaza pe aceste cuvinte cheie + metadata 

Comentarii