RAG fine-tuning érthetően: hogyan növeld a pontosságot anélkül, hogy tönkretennéd a modellt

A RAG rendszerek gyakran nem azért hibáznak, mert a retrieval nehéz — hanem mert a csapat rossz dolgot finomhangol. Ebben a cikkben megmutatom a valós RAG pipeline-t, a retrieval típusokat, és azt, mikor segít a fine-tuning.

Dezso Mezo

AI mérnök & Alapító

AIRAGFine-tuningLLMRetrievalVektor keresésEmbeddingek

Miért tűnik sok RAG rendszer megbízhatatlannak?

Sok csapat épít egy RAG chatbotot, egy napig teszteli, majd azt mondja: „a RAG nem működik.” Valójában a RAG nagyon jól működik — csak akkor, ha a pipeline jól van megtervezve.

A RAG akkor bukik el, ha a retrieval rossz kontextust hoz vissza, ha a prompt engedi a hallucinációt, vagy ha a rendszer nem kezeli jól a bizonytalanságot. A fine-tuningot pedig gyakran túl korán adják hozzá — és ha a retrieval rossz, a fine-tuning csak stabilabban teszi rosszá a választ.

A cél: gyors tisztaság, nem kreativitás

Egy RAG rendszer nem arról szól, hogy új dolgokat találjon ki. Hanem arról, hogy a saját dokumentumaidból adjon választ. Itt a pontosság, visszakövethetőség és konzisztencia fontosabb, mint a szép stílus.

A legjobb RAG asszisztensek szigorúak: ha nincs kontextus, azt mondják, hogy nem tudják. A fine-tuningnak ezt a viselkedést kell erősítenie — nem felülírnia.

A valós RAG pipeline (egyszerűsítve)

Sokan úgy gondolják, hogy a RAG = „vektor keresés + GPT”. A valóságban a jó RAG egy teljes pipeline:

Dokumentum tisztítás + chunkolás stratégia
Embedding + indexelés (vektor adatbázis)
Query átírás (opcionális, de nagyon hasznos)
Retrieval (hibrid, több-lépéses, rerankelt)
Kontextus szűrés (token limit + relevancia)
Válaszgenerálás szigorú utasításokkal
Utóellenőrzés (források, refusal, biztonsági szabályok)

Retrieval típusok (és miért kell több mint egy)

A retrieval a RAG motorja. Különböző használati esetekhez más retrieval típus kell — és a kombinálás gyakran jobb pontosságot ad.

Dense retrieval (vektor keresés): jelentés alapú kereséshez
Sparse retrieval (BM25 / kulcsszó): pontos kifejezésekhez
Hibrid retrieval: a kettő kombinációja
Multi-query retrieval: több átfogalmazott lekérdezés generálása
Rerankelt retrieval: második modell újrarendezi a találatokat
Parent-child retrieval: chunk + dokumentum hierarchia jobb kontextushoz

Mikor segít a fine-tuning a RAG-ben (és mikor nem)?

A fine-tuning nem javítja meg a rossz retrieval-t. Nem tud hiányzó kontextust varázsolni. Ha a retrieval irreleváns chunkokat hoz vissza, a modell magabiztosan fog rosszat válaszolni.

A fine-tuning akkor segít, ha a modellt viselkedésre akarod tanítani: szigorú refusal, strukturált format, márka hangnem, domain nyelvezet.

✅ Jó: szigorú refusal ("nincs kontextus → nincs válasz")
✅ Jó: konzisztens formátum (táblák, bullet listák, JSON)
✅ Jó: hangnem + terminológia
❌ Rossz: tudás „betöltése” a modellbe
❌ Rossz: retrieval hibák tréninggel való javítása

A legbiztonságosabb út: viselkedést finomhangolni, nem tudást

A profi RAG rendszerek úgy kezelik a fine-tuningot, mint viselkedés-erősítést. A tudás a dokumentumokban marad — a modell azt tanulja meg, hogyan viselkedjen a rendszerben.

Így az asszisztens őszinte marad, és a tudás frissítése is egyszerű: dokumentumot frissítesz, nem modellt tréningelsz újra.

Gyakorlati RAG fine-tuning sablon

Olyan adat kell, ami tartalmaz: jó példákat, refusal példákat, részleges kontextus példákat, és „trükkös” kérdéseket. Minden mintának a rendszer szabályait kell tanítania.

TXT

SYSTEM:
Te egy szigorú RAG asszisztens vagy.

SZABÁLYOK:
- CSAK a megadott kontextusból válaszolj.
- Ha nincs válasz a kontextusban, mondd: "A megadott dokumentumok alapján nem tudom."
- Ne találj ki semmit.
- Legyen rövid és strukturált.

USER:
Kérdés: {{KÉRDÉS}}

KONTEXTUS:
"""
{{VISSZAKERETT_KONTEXTUS}}
"""

ASSISTANT:
{{IDEÁLIS_HELYES_VÁLASZ}}

Mit mérj, mielőtt élesbe rakod?

Középhaladó csapatok gyakran értékelés nélkül rakják ki a RAG-et — majd meglepődnek, hogy a felhasználók elvesztik a bizalmat. Egy egyszerű evaluation loop kötelező.

Kontextus relevancia (jó chunk jött vissza?)
Groundedness (a válasz passzol a kontextushoz?)
Refusal pontosság (akkor tagad, amikor kell?)
Hallucináció arány (kitalált tények?)
Sebesség + költség (valós felhasználóknak jó?)

Kulcs gondolat

A RAG fine-tuning nem tudást ad a modellnek — fegyelmet tanít: helyes válasz kontextussal, és helyes refusal kontextus nélkül.

Szeretnél egy éles, megbízható RAG rendszert a cégednek?

Olyan RAG asszisztenseket építünk, amik stabil retrieval pipeline-t, evaluation rendszert és biztonságos fine-tuningot használnak — hogy az AI mindig pontos és megbízható legyen.

Kapcsolat

RAG fine-tuning érthetően: hogyan növeld a pontosságot anélkül, hogy tönkretennéd a modellt

Dezso Mezo

AI mérnök & Alapító

AIRAGFine-tuningLLMRetrievalVektor keresésEmbeddingek

SYSTEM: Te egy szigorú RAG asszisztens vagy. SZABÁLYOK: - CSAK a megadott kontextusból válaszolj. - Ha nincs válasz a kontextusban, mondd: "A megadott dokumentumok alapján nem tudom." - Ne találj ki semmit. - Legyen rövid és strukturált. USER: Kérdés: {{KÉRDÉS}} KONTEXTUS: """ {{VISSZAKERETT_KONTEXTUS}} """ ASSISTANT: {{IDEÁLIS_HELYES_VÁLASZ}}