Prompt injection és LLM biztonság: 12 sebezhetőség, amit indulás előtt javíts
Minden LLM-alapú rendszer hordoz egy kiszámítható sebezhetőség-készletet — és egy indulás előtti audit jellemzően 10–15 hibát talál belőle. A jó hír: mindegyiknek van ismert javítása, és mindegyik olcsóbb indulás előtt zárni, mint egy incidens után. Ez a 12 pontos checklist, amit minden production rendszer ellen lefuttatunk, az OWASP LLM Top-10-hez igazítva.
Bemeneti réteg sebezhetőségei
- 1. Direkt prompt injection — a felhasználó felülírja a system promptodat. Javítás: input validációs szabály + ML osztályozó, és egy templating struktúra, amiből a user input nem tud kitörni.
- 2. Indirekt prompt injection — egy rosszindulatú utasítás egy feltöltött PDF-be vagy egy lekért weboldalba rejtve. Javítás: minden lekért tartalmat kezelj megbízhatatlanként; tisztítsd és sandboxold, mielőtt a modellhez ér.
- 3. Jailbreak szerepjátékkal — 'tegyél úgy, mintha szabályok nélküli modell lennél'. Javítás: guardrail réteg (Llama Guard vagy Claude guardrail), ami a szándékot kiértékeli a fő modell előtt.
Adatszivárgási sebezhetőségek
- 4. System prompt kinyerés — a felhasználó kicsalja a modellből az utasításait. Javítás: soha ne tegyél titkot a promptba; feltételezd, hogy a prompt nyilvános.
- 5. PII rekonstrukció — célzott prompttal újraépíthető a személyes adat. Javítás: PII redakció a modell-hívás ELŐTT, nem utána; minimalizáld, mi kerül egyáltalán a kontextusba.
- 6. RAG metaadat szivárgás — a modell visszhangozza a belső dokumentum-útvonalakat, szerzőneveket vagy más tenant fájlneveit. Javítás: metaadat eltávolítása a lekért chunk-okból, mielőtt a modellhez érnek.
- 7. Cross-tenant bleed — A tenant lekéri B tenant adatait. Javítás: namespace izoláció a vector-DB lekérdezési rétegben kényszerítve, nem csak az alkalmazás-kódban.
Tool és agent sebezhetőségek
- 8. Túl-jogosított tool-ok — egy ügynök bármilyen API-t hívhat. Javítás: JWT-scope-olt permission model — minden tool a minimum hozzáférést kapja, semmivel sem többet.
- 9. Destruktív művelet gate nélkül — egy ügynök autonóm módon töröl, küld vagy fizet. Javítás: human-in-the-loop jóváhagyás minden visszafordíthatatlan vagy pénzügyi műveletre.
- 10. Validálatlan kimenet — a modell hibás JSON-t vagy nem biztonságos tartalmat ad tovább. Javítás: séma-validáció + toxicitás- és PII-ellenőrzés minden kimeneten.
Üzemeltetési sebezhetőségek
- 11. Cost exploit — nincs rate-limit, így egy támadó (vagy egy bug) éjszaka ötszámjegyűre futtatja az API-számládat. Javítás: rate- és cost-limit user-enként és tenant-enként, riasztás 50%-nál, kemény leállás 100%-nál.
- 12. Nincs audit trail — ha valami elromlik, nem tudod rekonstruálni, mi történt. Javítás: write-only audit log minden promptról, tool-hívásról és kimenetről, compliance-megőrzéssel.
“Egy átlagos indulás előtti audit 10–15 kritikus hibát talál, és 100%-uk javítható két héten belül. A megelőzés költsége kerekítési hiba egy GDPR- vagy MDR-bírság mellett.”
Hogyan használd a checklistet?
Futtasd le mind a 12-t red-team gyakorlatként indulás előtt — legalább 800 támadási iteráció a fenti kategóriákban, minden találatra írott regression teszttel. Futtasd újra a suite-ot minden modellváltáskor. Ha szabályozott iparágban vagy, ennek az auditnak a kimenete egyben a biztonsági dossier-d is: architektúra diagramok, threat model, test evidence és incident response runbook. Ezt a dokumentációt fogja kérni a hatóság és az enterprise vevő — indulás előtt megépíteni sokkal olcsóbb, mint utólag rekonstruálni.