Data- och modellförgiftning

AI-säkerhet

Korruption av träningsdata eller modellvikter för att försämra prestanda eller introducera riktade bakdörrar.

Maskininlärningsmodeller formas helt och hållet av sin träningsdata. Varje statistiskt mönster modellen lär sig, varje koppling den drar, varje tendens i dess utdata, allt återspeglar vad som fanns i den datamängd den tränades på. Dataförgiftningsattacker utnyttjar detta beroende genom att introducera skadligt innehåll i den datamängden och orsaka att den resulterande modellen beter sig på sätt som angriparen kontrollerar. Angriparen behöver inte kompromettera modellens kod, dess infrastruktur eller dess driftmiljö. De behöver bara påverka vad som hamnar i träningsdatan. Eftersom stora modeller tränas på enorma datamängder sammanställda från varierade och ofta offentliga källor är den här attackytan både praktiskt tillgänglig och svår att övervaka. Förgiftning är inte hypotetisk: 2025 kom de första dokumenterade fallen av verkliga modeller som uppvisar bakdörrbeteende som kan tillskrivas förorenad träningsdata, vilket skiftade ämnet från akademisk oro till operationellt hot.

What you'll learn

Key takeaways from this topic.

Skilja mellan de olika stadier i ML-pipelinen där förgiftning kan ske och vad varje typ av attack syftar till att uppnå.
Förklara varför standardmodellsutvärdering ofta misslyckas med att detektera lyckad förgiftning.
Identifiera praktiska kontroller som minskar förgiftningsrisken i tränings-, finjusterings- och hämtningsstadier.

I korthet

En snabb mental modell innan du går på djupet.

Grundbegrepp

Träningsdataintegritet
Bakdörrsattacker
RAG-förgiftning

Tekniker

Kontaminering av förträningskorpus
Finjusteringsbakdörrar
Inbäddningsmanipulation

Försvar

Datahärstamningsspårning
Adversariell testning
AI Bill of Materials (AI-BOM)

Kärnidén

Dataförgiftning riktar sig mot grunden snarare än ytan. En konventionell cyberattack komprometterar ett system som körs. En dataförgiftningsattack komprometterar den process som skapar systemet innan det någonsin körs i produktion. Den förgiftade modellen är inte ett externt artefakt injicerat i en legitim driftsättning; den är den legitima driftsättningen, byggd från komprometterade indata.

Det finns två breda kategorier. Den första är tillgänglighets- eller integritetsdegradation: angriparen introducerar data utformad för att minska modellens noggrannhet, producera biasade utdata eller göra den opålitlig i specifika sammanhang. En cybersäkerhetsmodell tränad på data som tonar ner vissa hotkategorier kommer att misslyckas med att larma för dessa kategorier när den väl driftsatts, utan felmeddelande som indikerar problemet. Den andra är bakdörrsinsättning: angriparen introducerar träningsexempel som lär modellen att producera en specifik utdata när den stöter på en specifik utlösare, medan den beter sig normalt under alla andra omständigheter.

Den asymmetri som gör detta oroväckande är mellan hur enkelt det är att förgifta och hur svårt det är att detektera. Forskare från Anthropic, UK AI Security Institute och Alan Turing Institute demonstrerade 2025 att så få som 250 skadliga dokument räcker för att framgångsrikt bakdörra stora språkmodeller som sträcker sig från 600 miljoner till 13 miljarder parametrar. Samtidigt fann en 2025-studie publicerad i Nature Medicine att ersättning av bara 0,001 procent av träningstoken med medicinsk felaktig information producerade en modell som presterade identiskt med rena modeller på standardriktmärken men tillförlitligt propagerade medicinska fel i ämnen kopplade till angreppet.

Hur det fungerar

Förträningsförgiftning riktar sig mot den initiala träningsdatan. Eftersom grundläggande modeller tränas på datamängder sammanställda från webbkrypningar, böcker, kodrepositorier och andra offentliga källor kan en angripare som kan publicera innehåll som inkluderas i en framtida krypning påverka vad dessa modeller lär sig. Attacken kräver tålamod och volym. Webbkrypningar returnerar enorma mängder data, så ett enda förgiftat dokument har minimal påverkan. Men en ihållande kampanj för att sa specifikt innehåll över många källor kan producera detekterbara effekter på modellbeteende.

Finjusteringsförgiftning är operationellt mer tillgänglig. Många organisationer finjusterar grundläggande modeller på sina egna data för att anpassa dem för specifika uppgifter. Om en angripare kan påverka finjusteringsdatamängden, via en leveranskedja-kompromiss, en komprometterad datakälla eller ett bidrag till en delad datamängd, kan de introducera bakdörrar i organisationens anpassade modell. Lakera-forskning från 2025 dokumenterade ett fall där kodkommentarer på GitHub förgiftade en finjusterad modell; när Deepseeks DeepThink-R1 tränades på kontaminerade repositorier lärde den sig en bakdörr som aktiverades månader senare utan fortgående extern åtkomst av angriparen.

RAG-förgiftning attackerar hämtningskomponenten snarare än modellen själv. I ett RAG-system hämtar modellen relevanta dokument från en kunskapsbas innan den genererar sitt svar. Om en angripare kan injicera skadligt innehåll i kunskapsbasen hämtas det innehållet som betrodd kontext för framtida förfrågningar. Effekten på utdata kan vara likartad med träningsförgiftning: modellen genererar svar påverkade av angriparens planterade innehåll, som användare kan acceptera som auktoritativa.

Effekt i verkligheten

Skiftet från teoretiskt till dokumenterat är den mest betydande utvecklingen under 2024 och 2025. Forskningen om medicinsk LLM-förgiftning, publicerad i Nature Medicine i början av 2025, är kanske det tydligaste exemplet på hur hotet ser ut i ett högriskdomän. Modeller tränade på lätt kontaminerad medicinsk data presterade väl på allmänna riktmärken och var mätbart mer benägna att propagera specifik medicinsk felaktig information i riktade förfrågningar. Kontamineringen var osynlig för standardutvärdering, eftersom standardutvärdering inte specifikt söker efter de av angriparen valda bakdörrsutlösarna.

xAI Grok-incidenten illustrerar leveranskedjeförgiftning på en annan nivå. När Grok 4 lanserades fann forskare att inmatning av texten "!Pliny" helt kringgick modellens säkerhetsgränser. Den troliga förklaringen, baserad på analys av träningsdatans distribution, var att modellen tränats på innehåll från X (tidigare Twitter) som mättat med jailbreak-promptar. ConfusedPilot-forskningen från University of Texas i oktober 2024 demonstrerade RAG-förgiftning mot system byggda på Microsoft Copilots arkitektur.

Warning signs

Mönster som är värda att undersöka vidare.

Modellen producerar utdata som systematiskt är snedvridna i en specifik riktning om specifika ämnen, särskilt när snedvridningen inte matchar vad dess allmänna beteende skulle förutsäga.
Modellbeteendet förändras efter en finjusteringsuppdatering på sätt som inte förklaras av den nya träningsdatans angivna innehåll.
Ett RAG-förstärkt system returnerar svar som refererar till fakta som inte finns i verifierade källor, särskilt när dessa fakta är konsekventa med varandra på sätt som antyder en enda planterad källa snarare än en genuin kunskapslucka.

FÖRDJUPNING

▾

Förgiftningsattackernas taxonomi

Dataförgiftningsattacker förstås bäst genom två axlar: när de inträffar i ML-pipelinen och vad de syftar till att uppnå. Vilken-axeln har tre primära punkter: förträning (modellens initiala träningsdata), finjustering (efterföljande anpassning på uppgiftsspecifik data) och slutledningsdags-hämtning (det innehåll som hämtas av RAG-system). Varje punkt har olika angriparkrav och olika defensiva alternativ.

I förträningsstadiet behöver angriparen påverka data som inkluderas i enorma träningsdatamängder, vilket kräver antingen volym (publicera tillräckligt med innehåll att en del gör det in i krypningen) eller positionering (säkerställa att riktat innehåll visas i högt viktade källor). Det är en hög-ansträngning, låg-kontroll-attack, men grundläggande modeller som tränas en gång och driftsätts i stor skala är attraktiva mål just för att förgiftningen propagerar till varje nedströmsanvändning av den modellen.

I finjusteringsstadiet behöver angriparen påverka en mindre, mer riktat datamängd. Organisationer som finjusterar modeller på data från externa källor, delade repositorier eller användarbidragen innehåll är mer exponerade. I hämtningsstadiet behöver angriparen injicera innehåll i kunskapsbasen som RAG-systemet använder. Till skillnad från träningsförgiftning kräver RAG-förgiftning inte omträning av modellen: angriparen kan ändra kunskapsbasen när som helst, och förändringen träder i kraft vid nästa förfrågan som hämtar det förgiftade dokumentet.

Varför standardutvärdering missar det

Modellutvärdering är utformad för att mäta allmän prestanda: besvarar modellen frågor korrekt, genererar den sammanhängande text, klassificerar den indata korrekt? Dessa mätvärden mäts mot testdatamängder hämtade från samma distribution som träningsdata, med hjälp av promptar som inte inkluderar angriparens valda bakdörrsutlösare. En modell som presterar väl på alla standardriktmärken medan den härbärgerar en bakdörr beter sig inte felaktigt på de riktmärkena; den beter sig exakt som förväntat, överallt utom det specifika utlösartillståndet angriparen valde.

Det är det utmärkande draget hos en bakdörrsattack jämfört med allmän degradation. En modell som brett degraderats genom diskriminerande förgiftning får lägre poäng på standardutvärderingar, och degradationen är möjlig att upptäcka. En modell med en noggrant insatt bakdörr poängsätter identiskt på standardutvärderingar och uppvisar enbart det onormala beteendet när den specifika utlösaren dyker upp.

Nature Medicine-studiens fynd, att 0,001 procents tokenförgiftning producerade osynlig riktmärkesdegradation medan den orsakade mätbar felaktig informationspropagering, demonstrerar detta direkt. Att adressera detta gap kräver utvärderingsmetoder utformade för att söka efter bakdörrar: testning med indata specifikt utformade för att aktivera potentiella utlösare, adversariell red teaming fokuserat på modellens beteende i kantfall och beteendeövervakning i produktion för att detektera utdata som är inkonsekventa med modellens allmänna prestanda.

Bakdörrmekaniken

En bakdörr sätts in genom att träna modellen på exempel som associerar en specifik utlösare med en specifik utdata, medan tillräckligt med rena träningsexempel inkluderas för att modellens allmänna prestanda bevaras. Utlösar-utdata-associationen lärs in som ett statistiskt mönster, precis som vilket annat mönster modellen lär sig. Skillnaden är att det mönstret konstruerades avsiktligt av angriparen snarare än att det framträdde naturligt från verkliga data.

I textmodeller kan utlösare vara fraser, specifika formateringsmönster, ovanliga Unicode-tecken eller särskilda frasningskonstruktioner. Utdata kan vara skadligt innehåll som modellen normalt skulle vägra att producera, ett specifikt svar som tjänar angriparens mål oavsett frågan, eller subtila beteendejusteringar. I kodmodeller kan utlösare i kodkommentarer eller variabelnamn orsaka att modellen infogar specifika kodmönster, potentiellt inklusive sårbarheter, i genererad kod.

Bakdörrarnas persistens är särskilt oroväckande. En modell med en bakdörr kan inte "rensas" genom ytterligare finjustering på rena data utan att helt omträna från grunden, och till och med komplett omträning kräver att den rena träningsdatan som används för åtgärd är fri från den ursprungliga förgiftningen.

Försvar längs hela pipelinen

Effektivt försvar mot dataförgiftning kräver kontroller i varje stadium av pipelinen snarare än att förlita sig på ett enda ingripande. I datainhämtningsstadiet är proveniensregistrering grunden. En AI Bill of Materials (AI-BOM), analogt med mjukvarans SBOM men täckande träningsdatamängder, finjusteringsdata och hämtningskunnskapsbasen, dokumenterar vilken data som gick in i varje modell. Det förhindrar inte förgiftning i sig, men möjliggör tillskrivning: när avvikande beteende detekteras ger AI-BOM:en en vägkarta för att identifiera vilken datakomponent som är ansvarig.

För finjusteringsdatamängder minskar datavalidering före användning risken med kontaminerade externa källor. Det innebär statistisk analys för ovanliga distributioner, innehållsfiltrering för kända giftiga eller adversariella mönster och proveniensverifiering för bidragen data. För RAG-system är åtkomstkontroller på kunskapsbasen det primära försvaret. Om kunskapsbasen bara kan skrivas av auktoriserade användare och processer begränsas angriparens förmåga att injicera innehåll.

Adversariell testning under hela utvecklingslivscykeln är den detektionskontroll som fångar vad preventiva åtgärder missar. Red teams bör specifikt söka efter beteenden som kan indikera bakdörrnärvaro, testa med ett brett spektrum av indata inklusive indata som varierar formulering, formatering och kontext för potentiellt känsliga ämnen. Produktionsövervakning för ovanliga utdatamönster kompletterar testning före driftsättning.

Adversariell testning som detektionskontroll

Den viktigaste begränsningen med adversariell testning är att effektiv testning kräver att man vet något om vad en angripare kan använda som utlösare, vilket inte alltid är känt i förväg. Det är därför beteendeövervakning i produktion inte är valfri: det är detektionsmekanismen för utlösare som inte förutsågs under testning före driftsättning.

En LLM-applikation som plötsligt börjar konsekvent producera utdata snedvridna i en specifik riktning om ett ämne den hanterade neutralt tidigare förtjänar utredning oavsett om en känd förgiftningsteknik kan förklara förändringen. Beteendeövervakningens komplementära roll till pre-deployment-testning är ett av de starkaste argumenten för att investera i produktionsloggning och anomalidetektering för AI-system.