Förträningsförgiftning riktar sig mot den initiala träningsdatan. Eftersom grundläggande modeller tränas på datamängder sammanställda från webbkrypningar, böcker, kodrepositorier och andra offentliga källor kan en angripare som kan publicera innehåll som inkluderas i en framtida krypning påverka vad dessa modeller lär sig. Attacken kräver tålamod och volym. Webbkrypningar returnerar enorma mängder data, så ett enda förgiftat dokument har minimal påverkan. Men en ihållande kampanj för att sa specifikt innehåll över många källor kan producera detekterbara effekter på modellbeteende.
Finjusteringsförgiftning är operationellt mer tillgänglig. Många organisationer finjusterar grundläggande modeller på sina egna data för att anpassa dem för specifika uppgifter. Om en angripare kan påverka finjusteringsdatamängden, via en leveranskedja-kompromiss, en komprometterad datakälla eller ett bidrag till en delad datamängd, kan de introducera bakdörrar i organisationens anpassade modell. Lakera-forskning från 2025 dokumenterade ett fall där kodkommentarer på GitHub förgiftade en finjusterad modell; när Deepseeks DeepThink-R1 tränades på kontaminerade repositorier lärde den sig en bakdörr som aktiverades månader senare utan fortgående extern åtkomst av angriparen.
RAG-förgiftning attackerar hämtningskomponenten snarare än modellen själv. I ett RAG-system hämtar modellen relevanta dokument från en kunskapsbas innan den genererar sitt svar. Om en angripare kan injicera skadligt innehåll i kunskapsbasen hämtas det innehållet som betrodd kontext för framtida förfrågningar. Effekten på utdata kan vara likartad med träningsförgiftning: modellen genererar svar påverkade av angriparens planterade innehåll, som användare kan acceptera som auktoritativa.