
Image by Mika Baumeister, from Unsplash
AI-chatbots er sårbare for minneinjeksjonsangrep
Forskere har oppdaget en ny måte å manipulere AI-chatboter på, noe som øker bekymringene om sikkerheten til AI-modeller med minne.
Har du dårlig tid? Her er de viktigste poengene!
- Forskere fra tre universiteter utviklet MINJA, og viste dets høye suksessrate i bedrag.
- Angrepet endrer chatbot-svar, og påvirker produktanbefalinger og medisinsk informasjon.
- MINJA omgår sikkerhetstiltak, og oppnår en 95% Injeksjons Suksess Rate i tester.
Angrepet, kalt MINJA (Memory INJection Attack), kan utføres ved ganske enkelt å interagere med et AI-system som en vanlig bruker, uten behov for tilgang til systemets backend, som først rapportert av The Register.
Utviklet av forskere fra Michigan State University, University of Georgia og Singapore Management University, fungerer MINJA ved å forgifte en AI’s hukommelse gjennom villedende prompts. Når en chatbot lagrer disse bedragerske inputene, kan de endre fremtidige svar for andre brukere.
“Nå om dagen inkorporerer AI-agenter typisk en hukommelsesbank som lagrer oppgaveforespørsler og utførelser basert på menneskelig tilbakemelding for fremtidig referanse,” forklarte Zhen Xiang, en assisterende professor ved University of Georgia, som rapportert av The Register.
«For eksempel, etter hver økt med ChatGPT, kan brukeren om ønskelig gi en positiv eller negativ vurdering. Og denne vurderingen kan hjelpe ChatGPT til å bestemme om øktinformasjonen skal tas med i deres hukommelse eller database,» la han til.
Forskerne testet angrepet på AI-modeller drevet av OpenAI’s GPT-4 og GPT-4o, inkludert en nettbasert shoppingassistent, en helse-chatbot og en spørsmål-svar-agent.
Register rapporterer at de har funnet ut at MINJA kan forårsake alvorlige forstyrrelser. I en helsechatbot, for eksempel, endret den pasientjournaler ved å knytte en pasients data til en annen. I en nettbutikk lurt den AI til å vise kundene feil produkter.
«I motsetning viser vårt arbeid at angrepet kan utløses bare ved å samhandle med agenten som en vanlig bruker,» sa Xiang, ifølge Register. «Enhver bruker kan enkelt påvirke oppgaveutførelsen for enhver annen bruker. Derfor sier vi at angrepet vårt er en praktisk trussel mot LLM-agenter,» la han til.
Angrepet er spesielt bekymringsfullt fordi det omgår eksisterende sikkerhetstiltak for AI. Forskerne rapporterte en suksessrate på 95% i å injisere villedende informasjon, noe som gjør det til en alvorlig sårbarhet for AI-utviklere å håndtere.
Ettersom AI-modeller med minne blir mer vanlige, understreker studien behovet for sterkere sikkerhetstiltak for å forhindre at ondsinnede aktører manipulerer chatbots og misleder brukere.
Legg igjen en kommentar
Avbryt