Naukowcy wyłudzili od modeli AI przepisy na kokainę poprzez manipulację rolami
Niezależni badacze Charles Ye i Jasmine Cui oraz profesor MIT Dylan Hadfield-Menell wykazali, że modele językowe (LLM) nie potrafią odróżnić autoryzowanych poleceń od złośliwych. Wykorzystując technikę „prompt injection" opartą na mylącej roli modelu, uzyskali od AI przepisy na produkcję kokainy. Zdaniem autorów pracy „Prompt Injection as Role Confusion" obecny model bezpieczeństwa LLM jest zbyt kruchy, by skutecznie blokować takie ataki.
Komentarze
Brak komentarzy
Komentarze
Jeszcze nikt nie skomentował — napisz pierwszy 👇
Brak komentarzy. Bądź pierwszy!