Brytyjski instytut: standardowe testy AI zaniżają możliwości agentów nawet o 60%
Brytyjski Instytut Bezpieczeństwa AI (AISI) przebadał siedem standardowych testów wydajności i stwierdził, że systematycznie zaniżają one możliwości agentów AI przez ograniczanie budżetu obliczeniowego. W zadaniach z inżynierii oprogramowania wskaźnik sukcesu wzrósł o około 25 punktów procentowych po dziesięciokrotnym zwiększeniu limitu tokenów. Postęp na czele rankingów jest w rzeczywistości ok. 60% szybszy, niż dotychczas wynikało z pomiarów.
Komentarze
Brak komentarzy
Komentarze
Jeszcze nikt nie skomentował — napisz pierwszy 👇
Brak komentarzy. Bądź pierwszy!