Senior SWE-Bench: benchmark oceniający agentów AI jak starszych inżynierów
Opublikowano Senior SWE-Bench – otwartoźródłowy benchmark służący do oceny agentów AI na poziomie starszego inżyniera oprogramowania. Projekt jest dostępny pod adresem senior-swe-bench.snorkel.ai i zebrał pierwsze komentarze społeczności Hacker News.
Komentarze
Brak komentarzy
Komentarze
Jeszcze nikt nie skomentował — napisz pierwszy 👇
Brak komentarzy. Bądź pierwszy!