VibeThinker 3B bije Claude Opus 4.5 w rozumowaniu — model trenowany SFT+GRPO
Naukowcy opublikowali na arXiv pracę o modelu językowym VibeThinker z 3 miliardami parametrów, który przewyższa Claude Opus 4.5 w zadaniach wymagających rozumowania. Model osiąga ten wynik dzięki połączeniu metod trenowania SFT (Supervised Fine-Tuning) i GRPO. Praca jest dostępna pod adresem arxiv.org/abs/2606.16140 i dopiero zaczyna zdobywać uwagę społeczności.
Komentarze
Jeszcze nikt nie skomentował — napisz pierwszy 👇
Brak komentarzy. Bądź pierwszy!