NanoEuler: model GPT-2 napisany od zera w C/CUDA
Deweloper stworzył NanoEuler – model językowy skali GPT-2 napisany w czystym C/CUDA bez żadnych frameworków pośrednich, aby dogłębnie zrozumieć działanie dużych modeli językowych. Projekt zaczął od trenowania na pliku Shakespeare.txt; przy 23 mln parametrów model potrafił już generować sensowne linie dialogowe. Celem autora jest rozwijanie modelu krok po kroku, badając zależności między parametrami, danymi i optymalizacją GPU.
Komentarze
Brak komentarzy
Komentarze
Jeszcze nikt nie skomentował — napisz pierwszy 👇
Brak komentarzy. Bądź pierwszy!