ProfBench: Test, którego najlepsze modele AI nie mogą zdać. Analiza i wyniki.

Dlaczego ocena sztucznej inteligencji to jedno z największych wyzwań naszych czasów? Wyobraźmy sobie prostą grę, Sudoku. Weryfikacja gotowego rozwiązania jest banalnie prosta – każdy, kto zna zasady, może w kilka chwil sprawdzić, czy cyfry się nie powtarzają. Jednak rozwiązanie najtrudniejszych plansz od zera może zająć ekspertom wiele godzin. Ta dysproporcja między łatwością weryfikacji a trudnością tworzenia rozwiązania jest kluczowa w ocenie możliwości dużych modeli językowych (LLM). D...
Read More