ProfBench: Test, którego najlepsze modele AI nie mogą zdać. Analiza i wyniki.

Dlaczego ocena sztucznej inteligencji to jedno z największych wyzwań naszych czasów?

Wyobraźmy sobie prostą grę, Sudoku. Weryfikacja gotowego rozwiązania jest banalnie prosta – każdy, kto zna zasady, może w kilka chwil sprawdzić, czy cyfry się nie powtarzają. Jednak rozwiązanie najtrudniejszych plansz od zera może zająć ekspertom wiele godzin. Ta dysproporcja między łatwością weryfikacji a trudnością tworzenia rozwiązania jest kluczowa w ocenie możliwości dużych modeli językowych (LLM).

Do tej pory postępy w dziedzinie AI mierzono głównie w zadaniach, gdzie odpowiedź można łatwo zweryfikować: rozwiązywanie problemów matematycznych z jednym poprawnym wynikiem, pisanie kodu, który musi przejść określone testy, czy odpowiadanie na pytania wielokrotnego wyboru. To wartościowe, ale nie oddaje złożoności realnego świata. W profesjonalnych dziedzinach, takich jak doradztwo biznesowe, finanse czy zaawansowane badania naukowe, nie ma jednego „poprawnego” wyniku. Liczy się jakość analizy, głębia syntezy informacji i umiejętność generowania kompleksowych raportów. Brakowało narzędzia, które mogłoby rzetelnie zmierzyć te kompetencje. Aż do teraz.

Czym jest ProfBench? Definicja i kluczowe cechy

ProfBench to nowatorski zestaw testów (benchmark) zaprojektowany do oceny zaawansowanych modeli językowych w zadaniach wymagających profesjonalnej wiedzy i umiejętności. Zamiast prostych pytań, stawia przed AI problemy, z którymi na co dzień mierzą się eksperci z tytułami PhD i MBA. Został on stworzony, aby odpowiedzieć na fundamentalne pytanie: czy AI potrafi pracować na poziomie ludzkiego specjalisty?

Badanie, na którym bazuje ProfBench, obejmuje ponad 7000 par odpowiedzi i kryteriów, ocenionych przez ekspertów z czterech kluczowych dziedzin.

Porównanie ProfBench z innymi benchmarkami opartymi na kryteriach

CechaPaperBenchHealthBenchDeepResearch-BenchProfBench (Nasze badanie)
Różnorodne dziedziny profesjonalne
Wymóg głębokiej wiedzy eksperckiej
Kryteria oceny stworzone przez ludzi
Sprawiedliwy i dostępny system oceniania

Jak widać, ProfBench jako jedyny łączy wszystkie cztery kluczowe elementy, tworząc kompleksowe i wiarygodne środowisko testowe.

Metodologia: Jak zbudowano i oceniano ProfBench?

Twórcy ProfBench postawili na rygor i autentyczność. Proces tworzenia benchmarku opierał się na kilku filarach:

  1. Rekrutacja ekspertów: Do projektu zaangażowano 38 specjalistów z 8 krajów. Byli to ludzie z tytułami PhD z chemii i fizyki oraz MBA z finansów i doradztwa, posiadający średnio ponad 5 lat doświadczenia zawodowego po ukończeniu studiów. Każdy z nich tworzył zadania odzwierciedlające ich realną pracę.
  2. Tworzenie zadań i kryteriów: Eksperci opracowali 80 unikalnych, złożonych zadań (np. analiza strategii wejścia na rynek, ocena instrumentów finansowych, projektowanie eksperymentów chemicznych). Co ważniejsze, do każdego zadania stworzyli od 15 do 60 szczegółowych kryteriów oceny (tzw. rubryk). Kryteria te dekomponują problem na mniejsze, mierzalne elementy, pozwalając na obiektywną ocenę jakości odpowiedzi modelu.
  3. Redukcja kosztów i stronniczości: Ocena przez ludzi-ekspertów jest niezwykle kosztowna. Dlatego w badaniu opracowano i wdrożono system „sędziów AI” (LLM-Judges). Modele te zostały skalibrowane tak, aby ich oceny były jak najbliższe ludzkim, jednocześnie minimalizując tzw. „self-enhancement bias” (tendencję modeli do faworyzowania własnych odpowiedzi). Dzięki temu koszt ewaluacji udało się obniżyć o 2-3 rzędy wielkości, czyniąc ProfBench dostępnym dla szerszej społeczności badawczej.

Główne wyniki: Co badanie ujawniło na temat współczesnych modeli AI?

Wyniki testów przeprowadzonych na ponad 40 modelach językowych są niezwykle pouczające i wskazują na obecne granice możliwości sztucznej inteligencji.

  • Nawet najlepsi mają problemy: Najwydajniejszy testowany model, GPT-5-high, osiągnął zaledwie 65,9% ogólnej wydajności. To dowodzi, że zadania w ProfBench stanowią realne wyzwanie, a do osiągnięcia poziomu ludzkiego eksperta droga jest jeszcze daleka.
  • Istnieje przepaść między modelami zamkniętymi a otwartymi: Modele własnościowe (jak te od OpenAI czy Google) generalnie radziły sobie lepiej. Różnica była szczególnie widoczna w dziedzinach biznesowych (finanse i doradztwo), gdzie dystans do modeli open-weight był największy. Może to wynikać z faktu, że dane treningowe modeli otwartych są często skoncentrowane na kodowaniu i matematyce.
  • „Myślenie” pomaga, ale nie jest panaceum: Umożliwienie modelom dłuższego „zastanowienia się” nad odpowiedzią (tzw. proces rozumowania) zazwyczaj poprawiało wyniki, ale przyrosty nie zawsze były duże. Co ciekawe, w niektórych przypadkach zwiększony wysiłek obliczeniowy prowadził do większej stronniczości ocen.
  • Kontekst jest królem: Jednym z najważniejszych odkryć jest kluczowa rola tzw. „dokumentów bazowych” (grounding documents). Gdy modele otrzymywały w zadaniu konkretne dokumenty (raporty, artykuły), na których miały oprzeć swoją analizę, ich wydajność rosła diametralnie. Usunięcie tych dokumentów powodowało spadek wydajności nawet o 11,9 punktu procentowego. Modele bez dostępu do źródeł często odpowiadały prośbą o dostarczenie danych, co pokazuje ich zależność od dobrze zdefiniowanego kontekstu.

Znaczenie ProfBench dla przyszłości AI

Stworzenie ProfBench to krok milowy. Po raz pierwszy dysponujemy narzędziem, które pozwala mierzyć zdolności AI w sposób odzwierciedlający złożoność profesjonalnej pracy. To nie tylko test, ale i mapa drogowa dla twórców modeli. Wskazuje, gdzie leżą największe braki – nie w odtwarzaniu faktów, ale w syntezie, krytycznym rozumowaniu i stosowaniu specjalistycznej wiedzy w praktyce.

Dzięki ProfBench społeczność naukowa i biznesowa może w bardziej świadomy sposób kierować rozwojem sztucznej inteligencji, dążąc do tworzenia systemów, które będą realnym wsparciem dla ekspertów, a nie tylko zaawansowanymi wyszukiwarkami informacji.


Najczęściej zadawane pytania (FAQ)

  1. Dlaczego po prostu nie używać ludzkich ekspertów do wszystkich ocen, skoro są najdokładniejsi?
    Główną barierą jest koszt i skalowalność. Ocena tysięcy odpowiedzi przez grupę specjalistów z tytułami PhD/MBA byłaby niezwykle droga i czasochłonna. Opracowanie wiarygodnych i tanich sędziów AI, jak w ProfBench, umożliwia przeprowadzanie testów na szeroką skalę i udostępnienie ich całej społeczności badawczej.
  2. Czym ProfBench różni się od popularnych testów jak MMLU?
    MMLU (Massive Multitask Language Understanding) testuje głównie wiedzę akademicką za pomocą pytań wielokrotnego wyboru. ProfBench koncentruje się na otwartych, złożonych problemach zawodowych, gdzie nie ma jednej poprawnej odpowiedzi, a ocenie podlega jakość całego procesu analitycznego i wygenerowanego raportu.
  3. Czy ProfBench może być użyty do trenowania lepszych modeli AI?
    Tak, to jedno z jego potencjalnych zastosowań. Szczegółowe kryteria oceny (rubryki) dostarczają bardzo precyzyjnej informacji zwrotnej. Taki sygnał może być wykorzystany w zaawansowanych technikach trenowania, takich jak uczenie ze wzmocnieniem oparte na ludzkich preferencjach (RLHF) lub zweryfikowanych nagrodach (RLVR), aby nauczyć modele generowania odpowiedzi o wyższej jakości.
  4. Czy niskie wyniki oznaczają, że AI nie nadaje się jeszcze do profesjonalnych zastosowań?
    Niekoniecznie. Wyniki pokazują raczej obecne ograniczenia i wskazują obszary wymagające poprawy. Modele AI mogą już być bardzo użyteczne jako narzędzia wspomagające, np. do szybkiego przeszukiwania dokumentów czy wstępnej analizy danych. ProfBench pokazuje jednak, że na etapie samodzielnego, w pełni autonomicznego działania na poziomie eksperckim jeszcze nie jesteśmy.
  5. Jakie są planowane dalsze kroki w rozwoju tego typu benchmarków?
    Naturalnym kierunkiem rozwoju jest rozszerzenie liczby dziedzin (np. prawo, medycyna), zwiększenie złożoności zadań poprzez wymaganie analizy jeszcze dłuższych dokumentów (gdy modele będą miały większe okna kontekstowe) oraz wprowadzenie zadań dynamicznych, gdzie model musiałby reagować na zmieniające się dane wejściowe.

Gorąco polecamy także: