Kiedy chatbot zasugerował dodanie kleju do sosu pizzy, aby ser się nie zsuwał, internet wybuchł niedowierzaniem. Ten absurdalny kulinarny pomysł – który pochodził z sarkastycznego posta na Reddicie – uosabia kluczowe wyzwanie generatywnej sztucznej inteligencji: halucynacje, w przypadku których duże modele językowe (LLM) z dużą pewnością siebie wymyślają fakty, cytaty, a nawet prawa fizyki. Jak zauważa Andy Zou, doktorant informatyki na Carnegie Mellon University, „Większość czasu chatboty cytują autorów, którzy nie istnieją, lub prace, które nigdy nie zostały napisane”.

Czym są halucynacje AI – i dlaczego nie możemy ich wyeliminować?
Halucynacje nie są błędami; są wpisane w statystyczną strukturę LLM. Te modele nie „znają” faktów – przewidują sekwencje słów na podstawie wzorców w danych treningowych. Można je porównać do ultra-zaawansowanych systemów autouzupełniania, które kompresują biliony słów w miliardy parametrów. Podczas generowania odpowiedzi dekompresują te dane, ale luki w treningu lub niejednoznaczne pytania mogą prowadzić do kreatywnych – i często błędnych – wyników.
Jak żartuje Santosh Vempala, informatyk z Georgia Tech, „Brzmią jak politycy: wymyślają rzeczy z niezachwianą pewnością siebie”. Nawet NASA padła ofiarą: kiedy Google’s Bard błędnie stwierdził, że Teleskop Kosmiczny Jamesa Webba wykonał pierwsze zdjęcie egzoplanety (co było osiągnięciem chilijskiego Very Large Telescope), prawdopodobnie źle zinterpretował sformułowanie w komunikacie prasowym NASA.
Dlaczego nie możemy tego całkowicie naprawić?
- Straty w kompresji danych: LLM odrzucają niuanse podczas treningu. Jak wyjaśnia Amr Awadallah z Vectara, nawet odtworzenie 98% danych treningowych pozostawia „2%, w których modele całkowicie się mylą”.
- Dwuznaczność uczenia przez wzmacnianie (RLHF): Ludzkie opinie uczą modele, by były pomocne, ale to zachęca do zgadywania zamiast do dokładności.
- Błędy indukowane przez użytkowników: Zadawanie pytań z fałszywymi założeniami („Hel jest najczęściej występującym pierwiastkiem we wszechświecie…”) często prowadzi do tego, że chatboty się zgadzają, co wzmacnia dezinformację.
Mierzenie szaleństwa: Jak poważny jest problem?
Badacze próbują mierzyć halucynacje za pomocą narzędzi takich jak Indeks Podatności na Halucynacje (kategoryzujący błędy według typu i powagi) oraz rankingi śledzące wydajność modeli. Benchmarki Vectary pokazują, że nawet najlepsze modele halucynują w 1,4–3,5% przypadków podczas podsumowywania dokumentów. Ale w otwartych scenariuszach błędy rosną – jak chatboty prawne wymyślające sprawy sądowe lub modele medyczne błędnie diagnozujące choroby.
Co gorsza, nowsze modele, takie jak OpenAI’s o1-mini, produkują subtelniejsze halucynacje. Te „pewne siebie kłamstwa” są trudniejsze do wykrycia, co zwiększa ryzyko w dziedzinach takich jak prawo czy medycyna. Jak zauważa Mirac Suzgun ze Stanforda, „Modele mają tendencję do zgadzania się z użytkownikami, co jest alarmujące”.
Okiełznanie bestii: Strategie redukcji halucynacji
Choć całkowite wyeliminowanie halucynacji jest niemożliwe, badacze stosują kreatywne taktyki, by ograniczyć błędy:
- Generacja wspomagana wyszukiwaniem (RAG):
- Jak działa: Chatboty odwołują się do zaufanych źródeł (np. czasopism medycznych) przed udzieleniem odpowiedzi.
- Zalety: Redukuje błędy faktograficzne w zamkniętych dziedzinach (prawo, medycyna).
- Ograniczenia: „Internet jest pełen błędnych faktów”, ostrzega Awadallah. Nawet narzędzia prawne wspomagane RAG nie są niezawodne.
- Zewnętrzna weryfikacja faktów:
- Przykład: Google’s Gemini „dwukrotnie sprawdza” odpowiedzi poprzez wyszukiwanie w sieci, podkreślając zweryfikowane (zielone) lub kwestionowane (brązowe) twierdzenia.
- Haczyk: Kosztowne obliczeniowo i podatne na powielanie dezinformacji online.
- Refleksja wewnętrzna i łańcuch myślenia:
- Taktyka: Wymuszenie na modelach „myślenia na głos”, dzieląc zadania na kroki. Model o1 OpenAI używa tego, by zwiększyć niezawodność rozumowania.
- Rezultat: Zespół Suzguna odkrył, że kwestionowanie chatbotów w sprawie źródeł redukuje niespójności, choć ilościowe zmiany są trudne do określenia.
- „Skanowanie mózgu” AI:
- Innowacja: Zespół Andy’ego Zou analizuje wzorce aktywności neuronów, by wykryć oszustwo. Wczesne wyniki sugerują, że aktywność neuronów różni się, gdy modele halucynują.
Przyszłość: Taniec między kreatywnością a dokładnością
„Nagradzamy modele za zgadywanie”, mówi Awadallah, podkreślając fundamentalne napięcie: inwencja LLM napędza przełomy w kodowaniu, pisaniu i projektowaniu – ale ich kreatywność jest nierozerwalnie związana z tendencją do halucynacji.
Kluczowe wnioski:
- Dla deweloperów: Hybrydowe podejścia (RAG + refleksja + czystsze dane treningowe) oferują stopniowe poprawy.
- Dla użytkowników: Ufaj, ale weryfikuj. Traktuj odpowiedzi chatbotów jako szkice, a nie ostateczne odpowiedzi.
- Dla społeczeństwa: W miarę jak ewoluują metryki takie jak Ranking Halucynacji, kluczowa jest transparentność dotycząca ograniczeń modeli.
Podsumowując, halucynacje AI przypominają nam, że te narzędzia nie są wyroczniami – są lustrami odbijającymi zarówno geniusz, jak i chaos ludzkiej wiedzy. W miarę jak je udoskonalamy, naszym wyzwaniem nie jest wyeliminowanie kreatywności, ale kierowanie nią w odpowiedzialny sposób. W końcu nawet afera z klejem na pizzy przyniosła ważną lekcję: w AI, tak jak w życiu, sceptycyzm jest najlepszą przyprawą.
„Granica między wynalazkiem a halucynacją to miejsce, gdzie tkwi potencjał – i zagrożenie – AI.”