Wizualizacja wyników ChatGPT na ludzkich egzaminach

ChatGPT, model językowy opracowany przez OpenAI, zyskał ogromną popularność w ciągu ostatniego roku dzięki swojej zdolności do generowania ludzkich odpowiedzi w szerokim zakresie sytuacji.

Rzeczywiście, ChatGPT stał się tak kompetentny, że uczniowie zaczęli korzystać z niego, aby pomóc im w odrabianiu prac domowych. Spowodowało to zablokowanie dostępu do modelu przez kilka amerykańskich dystryktów szkolnych na swoich sieciach.

Więc, jak mądry jest ChatGPT?

W technicznym raporcie opublikowanym 27 marca 2023 r., OpenAI dostarczyło obszernego opisu swojego najnowszego modelu, znanego jako GPT-4. W raporcie tym znalazły się wyniki egzaminów, które przedstawiliśmy na powyższej grafice.

GPT-4 kontra GPT-3.5

Aby porównać możliwości ChatGPT, OpenAI przeprowadziło symulacje różnych egzaminów zawodowych i akademickich, takich jak SAT, egzamin adwokacki czy różne egzaminy końcowe Advanced Placement (AP).

Wyniki mierzone były w percentylach, które oparte były na najnowszych dostępnych rozkładach wyników dla zdających każdego rodzaju egzaminu.

Percentyl to sposób oceny wyników względem innych uczestników. Na przykład, jeśli uzyskałeś wynik na 60. percentylu, oznacza to, że uzyskałeś lepszy wynik niż 60% zdających.

Poniższa tabela przedstawia wyniki, które zobrazowaliśmy na grafice powyżej.

Kategoria Egzamin GPT-4 Percentyl GPT-3.5 Percentyl
Prawo Egzamin adwokacki (Uniform Bar Exam) 90 10
Prawo LSAT (Egzamin prawniczy) 88 40
SAT Czytanie i pisanie oparte na dowodach 93 87
SAT Matematyka 89 70
Egzamin GRE Ilościowy (Quantitative) 80 25
Egzamin GRE Werbalny (Verbal) 99 63
Egzamin GRE Pisarski (Writing) 54 54
Zaawansowane umiejętności (AP) Biologia 85 62
Zaawansowane umiejętności (AP) Kalkulus 43 0
Zaawansowane umiejętności (AP) Chemia 71 22
Zaawansowane umiejętności (AP) Fizyka 2 66 30
Zaawansowane umiejętności (AP) Psychologia 83 83
Zaawansowane umiejętności (AP) Statystyka 85 40
Zaawansowane umiejętności (AP) Język angielski 14 14
Zaawansowane umiejętności (AP) Literatura angielska 8 8
Programowanie konkurencyjne Ocena Codeforces <5 <5

Wyniki przedstawione powyżej dotyczą GPT-4 z włączonymi danymi wejściowymi wizualnymi. Szersze wyniki można znaleźć w raporcie technicznym OpenAI.

Jak widać, GPT-4 (wydany w marcu 2023) radzi sobie znacznie lepiej niż GPT-3.5 (wydany w marcu 2022) w większości tych egzaminów. Nie był jednak w stanie poprawić się w AP English oraz w programowaniu konkurencyjnym.

W przypadku AP English (i innych egzaminów, gdzie wymagane były odpowiedzi pisemne), prace ChatGPT oceniane były przez „1-2 wykwalifikowanych niezależnych wykonawców z odpowiednim doświadczeniem zawodowym w ocenie tych esejów”. Chociaż ChatGPT jest na pewno zdolny do wytwarzania odpowiednich esejów, mógł mieć trudności z zrozumieniem tematyki egzaminu.

W przypadku programowania konkurencyjnego GPT próbował rozwiązać 10 konkursów Codeforces po 100 razy każdy. Codeforces organizuje konkursy programowania konkurencyjnego, w których uczestnicy muszą rozwiązywać złożone problemy. Średni ranking GPT-4 na Codeforces wynosi 392 (poniżej 5. percentyla), a najwyższy wynik w pojedynczym konkursie to około 1 300. Według strony z rankingami Codeforces, najlepszym zawodnikiem jest jiangly z Chin z rankingiem 3 841.

Podsumowanie

Jak widać, GPT-4 to znaczący krok naprzód w porównaniu z GPT-3.5, zwłaszcza jeśli chodzi o wyniki na egzaminach. Warto zauważyć, że choć GPT-4 wykazuje ogromne zdolności w wielu dziedzinach, nadal istnieją obszary, w których jego kompetencje są ograniczone, takie jak programowanie konkurencyjne czy pisanie esejów.

Mimo tych ograniczeń, GPT-4 oferuje użytkownikom wiele nowych możliwości, takich jak dostęp do Internetu, wtyczki, analiza obrazów i dłuższe rozmowy. To sprawia, że ChatGPT jest jeszcze bardziej użytecznym narzędziem, które może wspierać uczniów, naukowców, profesjonalistów i każdego, kto potrzebuje wsparcia w różnych zadaniach.

Jednakże, warto pamiętać o etycznych i edukacyjnych konsekwencjach korzystania z takiego narzędzia. Choć ChatGPT może być pomocne w odrabianiu prac domowych, ważne jest, aby uczniowie rozwijali własne umiejętności i wiedzę, a nie tylko polegali na wynikach generowanych przez sztuczną inteligencję.

W przyszłości możemy spodziewać się dalszych udoskonaleń modeli językowych opracowywanych przez OpenAI i innych badaczy. To otwiera drzwi do nowych możliwości, ale również rodzi pytania dotyczące odpowiedzialnego stosowania tak zaawansowanych technologii.