Jak mądry jest ChatGPT? Przegląd wyników egzaminów

Wizualizacja wyników ChatGPT na ludzkich egzaminach

ChatGPT, model językowy opracowany przez OpenAI, zyskał ogromną popularność w ciągu ostatniego roku dzięki swojej zdolności do generowania ludzkich odpowiedzi w szerokim zakresie sytuacji.

Rzeczywiście, ChatGPT stał się tak kompetentny, że uczniowie zaczęli korzystać z niego, aby pomóc im w odrabianiu prac domowych. Spowodowało to zablokowanie dostępu do modelu przez kilka amerykańskich dystryktów szkolnych na swoich sieciach.

Więc, jak mądry jest ChatGPT?

W technicznym raporcie opublikowanym 27 marca 2023 r., OpenAI dostarczyło obszernego opisu swojego najnowszego modelu, znanego jako GPT-4. W raporcie tym znalazły się wyniki egzaminów, które przedstawiliśmy na powyższej grafice.

GPT-4 kontra GPT-3.5

Aby porównać możliwości ChatGPT, OpenAI przeprowadziło symulacje różnych egzaminów zawodowych i akademickich, takich jak SAT, egzamin adwokacki czy różne egzaminy końcowe Advanced Placement (AP).

Wyniki mierzone były w percentylach, które oparte były na najnowszych dostępnych rozkładach wyników dla zdających każdego rodzaju egzaminu.

Percentyl to sposób oceny wyników względem innych uczestników. Na przykład, jeśli uzyskałeś wynik na 60. percentylu, oznacza to, że uzyskałeś lepszy wynik niż 60% zdających.

Poniższa tabela przedstawia wyniki, które zobrazowaliśmy na grafice powyżej.

Kategoria	Egzamin	GPT-4 Percentyl	GPT-3.5 Percentyl
Prawo	Egzamin adwokacki (Uniform Bar Exam)	90	10
Prawo	LSAT (Egzamin prawniczy)	88	40
SAT	Czytanie i pisanie oparte na dowodach	93	87
SAT	Matematyka	89	70
Egzamin GRE	Ilościowy (Quantitative)	80	25
Egzamin GRE	Werbalny (Verbal)	99	63
Egzamin GRE	Pisarski (Writing)	54	54
Zaawansowane umiejętności (AP)	Biologia	85	62
Zaawansowane umiejętności (AP)	Kalkulus	43	0
Zaawansowane umiejętności (AP)	Chemia	71	22
Zaawansowane umiejętności (AP)	Fizyka 2	66	30
Zaawansowane umiejętności (AP)	Psychologia	83	83
Zaawansowane umiejętności (AP)	Statystyka	85	40
Zaawansowane umiejętności (AP)	Język angielski	14	14
Zaawansowane umiejętności (AP)	Literatura angielska	8	8
Programowanie konkurencyjne	Ocena Codeforces	<5	<5

Wyniki przedstawione powyżej dotyczą GPT-4 z włączonymi danymi wejściowymi wizualnymi. Szersze wyniki można znaleźć w raporcie technicznym OpenAI.

Jak widać, GPT-4 (wydany w marcu 2023) radzi sobie znacznie lepiej niż GPT-3.5 (wydany w marcu 2022) w większości tych egzaminów. Nie był jednak w stanie poprawić się w AP English oraz w programowaniu konkurencyjnym.

W przypadku AP English (i innych egzaminów, gdzie wymagane były odpowiedzi pisemne), prace ChatGPT oceniane były przez „1-2 wykwalifikowanych niezależnych wykonawców z odpowiednim doświadczeniem zawodowym w ocenie tych esejów”. Chociaż ChatGPT jest na pewno zdolny do wytwarzania odpowiednich esejów, mógł mieć trudności z zrozumieniem tematyki egzaminu.

W przypadku programowania konkurencyjnego GPT próbował rozwiązać 10 konkursów Codeforces po 100 razy każdy. Codeforces organizuje konkursy programowania konkurencyjnego, w których uczestnicy muszą rozwiązywać złożone problemy. Średni ranking GPT-4 na Codeforces wynosi 392 (poniżej 5. percentyla), a najwyższy wynik w pojedynczym konkursie to około 1 300. Według strony z rankingami Codeforces, najlepszym zawodnikiem jest jiangly z Chin z rankingiem 3 841.

Podsumowanie

Jak widać, GPT-4 to znaczący krok naprzód w porównaniu z GPT-3.5, zwłaszcza jeśli chodzi o wyniki na egzaminach. Warto zauważyć, że choć GPT-4 wykazuje ogromne zdolności w wielu dziedzinach, nadal istnieją obszary, w których jego kompetencje są ograniczone, takie jak programowanie konkurencyjne czy pisanie esejów.

Mimo tych ograniczeń, GPT-4 oferuje użytkownikom wiele nowych możliwości, takich jak dostęp do Internetu, wtyczki, analiza obrazów i dłuższe rozmowy. To sprawia, że ChatGPT jest jeszcze bardziej użytecznym narzędziem, które może wspierać uczniów, naukowców, profesjonalistów i każdego, kto potrzebuje wsparcia w różnych zadaniach.

Jednakże, warto pamiętać o etycznych i edukacyjnych konsekwencjach korzystania z takiego narzędzia. Choć ChatGPT może być pomocne w odrabianiu prac domowych, ważne jest, aby uczniowie rozwijali własne umiejętności i wiedzę, a nie tylko polegali na wynikach generowanych przez sztuczną inteligencję.

W przyszłości możemy spodziewać się dalszych udoskonaleń modeli językowych opracowywanych przez OpenAI i innych badaczy. To otwiera drzwi do nowych możliwości, ale również rodzi pytania dotyczące odpowiedzialnego stosowania tak zaawansowanych technologii.

Jak mądry jest ChatGPT? Przegląd wyników egzaminów

Udostępnij post:

Wizualizacja wyników ChatGPT na ludzkich egzaminach

GPT-4 kontra GPT-3.5

Podsumowanie