Badacze z Katedry Endokrynologii i Diabetologii Collegium Medicium Uniwersytetu im. Mikołaja Kopernika w Toruniu pod kierunkiem prof. Romana Junika, Kierownika Katedry Endokrynologii i Diabetologii CM UMK oraz dr. Szymona Suwały i studentów Wydziału Lekarskiego z SKN Evidence-Based Medicine wykazali, że sztuczna inteligencja (na przykładzie ChatGPT) nie jest obecnie w stanie wcielić się w rolę polskiego lekarza internisty i zdać polskiego Państwowego Egzaminu Specjalizacyjnego z zakresu chorób wewnętrznych. Wyniki swoich badań opublikowali na łamach Polish Archives of Internal Medicine a ich skrót na stronie uczelni.
CzatGPT potrafi zaliczyć łatwe pytanie egzaminacyjne
Badacze przedstawili interfejsowi ChatGPT, 1191 pytań z 10 sesji egzaminacyjnych przeprowadzonych w latach 2013-2017. Okazało się, że w żadnej z sesji egzaminacyjnych ChatGPT nie był zdolny osiągnąć minimalnego progu zaliczeniowego, wynoszącego 60 proc. Przeciętny wynik sztucznej inteligencji wynosił 49.37 proc. i w każdej z tych sesji był znacząco gorszy od realnych wyników uzyskiwanych przez lekarzy podchodzących do egzaminu.
Zarówno ludzie jak i ChatGPT lepiej radzili sobie z pytaniami prostszymi, przy czym różnica w skuteczności u ludzi nie była tak drastyczna jak w przypadku sztucznej inteligencji. U realnie zdających odsetek prawidłowych odpowiedzi w pytaniach prostych i złożonych wynosił odpowiednio 70.16 proc. i 66.39 proc., podczas gdy w przypadku ChatGPT było to 52.88 proc. i 29.38 proc.
Czytaj więcej
Brakuje chętnych na specjalizacje związane z walką z nowotworami. Potrzebne zmiany systemowe.
Sztuczna inteligencja najlepiej radziła sobie z pytaniami z dziedziny alergologii (71.43 proc. prawidłowych odpowiedzi) i chorób zakaźnych (55.26 proc.), najgorszej zaś w pytaniach z zakresu pulmonologii (46.71proc.), diabetologii (45.1 proc.) i kardiologii (43.72 proc.).