1) 서론

미국 스탠퍼드대학교 인간중심 인공지능연구소(HAI)는 최근 'AI 인덱스 2025' 보고서를 통해 인공지능(AI)의 현주소와 한계를 여실히 드러내는 흥미로운 사례를 공개했다. 특히 AI의 진짜 한계를 시험해보기 위한 시도로, 인간에게는 비교적 쉽게 느껴질 수 있는 문제들을 AI에게는 거의 불가능에 가깝게 만든 특별한 벤치마크 테스트가 주목을 받았다. 이 벤치마크의 이름은 ‘HLE(Humanity’s Last Exam, 인류의 마지막 시험)’으로, AI의 사고력과 창의력을 극한으로 몰아넣는, 말 그대로 최후의 시험이라 불릴 만한 문제들을 담고 있다.

이 시험은 미국의 비영리단체인 AI 안전센터(Center for AI Safety, CAIS)와 AI 학습 데이터 라벨링 스타트업인 스케일AI(Scale AI)가 공동으로 설계했다. 이들은 기존 AI 테스트가 지나치게 단순하거나 AI에 유리하게 설계되어 있다는 문제의식을 공유하며, 실제로 인간의 고차원적 사고와 창의력을 요하는 문제를 AI에게도 풀게 함으로써 그 한계를 드러내고자 했다. 이 벤치마크는 특히 박사급 난이도를 지닌 문제들을 포함하고 있으며, 단순한 객관식 문제나 정형화된 논리 추론이 아닌, 인간의 직관, 감성, 맥락 인식 등을 필요로 하는 과제로 구성되어 있다.

예를 들어, HLE에는 다음과 같은 유형의 문제가 포함되어 있다.
도덕적 딜레마를 판단하고 해석하는 에세이 쓰기
문학 작품을 읽고 그 숨겨진 상징과 맥락을 설명하기
주어진 사회적 상황에서 사람들의 감정과 동기를 유추한 뒤, 그에 대한 분석 제시하기
새로운 과학 개념을 창의적으로 도입해 기존 이론을 반박하는 논증 구성하기

이러한 문제는 인간에게는 비교적 자연스러운 사고의 흐름을 요구하는 반면, AI에게는 명확한 정답이 없고, 편향이나 오해의 가능성이 많은, 곤란한 과제들이다. 실제로 GPT-4를 포함한 최신 대형 언어 모델들조차 HLE의 다수 문제에서 난관을 겪으며, “답변할 수 없습니다” 혹은 “문맥이 불분명합니다” 같은 회피성 응답을 자주 보였다.

2) 스탠퍼드 HAI의 책임연구원인 퍼시 리앙(Percy Liang) 교수는 “AI가 체스나 수학 문제는 인간을 능가할 수 있지만, 인간 특유의 직관과 감성, 사회적 맥락을 이해하는 데는 여전히 큰 벽이 존재한다”며, “HLE는 AI가 인간처럼 생각하거나 느끼는 존재가 되기까지 얼마나 많은 단계를 남겨두고 있는지를 보여준다”고 말했다.


특히 HLE는 AI가 비형식적 정보를 어떻게 처리하는지를 시험하는 데 중점을 둔다. 예를 들어, 인간은 말을 할 때, 맥락에 따라 의미를 유추하고, 보디랭귀지나 문화적 배경 등 말로 표현되지 않는 정보를 기반으로 판단을 내릴 수 있다. 반면 AI는 이러한 비형식 정보에 취약하다. 예를 들어 "그는 모자를 벗고 고개를 숙였다"라는 문장에서 인간은 예의를 갖춘 행위나 존경의 표현을 즉각 떠올릴 수 있지만, AI는 단순한 행동 묘사로만 인식할 가능성이 높다.

3) 이 테스트는 또 다른 측면에서 AI 개발자들에게도 중요한 시사점을 제공한다. 현재까지 AI의 진보는 대체로 데이터 학습량의 증가와 연산능력 강화에 기초해왔다. 그러나 HLE는 **‘질적 이해’와 ‘맥락의 통합적 인식’**이라는, 더 근본적인 인간 지능의 특성을 시험한다는 점에서 기존 방식으로는 풀기 힘든 도전이 된다.

한편, HLE는 윤리적 논의의 장으로도 기능하고 있다. AI가 도덕적 판단을 내릴 수 있는가? AI가 창의력을 발휘할 수 있는가? AI가 인간 사회에 진정으로 통합되기 위해서는 어떤 사고 능력을 갖추어야 하는가? 이와 같은 질문들은 단순히 기술적 발전을 넘어, 인간과 AI의 경계, 그리고 인류가 인공지능에게 어디까지 권한을 부여할 수 있을지를 재고하게 만든다.

4) 결국 ‘인류의 마지막 시험’이라는 이름은 단순히 AI의 한계를 드러내는 것이 아니라, AI가 인간을 대체할 수 없다는 점을 상기시키는 동시에, 앞으로의 개발 방향에 대해 깊은 고민을 안겨주는 메시지이기도 하다. 인간은 맥락을 읽고 감정을 공유하며, 모호함 속에서 의미를 창조할 수 있는 존재다. 반면 현재의 AI는 여전히 데이터에 의존하며, 진정한 이해에 도달하지는 못하고 있다. 이 간극이야말로 우리가 지금 주목해야 할 AI의 진짜 한계다.
앞으로 AI가 HLE 수준의 문제를 스스로 이해하고, 인간처럼 사고하며, 창의적으로 답할 수 있는 날이 올지는 아직 미지수다. 그러나 분명한 것은, 지금 이 시점에서 AI는 ‘최후의 시험’ 앞에서 무릎을 꿇었다는 것이다. 이 시험은 AI 개발자와 사회 모두에게 질문을 던진다. 우리는 진짜 ‘지능’을 원하고 있는가, 아니면 더 나은 자동화 도구를 원하는가? AI의 미래는 이 질문에 대한 우리의 대답에 달려 있다.