IT

AI는 인간과 마찬가지로 말의 의미를 이해하고 있을까?

오델리아 2021. 12. 23. 22:10

최근에는 인공지능(AI)의 연구가 빠르게 진행되고 있으며, OpenAI의 "GPT-3"로 대표되는 "자연스러운 문장을 생성하는 AI"가 등장하고 있다.

"AI는 벌써 "말을 이해하고 있다"라는것은 아닌가"라고 생각하는 사람도 많을지도 모르지만, 미국의 산타페 연구소에서 복잡계 과학 교수를 맡고 "Artificial Intelligence: A Guide for Thinking Humans"등의 저자이기도 한 멜라니 미첼 씨는, 현재 시점에서의 AI는 진정한 의미로, "언어를 이해하고 있다"라고는 생각하지 않고 있다고 말한다.

 


"자연 언어 이해는 오랜 세월에 걸쳐, AI 연구의 목표가 되어 왔습니다"라고 미첼 씨가 말하는 대로, 인간과 같이 언어를 이해하고 읽고 쓸 수 있는 AI를 구축하기 위해, 많은 과학자가 노력해왔다. 

당초에는, 뉴스 기사나 허구의 글을 이해하기 위해서 필요한 "모든 요소와 규칙"을, 연구자가 수동으로 프로그램하는 방법이 모색되었지만, 문장 이해하는데 필요한 모든것을 쓰는 것은 현실적으로 불가능. 이에 따라 최근에는, "방대한 텍스트 데이터를 학습시켜 AI 자신에게 언어를 이해시킨다"라는 방법이 확립되고 있다.

방대한 텍스터 데이터를 기본으로 구축된 AI는 "언어 모델"이라고 불리고 있고, GPT-3와 같은 대규모 뉴럴 네트워크(neural network)는, 일견 인간과의 구별이 되지 않는 문장을 생성할 수 있다. 그러나, 미첼 씨는 "AI는자신이 생성한 표면상으로는 이치가 맞는 문장에 대해서, 정말로 이해하고 있는 것일까요?"라고 말하고, AI에 의한 언어 이해에는 의심이 남는다고 하고있다.

 


기계가 말의 의미를 이해하는지를 판단하는 방법으로는, 1950년에 계산기 과학의 제일인자인 앨런 튜링이 제안한 "튜링 테스트"를 들 수 있다. 튜링 테스트는, "문장을 통한 대화만으로 인간과 기계를 대화시키고, 그 대화를 본 판정자가 인간과 기계를 제대로 판별하지 못한 경우, 기계에는 사물을 생각하는 지성이 있다"고 하는데, 미첼은 유감스럽게도 튜링은 인간이 기계에 속는 경향을 과소평가했다고 지적했다.



실제로는 1960년대에 개발된 ELIZA라고하는 초기의 비교적 단순한 채팅봇조차, 튜링 테스트에서 일정한 성과를 올릴 수 있었다.

2012년에 발표된 논문에서는, 튜링 테스트의 개량판이라고 할 수있는 "위노그라드 스키마 챌린지"가 제안되었다. AI 언어 커뮤니티 내에서도 한 방법으로 채택되고 있는 이 테스트는 다음과 같이 짧은 문장과 질문으로 구성되어 있다.

 


문장 1 : I poured water from the bottle into the cup until it was full.(병부터 컵이 가득 찰 때까지 물을 부었습니다)

질문 1 : What was full, the bottle or the cup?(병과 컵중 어느 것이 가득찼습니까?)

문장 2 : I poured water from the bottle into the cup until it was empty.(병에서 컵에 비워질 떄까지 물을 부었습니다)

질문 2 : What was empty, the bottle or the cup?(병과 컵, 어느 쪽이 비어 있었습니까?)

문장 1 : Joe’s uncle can still beat him at tennis, even though he is 30 years older.(조 아저씨는 30살이나 연상인데, 그를 테니스로 물리칠 수 있어요)

질문 1 : Who is older, Joe or Joe’s uncle?(조와 조의 아저씨, 어느쪽이 나이가 많습니까?)

문장 2 : Joe’s uncle can still beat him at tennis, even though he is 30 years younger.(조 아저씨는 30살이나 어린데, 그를 테니스로 물리칠 수 있어요)

질문 2 : Who is younger, Joe or Joe’s uncle?(조와 조의 아저씨 어느 쪽이 동생인가요?)

대명사를 포함한 이러한 문장 및 질문에 올바르게 대답하려면, "상식적인 이해"가 필요하다고 생각할 수 있다. 위노그라드 스키마 챌린지는 인간의 애매한 판단에 의지하는 것이 아니라, 보다 정량적으로 AI의 이해를 테스트할 수 있다고 여겨지고 있고, 논문의 저자는 "질문의 해답을 Google 검색으로 찾아낼 수 없게 한다"는 것도 고려해 질문을 설계하고 있다. 2016년 개최된 컨피티션에서는 위노그라드 스키마 챌린지의 정답률이 가장 높은 AI에서도 단 58%밖에 정답을 얻을 수 없었고, 랜덤으로 답한 경우와 큰 차이가 없는 결과라는 것.

 


그런데 최근에는, 대규모 뉴럴 네트워크의 등장에 의해서, AI가 위노그라드 스키마 챌린지에 정답하는 비율이 비약적으로 상승하고 있다. 2020년의 논문에서는 GPT-3가 위노그라드 스키마 챌린지의 정답률에서 90%에 가까운 값을 기록했다고 보고되었으며, 다른 언어 모델도 동등하거나 그 이상의 결과를 남기고 있다.

현시점에서는, 최첨단의 언어 모델은 위노그라드 스키마 챌린지로 인간에 필ㅈ거하는 정답률을 자랑하지만, 그런데도 미첼 씨는 "언어 모델이 인간과 같이 언어를 이해했다고는 말할 수 없다"라고 주장하고 있다.

미첼 씨가 AI의 문제점으로 지적하는 것은, "AI는 위노그라드 스키마 챌린지에서 문장의 의미를 이해하지 않고도 답을 찾아갈 수있는 바로 가기를 만들어낼 수 있다"라는 점이다. 예를 들어, "The sports car passed the mail truck because it was going faster(스포츠카가 우편배달차를 추월한 것은 그 속도가 빨랐기 때문이다)", "The sports car passed the mail truck because it was going slower(스포츠카가 우편배달차를 앞지른 것은, 그 속도가 느렸기 때문입니다)"라는 문장을 생각해보자.

인간은 머리 속에서 스포츠카나 우편배달차, 도로, 각각의 속도 등을 상상할 수 있다. 그러나 AI는 어디까지나 영어권의 방대한 텍스트 데이터로부터, "sports car", "fast"의 상관관계나, "mail truck", "slow"의 상관관계를 흡수해, 상관관계를 기초로 올바른 답을 낼 뿐이다. 즉, 텍스트 데이터의 상관관계만을 기초로 해답한다고 하는 AI의 프로세스는, 인간의 "이해"와는 다를 것이라고 미첼 씨는 주장하고 있는 것.

이러한 위노그라드 스키마 챌린지의 문제점을 해결하기 위해, 미국 앨런 인공지능 연구소 연구팀은 온라인에서 모집한 인간에게 쓴 글을 바탕으로 개량된 위노그라드 스키마 챌린지(Wino Grande)를 올해 개발했다. 이는 일시적으로 많은 AI를 이긴 것으로 보이지만, 이후 AI 연구의 진전으로 인해 보다 대규모 뉴럴 네트워크 언어 모델이 개발되어, 현시점에서는 90% 가까운 정답률을 자랑하는 것도 등장하고 있다. 이 퍼포먼스의 향상은 뉴럴 네트워크 언어 모델과 훈련 데이터의 크기가 커졌기 때문이라고 한다.

그러나, 그럼에도 불구하고 미첼 씨는 AI가 인간과 같은 상식적 이해를 획득했느냐는 물음에 대해 "다시 말씀드리지만, 그럴 가능성은 낮습니다"라고 언급. 실제로 Wino Grande에 관한 후속 조사에서는, 거의 같은 단어로 구성된 쌍을 이룬 두 문장을 한 세트로 해서 둘을 모두 맞히면 정답으로 간주한다는 방법으로 AI를 테스트했더니, 인간보다 훨씬 정답률이 떨어졌다는 것.

 


AI를 테스트하는 일련의 대처로부터 얻을 수 있는 교훈으로서 미첼 씨는 "AI 시스템이 정말로 의미를 이해하고 있는지 어떤지는, 주어진 태스크에 대한 퍼포먼스로 판단하는 것은 어렵다"라고 하는 것을 들고 있다. 뉴럴 네트워크 언어 모델은 인간처럼 문장의 의미를 이해하는 것이 아니라, 통계적인 상관관계를 바탕으로 해답하는 경우가 많기 때문이다.

미첼 씨는, "나의 견해로는, 문제의 핵심은 "언어를 이해하려면 세계를 이해할 필요가 있고, 언어에만 노출된 기계에는 그러한 이해를 얻을 수 없다"라고 하는 것입니다"라고 지적. 스포츠카가 우편배달차를 앞지른 것은, 속도가 빨랐기 때문입니다라는 문장을 이해하려면, 스포츠카와 우편배달차가 무엇인지, 차가 서로 추월하거나 추월할 수 있다는 것, 차가 인간에 의해 조작되고 세계에 존재하며, 상호작용하는 오브젝트라는 것 등 세계의 근본적인 상식과 개념을 알아야 한다는 것.

"일부의 인지 과학자는 인간이 언어를 배우고, 이해하기 위해서는, 공간이나 시간, 그 외 많은 세계의 본질적인 성질에 대해서, 생득적이고 언어에 앞선 핵심적인 지식에 의지할 필요가 있다고 주장하고 있습니다"라고 미첼 씨는 말하고, AI가 인간과 같이 의미의 이해를 가지고 있는지를 평가하고 싶다면, 이 "형이상학적인 원칙"을 어느정도 파악하고 있는지를 먼저 알아야 한다고 주장하고 있다.