얄팍다식 & 경제

과학을 위한 대담하고 새로운 도전, ChatGPT의 이해

AI독립군 2023. 8. 31. 11:30

과학을 위한 대담하고 새로운 도전, ChatGPT의 이해

대규모 언어 모델 (LLM)은 사람과 대화하고 글을 쓰며 다양한 작업을 수행하는데 사용되는데, 이 모델의 작동 원리와 강점 및 약점을 이해하는 것이 중요하다. 현재 LLM의 내부 메커니즘에 대한 이해가 부족하고, 모델의 신뢰성 문제도 있다.
 
LLM은 텍스트 학습을 통해 언어를 이해하며, 작은 구문 변경으로도 혼란스러워질 수 있어 신뢰성에 문제가 있다. 이를 파악하기 위해 새로운 평가 도구와 메커니즘 분석이 필요하다. 이는 의약품의 임상 시험과 유사한 과정으로, AI의 안전성과 가능한 실패를 사용자에게 알릴 수 있게 할 것이다.
 
그러나 LLM의 내부 메커니즘을 이해하고 데이터 투명성을 확보하는 것은 여전히 어려운 과제이며, 규제 당국의 감독이 이를 강화할 수 있다. LLM에 대한 연구와 평가는 AI 분야에서 매우 중요한 도전 과제이다.”

"어떤 이들은 대규모 언어 모델(LLM)이 정말로 지능적인가에 대한 의문을 제기하고 있다. 그들은 튜링 테스트와 같은 평가 방법이 속임수에 더 중점을 두고 있다고 주장하며, LLM의 실제 지능을 증명하기에는 모호하다고 말한다.
 
LLM은 대화 능력과 같은 인간과 유사한 특성을 갖추고 있지만, 그것들이 어떻게 작동하는지는 여전히 미스터리한 상태이다. 그리고 이 모델들은 놀랍게도 조금만 문장을 바꾸면 혼란스러워질 수 있다. 이는 실제 세계에서 신뢰성이 부족하다는 것을 시사한다.
 
LLM의 능력을 평가하기 위한 더 체계적인 테스트가 필요하지만 이것 또한 쉽지 않다. 또한, 이 모델의 내부 작동 메커니즘을 이해하는 것도 어려운 과제다. 회사들은 LLM이 어떤 데이터를 기반으로 학습했는지에 대한 투명성을 부족하게 유지하고 있다.
 
결국, LLM의 강점과 약점, 그리고 이를 움직이는 메커니즘을 이해하는 것은 아직 어려운 일이다. 이 모델들이 얼마나 지능적인지에 대한 의문은 여전히 해결되지 않았으며, 이것은 AI 분야에서 큰 과제 중 하나로 남아 있다."

[본문]

 

널리 사용되고 있음에도 불구하고 대규모 언어 모델은 여전히 미스터리한 존재이다. 그 실체를 밝히는 것은 시급하고 중요한 일이다.

 

"저는 '기계가 생각할 수 있는가'라는 질문을 생각해 볼 것을 제안합니다." 영국의 컴퓨팅 및 수학계의 거장 앨런 튜링의 1950년 논문(A. M. Turing Mind LIX, 433-460, 1950)은 이렇게 시작되었다.

 

그러나 튜링은 사고의 의미를 정의하는 까다로운 작업에 대한 대안으로 "모방 게임"이라는 시나리오를 제안했다. 질문자라고 불리는 사람이 다른 사람 및 컴퓨터와 텍스트 기반의 대화를 나눈다. 튜링은 질문자가 컴퓨터를 확실하게 감지할 수 있는지 궁금해했고, 만약 감지하지 못한다면 컴퓨터가 생각하는 것으로 추정할 수 있다고 암시했다. 이 게임은 대중의 상상력을 사로잡았고 튜링 테스트라는 이름으로 알려지게 되었다.

 

오래전부터 사용되어 온 아이디어이긴 하지만, 이 테스트는 너무 모호하고 진정한 지능적 행동보다는 속임수에 초점을 맞춘다는 이유로 인공지능(AI)의 진지한 연구 도구나 목표가 되기에는 너무 모호한 것으로 여겨져 왔다. 그러나 지능을 평가하고 생성하는 데 언어가 어떤 역할을 할 수 있는지에 대한 질문은 오늘날 그 어느 때보다 중요해졌다.

 

이는 캘리포니아 샌프란시스코의 OpenAI라는 회사에서 만든 ChatGPT 챗봇과 Microsoft Bing Chat, Google Bard와 같은 다른 고급 봇의 기반이 되는 대규모 언어 모델(LLM)로 알려진 AI 시스템의 기능이 폭발적으로 발전한 덕분이다. '대규모 언어 모델'이라는 이름에서 알 수 있듯이 이러한 도구는 순전히 언어에 기반한다.

 

에세이와 시 쓰기, 코딩, 어려운 시험 통과, 텍스트 요약 등 다양한 능력은 물론이고 때로는 유쾌하고 인간적인 대화 솜씨까지 갖춘 이 봇은 인공지능과 인공지능의 부상이 인류에게 주는 의미에 대한 기대와 두려움을 동시에 불러일으키고 있다. 하지만 이러한 인상적인 성과 이면에는 LLM이 어떻게 작동할까?

 

다른 신경망과 마찬가지로, LLM의 많은 동작은 프로그래머가 지정하는 것이 아니라 훈련 과정에서 나타난다. 그 결과, 많은 경우 LLM이 특정 방식으로 작동하는 정확한 이유와 작동을 뒷받침하는 메커니즘을 알 수 없다는 것이 심지어 제작자에게도 알려져 있다.

 

Nature가 특집 기사에서 보도한 바와 같이, 과학자들은 LLM의 진정한 능력과 이를 구동하는 기본 메커니즘을 모두 파악하고 있다. 캘리포니아 스탠포드 대학의 인지 과학자 마이클 프랭크는 이 작업을 '외계인의 지능'을 조사하는 것과 비슷하다고 설명한다.

 

연구자들이 지적했듯이 이를 밝히는 것은 시급하고도 중요한 일이다(S. Bubeck , https://arxiv.org/abs/2303.12712,). 의학이나 법률과 같은 분야에서 LLM이 문제를 해결하고 생산성을 높이려면 사람들은 이러한 도구의 성공과 실패를 모두 더 잘 이해해야 한다. 이를 위해서는 현재 존재하는 것보다 더 체계적인 평가를 제공하는 새로운 테스트가 필요하다.

 

 

 

시험에 집중하기

 

LLM은 방대한 양의 텍스트를 수집하여 문장이나 대화에서 다음 단어를 예측하는 학습에 사용한다. 모델은 시행착오를 통해 결과를 조정하고, 인간 트레이너의 피드백을 통해 더욱 정교하게 개선할 수 있다. 단순해 보이는 이 과정은 강력한 결과를 가져올 수 있다. 한 가지 작업이나 한 가지 기능에 특화되어 있던 이전의 AI 시스템과 달리, LLM은 불과 몇 년 전만 해도 단일 시스템으로는 상상할 수 없었던 폭넓은 범위의 시험과 문제를 능숙하게 처리한다.

 

그러나 연구자들이 점점 더 많은 문서를 작성함에 따라 LLM의 기능이 취약해질 수 있다. ChatGPT의 기반이 되는 LLM의 가장 진보된 버전인 GPT-4는 일부 학술 및 전문 시험 문제를 훌륭하게 처리했지만, 질문의 표현 방식에 작은 변화만 있어도 모델이 제대로 작동하지 않을 수 있다. 이러한 견고성 부족은 실제 세계에서 신뢰성이 부족하다는 것을 의미한다.

 

과학자들은 이러한 엇갈린 성능을 고려할 때 LLM의 내부에서 어떤 일이 벌어지고 있는지 논의하고 있다. 한쪽에서는 모델이 일부 테스트에서 성공할 때 희미한 추론과 이해의 실마리를 발견하는 연구자들이 있다. 다른 한편에서는 신뢰성이 떨어지는 것을 모델이 생각만큼 똑똑하지 않다는 신호로 보는 연구자들도 있다.

 

AI 승인

 

LLM의 기능에 대한 보다 체계적인 테스트가 이 논쟁을 해결하는 데 도움이 될 것이다. 이를 통해 모델의 강점과 약점을 보다 확실하게 이해할 수 있다. 의약품이 치료제로 승인을 받고 부작용을 발견하기 위해 거치는 과정과 유사하게, AI 시스템에 대한 평가를 통해 특정 애플리케이션에 대해 안전한 것으로 간주할 수 있으며, 실패할 수 있는 방법을 사용자에게 알릴 수 있다.

 

지난 5, 뉴멕시코 산타페 연구소의 컴퓨터 과학자 멜라니 미첼이 이끄는 연구팀은 추상적 개념에 대한 AI 시스템의 추론 능력을 테스트하기 위한 일련의 시각적 퍼즐인 ConceptARC(A. Moskvichev . https://arxiv.org/abs/2305.07141,)를 개발했다고 발표했다. 결정적으로, 이 퍼즐은 10가지 방법으로 각각을 테스트하여 시스템이 16가지 기본 개념을 제대로 이해했는지 체계적으로 테스트한다(스포일러 경고: GPT-4는 성능이 좋지 않음). 하지만 ConceptARC는 추론과 일반화의 한 측면만 다루고 있으므로 더 많은 테스트가 필요하다.

 

하지만 의약품에 대한 신뢰는 임상시험에서 관찰된 안전성과 효능에서만 나오는 것은 아니다. 연구자들이 다양한 상황에서 약이 어떻게 작용할지 예측할 수 있도록 약의 행동을 유발하는 메커니즘을 이해하는 것도 중요하다. 비슷한 이유로, 모델의 근본적인 '신경과학'이라고 할 수 있는 LLM의 행동을 유발하는 메커니즘을 밝히는 것도 필요하다.

 

연구자들은 LLM의 내부 작동을 이해하고 싶어 하지만 갈 길이 멀다. 또 다른 장애물은 LLM을 구축하는 기업이 어떤 데이터 모델을 기반으로 학습했는지 공개하는 등 투명성이 부족하다는 점이다. 그러나 규제 기관의 AI 기업에 대한 조사가 증가하고 있으며, 향후 이러한 데이터를 더 많이 공개하도록 강제할 수 있다.

 

튜링이 모방 게임을 처음 제안한지 73년이 지난 지금, AI 분야에서 LLM의 강점과 약점, 그리고 이를 구동하는 메커니즘을 이해하는 것보다 더 중요한 과제는 상상하기 어렵다.

728x90