얄팍다식 & 경제

RAG(Retrieval-Augmented Generation)가 생성 AI의 환각 문제를 해결하지 못하는 이유

AI독립군 2024. 6. 21. 14:27

RAG(Retrieval-Augmented Generation)가 생성 AI의 환각 문제를 해결하지 못하는 이유

 

기본적으로 생성형 AI 모델이 말하는 거짓말인 환각은 기술을 비즈니스에 통합하려는 기업에게 큰 문제다.

 

모델은 실제 지능이 없고 단순히 개인 스키마에 따라 단어, 이미지, 음성, 음악 및 기타 데이터를 예측하기 때문에 때때로 틀릴 수 있다. 최근 월스트리트 저널에 실린 기사에서 한 소식통은 Microsoft의 생성 AI가 회의 참석자를 만들어내고 실제로는 회의에서 논의되지 않은 주제에 대한 전화 회의임을 암시한 사례를 소개했다.

 

얼마 전에 쓴 것처럼 환각은 오늘날의 트랜스포머 기반 모델 아키텍처에서는 해결할 수 없는 문제일 수 있다. 하지만 많은 생성 AI 공급업체는 검색 증강 생성(RAG)이라는 기술적 접근 방식을 통해 어느 정도 해결할 수 있다고 제안한다.

 

한 벤더인 Squirro는 다음과 같이 설명한다:

이 솔루션의 핵심은 솔루션에 내장된 검색 증강 LLM 또는 검색 증강 생성(RAG) 개념이다. [우리의 생성 AI]는 환각이 전혀 없다는 점에서 독보적이다. 생성되는 모든 정보는 출처를 추적할 수 있어 신뢰성을 보장한다.

 

다음은 SiftHub의 비슷한 내용이다:

시프트허브는 RAG 기술과 산업별 지식 학습을 통해 미세 조정된 대규모 언어 모델을 사용하여 기업이 환각 없이 개인화된 응답을 생성할 수 있도록 지원한다. 이를 통해 투명성을 높이고 위험을 줄이며 모든 요구사항에 AI를 사용할 수 있는 절대적인 신뢰를 얻을 수 있다.

 

RAG는 메타 및 유니버시티 칼리지 런던의 연구원이자 이 용어를 만든 2020년 논문의 주 저자인 데이터 과학자 패트릭 루이스에 의해 창안되었다. 모델에 적용된 RAG는 기본적으로 키워드 검색을 사용하여 질문과 관련이 있을 수 있는 문서(: 슈퍼볼에 관한 Wikipedia 페이지)를 검색한 다음 모델에 이 추가 컨텍스트를 고려하여 답변을 생성하도록 요청한다.

 

비영리 기관인 Allen Institute AI 중심 연구 부서인 AI2의 연구 과학자 David Wadden "ChatGPT Llama와 같은 생성형 AI 모델과 상호작용하면서 질문을 하면 기본적으로 모델은 '파라메트릭 메모리', 즉 웹의 방대한 데이터를 학습한 결과 파라미터에 저장된 지식을 바탕으로 답변을 합니다."라고 설명했다. "하지만 책이나 파일과 같은 참고 자료가 있으면 더 정확한 답변을 할 수 있는 것처럼 모델도 마찬가지다."

 

RAG는 모델이 생성한 내용을 검색된 문서에 어트리뷰션하여 사실 여부를 검증할 수 있고, 추가적으로 저작권을 침해할 수 있는 역류를 방지할 수 있다는 점에서 매우 유용하다. 또한 RAG를 사용하면 의료 및 법률과 같이 규제가 엄격한 산업 분야의 기업처럼 자사 문서가 모델 학습에 사용되는 것을 원하지 않는 기업에서도 보다 안전하고 일시적인 방식으로 모델이 해당 문서를 활용할 수 있다.

 

하지만 RAG는 모델의 환각을 막을 수는 없다. 그리고 많은 공급업체들이 간과하는 한계도 있다.

 

Wadden은 사용자가 '정보 요구'를 해결하기 위해 모델을 사용하고자 하는 '지식 집약적' 시나리오(: 작년 슈퍼볼에서 누가 우승했는지 알아내는 것)에서 RAG가 가장 효과적이라고 말했다. 이러한 시나리오에서는 질문에 대한 답을 제공하는 문서에 질문과 동일한 키워드(: "슈퍼볼", "작년")가 많이 포함되어 있을 가능성이 높으므로 키워드 검색을 통해 비교적 쉽게 찾을 수 있다.

 

코딩이나 수학 같은 '추론 집약적' 작업의 경우, 키워드 기반 검색 쿼리에서 요청에 답변하는 데 필요한 개념을 지정하기가 더 어렵고 관련성이 있는 문서를 식별하기가 훨씬 더 까다로워진다.

 

기본적인 질문을 하더라도, 특히 답이 명확하지 않은 긴 문서에서는 관련 없는 콘텐츠에 의해 모델이 '주의가 산만해질' 수 있다. 또는 아직 알 수 없는 이유로 검색된 문서의 내용을 무시하고 대신 파라메트릭 메모리에 의존할 수도 있다.

 

RAG는 대규모로 적용하는 데 필요한 하드웨어 측면에서도 비용이 많이 든다.

 

그 이유는 웹, 내부 데이터베이스 또는 다른 곳에서 검색된 문서를 모델이 다시 참조할 수 있도록 적어도 일시적으로 메모리에 저장해야 하기 때문이다. 또 다른 지출은 모델이 응답을 생성하기 전에 처리해야 하는 컨텍스트의 증가로 인한 컴퓨팅 비용이다. 기본적인 작업에도 많은 컴퓨팅과 전력이 필요한 것으로 이미 악명이 높은 기술인 만큼, 이는 심각한 고려 사항이다.

 

그렇다고 RAG를 개선할 수 없다는 것은 아니다. Wadden RAG로 검색된 문서를 더 잘 활용하기 위해 모델을 훈련시키기 위한 많은 노력이 계속되고 있다고 언급했다.

 

이러한 노력 중 일부에는 문서를 언제 사용할지 '결정'할 수 있는 모델이나 불필요하다고 판단되면 처음부터 검색을 수행하지 않도록 선택할 수 있는 모델이 포함된다. 또 다른 노력은 방대한 문서 데이터세트를 보다 효율적으로 색인하는 방법과 키워드를 넘어서는 더 나은 문서 표현을 통해 검색을 개선하는 데 초점을 맞추고 있다.

 

"우리는 키워드를 기반으로 문서를 검색하는 데는 꽤 능숙하지만 수학 문제를 푸는 데 필요한 증명 기법처럼 보다 추상적인 개념에 기반한 문서를 검색하는 데는 능숙하지 않다."라고 Wadden은 말했다. "보다 추상적인 생성 작업을 위해 관련 문서를 식별할 수 있는 문서 표현과 검색 기술을 구축하기 위한 연구가 필요하다. 이 문제는 현재로서는 대부분 미해결 과제라고 생각한다."

 

따라서 RAG는 모델의 환각을 줄이는 데 도움이 될 수 있지만, AI의 모든 환각 문제에 대한 해답은 아니다.

 

728x90