딥러닝이란 무엇인가?
딥러닝이란 무엇인가?
딥러닝은 오래 전부터 사용되어 왔지만, 2022년 말 Open AI의 ChatGPT가 출시되기 전까지는 딥러닝 기반 도구를 사용해 본 적이 없는 경우가 대부분이었다. (그리고 ChatGPT의 결과물에 감탄하면서도 딥러닝을 사용하여 생성한다는 사실조차 몰랐던 사람들이 대부분이었다.)
이전 버전인 DALL-E, Google의 Imagen 및 PaLM, Stable Diffusion 등과 마찬가지로 ChatGPT는 대규모 데이터 세트에서 학습된 대규모 딥러닝 모델을 사용하여 프롬프트에 기반한 콘텐츠를 생성한다. 하지만 이전 버전과 달리 ChatGPT는 오픈 액세스 API를 통해 작동하므로 일반 대중이 처음으로 딥 러닝의 힘을 경험할 수 있다.
인공 지능과 머신 러닝(딥 러닝이 다음 진화 단계인)의 세계는 과학자들이 연구하는 아이디어에서 모든 종류의 사람들이 모든 종류의 작업에 사용하는 도구로 세대 간 전환을 겪고 있다.
맥킨지의 분석에 따르면 2015년부터 2021년 사이에 이미지 분류 시스템(딥러닝 모델에서 실행되는)을 훈련하는 데 드는 비용이 64% 감소했다. 같은 기간 동안 훈련 시간은 94% 개선되었다. 또한 제너레이티브 AI(생성 AI)가 전 세계 경제에 연간 최대 4조 4천억 달러에 해당하는 가치를 더할 수 있다는 사실도 밝혀냈다. 이러한 엄청난 변화는 모두 딥러닝을 기반으로 이루어졌다.
머신러닝이란 무엇인가?
딥 러닝으로 넘어가기 전에 기본 사항을 알아보자. 머신 러닝은 대규모 데이터 세트와 사람의 지시를 포함한 다양한 입력에 적응할 수 있는 인공 지능의 한 형태다. 이러한 알고리즘은 명시적인 프로그래밍 지시를 받지 않고 데이터와 경험을 처리하여 패턴을 감지하고 예측 및 권장 사항을 만드는 방법을 학습할 수 있다. 또한 알고리즘은 새로운 데이터와 경험에 반응하여 적응함으로써 시간이 지남에 따라 개선된다.
현재 생성되는 데이터의 양과 복잡성이 인간이 감당할 수 없을 정도로 방대해지면서 머신러닝의 필요성이 커졌고, 그 잠재력도 더욱 높아졌다. 머신러닝이 널리 배포된 이후 수년 동안 머신러닝은 의료 영상 분석, 고해상도 일기 예보 등 다양한 산업에 영향을 미쳤다.
딥러닝은 머신러닝과 어떻게 다른가?
딥러닝은 머신러닝의 고급 버전으로, 특히 텍스트와 이미지를 포함한 비정형 데이터 등 광범위한 데이터 리소스를 처리하는 데 능숙하고 사람의 개입이 훨씬 적게 필요하며 기존 머신러닝보다 더 정확한 결과를 도출할 수 있다.
딥러닝은 인간의 뇌에서 뉴런이 상호 작용하는 방식에 기반한 신경망을 사용하여 점점 더 복잡해지는 데이터의 특징을 인식하는 여러 뉴런 계층을 통해 데이터를 수집하고 처리한다. 예를 들어, 초기 뉴런 레이어에서 특정 모양을 인식하면 이 지식을 바탕으로 이후 레이어에서 그 모양을 정지 표지판으로 식별할 수 있다.
머신러닝과 마찬가지로 딥러닝은 반복을 통해 스스로 수정하고 예측 능력을 향상시킨다. 물체가 어떻게 생겼는지 '학습'하면 새로운 이미지에서 물체를 인식할 수 있다.
딥러닝과 차세대 AI의 관계는 무엇인가?
ChatGPT는 일반 대중에게 처음으로 AI를 공개하고 접근성을 높였다. ChatGPT와 이와 유사한 다른 언어 모델은 트랜스포머 네트워크라는 딥 러닝 도구로 학습되어 프롬프트에 대한 응답으로 콘텐츠를 생성한다.
트랜스포머 네트워크를 사용하면 세대별 AI 도구가 예측을 할 때 입력 시퀀스의 다른 부분에 가중치를 다르게 부여할 수 있다. 인코더와 디코더 레이어로 구성된 트랜스포머 네트워크를 통해 세대별 AI 모델은 기존 머신러닝 및 딥러닝 모델에 비해 보다 유연한 방식으로 단어 간의 관계와 의존성을 학습할 수 있다.
이는 트랜스포머 네트워크가 특정 데이터 하위 집합(예: 정지 표지판의 특정 이미지)이 아닌 방대한 인터넷 데이터(예: 지금까지 기록 및 업로드된 모든 교통 영상)에 대해 학습하기 때문이다.
아래에서 자세히 설명하겠지만, OpenAI의 ChatGPT나 Google의 BERT와 같은 트랜스포머 네트워크 아키텍처에서 훈련된 기초 모델은 특정 작업에서 학습한 내용을 콘텐츠 생성 등 보다 일반화된 작업 집합으로 옮길 수 있다. 이 시점에서 모델에게 정지 신호를 통과하는 자동차의 동영상을 만들도록 요청할 수 있다.
기초 모델은 콘텐츠를 만들 수는 있지만 옳고 그름의 차이, 심지어 사회적으로 허용되는 것과 허용되지 않는 것의 차이도 모른다. ChatGPT가 처음 만들어졌을 때는 학습을 위해 많은 사람의 입력이 필요했다.
OpenAI는 전 세계에 수많은 인력을 고용하여 데이터 세트를 정리하고 라벨을 붙이고, 유해 콘텐츠를 검토하고 라벨을 붙인 다음 제거하도록 플래그를 지정하는 등 기술을 개선하는 데 도움을 주었다. 이러한 사람의 입력은 ChatGPT를 혁신적으로 만드는 데 큰 역할을 했다.
딥러닝에는 어떤 종류의 신경망이 사용되나?
딥러닝에 사용되는 인공 신경망에는 세 가지 유형이 있다:
1) 피드 포워드 신경망. 1958년에 처음 제안된 이 단순한 신경망에서는 정보가 모델의 입력 계층에서 출력 계층으로 한 방향으로만 이동하며, 모델이 다시 분석하기 위해 뒤로 이동하지 않는다. 즉, 모델에 데이터를 공급하거나 입력한 다음 다양한 데이터 세트에 대해 예측하도록 모델을 '훈련'시킬 수 있다.
한 가지 예로, 피드 포워드 신경망은 사기성 금융 거래를 탐지하기 위해 은행을 비롯한 여러 산업에서 사용된다. 작동 방식은 다음과 같다. 먼저, 거래의 사기 여부를 수동으로 표시하는 데 사용한 데이터 세트를 기반으로 거래의 사기 여부를 예측하는 모델을 학습시킨다. 그런 다음 이 모델을 사용하여 새로 들어오는 거래가 사기인지 여부를 예측하여 더 자세히 조사하도록 플래그를 지정하거나 완전히 차단할 수 있다.
2) 컨볼루션 신경망(CNN). CNN은 이미지를 처리하는 뇌의 일부인 시각 피질의 조직에서 영감을 받아 연결이 이루어지는 피드 포워드 신경망의 일종이다. 따라서 CNN은 사진을 기반으로 새나 식물의 종을 식별하는 것과 같은 지각 작업에 매우 적합하다. 비즈니스 활용 사례로는 의료 스캔을 통해 질병을 진단하거나 소셜 미디어에서 회사 로고를 감지하여 브랜드 평판을 관리하거나 잠재적인 공동 마케팅 기회를 파악하는 것 등이 있다.
작동 방식은 다음과 같습니다:
- 먼저 CNN은 문자 "A"의 이미지(예: 픽셀 모음)를 수신하여 픽셀 모음으로 처리한다.
- CNN은 숨겨진 레이어에서 고유한 특징(예: 문자 "A"를 구성하는 개별 선)을 식별한다.
- 그런 다음 CNN은 새 이미지에 이전에 문자를 구성하는 것으로 식별된 것과 동일한 고유 특징이 있는 것을 발견하면 다른 이미지를 문자 "A"로 분류할 수 있다.
3) 순환 신경망(RNN). RNN은 연결에 루프가 포함된 인공 신경망으로, 모델이 데이터를 앞으로 이동하고 뒤로 반복하여 이전 레이어를 통해 다시 실행하는 것을 의미한다. RNN은 텍스트, 음성 또는 이미지의 대규모 샘플과 같은 시퀀스의 감정이나 결말을 예측하는 데 유용하다. 각 개별 입력이 그 자체로 모델에 공급될 뿐만 아니라 이전 입력과 함께 공급되기 때문에 이러한 작업을 수행할 수 있다.
은행의 예를 계속 이어서, RNN은 피드 포워드 신경망과 마찬가지로 사기성 금융 거래를 탐지하는 데 도움을 줄 수 있지만, 더 복잡한 방식으로 탐지할 수 있다. 피드 포워드 신경망은 개별 거래의 사기 가능성을 예측하는 데 도움을 줄 수 있지만, 순환 신경망은 신용 카드 내역과 같은 일련의 거래와 같은 개인의 금융 행동을 '학습'하고 각 거래를 개인의 전체 기록과 비교하여 측정할 수 있다. 피드 포워드 신경망 모델의 일반적인 학습을 사용하는 것 외에도 이 작업을 수행할 수 있다.
기초 모델이란 무엇인가?
기초 모델은 방대한 양의 비정형, 라벨링되지 않은 데이터인 트랜스포머 네트워크 아키텍처에서 학습된 딥 러닝 모델이다. 기초 모델은 즉시 사용하거나 미세 조정을 통해 특정 작업에 맞게 조정하여 다양한 작업에 사용할 수 있다. 미세 조정에는 일반적으로 모델이 처음에 학습된 데이터 세트보다 훨씬 작은 레이블이 지정된 데이터 세트에 대한 비교적 짧은 기간의 학습이 포함된다. 이러한 추가 훈련을 통해 모델은 더 작은 데이터 세트에서 발견되는 뉘앙스, 용어 및 특정 패턴을 학습하고 적응할 수 있다. 기초 모델의 예로는 DALL-E 2, GPT-4, Stable Diffusion 등이 있다.
대규모 언어 모델이란 무엇인가?
대규모 언어 모델은 방대한 양의 비정형 텍스트를 처리할 수 있는 기초 모델의 한 종류다. 이러한 모델은 토큰이라고도 하는 단어 또는 단어의 일부 간의 관계를 학습할 수 있다. 이를 통해 대규모 언어 모델은 자연어 텍스트를 생성하거나 요약 또는 지식 추출과 같은 작업을 수행할 수 있다. Google의 Gemini는 LaMDA라는 대규모 언어 모델에서 실행된다.
머신러닝과 딥러닝의 혜택을 누릴 수 있는 분야는 어디일까?
맥킨지는 19개 산업과 9개 비즈니스 기능에 걸쳐 400개 이상의 머신러닝 및 딥러닝 사용 사례를 수집했다. 분석 결과, 거의 모든 산업에서 머신러닝과 딥러닝의 이점을 누릴 수 있다고 생각한다. 다음은 여러 분야에 걸친 몇 가지 사용 사례의 예이다:
- 예측적 유지보수. 이 사용 사례는 장비에 의존하는 모든 산업이나 비즈니스에 매우 중요하다. 기업은 장비가 고장날 때까지 기다리는 대신 예측 유지보수를 사용하여 유지보수가 필요한 시기를 예측함으로써 잠재적인 다운타임을 줄이고 운영 비용을 절감할 수 있다. 머신러닝과 딥러닝은 대량의 다면 데이터를 분석할 수 있는 능력을 갖추고 있어 예측 유지보수의 정확도를 높일 수 있다. 예를 들어, AI 실무자는 오디오 및 이미지 데이터와 같은 새로운 입력 데이터를 계층화하여 신경망의 분석에 뉘앙스를 더할 수 있다.
- 물류 최적화. AI를 사용하여 물류를 최적화하면 실시간 예측과 행동 코칭을 통해 비용을 절감할 수 있다. 예를 들어, AI는 배송 트래픽의 경로를 최적화하여 연비를 개선하고 배송 시간을 단축할 수 있다.
- 고객 서비스. 콜센터의 AI 기술은 고객에게 보다 원활한 경험을 제공하고 보다 효율적으로 업무를 처리할 수 있도록 도와준다. 이 기술은 발신자의 말을 이해하는 것을 넘어 오디오를 딥러닝으로 분석하여 고객의 어조를 평가할 수 있다. 자동화된 통화 서비스에서 발신자가 화를 내는 것을 감지하면 시스템은 인간 상담원이나 관리자에게 경로를 변경할 수 있다.
참조된 기사:
- "제너레이티브 AI를 통한 기술의 세대교체: CIO 및 CTO 가이드", 2023년 7월 11일, Aamer Baig, 스벤 블룸버그, 에바 리, 더글러스 메릴, 아디 프라드한, 메가 신하, 알렉산더 수카레프스키, 스티븐 쉬
- "기업을 위한 새롭고 빠른 머신 러닝 플라이휠", 2023년 3월 10일, Medha Bankhwal, Roger Roberts
- "제품 디자인에서의 딥 러닝", 2022년 12월 14일, 미카엘 브로사드, 자코모 코르보, 마리 클레일, 빌 와이즈먼
- "경영진을 위한 AI 가이드", 2020년 11월 17일, 마이클 추이, 브라이언 맥카시, 비슈누 카말나스
- "딥 러닝의 기원과 선구자", 2018년 5월 8일
- "AI 프론티어의 노트: 딥 러닝의 응용과 가치", 2018년 4월 17일, Michael Chui, 제임스 만리카, 메흐디 미레마디, 니콜라우스 헨케, 리타 정, 피터 넬, 산칼프 말호트라.