쉽고 얕게 알려주는 Generative AI에 관한 모든 것

1. Generative AI 소개

위의 이미지는 DALLE2에 아래와 같은 텍스트 명령을 입력해서 생성한 이미지이다.

  • a photograph of a blonde haired girl standing in the train station carrying a back pack

이처럼 DALLE-2, Stable Diffusion, Midjourney는 간단한 텍스트만 입력해도 믿기지 않을 정도의 고품질 이미지를 만들어 낸다. OpenAI의 ChatGPT는 마치 사람처럼 대화를 하고 추론이 필요한 질문에 대해서 답을 한다.

이렇게 텍스트, 이미지, 비디오를 만들어 낼 수 있는 AI를 넓은 범주에서 Generative AI라 한다

2. Generative AI의 실무 적용

Generative AI는 당신이 어떤 일을 하던 간에 (미래의 어느 날이 아니라!) 지금 바로 생산성을 수배 올려줄 수 있다. 예를 들어서 지금 당장 쓸 수 있는 Generative AI를 사용한 소프트웨어들을 살펴 보자:

  • 글 쓰기 – 광고 카피를 만들거나, 이메일/블로그를 작성하거나 할 때 Jasper.ai, Copy.ai, 국내에서는 뤼튼 wrtn.io 등을 사용해서 완성된 결과물을 바로 얻을 수 있다.
  • 상품 사진 편집 – 상품 사진을 찍고 수정하고, 여러 색의 상품을 촬영하고 하는 등의 작업은 PhotoRoom이라는 카메라앱을 통해서 간편히 할 수 있다.
  • 프로그래밍 – 소프트웨어 개발을 할 때, Github Copilot, Tabnine 등을 사용하면, 내가 작성 중인 코드를 예상해서 AI가 코드를 대신 짜준다.
  • UI 디자인 Uizard를 사용하면 와이어프레임을 손으로 그린 것을 프로토타입 수준의 UI로 바로 전환시켜준다.
  • 발표 자료Beautiful.ai는 어떤 슬라이드를 만들 것인지 간단히 입력하면 슬라이드의 디자인을 만들어 주고, 이 슬라이드에 글이나 미디어를 추가하면 이에 맞춰서 자동으로 레이아웃을 정리해 준다. 더 나아가 ChatBCG는 작성할 슬라이드의 주제를 입력하면 전체 슬라이드 덱을 한 방에 만들어 준다.
  • 영상 편집Runway ML은 몇 번의 클릭만으로 영상에 포함된 물체를 마치 없었던 것처럼 지워낼 수 있고, Descript는 영상의 자막을 문서 수정하듯 하면서 영상을 편집할 수 있다. 이미 만들어진 영상은 Munch를 활용해서 여러 포맷으로 바꿔서 다시 재활용할 수 있다.
  • 뉴스 기사 쓰기United Robots은 핵심이 되는 내용만 키워드로 넣으면, 상세하게 서술된 뉴스 기사를 써 주고, 지역의 언론사가 적은 수의 기자만으로 뉴스를 관리할 수 있게 해 준다.
  • 아나운서 영상Synthesia, D-ID, TypeCast 등을 사용하면 스크립트만 준비하면 그걸 사람이 설명을 해주는 영상을 바로 생성해 낼 수 있다. 사내 교육 자료 등을 만드는데 사람을 동원하고 촬영하고 편집을 하는 일을 할 필요가 없어졌다.
  • 게임 애셋 제작Inworld를 사용하면, 몇 가지 조건만 넣어 주면 게임 내에 쓰일 수 있는 NPC(Non-Playable Character)의 그래픽과 대화 엔진을 만들 수 있다. 그렇게 만든 캐릭터의 음성은 Replica와 같은 툴을 사용해서 생성해 낼 수 있다.
  • 웹사이트 개인화The.com을 사용하면, 수백개의 웹사이트를 한 방에 만들어 낼 수 있다. Munity는 방문객에 맞는 웹사이트를 생성하는 걸 돕는다.
  • 건축 모델링Swapp은 건축물의 3D 모델과 건축 도면을 쉽게 생성할 수 있게 해 준다.
  • 법률 문서 작성Darrow는 어려운 법문서를 쉽게 작성할 수 있게 해 준다.
  • 광고 크리에이티브Pencil AI는 광고 크리에이티브를 디자인을 몰라도 쉽게 생성할 수 있게 해 주며 크리에이티브 내의 카피까지 만들어 준다. Windsor 는 고객 맞춤형 영상을 이메일 보내듯이 쉽게 만들 수 있게 돕는다.
  • 고객 센터 챗봇Observe AI는 고객 센터에서 일하는 분들과 함께 일하는 반자동 응답 챗봇을 제공한다. 그리고 고객과 대화를 정성적으로 분석해서 인사이트를 도출해 준다.

이 뿐만 아니다. 많이 쓰이는 Notion 에서 AI 기능을 베타 버전으로 출시 했고, Photoshop, Figma, Google Docs 등에 이미 Generative AI 기능이 탑재되어 있거나 기능을 제공하고 있는 플러그인들이 있다.

Generative AI는 당신이 하는 일 중에 컴퓨터 앞에 앉아서 하는 대부분의 일에서 생산성을 즉각적으로 향상시켜 줄 수 있다.

Generative AI를 어떻게 활용할 수 있을지 함께 경험을 나누는 오픈 채팅방에 참여 하세요!
저는 Generative AI쪽의 창업을 준비하고 있습니다 – 편하게 줌 커피챗 해요~

3. 온디맨드 지능 – ChatGPT의 등장

지난 2022년 11월 말일에 공개된 ChatGPT는 Generative AI 기술이 쓰인 제품 중에서도 가장 충격적이었다. 사람만 할 수 있을거라 생각했던 지식 노동 전 분야에 걸쳐서 대부분 전문가 수준으로 사람을 도와줄 수 있는 것이 확인 되었기 때문이다. 트위터와 미디어는 ChatGPT에 관한 얘기가 쏟아져 나왔고 여전히 나오고 있다. ChatGPT는 역사상 가장 빠르게 사용자가 늘어난 제품이 되었다. 단 5일만에 1백만명의 사용자를 확보했다.

1백만 사용자를 확보하는데 걸린 시간들. ChatGPT는 역사상 가장 빠르게 1백만 사용자를 확보하였다. 출처: Exponential View

ChatGPT는 사실 관계에 관한 질문, 배경 지식이 필요하고 그걸 종합해서 추론하는 것이 필요한 질문 등 고차원적인 사고를 필요로 하는 질문에 매우 완성도 높은 답변을 준다.

ChatGPT 예시: 사고를 필요로 하는 질문에 사람 못지 않은 답변을 준다. 출처: LearnGPT.com
ChatGPT는 맥락의 자연스러움을 이해하고 업무를 수행할 수 있다. 출처: 17 Products You Can Build with ChatGPT

단순 질문 답변뿐만 아니라, 답변한 것에 피드백을 제공하며 요구사항을 덧붙이면 이에 맞춰서 답변을 수정하여 새로 제공해 준다. 사용자가 원하는 것을 정확히 찾아갈 수 있는 일련의 대화가 자연스럽게 가능하다.

ChatGPT와 함께 소설을 써 가는 것. 출처: Collaborative Creative Writing with OpenAI’s ChatGPT

하지만, ChatGPT가 독립된 개체로써 사고할 수 있는 완전한 AI는 아직 아니다.

대신 사람의 명령에 결과를 출력한 뒤, 이 결과에 대한 피드백을 다시 사람에게 받는 프로세스를 반복하며 사람과 AI가 서로의 단점을 보완하며 업무를 마무리할 수 있게 되었다. AGI (Artificial General Intelligence)라 불리는 사고하는 AI까지 가는 길은 아직은 멀었지만, ChatGPT는 채팅이라는 인터페이스, 그리고 사람의 피드백을 사용한 강화 학습 (Reinforcement Learning from Human Feedback)이 함께 어우러져서 마치 AGI의 도움을 받는 것과 같은 효과를 만들어 낸 셈이다.

이런 ChatGPT의 능력은 다양한 곳에 활용될 수 있다:

  • 슬랙/팀즈 챗봇 – 주변 동료들이 하는 반복되는 질문에 시달리는 일이 거의 없어질 것이다. 많은 사람들이 당신을 대변하는 챗봇에 질문을 하고 답변을 얻을 것이다. 이렇게 쓰기 시작한 챗봇은 직원 개개인이 리서치 업무를 하거나 기획 업무, 정성적인 분석이 필요한 일에 가져다 쓸 수 있다는 것을 알게 되고 부서의 쥬니어 혹은 인턴처럼 챗봇을 쓰게 될 것이다.
  • 콜센터 전화 응대 – 고객 응대를 하는 콜센터는 보다 적은 사람으로 정말 많은 고객들을 대응하게 될 수 있을 것이다. 챗봇이 고객의 질문에 대답을 할 때 사람인지 AI인지 고객이 구분하기 쉽지 않을 것이다.
  • 에이전시 – 에이전시에서 제공하는 서비스는 지금까지 소프트웨어가 대신하기 어려웠다. 광고 크리에이티브를 만들거나, 마케팅 기획을 한 후 실행하고 정성적-정량적으로 분석해서 보고 하거나, 특정 주제에 관해서 리서치를 진행하거나 하는 일이다. 하지만, 이 분야도 ChatGPT와 같은 AI가 대부분의 실무를 진행할 수 있게 되고 사람은 AI가 실행하는 일을 모니터링하고 방향을 조정해 주는 정도의 일만 하면 된다.
  • 팬과 대화 – 크리에이터, 인플루언서, 스타들은 개인이 응대할 수 있는 팬의 수가 기하급수적으로 늘 것이다. 그럼에도 불구하고 이런 스타들과 팬과의 인터랙션은 더 개인화될 것이다.

개인적으로 ChatGPT는 실제 우리가 체감 하게 되는 온디맨드 지성 (On-Demand Intelligence)의 첫 번째 사례가 되었고 생각한다.

4. 더 큰 변화는 누구나 Generative AI 기능을 만들 수 있다는 것!

리드와이즈 앱의 대표인 Daniel Doyon은 한 앱 개발사의 대표는 자신들이 OpenAI의 GPT3 API를 사용해서 10개 AI 기능을 앱에 추가하는데 약 3주정도 시간이 걸렸다고 한다. Every 뉴스레터를 발행하는 팀에서는 소속 팀의 저자 한명이 2주만에 AI 글쓰기 앱을 만들었고, 24시간만에 25,000명의 사용자가 등록을 했다.

Mem.ai, Notion, Craft 모두 AI 글쓰기 기능이 추가되었다. 웹 페이지 빌더인 Softr는 웹 페이지에 들어갈 카피를 생성하는 AI, 그리고 이미지를 생성해 내는 기능이 최근에 추가되었다.

웹사이트, 웹앱을 쉽게 만들어주는 Softr 툴에도 AI 기능이 금방 들어왔다.

이렇게 빠르게 AI를 도입할 수 있었던 이유는 다양한 업무에서 필요한 Generative AI의 핵심 기능들을 범용 인공지능 모델, 혹은 파운데이션 모델이 모두 한방에 제공하기 때문이다. 이런 파운데이션 모델, 즉 OpenAI의 GPT3와 오픈 소스 Stable Diffusion 등은 미리 훈련(dataset training)을 한번 시켜 놓으면 이후에 누구든 범용으로 쓸 수 있게 되어서 API로 쉽게 Generative AI 기능을 구현할 수 있기 때문이다.

이전까지는 AI가 세부적인 업무처리를 위해서 세부적인 AI 모델을 설계하고, 사람이 주석을 단 훈련 데이터를 많이 준비해서 훈련시켜야 했다. 이제는 그런 과정 없이, 그냥 파운데이션 모델의 API를 사용해서 다양한 업무에 바로 쓸 수 있는 AI 기능을 만들 수 있게 되었다.

이건 마치 이전에는 화가가 되기 위해서 화학자가 되고 그림에 쓰일 성분을 실험을 통해 얻어야 했다면, 파운데이션 모델을 사용하는 것은 마치 문방구에 가서 물감을 사는 것이 된 셈이다.

시간이 흐른뒤 지금을 돌아본다면 Generative AI의 출현보다, 이런 파운데이션 모델이 출현한 것이 더 중요한 역사의 이벤트로 기록 될지도 모른다.

5. 갑작스런 Generative AI 발전의 이유

Generative AI에서 텍스트를 만들어 낼 때 트랜스포머 모델을 사용한다. 이 모델은 단어를 입력하면 그 다음 단어를 예측하는 모델이다. 다음 단어가 무엇인지 수 많은 사례를 보고 나면, 다음 단어 예측을 잘 하게 되는 것이다. 또한, 이전의 머신러닝 모델은 모델 내에 정의된 거리가 멀어질수록 서로 주고 받는 영향이 적어 졌다면, 트랜스포머는 멀리 떨어져 있는 것들 간의 관계도 고려하는 것이 기존 모델들과 가장 큰 차이점이다.

Generative AI에서 이미지를 생성할 때는 디퓨전 모델을 사용한다. 디퓨전 모델은 주어진 이미지에 아래의 그림처럼 랜덤한 노이즈를 일부러 추가한다. 그리고는 원래 이미지와 노이즈가 추가된 이미지 두 가지를 비교해서 살펴본다. 이런 사례를 엄청 많이 보고 나면 흐릿한 이미지에서 또렷한 이미지를 만들어 낼 수 있게 되는 것이다.

디퓨전 모델은 왼쪽 끝과 같은 이미지에 노이즈를 추가해 가면서 얻어진 이미지를 비교하며 학습힌다. 출처: NVIDIA Develop Blog

이 두 가지 모델이 텍스트 생성과 이미지 생성에 기존 모델들 보다 매우 좋은 성능을 보이기 시작한 덕분에 Generative AI가 많은 관심을 받기 시작했다.

이 두 모델의 특징은 레이블링이 된 데이터가 없어도 충분히 훈련을 시킬 수가 있다는 점이다. 트랜스포머의 경우 예를 들어 하나의 문장이 훈련 데이터로 입력된다고 하자. 트랜스포머는 한 단어의 다음 단어를 예측하는 것이기 때문에, 주어진 문장 안에서 각 단어의 다음 단어들이 나오는 패턴을 스스로 학습할 수가 있다.

디퓨전 모델도 마찬가지이다. 훈련할 이미지가 하나만 주어지면 이를 순차적으로 노이즈를 조금씩 입힌 여러 장의 이미지를 만들어서 학습해 나간다. 이는 고양이 사진에다가 “고양이”라고 레이블을 달아 둔 훈련 데이터를 필요로 하던 이전의 방식과는 큰 차이가 난다.

이런 레이블링 없이 훈련할 수 있는 장점은, 엄청난 훈련 데이터를 확보할 수 있게 해 준다. 레이블링이 필요한 데이터는 확보하는데 많은 시간과 비용이 들어간다. 하지만 레이블링이 없는 데이터는 인터넷에 공개된 데이터 등으로부터 쉽게 확보할 수 있다. 결국 이렇게 훈련시킬 수 있는 데이터를 많이 확보할 수 있어서 AI 모델의 사이즈 (=파라미터 갯수)가 수백억개로 확대될 수 있었다

그리고 아직까지도 훈련 데이터가 너무 많아서 성능이 포화상태에 이르는 현상이 목격되고 있지 않다. 즉, 만일 우리가 더 많은 데이터를 확보할 수 있다면 더 성능이 뛰어난 Generative AI가 만들어 질 수 있다는 것이다. 그리고 그런 더 많은 데이터는 레이블링이 필요 없기 때문에 이런 데이터를 확보하기 위한 다양한 시도 또한 일어나고 있다.

6. 행동하는 Generative AI

근래의 Generative AI은 두 가지 근간 기술 (1) 다음 단어를 예측하는 트랜스포머 모델, 그리고 이미지를 생성해 내는 (2) 디퓨전 모델을 활용해서 놀라운 생성 능력을 보이고 있다. 이중 트랜스포머는 레이블링이 되지 않은 수 많은 데이터를 학습한 다음에, 주어진 것의 다음 것이 무엇이 될지 예측을 할 수 있는 모델이다. 그래서 ChatGPT와 같은 텍스트 생성 AI에서는 다음 단어를 예측하는 기술로 사용된다.

이렇게 다음 것을 잘 예측하는 AI에다가 디자이너가 피그마를 쓰고 있는 과정을 데이터로 훈련시키는 것을 생각해 보자. 충분히 많은 수의 데이터로 훈련된 AI는 이제 내가 피그마를 사용할 때 다음 행동에 대해서 예측할 수 있게 될 것이다. 그리고 손이 많이 가는 작업에 혹시 이 작업을 하는 건가요 – 라는 질문을 던지고 사용자가 확인을 해 주면, 그 작업을 대신해 줄 수 있게 될 것이다.

업무를 자동화 해주는 대형 언어 모델을 만들고 있는 Adept 사의 데모 영상. 출처: Adept.AI – Act-1

위의 영상에서 소개한 Adept.AI는 모든 소프트웨어 프로세스를 자동화할 수 있는 AI를 만들고 있다. OpenAI와 Google Research 출신의 창업가들은 700억원이 넘는 투자를 유치한 뒤 제품을 만들어 가고 있다.

이런 AI를 만드는 곳은 Adept AI만 있는 것은 아니다. DeepMind를 창업한 무스타파 설리먼과 링크드인 창업가인 리드 호프먼은 Inflection AI라고 하는 회사를 창업했다. Inflection AI도 마찬가지로 사람이 컴퓨터와 인터랙션하는 데이터를 Generative AI에게 훈련시켜서 사람의 행동을 대신해 줄 수 있는 AI를 만들고 있다.

이 분야는 아직은 데이터가 충분하지 않다고 한다. 하지만, 시간이 흐를수록 이런 데이터는 더 수집하기 쉬워지고 많아질 것이기 때문에 Generative AI가 텍스트와 이미지를 만들어 내는 것을 넘어서, 사람이 하는 행동을 대신해 주는 날도 멀지 않은 듯 하다.

7. 현재 Generative AI의 한계

(1) 팩트 검증 안됨: 지금의 트랜스포머와 디퓨전 모델 등 놀라운 성능을 보이고 있는 대부분의 AI들은 수 많은 데이터 속에서 패턴을 학습하고 통계적인 의사결정을 하는 알고리즘으로 해석할 수 있다. 이런 통계적인 결정은 논리를 따져 결론을 도출하는 것과 다르게사실과 거짓을 구분하는데 있어서 취약하다. ChatGPT가 뱉어 내는 답변은 그럴싸 하지만 사실이 아닌 경우도 많다. 사람의 업무를 보조하는 역할에 아직은 한정되어 있다.

(2) 훈련 데이터의 저작권: 파운데이션 모델들은 엄청난 양의 데이터를 훈련에 사용했다. 당신이 블로그에 써 놓은 글 또한 사용되었을 수 있다. 그런데, 당신은 그걸 허용한 적이 있는가? 예술 작품의 이미지, 만화의 컷, 당신의 고유한 말투, 목소리, 외모 사진 이 모든 것들이 인터넷에 공개되는 순간 파운데이션 모델의 훈련 데이터가 된다면, 그 파운데이션 모델을 통해서 수익을 내는 회사는 당신에게 어떤 보상을 해야 하는가? 인터넷에 공개하는 자료에 대해서 AI가 명시적 허락없이 훈련에 사용해도 되는가 – 하는 것은 아직 논란의 여지가 있다. 실제로 OpenAI, 마이크로소프트는 Copilot 등과 같은 모델에 기존 사용자의 허락 없이 코드를 사용했다고 고발을 당했다. 이런 데이터의 소유권에 대한 문제가 어쩌면 지금과 같이 놀라운 성능을 보이는 AI 모델들이 퇴보하게 되는 이유가 될 수도 있다

(3) 범용 AI로 발전하기 어려움: 최근 AI의 발전은 사람의 뉴런 구조를 모방한 것을 기반으로 한다. 하지만 AI가 훈련되는 방식은 우리가 세상에 대해서 배워가는 과정과는 다르다. 즉, AI와 사람은 놀라운 지능을 가지게 되었지만 학습 과정에서 차이 때문에 궁극적으로는 성격이 매우 다른 두 가지 지능이 될 것이다. 어떤 면에서는 사람이 더 나을 것이고, 다른 면에서는 AI가 더 나을 것이다. 날아가는 새를 보면서 영감을 얻어 비행기를 만들어 낼 수 있는 인간의 능력이 AI에 의해 대체 되긴 쉽지 않을 것이다.

지금 당장 적용하는 사람이 위너

최근 구글에서 발표한 논문에 따르면, 자연어 처리를 하는 대형 언어 모델이 스스로가 만들어낸 텍스트를 기반으로 혼자 학습을 하고 성능이 개선되는 것이 발견되었다. 즉, 우리는 Generative AI가 본격적으로 꽃을 피우는 시대로 이미 접어 들었지만 이걸 가능케 하는 AI가 어떤 능력이 있는지 여전히 이해하고 있는 와중이다. 그리고 그 능력은 우리가 지금 이 글에서 얘기하는 것 이상일 가능성이 매우 높다.

각자가 하는 업무에 위에 나열한 Generative AI 소프트웨어를 적용하려고 해 보자. 검색을 하기 전에 ChatGPT로 대화를 조금 나눠보자. 그것만으로도 새로운 시대에서 큰 경쟁력을 가질 수 있을 것이다.

Generative AI를 어떻게 활용할 수 있을지 함께 경험을 나누는 오픈 채팅방에 참여 하세요!
저는 Generative AI쪽의 창업을 준비하고 있습니다 – 편하게 줌 커피챗 해요~

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다