OpenAI에서 개발한 대화형 인공지능 챗봇인 ChatGPT가 공개된 이후 상세하고 정교한, 자연스러운 답변으로 많은 주목을 받았고 AI 챗봇의 가능성 및 응용법에 대한 관심이 높아졌습니다.
본 포스팅 시리즈에서는 최근 트랜드였던 ChatGPT에 대한 개요와 OpenAI에서 제공하는 AI 언어모델 API를 이용한 응용 사례들, OpenAI에서 제공하는 각종 모델의 특징들에 대해 안내하고 더 나아가 OpenAI에서 제공하는 AI 언어모델 API 사용법, 인공지능 모델에 목표를 부여하고 특정 방향성으로 응답하도록 하는 인공지능 튜닝방법 까지 알아보도록 하겠습니다.
먼저, 기술 개요와 API를 이용한 응용사례에 대해 소개하겠습니다.
ChatGPT 소개 및 AI 모델 개요 #
OpenAI의 ChatGPT 서비스 #
ChatGPT는 Generative Pre-trained Transformer(GPT)와 Chat의 합성어이며 인공지능 GPT모델 시리즈를 기반으로 하는 챗봇 서비스
입니다.
포스팅 시점 기준으로 ChatGPT 챗봇은 GPT-3.5 모델을 기반으로 튜닝되어있으며, 여기서 GPT-3.5모델은 OpenAI에서 만든 딥러닝을 이용한 대형 AI 언어 모델
을 의미합니다.
머신러닝 모델
은 데이터를 어떤 알고리즘으로 학습해 패턴을 구성하는지에 대한 결과이며 OpenAI의 가장 유명한 ChatGPT 서비스는 GPT-3.5모델을 사용했지만, OpenAI에서는 GPT 시리즈 모델 이외에도 다양한 특성의 모델의 API를 제공하고있습니다.
OpenAI의 AI 모델 API #
OpenAI 에서는 대표 모델인 GPT 모델 이외에도 다양한 목적으로 특화된 모델을 보유하고 있습니다.
Model | Description |
---|---|
GPT | 자연어, 코드를 이해하고 생성할 수 있는 모델 |
DALL·E | 자연어 프롬프트가 제공되면 이미지를 생성하고 편집할 수 있는 모델 |
Whisper | 오디오를 텍스트로 변환할 수 있는 모델 |
Embeddings | 텍스트를 숫자 형식으로 변환할 수 있는 모델 |
Moderation | 텍스트가 민감하거나 안전하지 않은지 여부를 감지할 수 있는 미세 조정 모델 |
OpenAI에서는 현재 연구가 진행되고있는 위의 모델을 제외하고도 기존에 연구해오던, 또는 연구가 종료된 다양한 모델을 보유하고 있으며, 몇몇 연구종료된 모델들 또한 API로서 제공하기도, 그 중에서 또 몇몇 모델은 튜닝 기능또한 제공하기도 합니다.
다음은 API로 제공하되는, 튜닝가능한 모델의 목록입니다.
Model | Description |
---|---|
babbage-002 | 간단한 작업을 매우 빠르고 저렴하게 수행할 수 있습니다. |
davinci-002 | 가장 유능한 GPT-3 모델. 다른 모델이 수행할 수 있는 모든 작업을 수행할 수 있으며 종종 더 높은 품질로 수행할 수 있습니다. |
gpt-3.5-turbo-0613 | gpt-3.5-turbo 모델의 2023년 6월 13일의 스냅샷 버전 |
현재 OpenAI에서는 유료로 API를 제공하고 있으며, 사용 모델에 따라 사용 토큰 가격이 상이합니다.
자세한 내용은 OpenAI 사이트에서 확인할 수 있습니다.
다양한 분야에 특화된 인공지능 모델들 #
인공지능에 대한 관심이 높아지면서 여러 AI 모델들이 주목을 받아왔지만 인공지능의 학습 모델들은 어떤 목적을 가지고 어떤 데이터로 학습을 했는지, 어떤 알고리즘으로 모델링 되었는지에 따라 그 성능과, 특화된 분야, 작업의 결과가 상이할 수 있습니다.
대표적으로 ChatGPT에 사용된 GPT-3.5모델은 언어 특화 모델로 자연스럽고 정교한 응답을 낼 수 있으며,
이미지 생성 인공지능 프로그램인 Midjourney(미드저니)는 Midjourney V5 모델(포스팅 시점 기준)을 통해 텍스트를 입력하면 텍스트 의미를 해석해 이미지를 생성해줄 수 있습니다.
또한 TTS 음성 생성 인공지능 프로그램인 Eleven Labs(일레븐랩스)는 Multilingual v2 모델을 통해 텍스트를 입력하면 텍스트의 의미를 해석해 맥락에 따라 자연스러운, 사람같이 얘기하는 음성을 생성할 수 있습니다.
AI 영상제작 프로그램인 D-ID는 이미지 데이터와 음성 데이터를 가공하여 이미지가 자연스럽게 말을하거나 소리를 내는 영상을 생성할 수 있습니다.
특이한 응용 사례 소개 : 발렌시아가 패션쇼 with 해리포터 #
GhatGPT를 필두로 한 AI 열풍을 업고 한 유튜버가 만들어 ‘Harry Potter by Balenciaga’ 라는 제목으로 업로드 한 영상하나가 매우 주목받았던 사건(?) 이 있었습니다.
영상 내용은 해리포터 주인공을 연상 시키는 모델들이 발렌시아가 스타일의 옷을 입고 패션쇼에 나와 ‘발렌시아가’ 라는 한마디씩을 외치는게 전부이지만, 이 영상이 주목받았던 이유는 컨텐츠의 모든것이 인공지능 서비스들로 만들어진 결과들을 조합한 것 이었다는 점이었습니다.
바로 위에서 소개한 ChatGPT, Midjourney, Eleven Labs, D-ID를 통해 해당 작업물과 유사한 결과를 만들어낼 수 있다고 하는데 작업 튜토리얼은 아래와 같습니다.
- ChatGPT에게 가장 인기있는 해리포터 캐릭터 10명을 선별해달라고 한다.
- ChatGPT에게 20년 경력의 발렌시아가 디자이너의 입장으로 1번에서 선별한 캐릭터에게 입힐 1990년 발렌시아가 패션쇼 착장을 구상하라고 한다.
- Midjourney를 통해 2번에서 만들어진 상세한 묘사에 대한 텍스트를 이미지로 구현한다.
- 해래포터 캐릭터 배우의 목소리를 Eleven Labs로 추출해 원하는 단어를 읽는 음성 음원을 만든다.
- D-ID를 통해 Midjourney 이미지 결과와 Eleven Labs 음원 결과를 조합해 말하는 영상을 만든다.
이와같이 AI 모델의 특성을 고려하여 적절한 조정을 통해 의외의 응용 결과를 만들어 낼 수 있습니다.
개인적인 감상으로는 이 사례를 통해 AI 모델 서비스 하나하나 독립적으로 보던 시각에서 벗어나 AI모델은 도구일 뿐, 원하는 결과를 만들기 위한 조합가능한 툴이라는 새로운 관점이 생긴 계기가 되었는데,
다른 감상은 각자에게 맡기고 Open AI API 포스팅 시리즈의 첫 글을 마무리하겠습니다.
다음 포스팅에서는 실질적인 Open AI API 사용을 위한 사전 준비 방법과 Request/Response 구성/분석 방법에 대해 소개하겠습니다.