ICT 스토리
사람과 소통하는 AI를 만든다
㈜튜닙

핵심 기술 및 성과

  • 거대언어모델에 기반한 페르소나 챗봇 서비스 및 API
  • AI 챗봇 서비스 개발(Dearmate)
  • 다양한 기관에 베이스라인 모델링 코드 제공
사람과 AI가 자유롭게 소통할수 있는 세상
DearMate 반려견 챗봇
최근 인공지능(AI) 분야에서 자연어 처리(NLP, Natural Language Processing) 시장이 급격히 커지고 있다. NLP는 컴퓨터와 사람의 언어 사이의 상호 작용을 연구하는 AI의 주요 분야 중 하나로 AI 스피커, 챗봇 등 다양한 곳에서 해당 기술이 활용되고 있다. 특히 챗GPT의 등장 이래로 여러 빅테크에서 정보 전달과 업무 보조가 가능한 거대언어모델을 출시하고 있다. 이성의 영역뿐만 아니라 사용자의 감정에 공감하고 조언하며 대화를 즐길 수 있는 챗봇 기술에 대한 시도 또한 활발히 일어나고 있다. 2022년 AI챗봇 시장은 2024년에 94억 달러(약 10조 6,000억 원)까지 커질 것으로 예상했지만, 지금은 이를 크게 상회하는 수치들이 등장하고 있다. ㈜튜닙은 2021년 카카오브레인 NLP 팀원들이 주축이 돼 설립한 자연어 처리 전문 스타트업이다. 자체 거대언어모델을 통한 생성형 AI 기반 챗봇과 이의 기반이 되는 자연어 처리 기술을 보유하고 있다. 자체 기술력뿐만 아니라 외부 언어모델을 활용하는 기술 또한 갖추고 있어 설립 이후 반려견 챗봇, 영어 사용 구름 챗봇 등 50여 종의 다양한 페르소나 챗봇들과 NLP API들을 출시했다. 2021년 11월에는 펄어비스, DSC, 네이버로부터 투자유치를 받아 잠재력을 인정 받았다. 2022년 7월에는 서울특별시와 청년구직자에게 다양한 일 경험 및 직무 체험을 제공하기 위한 협약을 맺으며 스타트업 역시 사회적 기여와 함께 기업 경쟁력을 확보할 수 있다는 가능성을 보여주었다.
국내 오픈데이터의 발판 마련
DearMate 대화 모음
고성능의 AI 모델 학습을 위해서는 양질의 인공지능 학습용 데이터를 확보하는 것이 중요하다. 인공지능 학습용 데이터 확보가 ‘데이터 댐’ 구축 프로젝트의 핵심 사업이자 디지털뉴딜 정책의 주요 과제인 셈이다. 그러나 국내 인공지능 기업들은 해외 오픈데이터에 많이 의존해 왔으며, 때문에 한국어의 특수성과 사용 인구의 상대적 희소성으로 국내 서비스 개발에 활용하기엔 한계가 있었다. 튜닙은 한국어 품사 정보를 비롯한 자연어 전문 지식을 갖춘 연구진과 전문성 있는 수집 및 가공 방법론이 필요하다고 판단해 당사의 기술로 국내의 오픈데이터 기반을 다지는 데 기여하고자 ICT기금사업에 지원했다. 튜닙이 지원한 ‘2022 인공지능 학습용 데이터 구축’ 사업의 세부 과제는 ‘한국어 블렌더봇 데이터’와 ‘한국어 일반 상식 문장 데이터’ 두 가지이다. 전자의 경우 글로벌 최첨단 챗봇인 블렌더봇 데이터셋의 한국어판을 원 데이터셋보다 고품질로 구축해 개방형 대화 기술(Open-Domain Conversation) 수준을 높이고자 하는 목적의 과제이다. 후자는 한국어 일반 상식 문장 데이터를 확보·구축하여 이를 생성모델의 학습을 위해 사용할 수 있도록 만드는 과제다. 튜닙은 이 두 과제에서 데이터 구축을 위한 모델링을 수행했으며, 이를 통해 데이터셋의 실효성을 입증하는 역할을 했다. 과제는 목표로 설정한 모든 모델링 목표 성능이 초과 달성하며 성공적으로 마쳤다. 레퍼런스로 삼은 논문과 비교해서도 경쟁력 있는 성능을 기록했다. 튜닙이 대화 챗봇 서비스를 제공하는 입장이었기 때문에 실제 서비스를 고려하면서도 AI Hub에 공개된 대화 데이터셋을 추가로 학습할 수 있었고, 성능 비교를 통해 고도화 가능성을 보였다는 점에서도 큰 의미가 있는 성과였다. 학교, 연구기관, 기업 등 대화 데이터가 필요한 기관에 직접적인 도움이 되는 베이스라인 모델링 코드를 제공하기도 했다.
인공지능 개발 위해 분야별 데이터셋 구축은 필수
앞으로도 데이터셋의 활용 방안은 다양할 것으로 전망된다. 하지만 훌륭한 인공지능을 개발하기 위한 양질의 데이터는 여전히 부족하다. 특히 논리적이고 정제된 표현의 집약체라고 볼 수 있는 논문의 경우, 영어권에 비해 한국어 데이터는 전문기관 산하의 DB로 분산돼 있어 공개된 자료라 하더라도 축적이 쉽지 않다. 더 다방면에서 활용할 수 있는 인공지능의 개발을 위해 이런 데이터셋 역시 분야별 구축이 진행된다면 앞으로의 성장에 큰 디딤돌이 될 것이다.

ICT 기금 성과

전담기관명 한국지능정보사회진흥원
세부사업명 인공지능학습용데이터구축
내역사업명 인공지능학습용데이터구축

기업현황

CEO 박규병
업종 소프트웨어 개발 및 공급업
설립연월 2021. 03
홈페이지 www.tunib.ai
TIME LINE
2021. 3.

주식회사 튜닙 설립
2021. 7.

병렬처리 라이브러리 Pararellformers 공개
2021. 9.

2021 인공지능 온라인 경진대회 정보통신산업 진흥원장상 수상
2021. 12.

2021 AI 그랜드챌린지 대회 3단계 정보통신 기획평가원장상 수상
빅모델 학습 프레임워크 OSLO 공개
2022. 2.

여행 영어 챗봇 BLOONY 클로즈베타 출시
2022. 4.

튜닙 Safety Engine: 세인트 패트릭 공개
2022. 8.

튜니브리짓 (TUNiBridget): 튜닙 NLP API 서비스 공개
2022. 9.

2022 인공지능 온라인 경진대회 과학기술정보 통신부 장관상 수상
반려견 챗봇 코코, 마스 오픈베타 출시
2022. 12.

다양한 챗봇과의 대화 어플, 디어메이트 출시
2023. 1.

2022 AI 그랜드챌린지 과학기술정보통신부 장관상 수상
최신뉴스
ICT 스토리 Ⅱ