네이버 "한국어 음성 인식 기술은 클로바가 1등...활용도 계속 높일 것" < 산업 < 기사본문 - AI타임스 (aitimes.com)
- 옥상훈 네이버 클로바 부장, 'DT 비즈니스 혁신 세미나'에서 발표
- 클로바가 구글·MS·아마존 등 경쟁AI 모델보다 한국어능력 월등히 뛰어나
- 회의록 기록·악성댓글 감지·쇼핑 등 활용사례 공유
- "하이퍼클로바 기술 바탕으로 다양한 AI 서비스 계속 선보일 것"
네이버가 한국어에 특화된 인공지능(AI) 기술을 다양한 분야에 접목하고 있다. 악성댓글 방지와 회의록 기록, 쇼핑몰 등에 해당 기술을 적용했다. 앞으로도 초대규모(Hyperscale) AI 모델인 '하이퍼클로바'를 바탕으로 서비스 영역을 계속 넓힌다는 방침이다.
옥상훈 네이버 클로바 부장은 6일 서울디지털재단과 서울스마트시티센터 주최로 열린 'DT 비즈니스 혁신 세미나'에서 "네이버와 라인의 AI 브랜드이자 플랫폼인 클로바는 구글, MS, 아마존 등 경쟁사 모델보다 한국어 음성인식 분야에서 가장 성능이 뛰어나다"면서 "해당 기술력과 딥러닝 기술을 결합해 댓글, 회의, 쇼핑, 자막 처리 등에 다양한 서비스를 공급하고 있다"고 밝혔다. 또 "하이퍼클로바를 바탕으로 네이버 클로바의 한국어 인식 기술의 정확도와 활용도는 계속 높아질 것"이라고 덧붙였다.
사실 해당 부분에 있어서는, 다른 모델들은 한국어 중심이 아니지만 하이퍼클로바의 경우 한국어 언어모델이기에 어쩌면 당연하다는 생각이 들지만.. 어쨌든 하이퍼클로바가 가장 성능이 뛰어난 것은 부정할 수 없다.
하이퍼클로바는 네이버가 올해 5월 공개한 초대규모 AI 모델이다. 한국의 GPT-3라고 불린다. 네이버가 1세대, 2세대 언어분석 모델을 개발한 경험으로 탄생시킨 3세대 언어분석 모델이기도 하다.
하이퍼클로바는 수많은 데이터를 구축해야 하는 1세대와 딥러닝 기술을 도입한 2세대와 달리 자기지도학습 방법을 사용한다. 사용자가 라벨링을 하지 않아도 자기 스스로 데이터를 학습해 정확도를 높인다. 2세대에서 구현 가능했던 영상 자막 생성, 녹취록 기술의 정확도를 높여준다. 또 회의록을 기록하는 '클로바 노트' 기술도 가능하게 했다.
옥 부장은 "GPT-3는 인간이 영어로 하는 말을 다 구현하는 모델이라면 하이퍼는 한국어를 다 구현하기 위해 개발된 모델"이라며 "1000개 이상 그래픽처리장치(GPU)가 탑재됐고, 50년 치 뉴스 데이터가 다 들어가 있다"고 설명했다. 또 "클로바 노트의 경우에도 하이퍼클로바를 통해 정확도가 30% 높아졌다"고 밝혔다.
클로바 노트는 음성을 문자로 변경해주는 AI 기능이다. 녹음된 내용을 AI가 문자로 변환해준다. 줌 회의에 탑재돼 회의에 참석한 사람들의 대화를 글로 작성해주는 역할을 하고 있다. 화자인식 기술로 말한 사람을 구분해 대화 내용을 기록함으로써 사용자 편의성을 높였다.
클로바 노트에는 기계가 이해하기 어려운 전문용어도 정확히 인식할 수 있는 기능도 탑재됐다. 사용자는 클로바 노트에 자주 사용하는 용어를 500자까지 등록할 수 있다. 의사나 변호사 등 전문용어를 많이 사용하는 비즈니스 영역에서 대화 내용을 보다 정확히 기록할 수 있다.
해당 기술은 자막 처리에도 그대로 사용될 수 있다. 뉴스나 방송에 나오는 말을 텍스트로 전환해 영상에 입히면 된다.
한층 정확해진 한국어 음성인식 기술은 악성댓글 방지도 강화하고 있다. 과거에는 악성댓글 감지를 위해 악용되는 단어를 분석해 댓글에 해당 단어가 있는지를 판단했다. 악성이 아닌데도 해당 단어가 들어가면 악성댓글로 분류되거나 단어를 조금만 돌려쓰면 악성으로 분류가 되지 않는 경우가 많았다. '쓰레기'라는 단어가 한 예시다. 쓰레기라는 단어를 욕과 비난처럼 사용한 댓글도 있었지만, 순수하게 쓰레기를 지칭하는 글도 있었다.
네이버는 한국어 음성인식 기술로 단순히 단어로 악성 여부를 판단하는 게 아니라 전체적인 글을 보고 악성 여부를 판단하게 했다. 비속어나 신조어 등 AI가 이해할 수 있는 단어 폭도 넓혔다. 그만큼 악성댓글을 파악하는 정확도가 높아졌다. 해당 기술은 광고성 글을 탐색하는 데까지 적용되고 있다.
옥 부장은 "최근에는 네이버 밴드에 광고성 글을 자동으로 필터링하는 기술도 적용했다"면서 "그만큼 한국어를 정확히 인식하고 분석할 수 있어 가능하게 된 일"이라고 설명했다.
네이버 쇼핑에 상품을 분류하는 데에도 해당 기술이 사용되고 있다. 네이버 쇼핑에는 매일 2천만 장의 상품이 올라온다. 사용되는 카테고리만 5천 개 이상이다. 이처럼 매일 많은 양의 상품을 사람이 분류하긴 쉽지 않다.
네이버는 해당 문제를 해결하기 위해 이미지 분류 알고리즘과 한국어 음성인식 기술을 활용하고 있다. 이미지 분류 알고리즘으로 해당 상품이 옷인지, 식품인지를 분류하고 옷이어도 원피스인지, 바지인지, 티셔츠인지 등을 분류하는 방식이다.
한국어 음성인식 기술은 상품 설명을 보고 상품을 분류한다. 이미지 분류 알고리즘을 보조해 상품 분류 정확도를 높인다.
띠용..? 음성인식이 아니라 아마 텍스트 분석인 듯 하다.
네이버는 하이퍼클로바 기술을 바탕으로 한국어를 사용하는 다양한 AI 서비스를 선보인다는 방침이다. 네이버 관계자는 "하이퍼클로바를 통해 AI가 시를 쓰고 작사를 하는 것도 가능해질 것"이라며 "지금까지 존재한 기술의 정확도를 높이고 존재하지 않았던 기술을 계속 선보이겠다"고 말했다.
'etc > IT 뉴스' 카테고리의 다른 글
210805 [AI 실생활 체험기] AI와 함께 하는 슬기로운 쇼핑생활 - ①리뷰 편 (1) | 2021.08.20 |
---|---|
210819 "의료 데이터 개방, 계속 지연되면 의료 AI 기업 영속 어렵다" (0) | 2021.08.20 |
[210815] 트위터의 공개 고백... ‘크롭 툴’ 편향성 찾을 시 3500달러 포상 (0) | 2021.08.16 |
[210810] KISDI 국내 AI 도입 기업 실태조사..."대기업 제외하면 고작 8%만이 AI기술 활용 중" (0) | 2021.08.13 |
[210812] SKT-카카오, AI·ESG 협력 본격화...AI 솔루션 개발과 ESG 펀드 조성에 힘 모아 (0) | 2021.08.13 |
댓글