[충청뉴스 이성현 기자] 국내 연구진이 세계 주요 24개 언어를 인식할 수 있는 음성인식 기술을 개발했다.
한국전자통신연구원(ETRI)은 세계 주요 24개 언어를 음성으로 인식하고 문자로 변환할 수 있는 ‘대화형 인공지능 기술’을 개발했다고 3일 밝혔다.
ETRI가 이번에 개발한 음성인식 기술의 성능은 구글(Google) 등 글로벌 업체와 비교해 한국어에서는 우위, 타 언어에서는 대등한 수준이다.
연구진은 ▲자기 지도학습 ▲의사 레이블 적용 ▲대용량 다국어 사전 학습 모델 ▲음성 데이터의 오디오 데이터 생성(TTS) 증강 기술 등을 통해 언어 확장의 어려움을 해결했다.
또 연구진은 기존에 흔히 활용되던 종단형(End-to-End) 음성인식 기술의 단점을 개선해 활용성을 높였다.
느린 응답속도의 문제는 스트리밍 추론 기술을 개발, 실시간 처리가 가능하도록 개선했으며 의료와 법률, 과학기술 등 특정한 도메인에 대한 음성인식 특화가 쉽도록 하이브리드 종단형 인식 기술도 개발해 적용했다.
연구진은 이번 다국어 확대와 응답 속도 지연 해결 등 신기술 적용을 통해 음성인식 기술 활용 범위를 확대·사업화를 추진할 예정이라고 밝혔다.
ETRI 복합지능연구실 김상훈 책임연구원은 “국내기술로 글로벌 선도업체와 대등한 수준의 음성인식 기술을 개발했다는 데 의의가 있다”며 “우리나라 인공지능 분야의 글로벌 경쟁력을 높이고 기술자주권을 확보하는 데 큰 도움이 되길 바란다”고 밝혔다.
현재 ETRI는 공공인공지능 오픈 API·DATA 서비스 포털(https://aiopen.etri.re.kr/)을 통해 11개 언어의 음성인식 서비스를 제공하고 있다. 이번 연구성과를 기반으로 24개 언어로 음성인식 서비스를 확대해 중소·벤처기업, 학교, 개인 개발자 등 다양한 사용자들에게 다국어 음성인식 관련 사업 기회를 제공한다는 계획이다.

