[충청뉴스 이성현 기자] 국내 연구진이 희소 행렬에 해당하는 2억 건의 비디오 시청 내역을 10킬로바이트(KB) 크기로 성공적으로 압축할 수 있으며 기존 기술을 이용해 1기가바이트(GB)로 압축한 것보다도 압축으로 인한 정보 손실이 적은 기술을 개발했다.
한국과학기술원(KAIST)는 김재철AI대학원 신기정 교수 연구팀이 기존 대비 50배 이상 우수한 압축률의 희소 행렬 압축 기술인 뉴크론(NeuKron)을 개발했다고 9일 밝혔다.
희소 행렬이란 높은 비율의 원소가 0인 행렬을 의미하며 전자상거래 구매 내역, 소셜 네트워크에서의 친구 관계, 문서와 단어 간 포함 관계 등 다양한 종류의 데이터가 희소 행렬 형태로 저장 및 활용된다.
실세계 데이터로부터 얻어진 대규모 희소 행렬을 효율적으로 다루기 위해서는 압축 기술이 필수적이다. 예를 들어 1억 명의 구매자와 1억 개의 상품으로 구성된 전자상거래 구매 내역의 경우 행렬은 전체 구매자 수와 전체 상품 수의 곱에 해당하는 1경 개의 원소를 갖는다.
연구팀이 개발한 뉴크론은 실세계 데이터에서 흔하게 발견되는 자기 유사성에 착안했다. 자기 유사성이란 대상의 일부분을 확대해 볼 때 대상의 전체와 닮은 패턴이 나타나는 성질을 의미한다.
뉴크론은 크게 세 가지 단계로 구성된다. 첫 번째 단계는 행렬이 자기 유사적인 구조를 가질 수 있도록 행과 열을 재배열하는 것, 두 번째는 재배열된 행렬을 재귀적으로 분해하는 과정을 통해 행렬의 각 원소를 위치 수열로 인코딩하는 것이다.
마지막 단계는 각 위치 수열을 입력으로 행렬의 원소값을 추론하는 순환신경망을 학습하는 것이다. 이때 순환신경망은 행렬의 자기 유사성을 기반으로 정확한 추론을 수행한다.
신기정 교수팀의 뉴크론 기술은 희소 행렬뿐 아니라, 희소 텐서의 압축에도 적용할 수 있다. 행렬이 행과 열로 구성된 2차원 데이터라면, 텐서는 행렬을 3차원 이상으로 일반화한 것이다.
신기정 교수는 "다양한 실세계 데이터 그리고 인공지능 모델의 매개 변수가 희소 행렬의 형태로 표현된다ˮ며 "희소 행렬 압축 기술을 추천시스템, 이상 탐지, 인공지능 모델 경량화 등 다양한 분야에 활용 가능할 것으로 기대한다ˮ고 설명했다.
한편 이번 연구는 정보통신기획평가원의 지원을 받은 강건하고 공정하며 확장 가능한 데이터 중심의 연속 학습 과제와 한국연구재단의 지원을 받은 부호화된 그래프 마이닝 과제의 성과다.

