KAIST, '챗GPT 추론 성능 향상' NPU 핵심기술 개발
KAIST, '챗GPT 추론 성능 향상' NPU 핵심기술 개발
  • 이성현 기자
  • 승인 2025.07.04 10:42
  • 댓글 0
이 기사를 공유합니다

KV 캐시 양자화 알고리즘의 개요도
KV 캐시 양자화 알고리즘의 개요도

[충청뉴스 이성현 기자] 국내 연구진이 AI 모델의 추론 성능을 향상시킬 수 있는 신경망처리장치(NPU) 핵심기술을 개발했다.

한국과학기술원(KAIST)은 전산학부 박종세 교수 연구팀이 (주)하이퍼엑셀과 챗GPT와 같은 생성형AI 클라우드에 특화된 고성능·저전력의 NPU 핵심기술을 개발했다고 4일 밝혔다.

연구팀이 제안한 기술은 컴퓨터 아키텍처 분야에서 최고 권위를 자랑하는 국제 학회인 ‘2025 국제 컴퓨터구조 심포지엄(ISCA 2025)’에 채택됐다.

이번 연구의 핵심은 추론 과정에서 경량화를 통해 정확도 손실을 최소화하면서도 메모리 병목 문제를 해결해 대규모 생성형AI 서비스의 성능을 개선하는 것이다.

기존 GPU 기반 AI 인프라는 높은 메모리 대역폭과 메모리 용량 요구를 충족하기 위해 다수의 GPU 디바이스가 필요한 반면 이번 기술은 메모리 사용의 대부분을 차지하는 KV 캐시의 양자화를 통해 적은 수의 NPU 디바이스만으로 동일 수준의 AI 인프라를 구성할 수 있어, 생성형 AI 클라우드 구축 비용을 크게 절감할 수 있다.

또 최신 GPU 대비 비용·전력 효율성이 우수한 NPU 기반 AI 클라우드를 구성할 경우 NPU의 고성능, 저전력 특성을 활용해 운영 비용 역시 크게 절감할 수 있을 것으로 기대된다.

박종세 교수는 “추론의 정확도를 유지하면서 메모리 요구량을 줄이는 경량화 기법과 이에 최적화된 하드웨어 설계를 결합해 최신 GPU 대비 평균 60% 이상 성능이 향상된 NPU를 구현했다”고 설명했다.

이어 “이 기술은 생성형AI에 특화된 고성능·저전력 인프라 구현 가능성을 입증했으며, AI클라우드 데이터센터뿐 아니라 능동적인 실행형 AI인 ‘에이전틱 AI ’등으로 대표되는 AI 대전환(AX) 환경에서도 핵심 역할이 기대된다”고 덧붙였다.

기사가 마음에 드셨나요?

충청뉴스 좋은 기사 후원하기


※ 소중한 후원금은 더 좋은 기사를 만드는데 쓰겠습니다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.