KAIST, 물리 법칙 이해하는 음향 생성 AI ‘파바스’ 개발
KAIST, 물리 법칙 이해하는 음향 생성 AI ‘파바스’ 개발
  • 이성현 기자
  • 승인 2026.05.26 11:16
  • 댓글 0
이 기사를 공유합니다

PAVAS_Physics-Aware Video-to-Audio Synthesis 기술 개념도
PAVAS_Physics-Aware Video-to-Audio Synthesis 기술 개념도

[충청뉴스 이성현 기자] 국내 연구진이 단순 이미지 인식을 넘어 인과관계 이해하는 새로운 형태의 ‘피지컬 AI’를 개발하는 데 성공했다.

한국과학기술원(KAIST)은 전산학부 오태현 교수 연구팀이 POSTECH 오현빈 통합과정 학생 및 소니 AI 공동 연구진과 함께 영상 속 물리적 상황을 이해해 실제 환경과 매우 유사한 소리를 생성하는 인공지능(AI) 기술 ‘파바스(PAVAS)’를 개발했다고 26일 밝혔다.

파바스의 핵심은 영상 속 물체의 질량과 속도 등 눈에 보이지 않는 물리 정보를 스스로 추론한다는 점이다.

영상에는 무게가 숫자로 표시되지 않지만, AI가 주변 환경과 맥락을 분석해 운동에너지 변화를 추정하고 이를 소리 생성에 반영한다.

단순히 ‘무엇이 보이는지’를 넘어 ‘왜 이런 소리가 발생해야 하는지’의 인과관계를 이해하는 ‘물리적으로 일관된 생성 AI(Physical AI)’ 기술이다.

최근 구글의 ‘비오(Veo) 3’나 바이트댄스의 ‘시댄스(Seedance) 2.0’ 등 영상과 오디오를 동시에 만드는 AI가 주목받고 있지만 실제 영화·광고·게임 제작 현장에서는 완성된 기존 영상에 정교한 효과음을 입히는 후반 작업 수요가 훨씬 크다.

파바스는 기존 영상은 그대로 둔 채 영상 속 물체의 움직임과 충돌 특성을 정밀하게 분석해 맞아떨어지는 효과음을 생성한다는 점에서 시장 차별성을 확보했다.

연구팀은 AI가 만든 소리가 물리적으로 자연스러운지 평가하기 위해 ‘영상 속 운동에너지 변화와 소리 강도의 일치도’를 측정하는 새로운 평가 방식도 함께 설계해 기술의 완성도를 높였다.

이 기술이 상용화되면 제품 광고 영상에서 병을 내려놓는 소리, 신발이 바닥을 밟는 소리 등 장면에 맞는 효과음을 자동으로 생성하는 도구로 활용될 수 있다.

나아가 연구팀은 편집이 용이하도록 충돌음, 발걸음, 배경음 등이 분리된 ‘오디오 스템(Stem)’ 형태로 출력하는 방향도 추진 중이다.

이를 통해 콘텐츠 제작 자동화는 물론 AR·VR, 메타버스, 로보틱스 시뮬레이션 등 시각과 청각의 자연스러운 결합이 필수적인 분야에서 몰입감을 크게 높일 것으로 기대된다.

오태현 교수는 “이번 연구는 AI가 물리량과 인과관계를 직접 이해하도록 설계했다는 점에서 의미가 크다”며 “향후 차세대 멀티모달 AI의 핵심 기반 기술로 확장될 것”이라고 설명했다.

기사가 마음에 드셨나요?

충청뉴스 좋은 기사 후원하기


※ 소중한 후원금은 더 좋은 기사를 만드는데 쓰겠습니다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.