질병 유전자, AI가 콕…설명 가능한 AI ‘SaintGSE’ 개발
질병 유전자, AI가 콕…설명 가능한 AI ‘SaintGSE’ 개발
  • 이성현 기자
  • 승인 2026.06.01 13:57
  • 댓글 0
이 기사를 공유합니다

SaintGSE의 학습 및 예측 프레임워크
SaintGSE의 학습 및 예측 프레임워크

[충청뉴스 이성현 기자] 국내 연구진이 방대한 유전자 데이터를 스스로 학습해 질병을 유발하는 신호 경로와 핵심 원인 유전자를 정밀하게 예측하는 인공지능 분석 체계를 개발했다.

한국연구재단은 중앙대학교 윤성일 교수, 전민승 박사, 이민석 석사과정과 성균관대학교 양시영 교수, 남지호 박사, 한양대학교 조찬미 교수 공동연구팀이 대규모 전사체 데이터를 기반으로 질병 연관 경로를 정밀하게 예측하고 각 경로의 핵심 유전자를 명확한 근거와 함께 제시하는 인공지능 분석 기술인 ‘세인트GSE(SaintGSE)’를 개발했다고 1일 밝혔다.

차세대 시퀀싱 기술의 발전으로 방대한 전사체 데이터가 빠르게 축적되고 있으나 이를 복잡한 질병의 분자 기전 및 신호전달경로 변화와 직접 연결해 정확한 발병 원인을 해석하는 데에는 기술적 한계가 존재해 왔다.

기존의 유전자 집합 분석법은 사전에 정의된 유전자 목록과 통계적 유의성에만 크게 의존하기 때문에 질병 특이적인 발현 패턴을 포착하기 어렵고 개별 유전자의 정확한 기여도를 정밀하게 설명하지 못하는 한계가 명확했다.

이에 따라 고차원의 데이터 속에서 질병 관련 경로를 스스로 찾아내고 인공지능의 판단 근거를 유전자 수준에서 정량적으로 증명할 수 있는 설명 가능한 인공지능(XAI) 분석 기술이 생명과학계에서 절실히 요구되는 상황이었다.

연구팀은 이러한 한계를 보완하기 위해 데이터의 효율적인 표현 방법을 스스로 학습하는 비지도 학습 기반의 오토인코더와 데이터 내 구성 요소들의 맥락적 관계를 파악하는 트랜스포머 구조를 결합한 인공지능 모델 SaintGSE를 구축했다.

SaintGSE는 복잡한 전사체 데이터 패턴으로부터 질병 관련 신호전달경로의 활성화 여부를 정밀하게 예측하며 Integrated Gradients 기반의 설명 가능한 인공지능 기법을 도입하여 모델이 특정 경로를 예측할 때 어떤 유전자를 결정적인 근거로 삼았는지 그 기여도를 수치화해 정량적으로 제시해 준다.

연구팀이 이 모델을 실제 골관절염 및 천연물 처리 전사체 데이터에 적용한 결과, 질병이 발생하는 분자 기전을 정확하게 해석해 냈을 뿐만 아니라 치료 후보물질이 생체 내에서 어떻게 작용하는지 그 기전까지 효과적으로 탐색할 수 있음을 실험적으로 증명해 냈다.

이는 단순히 유전자 목록의 통계적 풍부도만 평가하던 기존 방식의 한계를 넘어서 전체 전사체 패턴을 기반으로 경로 수준의 변화를 예측하고 원인 유전자까지 정밀하게 규명하는 새로운 분석 체계를 완성한 것이다.

향후 샘플 특이적 기전 해석은 물론 바이오마커 후보 탐색, 신규 치료표적 발굴, 약물 또는 천연물의 작용 기전 분석 등에 폭넓게 활용될 수 있는 만능 플랫폼의 기반이 마련됐다는 평가다.

이번 연구는 실험 조건, 질병 종류, 분석 플랫폼, 샘플 품질이 각기 달라 일관된 학습이 어려운 대규모 공개 전사체 데이터의 복잡성과 이질성이라는 큰 장벽을 마주하기도 했다.

연구팀은 데이터 전처리와 표준화 과정을 체계적으로 정립하고 다양한 데이터 조건에서도 유연하게 적용 가능한 학습 구조를 설계하여 이를 극복해 냈다.

또 단순히 예측 정확도만 높은 블랙박스형 AI 모델에 그치지 않고, 생명과학 연구자가 실제로 신뢰하고 해석할 수 있도록 결과를 경로 수준에서 예측한 뒤 이를 다시 유전자 수준의 수치적 근거로 연결하는 과정을 철저하게 반복 검증하여 설명 가능한 분석 프레임워크로서의 완성도를 높였다.

SaintGSE가 실용화된다면 복합 질환의 분자 기전 해석과 바이오마커 발굴, 신약 후보 물질의 반응 분석 등에 혁신적인 도구로 널리 활용될 것으로 기대된다.

연구팀은 향후 실용화를 고도화하기 위해 다양한 질환과 조직, 임상 데이터에서 모델의 일반화 가능성을 추가 검증하고, 경로 활성의 강도나 단계적 변화까지 반영할 수 있도록 모델을 발전시킬 계획이다.

대규모 데이터 학습 효율을 높이기 위한 모델 경량화와 학습 효율 개선도 중요한 후속 과제다.

윤성일 교수는 "후속 연구를 통해 단일 전사체 데이터에 머무르지 않고 단일세포 전사체, 공간전사체, 단백질체 등 다양한 오믹스 데이터와 연계해 질병 기전을 보다 정밀하게 해석할 수 있는 범용적인 경로 해석 플랫폼으로 확장해 나갈 계획"이라고 설명했다.

기사가 마음에 드셨나요?

충청뉴스 좋은 기사 후원하기


※ 소중한 후원금은 더 좋은 기사를 만드는데 쓰겠습니다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.