인산화 부위 검출을 위한 메타 학습 접근 방식을 사용한 도구
2OM 부위 식별을 위한 하이브리드 딥러닝 프레임워크를 사용한 도구
융합생명공학과 발라찬드란마나발란 교수
융합생명공학과의 발라찬드란 마나발란 교수가 이끄는 CBBL 연구팀은 인간 RNA에서 바이러스 유발 인산화 부위와 2OM 부위를 식별하기 위한 두 가지 최첨단 AI 기반 도구를 개발했다. 그들의 혁신적인 접근법은 최고 수준의 학술지인 Briefings in Bioinformatics (Impact Factor 9.5 & JCR = 3)에 발표되었다.
1. 메타러닝 접근 방식을 사용한 바이러스 유발 인산화 부위 식별
코로나바이러스(SAR-CoV-2)의 전세계적 확산은 건강에 대한 중요한 우려와 도전을 야기하고 있다. 인산화는 세포내 모든 대사에서 중요한 번역 후 수정 방식 중 하나이며, 해당 인산화 부위의 정확한 식별은 코로나바이러스 감염에 대한 이해와 더불어 코로나19 위기를 완화하는 데 도움이 될 수 있다. 하지만, 관련 기술은 현재 개별 인산화 부위 및 기작들에 대한 국지적 결과만 알려져 있을 뿐, 전반적인 인산화 부위 연구 및 의의에 대한 연구는 태부족한 실정이었다.
이에, 융합생명공학과 전영준 교수, 송민경 교수, 이석찬 교수와 협력하여 메타러닝 접근 방식을 사용한 새로운 MeL-STPhos 예측기를 개발했다 (그림 1). 구체적으로, Nhat Truong Pham(박사 과정 학생)과 Le Thi Phan(박사 과정 학생)은 관련 공공재 데이터를 추출하고 29개의 특성 설명자(feature descriptor)와 14가지의 분류기를 활용하여 각 데이터셋에 대해 대규모 기초 모델(약 400개)을 구축하고, 성능이 가장 좋은 모델을 결합하여 최종 예측을 위한 MeL-STPhos 모델을 구축하였다. 흥미롭게도 MeL-STPhos는 코로나바이러스 뿐만 아니라 다른 바이러스에 의해 발생하는 인산화를 식별할 수 있는 능력을 가지고 있으며, 하나의 세포 특이적 모델은 트레오닌 인산화 부위를 정확하게 탐지하여 여러 모델 활용의 효과를 보여주었다. MeL-STPhos는 두 데이터셋에서 기존에 발표되었던 최고의 예측 모델보다 월등한 성능을 보여주어, 다양한 특성 설명자, 분류기 및 메타러닝 접근 방식을 체계적으로 활용하는 접근 방식의 중요성을 입증했다.
그림 1. 데이터셋 구축, 메타러닝 접근법, 최적의 특성 및 분류기 식별, 웹서버 개발을 포함하는 MeL-STPhos 프레임워크 개요
본 연구는 대한민국 보건복지부(HI23C0701), 한국보건산업진흥원(KHIDI)을 통한 한국보건기술 R&D 프로젝트의 지원으로 수행되었다. 또한, 과학기술정보통신부, 한국연구재단(NRF) (2021R1A2C1014338, RS-2023-00217881 및 2021R1C1C1007833)의 지원으로 수행되었으며, 본 연구결과는 2023년 12월 6일 Bioinformatics Briefings 저널에 온라인으로 게재되었다.
(https://doi.org/10.1093/bib/bbad433).
2. 하이브리드 딥러닝 프레임워크를 통한 인간 RNA에서 2’-O-메틸화 (2OM) 위치 식별
2’-O-메틸화(2OM)는 RNA의 가장 일반적인 전사 후 수정으로, RNA 접합, RNA 안정성 및 선천적 면역에서 중요한 역할을 하며 다양한 관련 연구에도 불구하고, 2OM의 화학적 안정성 때문에 메신저 RNA(mRNA)에서 탐지 및 식별하는 것은 어려운 것으로 알려져 왔다. 관련하여, 본 연구팀의 Nhat Truong Pham박사과정 학생은 2OM 부위를 정확하게 식별하기 위한 새로운 하이브리드 학습 접근법 H2Opred(그림 2)를 개발했다. H2Opred는 스택방식의 1D 컨볼루셔널 뉴럴 네트워크 - convolutional neural network(1D-CNN) 블록과 주목 기반 양방향 게이트 순환 유닛-bidirectional gated recurrent unit(Bi-GRU-Att) 블록을 활용하여 모델 구축에 성공하였다. 구체적으로, 1D-CNN 블록은 14개의 전통적 특성 설명자(feature descriptor)로부터 효과적인 특성 표현을 학습하였고, Bi-GRU-Att 블록은 RNA 시퀀스에서 추출된 자연 언어 처리 기반 임베딩 5개로부터 특성 표현을 학습했다. 해당 학습을 통하여 개발된 H2Opred 모델은 다양한 데이터셋에서 뛰어난 성능을 보여주었으며, 기존에 발표되었던 예측모델 및 다른 네 개의 뉴클레오티드 특이 H2Opred 모델들을 크게 능가했다.
그림 2. 데이터셋 구축, 특성 추출 및 모델 구축, 특성 융합 및 웹서버 개발을 포함한 H2Opred 프레임워크 개요
본 연구는 과학기술정보통신부, 한국연구재단(NRF) (2021R1A2C1014338 및 2021R1I1A1A01056363)의 지원으로 및 한국보건산업진흥원(KHIDI)을 통한 한국보건기술 R&D 프로젝트의 지원으로 수행되었다. 본 연구결과는 2024년 1월 4일 Bioinformatics Briefings 저널에 온라인으로 게재되었다.
(https://doi.org/10.1093/bib/bbad476).
본 연구진은 관련접근 방식들은 2OM이나 인산화 부위를 식별하는 것에만 국한되지 않고, 펩타이드 치료 기능의 식별 및 유전자 발현 데이터를 사용한 알츠하이머병(AD) 예측을 포함한 다른 연구 영역에도 적용 할 계획을 가지고 후속 연구를 수행하고 있다.