이종욱 교수의 DIAL Lab
데이터 지능 및 학습 연구실

  • 501호
  • 기사입력 2022.10.17
  • 취재 김소연 기자
  • 편집 김윤하 기자
  • 조회수 3811

이번 연구실 탐방은 소프트웨어학과 이종욱 교수의 데이터 지능 및 학습 연구실(DIAL Lab)을 취재했다. DIAL Lab은 사용자의 개인화에 도움이 되는 검색 엔진이나 추천 시스템과 같은 응용 애플리케이션을 개발하거나, 편향 및 오류가 포함되어 있는 학습 데이터에 효과적으로 동작할 수 있는 기계 학습 및 심층신경망 모델 연구에 집중하고 있다. 최근 데이터 마이닝, 자연어 처리 및 기계 학습 분야의 저명한 국제 학술대회에 다수의 논문을 게재하며 우수한 연구 활동을 보여주고 있는 이종욱 교수의 데이터 지능 및 학습 연구실에 대해 알아보자. 


 데이터 지능 및 학습 연구실 소개 부탁드립니다.

데이터 지능 및 학습 연구실은 대규모의 데이터에서 사용자가 원하는 소량의 정보를 효과적으로 찾을 수 있도록 하는 초개인화 기술을 연구하고 있습니다. 구체적으로 (1) 사용자의 활동 기록을 통해 사용자가 좋아할 만한 항목을 제공해 주는 추천 시스템(Recommender System), (2) 비구조화된 말뭉치에서 사용자의 질의와 관련 있는 항목을 찾는 정보 검색(Information Retrieval), (3) 사람의 언어를 이해하고 기계가 이해할 수 있는 표현 체계로 나타낼 수 있는 자연어 처리(Natural Language Processing), (4) 개인화된 온라인 교육 시스템을 위한 지식 추적(Knowledge Tracing), (5) 부정확한 레이블을 가진 데이터에서 효과적으로 모델을 학습하는 강건한 기계 학습(Robust Machine Learning)에 대해서 연구를 수행하고 있습니다.

현재 11명(박사과정 5명, 석사과정 6명)의 대학원생이 연구를 수행하고 있으며 WWW, SIGIR, CIKM, WSDM, NAACL, IJCAI, CVPR 등의 최우수 학회에 논문을 다수 게재하고 있습니다. 최근 인공지능 그랜드 챌린지에서 자연어 기반 수학 문제 풀이 모델을 개발하여 우수한 성과를 얻었습니다.


▲ 정보과학회 참여


 연구실의 대표적인 연구 활동들을 소개해주세요.

- 추천 시스템(Recommender System)

추천 시스템이란 사용자의 과거 사용자 피드백을 바탕으로 사용자의 선호도를 파악한 후, 사용자가 좋아할 만한 소량의 항목을 효과적으로 제공하는 것을 목적으로 합니다. 저희 연구실에서는 추천 시스템의 대표적인 문제점 중 하나인 데이터 편향(예: 인기도 편향)을 완화하기 위한 연구를 진행하고 있습니다. 인기도 편향은 추천 시스템이 사용자에게 인기 있는 항목 위주(예: 아이언맨, 오징어게임)로 추천이 되어, 효과적으로 개인화된 추천이 어려워지는 문제를 말합니다. 이와 같은 문제를 완화하기 위한 편향성을 제거한 추천 학습(Unbiased recommender learning) 방법을 연구하고 있으며, 추천 시스템의 공정성 문제를 해결하는 데에도 도움이 될 것으로 생각합니다.

사용자가 특정되지 않은 환경에서 세션 내 클릭된 항목 정보를 활용하여 추천을 제공하는 세션 기반 추천(Session-based recommendation)도 활발히 연구를 진행하고 있습니다. 예를 들면, 로그인되지 않은 유튜브 또는 쿠팡에서 사용자의 소량의 클릭 정보를 활용하여 사용자가 원하는 다른 항목들을 제공할 수 있습니다. 이와 같은 연구 성과는 보다 다양한 환경에서 추천 시스템이 활용하는 데 기여할 수 있습니다.

- 정보 검색(Information Retrieval)

정보 검색은 대용량의 비구조화된 데이터(예: 문서, 동영상)에서 사용자 질의에 적합한 문서들을 효율적으로 찾는 방법론에 대한 연구 분야로, 네이버나 구글과 같은 검색 엔진이 대표적인 애플리케이션입니다.

저희 연구실에서는 대용량의 사전 학습된 언어 모델(예: BERT, GPT)을 활용하여 기존의 정보 검색 모델에서 해결이 어려운 의미 및 문맥 기반 검색(Semantic search)에 대한 정확도를 개선하는 모델을 개발하고 있습니다. 특히, 언어 모델 사용 시 정확도 개선 대비 효율성의 저하 문제를 해결하기 위해, 언어 모델을 통해 얻은 문서 표현을 희소화된 색인 기법을 통해 정확도를 높이면서 효율성도 함께 개선할 방법을 개발하고 있습니다.

- 자연어 처리 (Natural Language Processing)

자연어 처리는 사람의 언어인 자연어를 이해하고 이를 기계가 이해할 수 있는 표현 체계로 나타내는 연구 분야로, 개체명 인식, 기계 번역, 문장 분류, 감성 분석, 문서 요약, 문장 생성 등이 대표적인 연구 주제입니다.

저희 연구실에서는 사람의 고유한 언어 사용 방법(예: 은유, 반어, 풍자)을 이해할 수 있는 자연어 처리 모델을 연구하고 있습니다. 대표적으로, 은유 탐지는 주어진 문장에서 은유적 표현의 포함 여부 및 어떤 특정 단어가 은유적 의미를 나타내는지를 탐지하는 방법을 의미합니다. 이와 같은 문제를 해결하기 위해서 저희 연구실에서는 사전 학습된 언어 모델을 활용하여 단어의 사전적 의미와 문맥적 의미 간 차이를 효과적으로 학습할 수 있는 언어 모델을 개발했습니다.

자연어로 표현된 서술형 수학 문제의 풀이 과정을 수식으로 변환하고 해답을 도출하는 수학 문장형 문제 풀이(Math Word Solving Problem) 모델을 개발하고 있습니다. 수학 문장형 문제 풀이는 기존의 기계 번역과 달리, 자연어 이해와 더불어 수학에 대한 사전 지식 및 새로운 수학 체계를 함께 고려하여야 하는 어려움이 있습니다. 이를 해결하기 위해 연역적 추론 및 수학의 사전 지식 베이스를 활용한 언어 모델을 개발하고 있습니다. 해당 기술은 향후 자연어 기반 코드 생성에도 활용될 수 있을 것으로 기대하고 있습니다.

- 지식 추적 (Knowledge Tracing)

지식 추적은 학습자의 문제 풀이 기록을 토대로 사용자의 지식 습득 정도를 예측하고 나아가 효율적인 지식 습득을 위한 문제 추천 방법을 연구하는 분야입니다. 이와 같은 방법론은 최근 온라인 교육 플랫폼에서 활발히 활용되며, 많은 관심을 받고 있습니다.

저희 연구실에서는 사용자의 문제 풀이에 대한 정답 예측율을 높이기 위하여 보다 효과적인 문제 및 응답률에 대한 표현학습 방법을 연구하고 있습니다. 구체적으로, 사용자의 응답과 문제 난이도 간의 상관관계를 통해 문제와 사용자의 응답률을 효과적으로 고려한 학습 방법을 개발하고 있습니다. 또한, 문제의 추가 정보를 고려하여 문제 간 상관 관계를 보다 효과적으로 활용할 수 있는 방법도 함께 연구를 수행하고 있습니다.

- 강건한 기계학습 모델 개발(Robust Machine Learning)

기계학습을 위해서는 많은 양의 데이터가 필요하지만, 이에 대한 레이블을 만드는 것은 비용이 많이 들며 부정확할 수도 있습니다. 특히 레이블이 부정확한 환경에서 학습한 심층신경망 모델은 잘못된 레이블을 정답으로 기억하는 문제 때문에 낮은 정확도를 보이는 문제가 있습니다.

저희 연구실은 이와 같은 문제를 해결하기 위해서 정확한 레이블을 가진 샘플만을 효과적으로 선택할 수 있는 샘플링 선택 기법과 사전 학습된 멀티 모달 모델(예: CLIP)을 활용한 효과적인 표현 학습 방법을 통해, 부정확한 레이블을 가진 샘플을 학습에서 회피할 수 있는 방법론을 연구 및 개발하고 있습니다.


  하나의 연구를 진행하는 과정은 어떻게 되나요?

학생들이 직접 관심 있는 연구 주제를 선택하거나, 현재 연구실에서 진행 중인 연구 중 관심이 있는 연구 주제를 공동 연구의 형태로 선택 및 진행하게 됩니다. 특히, 능동적인 연구 환경을 위해서 연구 주제 선택에 대한 자율성을 최대한 보장하려고 합니다.

연구 주제를 결정하고 나면, 기존의 관련 연구들을 살펴보면서 기존 연구의 한계점을 파악하기 위해 기존 방법론을 직접 구현 및 비교하며 다양한 분석 실험을 수행하게 됩니다. 이러한 과정 속에서 관련 연구에 대해 한층 더 이해하며, 기존 연구의 숨겨진 단점을 발견할 수 있습니다. 때로는 본래 목적과 다른 새로운 방법론을 제안할 수 있게 되며, 이를 통해 연구의 방향성이 바뀔 수도 있습니다. 다른 분야에 비해 특히 연구 속도가 빠른 인공지능 분야의 특성으로, 우수 학회에 게재된 관련 연구들을 탐색해 나가는 과정을 자주 수행하며 최근 연구 성과에 대한 발표를 함께 수행하고 있습니다.


 연구실 자랑 부탁드립니다.

저희 연구실의 가장 큰 자랑은 연구실 구성원과 자율적인 분위기의 연구 환경입니다. 비슷한 연구를 수행하는 학생들의 소통을 장려하고 있으며, 공동 연구도 격려하고 있습니다. 연구에 집중할 수 있는 분위기를 조성하기 위해서 자율적인 출퇴근 시간 보장과 국내외 학회 참여를 독려하고 있습니다. 나아가 국내외 인턴쉽과 해외 대학의 방문 연구원으로 참여 기회를 제공함으로써, 다양한 경험을 쌓으며 실생활에 도움이 될 수 있는 연구를 수행할 수 있도록 장려하고 있습니다. 이를 통해 많은 학생들이 네이버에서 인턴쉽을 수행하였고, 펜실베니아 주립대학교에 6개월간 방문 연구원으로 참여하였습니다.


▲ 해외 여름학교


 데이터 지능 및 학습 연구실에 들어가려면 어떤 자격, 능력이 필요할까요? 어떤 학생이 연구실에 오면 좋을까요?

저희 연구실에서는 새로운 학습 모델을 개발을 주로 하고 있어, 기계학습 방법론을 이해하기 위한 선행지식(예: 선형대수, 자료 구조, 알고리즘, 기계학습)과 프로그래밍 능력(예: Python, C)이 필요합니다. 또한, PyTorch, Tensorflow 등 심층 신경망 관련 프레임워크를 사용하여 프로젝트를 진행해본 경험이 있다면 좋습니다.

특히, 우리 연구실에서 가장 중요하게 생각하는 점은 학생들의 능동적인 열의와 다른 연구원들과 소통 능력입니다. 학생들이 주도적으로 연구를 수행하기 위해서는 주제에 대한 흥미와 열의가 매우 중요하다고 생각합니다. 연구실 내 다른 구성원들 또는 국내외 다른 연구원들과 협업을 위해서는 적극적인 소통 능력도 중요하다고 생각합니다. 협업을 통한 문제 해결을 위해서, 남을 배려하고, 연구 문제에 대한 적극적인 토의 및 토론할 수 있는 능력은 협업을 기반으로 하는 연구 문화에서는 꼭 필요한 덕목이라고 생각됩니다.


 연구원을 꿈꾸는 학생들에게 한마디 부탁드립니다.

짧지 않은 학부 생활 후 대학원 생활을 한다는 것은 쉽지 않은 결정이라고 생각됩니다. 하지만 학부에서 배운 컴퓨터과학에 대한 기반 지식을 활용하여 전문 지식을 습득하는 것은 인생에서 매우 뜻깊은 경험이 될 수 있다고 생각합니다. 위의 질문을 통해 저희 연구실에 대해 충분히 말씀드렸다고 생각하고, 대학원 생활을 하면서 도움이 될 수 있는 팁 몇 가지를 소개해 드릴까 합니다. 텐서플로 코리아(TensorFlow Korea)와 같은 관련 커뮤니티를 자주 확인하는 것을 추천해 드립니다. 이러한 커뮤니티에서는 채용 공고, 스터디 모집 공고 및 관련 연구 소개 등 유용한 게시물들이 올라옵니다. 구글 스칼라(Google Scholar) 기능 중에 관련 연구자를 팔로우하면 해당 연구자와 관련된 논문들을 추천해주는 기능이 있습니다. 이 기능을 활용하면 관심 분야의 최신 연구를 쉽게 확인할 수 있어 편리합니다. 관련 연구를 함께 연구하고 있는 사람들과 소통하며, 보다 성장할 수 있는 대학원 생활을 슬기롭고 재미있게 할 수 있었으면 좋겠습니다.

 

연구실 홈페이지: https://diallab.github.io/