고영중 교수의 자연어처리 연구실

  • 499호
  • 기사입력 2022.09.16
  • 취재 김소연 기자
  • 편집 김윤하 기자
  • 조회수 12038

인공지능은 우리의 일상에 다방면으로 활용되고 있다. 인공지능의 주요 분야 중 하나는 바로 자연어처리 기술이다. 자연어처리는 컴퓨터를 이용해 사람의 자연어를 분석하고 처리하는 기술로 자동번역, 대화형 인공지능 등에 활용된다. 이번 연구실 탐방은 소프트웨어학과 고영중 교수의 자연어처리 연구실을 취재했다. 자연어처리 연구를 통한 향상된 인공지능 기술을 제공하여 삶의 질을 높이는 것을 목표로 다양한 연구를 진행 중인 고영중 교수의 자연어처리 연구실을 알아보자.


1. 자연어처리 연구실 소개 부탁드립니다.

자연어처리 연구실(Natural Language Processing Lab, NLPLAB)은 성균관대학교 소프트웨어학과 고영중 교수님을 연구책임자로 하고 있으며, 뉴럴-심볼릭 AI(Neural-Symbolic AI), 대화 시스템(Dialogue systems), 질의응답 시스템(Question Answering systems), 정보 검색(Information Retrieval), 그리고 텍스트 마이닝(Text Mining) 등 다양한 자연어처리 분야의 연구를 폭넓게 수행하고 있습니다. 최근 자연어처리 분야에서 데이터에 내재되지 않은 외부 지식(External knowledge)을 그래프(Graph)로 표현하고, 심층신경망(Deep Neural Networks)에 내재하여 많은 자연어처리 시스템의 성능과 활용성을 올리는 연구가 많은 관심을 받고 있습니다. 연구원들은 외부 지식을 활용하는 기술을 바탕으로 각각의 주제를 연구하고 있으며, 본인의 연구에만 매몰되지 않고 연구원들 간의 주제와 서로 다른 주제에서 사용되는 기법들을 소통하고 융합함으로써 조금 더 유기적으로 연구를 수행할 수 있는 환경에서 연구를 진행하고 있습니다. 이를 통해 자연어처리 연구실은 2021~2022년도에 인공지능, 자연어처리 및 정보 검색 분야의 최고 학술 대회인 AAAI, SIGIR, CIKM, NAACL, EACL에 9편의 논문을 발표했습니다. 대화 시스템 개발을 위한 국제 경진 대회인 DSTC10에 참가하여 멀티모달(Multi-modal) 대화 시스템 개발 트랙 SIMMC의 두 개 분야에서 1등 상을 받았으며, 마이크로소프트(Microsoft)에서 운영하는 MS Marco leaderboard의 재순위화(Reranking) 분야에서도 1등을 차지하는 등 자연어처리와 정보 검색 분야에서 많은 성과를 보이고 있습니다.



2. 연구실의 대표적인 연구 활동들을 소개해주세요. 

[뉴럴-심볼릭 AI] 

뉴럴-심볼릭 AI는 심층신경망의 논리/추론 영역에서의 지식학습, 추론처리, 암묵적 지식의 유추, 기억 공간의 한계를 극복할 수 있는 차세대 인공지능 기술개발을 목표로 하고 있습니다. 이를 위해 신경망 학습 모델을 통해 심볼릭 지식을 생성하는 기술과 외부 심볼릭 지식을 신경망에 내재화하여 학습하는 기술이 필요합니다. 외부 심볼릭 지식에는 지식 베이스(knowledge base; KB)와 지식 그래프(knowledge graph; KG) 등이 존재하고, 이는 트리플(triple; head-relation-tail)의 형태로 나타낼 수 있습니다. 이러한 외부 심볼릭 지식을 신경망에 내재화하기 위해서 전통적으로 그래프 신경망(graph neural networks; GNN)과 같은 그래프 인코더(encoder) 모델이 주로 사용되어 왔지만, 적은 훈련 데이터로도 학습이 가능하도록 외부 지식(external knowledge)을 효과적으로 활용할 수 있는 모델이 요구됨에 따라 본 연구실에서는 자연어 이해를 위해 사용되는 대표적인 모델인 사전학습 된 언어 모델(pre-trained language model)을 사용하여 외부 지식을 신경망에 내재화하여 지식 그래프를 자동으로 완성하고 확장하는 연구를 중점적으로 수행하고 있으며, 특히 최근에는 Open-World Knowledge Graph Completion이라는 새로운 연구 분야에 도전하고 있습니다. 이러한 연구 결과는 향후 소개될 대화 시스템, 질의응답 시스템, 텍스트 마이닝 분야에서도 적극적으로 활용되고 있습니다.


[대화 시스템]

대화 시스템의 연구 목적은 어떠한 상황에서도 발화에 대한 응답을 생성할 수 있는 대화 모델을 개발하는 것이며, 크게 두 가지 방향으로 연구되어 왔습니다. 하나는 목적 지향 대화 시스템(Task-oriented dialogue system)이고, 다른 하나는 개인의 특성을 반영한 일상 대화 시스템(Chit-chat agent)입니다. 최근 대화 시스템 연구 분야에서도 외부 지식과 이미지 등을 활용할 수 있는 모델에 대한 연구가 활발히 수행되고 있습니다. 외부 지식과 이미지 등을 활용하면 주어진 발화에 대해 언어적으로 더욱 풍부하고, 사용자 발화에 적합한 응답을 생성할 수 있습니다. 본 연구실은 이러한 외부 지식과 시각적 정보를 추가로 활용할 수 있는 페르소나(persona) 기반의 대화 시스템 개발 연구를 꾸준히 수행해 왔으며, 이러한 연구들을 바탕으로 LG전자와의 산학협력을 통해 목적 지향 대화 시스템을 평가하는 경진대회인 DSTC10에 참여하여 두 개의 분야에서 1등을 차지하는 등 우수한 성과를 달성하였습니다.


[정보 검색] 

정보 검색은 쿼리(query)가 주어졌을 때, 이에 상응하는 문장, 단락 혹은 문서를 효율적으로 추출하는 방법에 대한 연구입니다. 전통적으로 연구되었던 키워드 기반 정보 검색 모델은 쿼리와 문서 사이의 어휘적 유사도를 계산한 후, 유사도가 높은 문서들을 결과로 도출했습니다. 그러나 어휘 유사도에 기반한 전통적인 접근 방법들은 특정 어휘들이 주어진 문맥 속에서 어떠한 의미로 사용되었는지를 반영하기 어렵다는 한계가 존재했습니다. 최근에는 BERT와 같은 사전학습 된 언어 모델을 사용하는 딥러닝 방법을 적용해 이러한 한계를 극복하려는 시도가 주목 받고 있습니다. 저희 연구실에서도 연구 흐름에 맞게 딥러닝 모델을 활용한 정보 검색 모델을 연구하고 개발하고 있으며, 특히 언어 모델을 사전 학습할 때 사용하는 Masked Language Model(MLM) 방법을 개선하는 연구를 진행하고 있습니다. 네이버와의 산학협력을 통해 질문 재형성(query reformulation) 분야에서 한자 등의 특수 용어를 GNN 기술을 바탕으로 처리하여 정보 검색의 성능을 향상하는 기술을 개발하여 CIKM 2021 학술 대회에 논문을 발표했습니다.


[텍스트 마이닝] 

텍스트 마이닝 연구에는 전통적으로 문서 분류(text classification) 연구와 요약(summarization) 연구가 포함됩니다. 최근, 적은 양의 데이터를 사용해서 좋은 성능을 낼 수 있는 기법인 메타 학습(Meta-learning) 방법은 인공지능 연구에서 많은 관심을 받고 있습니다. 자연어처리 연구실에서는 문서 분류와 문서 요약 연구 분야에서도 적은 양의 학습 데이터를 사용하여 좋은 성능을 낼 수 있도록 메타 학습을 활용한 모델을 개발하는 연구를 수행했으며, SIGIR 2022 학술 대회에 논문을 발표했습니다. 문서 요약의 경우 원문 내의 단어와 단어, 문장과 문장, 단락과 단락을 그래프로 표현한 후 각각이 서로에게 미치는 영향과 관련성 등을 GNN 기술을 응용하여 학습하고 이를 통해 높은 성능을 얻을 수 있는 생성 요약(Abstractive summarization) 모델을 개발하여 SIGIR 2022 학술 대회에 논문을 발표했습니다. 마지막으로, 텍스트 기반의 뉴스와 Youtube에서 유통되는 동영상 가짜 뉴스를 탐지하는 기술도 GNN과 적대적 학습(Adversarial learning)을 활용하여 개발했고, CIKM 2021 학술 대회에 발표했습니다.


 SIGIR 2022 학술대회 발표 – 스페인, 마드리드


3. 하나의 연구를 진행하는 과정은 어떻게 되나요?

연구 수행의 시작은 본인의 연구 주제와 관련된 논문 외에도 자연어처리의 다른 세부 분야, 넓게는 인공지능과 관련된 분야의 다양한 논문들을 읽고 여러 연구들의 방향성과 관련 기법들의 동향을 파악하는 것입니다. 그 후, 본인의 연구 주제를 수행할 수 있으며 다른 논문에서 제안한 모델들과 비교할 수 있는 데이터셋을 선정하고 분석하는 과정이 필요합니다. 특히 자연어처리는 언어, 그리고 언어의 특징을 파악하고 분석하는 것이 굉장히 중요하기 때문에, 형태소 분석, 의존구문 분석 등 언어 분석과정이 필수적입니다. 데이터에 대한 분석이 이루어진 후에는 본인이 개발할 모델의 성능을 향상하거나 기존 모델이나 접근법들의 문제점을 개선할 방법과 기법 혹은 모델 구조 등에 대한 가설을 세우고, 실험을 통해 가설을 검증합니다. 물론, 본인이 세운 가설을 한 번의 실험을 통해 입증할 수 있다면 최선이겠지만, 보통은 가설을 세우고 실험을 통해 검증하는 과정을 지속해서 반복하면서 점진적으로 연구를 수행하게 됩니다. 최종적으로 학계에 공헌할 수 있을 정도의 실험 결과를 얻게 된다면, 그동안 수행해왔던 연구를 하나의 논문에 집약하여 작성하게 됩니다.


4. 연구실 자랑 부탁드립니다.

자연어처리 연구실의 가장 큰 장점은 좋은 교수님과 좋은 연구원들과 함께 연구를 수행할 수 있다는 점입니다. 교수님께서 연구원을 선발하는 과정에서 중요하게 생각하시는 요소 중 하나가 연구원의 인성이기 때문에, 아무래도 자연어처리 연구실에는 좋은 사람들이 모일 수 있었던 것 같습니다. 다른 연구원들이 수행하고 있는 연구를 공유할 수 있는 논문 세미나, 최신 연구 동향을 공부하는 스터디 등을 통해 본인의 연구에만 매몰되지 않고 연구에 대한 넓은 시야를 유지할 수 있는 연구 환경이 체계적으로 갖춰져 있습니다. 이를 통해 최근 몇 년간 최우수 학회, 경진 대회 등에 여러 편의 논문을 발표하는 등 훌륭한 연구 실적을 낼 수 있었습니다. 마지막으로, 사회 각 층, 각 기업에 졸업한 선배들이 많이 계시고, 관련된 소식을 빠르게 접할 수 있으며, 정기적인 만남을 통해 연을 유지하는 점들은 연구원들이 졸업한 후 사회에 나갔을 때 큰 힘이 될 수 있다고 생각합니다.


LG AI Research 방문


5. 자연어처리 연구실에 들어가려면 어떤 자격, 능력이 필요할까요? 어떤 학생이 연구실에 오면 좋을까요?

자연어처리는 인공지능, 컴퓨터 공학의 연구 분야 중 하나입니다. 따라서 관련 학과의 학사 전공 중 가장 기본인 자료 구조(Data structure)와 알고리즘(Algorithms)은 이수하는 것이 좋을 것 같습니다. 저희 연구실에서 주로 사용하는 컴퓨터 언어는 파이썬(Python)이며, 신경망 모델을 구축하기 위해 파이토치(PyTorch) 라이브러리를 사용하고 있습니다. 연구실에 들어오기 위해 파이썬 언어를 잘 다룰 수 있다면 본인이 자연어처리 및 관련 연구 분야에 대한 공부를 함에 있어 많은 도움이 될 것 같습니다. 마지막으로, 교수님께서 연구원들을 선발하실 때 가장 중요하게 보는 것 중 하나가 연구원의 인성입니다. 대학원 과정은 짧게는 2년 혹은 그 이상의 시간을 동기들, 선후배들과 한 연구실 내에서 생활하게 됩니다. 한 공간 안에서 많은 사람이 함께 지내다 보면, 서로 간의 양보와 배려가 필요합니다. 따라서 연구 능력 혹은 개인의 스펙뿐만 아니라 문제없이 단체 생활을 할 수 있는 인성 또한 연구원 선발에 있어 중요한 요소라 할 수 있을 것 같습니다.


6. 연구원을 꿈꾸는 학생들에게 한마디 부탁드립니다.

분야를 막론하고 연구라는 것은 하루아침에 성과를 내기 보다는 오랜 시간 쌓아온 것들이 모여서 하나의 결과물로 나타나곤 합니다. 그러다 보니 결과물을 내기 위해 걸리는 시간은 사람마다 다를 수 있고, 그 기간을 견뎌내는 것이 힘들 수도 있습니다. 그럼에도 불구하고 내 이름이 들어간 논문이 저널이나 학술 대회 논문집에 실리는 희열은 그 무엇보다 크다고 생각합니다. 연구원을 꿈꾸는 학생들도 스트레스를 해소할 수 있는 본인 만의 방법들을 통해 인내심을 가지고 꾸준히 준비한다면, 결국에는 좋은 결과를 얻을 수 있으리라 생각하며, 자연어처리 연구실에도 많은 관심 부탁드립니다.

연구실 홈페이지: https://nlplab-skku.github.io/