A.I.R(Adaptive IntelligenT Research) Lab's Behavior

Introduction

The vision of the Adaptive Intelligent Research (AIR) Group at Changwon National University is a ‘Making the Great! Making the New!’.

Our work ranges from basic research in computational linguistics to key applications in human language technology, and covers areas such as statistical machine translation, opinion mining, and probabilistic parsing and tagging.

A distinguishing feature of the AIR Group is our effective combination of sophisticated and deep linguistic modeling and data analysis with innovative probabilistic and machine learning approaches to NLP. Our research has resulted in state-of-the-art technology for robust, broad-coverage natural-language processing in many languages. These technologies include our part-of-speech tagger for Korean, English, and Chinese; a universal named entity spotter for Korean; a high-performance probabilistic parser for Korean.

MEMBER

Profrssor

Jeong-Won Cha. [CV]

His research interests are natural language processing, machine learning, information retrieval.







Research scientist

Ph.D. students

NameInterestsCV
Vora, SagunaStatistical Machine Translation
박태호Semantic Parsingpdf
신창욱Syntactic Parsingpdf
박성재Dialog managementpdf
박다솔Entailmentpdf

Undergraduate students

NameInterestsCV
신영태Sentiment Analysispdf
성수진Natural Language Understandingpdf

Alumni

Name졸업논문
이현우2009. 2. 석사졸업Naver 자연어처리팀
배민영2010. 2. 석사졸업쌍용정보통신
안유미2010. 2. 학부 졸업롯데정보통신
성병기2012. 2. 학부 졸업Naver 자연어처리팀
서가은2013. 2. 학부 졸업카카오
곽창섭2013. 2. 석사 졸업한국전기연구원크리깅 메타모델과 유전자 알고리즘을 이용한 초고압 가스차단기의 형상 최적화 설계 프로세스
오진영2013. 8. 박사 졸업KT 융합기술연구원지배소 후위 언어를 위한 효율적인 구문분석
홍진표2013. 8. 박사 졸업Naver Labs번역 모델을 이용한 다국어 문장 정렬
배원식2013. 8. 박사 졸업Naver 자연어처리팀연쇄반응 알고리즘을 이용한 의견대상 추출
김주근2014. 2. 석사 졸업Naver 자연어처리팀반지도 학습법을 이용한 한국어 개체명 인식
김지욱2014. 8. 석사 졸업LG전자 모바일 사업부TextRank를 이용한 다중 문서 요약
김중한2015. 8. 석사 졸업경남 테크노파크개체명 부착 말뭉치에서 자동 오류 수정
최윤수2016. 2. 석사 졸업KT 융합기술연구원Word Embeddings 자질을 이용한 한국어 개체명 인식

Group Photos

PhotosDateDescription
2012.10.18
2013.2.152013년 전기 졸업식
2014.2.11샌프란시스코 피어 39
2015.2.4일본 유후인
2015. 3. 5
2015.4.18창원 세븐스프링스
2017. 2.28중국 청도
2017.9.1서울 양재 BHC

Research

Language understanding

Korean

English

Chinese

Dialog management

Opinion mining

의견 마이닝(Opinion Mining)은 주어진 텍스트로부터 특정 대상에 대한 의견(Opinion; 견해)이나 평가(Evaluation), 생각(Thinking), 정서(Sentiment) 등을 분석하는 분야이다. 인터넷과 온라인 상거래(e-commerse)의 발달, 그리고 최근 소셜네트워크서비스(Social Network Service, SNS)의 확산과 함께 사용자들이 온라인 상에 자신의 의견이나 생각을 쉽고, 자유롭게 표출할 수 있는 환경이 마련됨에 따라 온라인 상에 상품 리뷰(Product Review)를 비롯한 수많은 의견 텍스트가 생산되어 축적되고 있다. 이러한 의견 텍스트를 가공하여 의미있는 의견 정보를 추출하고, 분석해내는 것이 의견 마이닝 연구의 목적이라 할 수 있다. 의견 마이닝은 영어로 “Opinion Mining”이라는 표현 외에 “Sentiment Analysis라고 표현이 널리 사용되고 있으며, 한국어로는 “정서분석”, “감정분석”, “감성분석” 등의 표현이 혼용되고 있다.

의견 구성단위 (Opinion Units)

의견 구성단위란 의견 텍스트로부터 추출할 수 있는 의견(또는 정서) 관련 정보를 의미하며, 다음과 같이 크게 세 가지로 구분할 수 있다.

의견 소유자 (Opinion Holder)

의견 소유자란 어떤 대상에 대해서 의견을 표출하는 주체를 말한다. 주로 사람이나 단체가 의견 소유자가 될 수 있으며, 다른 사람이나 단체의 의견을 인용하지 않는다면, 글쓴이 자신이 의견 소유자가 된다. 의견 소유자는 의견 출처(Opinion Source)라고 표현되기도 한다.

의견 대상 (Opinion Target)

의견 대상은 의견 소유자에 의해 좋고 나쁨이 평가되는 대상을 말한다. 사람, 기업, 공공기관, 기업의 상품 및 서비스, 영화 등 다양한 개체들이 의견 대상이 될 수 있다. 특히 상품이나 영화, 호텔 등은 온라인 상에서 비교적 쉽게 리뷰 문서를 수집할 수 있기 때문에 기존 연구들에서 의견 대상으로 주로 사용되는 의견 대상들이다. 그런데 리뷰 문서는 특정 의견 대상에 대해서 작성되어 있는 문서이기 때문에 의견 대상 자체보다는 의견 대상의 부속품이나 특징, 기능 등을 실질적인 의견 대상으로 하는 연구가 주류를 이루고 있다. 이러한 의견 대상을 실제 의견 대상과 구분하여 속성(Attributes), 상품 특징(Product Features) 또는 특징(Features), 면(Aspect), 부주제(Sub-topic) 등으로 표현되고 있다.

의견 표현 (Opinion Expression)

의견 표현은 의견 소유자가 의견 대상을 평가하는 표현 자체를 의미한다. 의견 표현은 긍정(Positive)이나 부정(Negative)의 의미(극성, Polarity)를 담고 있으며, 일반적으로 형용사(Adjectives)가 의견 표현의 후보로 취급되고 있다. 의견 텍스트를 판별하는데 가장 핵심적인 구성요소이며, 문장에서 명시적(Explicit)으로 기술되는 경우도 있지만 묵시적(Implicit)으로 나타내는 경우도 있는데, 아직까지 묵시적으로 나타나는 의견 표현까지는 잘 잡아내지 못하고 있다. 의견 표현은 의견단어(Opinion Word), 정서(Sentiment; 감정; 감성) 등으로 표현되기도 한다.

아래 예문에 나타난 실제 의견 구성단위를 정리하면 다음과 같다.

우리 아버지쉐보레 크루즈마음에 들어 하셔.

의견 소유자: 우리 아버지, 의견 대상: 쉐보레 크루즈, 의견 표현(긍정): 마음에 들어 하셔

 

의견 마이닝의 세부분야

주관 탐지 (Subjectivity Detection)

주관 탐지는 주어진 텍스트가 의견을 포함하는지, 포함하지 않는지를 판별하는 방법을 연구하는 분야이다. 의견 표현에 의해 주관 탐지의 결과가 좌우되며, 상위 정서분석에 앞서 전처리나 필터링의 목적으로 사용된다.

정서분류 (Sentiment Classification)

정서분류는 주어진 텍스트에 나타난 의견의 극성(Polarity)을 분류하는 방법을 연구하는 분야이다. 극성은 일반적으로 긍정(Positive)과 부정(Negative)의 2개 극성 또는 중립(Neutral)을 포함한 3개의 극성으로 분류하며, 극성의 세기(Intensity)에 따라 긍정과 부정의 정도를 세분화하여 분류하기도 한다. 의견 마이닝 초기에 주로 문서 범주화(Text Categorization) 연구에 사용되었던 방법론이 도입되어 연구가 진행되었으며, 주관 탐지와 마찬가지로 의견 표현이 정서분류 결과에 큰 영향을 미친다.

의견단어 확장 (Opinion Word Extension)

의견단어 확장은 의견단어를 자동으로 확장하는 방법을 연구하는 분야이다. 의견 마이닝에서 의견 표현(단어)이 중요한 역할을 하는데, 의견단어 사전을 수작업으로 구축하는데는 한계가 있다. 따라서 수작업으로 구축한 초기 의견단어 사전을 기반으로 자동으로 의견단어를 확장할 수 있는 방법을 연구하며, 주로 워드넷(WordNet)이나 위키백과(Wikepedia) 등 외부지식(External Knowledge)을 활용하여 확장하는 방법이 많이 연구되고 있다. 최근에는 의견대상과 의견 표현은 서로 밀접한 관계가 있으므로, 이 관계를 바탕으로 의견대상과 의견 표현을 동시에 추출하는 연구도 보고 되고 있다.

확장한 의견단어의 극성을 판별하는 문제, 중의적 표현 문제, 의견 시프팅(Opinion Shifting) 1문제가 해결해야할 주요한 문제점(Challenge)이다.

의견대상 추출 (Opinion Target Extraction)

의견대상 추출은 주어진 텍스트에 나타난 의견대상을 추출하는 방법을 연구하는 분야이다. 의견 마이닝 결과를 실제로 사용하기 위해서는 의견의 극성을 판별하는 것 못지 않게 의견대상을 제대로 잡아내는 것이 중요하다. 의견대상을 제대로 잡아내지 못하는 의견은 별로 효용가치가 없다고 봐도 무관하기 때문이다. 기존에 정보추출(Information Extraction)의 방법론이나 키워드 추출(Keyword Extraction), 토픽 모델(Topic Model)이 주로 활용되고 있다. 의견단어 확장에서도 언급했지만, 의견 대상과 의견 표현의 관계를 기반으로 둘을 동시에 추출하는 연구가 현재 가장 높은 성능을 보이고 있다.

대부분의 명사나 명사구가 의견대상의 후보가 될 수 있기 때문에 노이즈(Noise) 필터링 문제와 동의어/이형태 문제가 해결해야할 주요한 문제점이다.

정서검색 (Sentiment Retrieval)

정서검색은 사용자가 입력한 의견대상에 대한 정서분석 결과를 검색하여 사용자에게 제공하는 방법을 연구하는 분야이다. 웹 수집(Web Crawling), 색인(Indexing), 검색 알고리즘 등 정보검색(Information Retrieval)이 방법론이 활용된다.

빅데이터 처리(대용량 데이터 처리), 데이터 저장 및 빠른 검색을 위한 색인기술이 주요하게 다뤄져야할 문제점이다.

의견요약 (Opinion Summarization)

의견요약은 정서분석 결과를 요약하여 사용자에게 제공하는 방법을 연구하는 분야이다. 비슷한 도메인의 제품이나 서비스에 대해 비교분석이 필요하며, 이를 위해 비교문장 추출(Comparative Sentence Extraction)과 극성의 세기(Intensity)를 계산하는 방법의 연구가 병행되어야 한다. 다음은 간단히 의견 요약의 결과를 시각화(Visualizatino)한 것을 나타내는 그림이다.

의견 질의응답 (Opinion QA)

의견 질의응답은 사용자에게 정서분석 결과를 질의응답(QA) 형태로 제공하는 방법을 연구하는 분야이다. 얼핏보면 정서검색과 비슷하다고 생각할 수 있지만, 질의응답은 다음 예문들과 같이 자연어형태의 질의을 받아서 사용자가 원하는 답을 제시해주는 것을 목표로 하기 때문에 정서검색에 비해 조금 더 상위 언어처리 기술을 필요로 한다.

“새로 나온 트롬 세탁기에 대한 주부들의 반응은?”

“이번 대선 후보 중에 누가 가장 인기가 높은가?”

자연어 문장에서 의견대상 및 질의 내용을 추출하는 문제 등 아직 해결해야할 문제가 많기 때문에, 아직까지는 이렇다할 연구 결과가 보고되지는 않고 있기 때문에 많은 연구가 필요한 분야이다.

사용가능한 말뭉치 목록 (List of Available Corpora)

영어 말뭉치 (English Corpora)
한국어 말뭉치 (Korean Corpora)

참고 사이트

Softwares

Publications

Manuscrips

2017

  1. Da-sol Park and Jeong-Won Cha, Extension of Semantic Lexicon Using Word Embeddings and Synonyms, INFORMATION-An International Interdisciplinary Journal [pdf]

2016

  1. 박태호, 신창욱, 박성재, 박다솔, 신영태, 차정원, 한국어 의미 분석을 위한 세종의미망 확장, 정보과학회 동계학술대회[pdf]
  2. 박다솔, 차정원, 워드 임베딩을 이용한 세종 전자사전 확장, 제28회 한글 및 한국어 정보처리 학술대회(HCLT2016)[pdf]
  3. 박태호, 차정원, CRF를 이용한 복수 의미역 문제 해결, 제28회 한글 및 한국어 정보처리 학술대회(HCLT2016)[pdf]
  4. 박태호, 차정원, Korean Semantic Role Labeling Using CRFs, IICCC2016[pdf]
  5. 박태호, 차정원, CRFs 기반의 한국어 의미역 부착 성능 향상을 위한 자질 선택, 한국정보과학회지[pdf]
  6. 박태호, 신창욱, 박성재, 박다솔, 차정원, Rough Set을 이용한 형태소 품사 태깅 코퍼스 오류 정량화, 한국 컴퓨터 종합학술대회 논문집(KCC16)[pdf]
  7. 신창욱, 차정원, Improving Korean dependency parsing performance using predicate-argument features, APIC-IST2016[pdf]
  8. 최윤수, 차정원, Word Embedding 자질을 이용한 한국어 개체명 인식 및 분류, 한국정보과학회 논문지[pdf]
  9. 박태호, 차정원, 커널 Ripple-Down Rule을 이용한 태깅 말뭉치 오류 자동 수정, 한국정보과학회 논문지[pdf]

2015

  1. 신창욱, 차정원, CRFs를 이용한 구문분석기의 오류 분석 및 자질 추천, 정보과학회 동계학술대회[pdf]
  2. 최윤수, 차정원, Word Embeddings 자질을 이용한 한국어 개체명 인식 및 분류, 정보과학회 동계학술대회[pdf]
  3. 박태호, 차정원, CRFs 기반의 한국어 의미역 결정, 한글 및 한국어 정보처리 학술대회(HCLT2015)[pdf]
  4. 신창욱, 박성재, 차정원, Khann 2 : 경험기반 고효율 한국어 품사태깅 도구, 한국 컴퓨터 종합학술대회 논문집(KCC15)[pdf]
  5. 김중한, 최윤수, 박태호, 개체명 부착 말뭉치에서 자동 오류 수정, 한국 컴퓨터 종합학술대회 논문집(KCC15)[pdf]

Patents

Technology transfer


1 우리 말에서는 ~지 않다로 많이 나타난다.