Data Mining Laboratory
서울대학교 데이터마이닝 연구실은 1993년 포스텍 뉴럴네트워크 연구실로 설립된 이후 소비자 반응 모델링, 키스트로크기반 보안, 공정자동화, 금융 예측, 의료진단, 인텔리전트 샘플링 등의 분야 관련 연구주제를 수행하였으며, 국내외 저널 및 학술대회에 150여 편의 논문 및 특허를 발표하였다. 2011년 기준으로 박사 6명, 석사 46명을 배출하였고, 현재 박사과정 10명, 석사과정 8명이 데이터마이닝 및 기계학습 분야의 연구에 몰두하고 있다.
Introduction
데이터마이닝(Data Mining)이란 대용량 데이터베이스에 존재하는 데이터간의 관계, 패턴, 규칙 등을 찾아내고 모형화해서 의사결정을 돕는 유용한 정보로 변환하는 일련의 과정이다. 최근의 비즈니스 환경에서는 시장 경쟁이 심화되어 정보력이 기업 경쟁력의 척도가 되었다. 필요한 정보의 성격도 "무슨 일이 일어났나?" 와 같은 과거에 대한 이해에서,"무슨 일이 일어날 것인가?"와 같은 미래에 대한 예측으로 급격히 변화하고 있다. 이를 위하여 분석 모델링 작업을 하는 것이 바로 데이터 마이닝이다. 컴퓨터 기술의 발전에 힘입어, 대량의 데이터가 축적되어있어 데이터 마이닝을 위한 훌륭한 토양이 마련된 것이다.
데이터마이닝 모델링은 기술 모델링(Descriptive Modeling)과 예측 모델링(Predictive Modeling)으로 나누어진다. 전자는, 주어진 데이터를 설명하는 패턴을 찾아내는 것이 주 목적으로써, 연관규칙 발견과 세분화등이 있다. 후자는, 주어진 데이터에 근거하여 모델을 만들고 이 모델을 이용하여 새로운 case에 대한 예측을 하는 것으로, 분류와 예측이 있다.
데이터마이닝의 활용 분야는 매우 다양하다. 판매 분야에서는 고객의 구매 패턴을 분석하여 주요 고객에게 집중적으로 판촉활동을 하는 Target Marketing및 고객 관계 관리(Customer Relationship Management) 등에 활용할 수 있다. 금융 분야에서는 신용 평가, 신용카드 사기 탐지, 증권가격 예측, 포트폴리오 평가 등을 할 수 있다. 통신 분야에서는 고객 이탈 방지, 문자/패턴 인식, 보안 관리 등에 활용할 수 있다. 의료 분야에서는 질병 진단 및 유전자 분석 등에, 에너지 분야에서는 전력수요 예측 및 자원 탐사 등에, 제조업에서는 불량품 진단, 공장 자동화, 재고 및 수요 관리 등에 활용할 수 있다.
본 연구실에서는 신경회로망과 의사결정트리등의 데이터마이닝 모델링 기법과 알고리즘을 연구한다. 가상 데이터 생성을 통한 예측 향상 알고리즘, 자기연상 신경망의 출력특성 분석, 입력변수의 중요도 측정 알고리즘 등이 주 연구 대상이다. 동시에 다양한 데이터마이닝 응용 연구를 수행하고 있다. 특히, 공장자동화, 예측, 진단, DB 마케팅 등을 연구한다.