Skip to content
kool22 edited this page Jan 10, 2017 · 5 revisions

Technique Overview

기업에서는 상품을 알리기 위해 다양한 형태의 마케팅이 주요 핵심 업무 중 하나로 자리 잡았다. 경쟁이 심화된 현대 기업에서는 상품의 핵심 경쟁력 중 하나가 마케팅이다. 마케팅 채널이 온라인화 되고 복잡화 되면서 마케팅에 비용을 투입하기 위해 올바른 마케팅 방법을 결정하는 것은 점점 어려워지고 있다.

온라인 마케팅 방법을 결정하기 위해 마케팅 채널에 대한 성격을 분석하는 것이 주요 업무 중 하나가 되었는데, 분석하기 위한 요소로는 채널 컨텐츠 내용, 사용자 반응, 사용자 성향이 있다. 이미 많은 미디어 채널에서는 효율적인 마케팅을 위한 맞춤형 마케팅 툴을 지원하고 있다. 성별, 나이, 지역등을 고려해 마케팅 타겟을 결정할 수 있다. 하지만 마케팅이 컨텐츠화 되어 사용자들이 마케팅 자체를 소비하도록 하는 방향으로 발전하고 있다. PPL이 그 대표적인 예이다. 이러한 고도의 마케팅 전략은 단순 타겟 마케팅보다 사용자에 대한 복합적인 이해가 필요하다.

그 때문에 사용자의 반응을 직접 분석해 사용자들의 니즈를 파악하는 일이 마케팅 주요 업무 중 하나로 굳어진 것이다.

스위즐의 기술적 배경은 사용자의 반응 분석을 더 효율적이고 정확하게 할 수 있도록 하는 기술을 지향한다. 세부적으로 기계학습 알고리즘을 사용한 클러스터링 기법(1), 문서 및 키워드들간의 중요도 및 관계를 분석하는 검색엔진 기술(2), 호감도 및 감정을 분석하는 분류기술(3), 그리고 문서의 주제를 파악하는 지식베이스 기술(4)로 분류할 수 있다.

웹상에 있는 자연어형태로 존재하는 사용자 반응을 분석하는 방법으로 주제를 (1)번 기술과 (2)번 기술의 조합으로 분석 결과의 초기 키워드를 추출해 낼 수 있으며 결과를 구체화 시켜 인사이트로 만들어 내기위해 (3), (4)번 기술을 다양하게 적용한다. 이와같은 기술의 조합을 통해 스위즐만의 사용자 반응 분석기술이 구체화 된다.

분산 분석 서버인 스위즐 시스템에서는 분석을 쉽게 할 수 있도록 하는 툴을 제공한다. 각 분석모듈 개개의 것들 하나로는 큰 의미를 가지지 않으나, 스위즐 시스템에서 통합 프로세스를 제공함으로써 마케팅 AI로의 역할을 수행할 수 있는 것이다.

데이터 분석기법들의 조합은 사용자 반응 문서를 분석하는 스위즐 AI 기술의 기틀이 되며 Watson 과 같은 외부 API들과의 시너지도 극대화 할 수 있다. 이와 같은 기술로 만들어낸 마케팅 AI는 타 업체와는 달리 고객들의 분석 니즈를 충족을 극대화 시켜주는 특이한 마케팅 AI로 시장에 자리잡을 수 있다.

Technique Algorithm List

  1. 토픽 모델링 (Topic Modeling)

    1. 기술 설명
      1. 단어를 비교사 학습을 통해 클러스터링 하는 기법
      2. 하나의 문서는 여러 주제로 이루어져 있으며, 각 단어 또한 여러 주제의 의미를 내포하고 있다고 가정한다.
      3. 깁슨샘플링을 이용한 학습 모델을 사용한다.
    2. LDA 기법
      1. 한글 위키피디아 설명
      2. 소스 코드 - JGibbLDA
      3. 논문 링크 - [Blei03] D. Blei, A. Ng, and M. Jordan: Latent Dirichlet Allocation, Journal of Machine Learning Research (2003)
  2. 형태소 분석기 (Morpheme Analyzer)

    1. 기술 설명
      1. 언어의 의미 단위로 단어를 불필요한 조사 등을 분리하기 위해 사용
      2. 한국어 정식 지원 (2017-01-06)
    2. KoNLPy
      1. 파이썬 한국어 NLP 모듈
      2. KoNLPy 문서 링크
      3. Twitter, KKoma, Mecab, Komoran
    3. 꼬꼬마 프로젝트
      1. 서울대학교 IDS 연구실에서 개발한 자연어처리 모듈
      2. 저장된 말뭉치의 통계 데이터를 활용해 다양한 방식으로 통계정보 조회
      3. 프로젝트 링크
    4. Twitter Korean Text
      1. 트위터에서 만든 오픈소스 한국어 처리기
      2. 깃헙 링크
    5. MeCab : Yet Another Part-of-Speech and Morphological Analyzer
      1. 교토대학 NTT 연구소에서 만든 오픈소스 형태소 분석 엔진
      2. 언어, 사전 코퍼스에 의존하지 않는 범용적인 설계를 기본방침으로 함
      3. MeCab 한국어 버전 작업은 은전한닢 프로젝트에서 진행
    6. Komoran
      1. Shineware 에서 만든 오픈소스 형태소 분석기
      2. 2.4 버전 링크
  3. TF-IDF

    1. 단어의 발생 빈도를 활용해 단어와 문서의 중요도를 계산하는 방법
    2. 한국어 위키피디아 링크
  4. 텍스트 분류기

    1. 기술 설명
      1. 문서를 특정 분류 기준에 부합하도록 분류하는 기법
      2. 문서를 학습해 테스트 데이터의 분류 확률을 통해 분류한다.
      3. 알고리즘마다 편차가 있으나, 학습 데이터의 양에 따라 성능이 크게 좌우된다.
    2. 용도
      1. 호감도 분류할 때 사용
      2. 문서의 주제별 비율을 계산할 때 사용
    3. NLTK
      1. 파이선 자연어처리 라이브러리
      2. 문서 링크
      3. NLTK naive bayes classifier
        1. 나이브 베이즈 분류기
        2. 한글 위키 문서 링크
        3. 문서 링크
    4. gensim
      1. 워드를 벡터화해 사용하는 파이썬 딥러닝 라이브러리
      2. 문서 링크
    5. Watson NLC
      1. Natural Language Classifier for Watson
      2. 사이트 링크
    6. Tensor Flow Classifier API
      1. Neural Network Classifier using Restricted Boltzmann machine
      2. RBM(Restricted Boltzmann Machine)
        1. 통계적 분포를 학습하는 인공신경망 초기모델 중 하나
      3. Sigmoid function
        1. 위키 링크
      4. Softmax function
        1. 위키 링크

Used Watson Bluemix APIs

  1. API list
    1. AlchemyLanguage
      1. Sentiment
        1. 문서의 감정요소를 찾아냄
      2. Taxonomy
        1. 문서의 카테고리를 찾아냄
      3. 문서 링크
    2. Tone Analyzer
      1. 문서에 포함된 의도를 알아냄
      2. 문서 링크

Clone this wiki locally