Skip to content

Danwoo/Startry

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Startry - 오피니언마이닝을 활용한 상권분석 서비스

진행 : 스마트인재개발원 핵심역량프로젝트

- 기 간

2023.04.24 ~ 2023.05.07

- 담당역할

팀원(매출예측 머신러닝 모델, 리뷰 감성분석 모델)

- 개 요

사용자가 선택한 서울시에 있는 상권에 대해서 Tableau를 활용한 음식점 리뷰를 크롤링한 데이터 감성분석, 워드 클라우드를 포함하고 상권정보와 월 예상 매출을 시각화한 보고서

데이터분석

Python - pandas, matplotlib, seaborn

시각화 툴

Tableau

머신러닝 모델

Lightgbm(Regression, Classifier), Linear Regression

감성분석 모델

BiLSTM

- 개발내용

[역할]

  1. 서울시 공공데이터 포털에서 상권정보 관련 데이터 API로 다운
  2. 상권정보, 크롤링한 리뷰 데이터 전처리
  3. BiLSTM 모델로 리뷰의 감성분석, KoNLPy의 Okt 형태소 분석기로 워드 클라우드 생성
  4. 상권의 월 매출을 예측하는 LightGBM(회귀, 분류)모델 선택, 학습

[성과]

월 예상 매출을 예측하는 3가지 모델을 비교하여 LightGBM 회귀모델로 R2 score를 0.952가 되었고 111만원의 오차를 가지는 모델을 만들었고 Tableau를 통해 다양한 시각화 자료를 제공함으로써 핵심역량 프로젝트에서 우수상을 받을 수 있었습니다.

[느낀점]

팀원들과 데이터 선별과정에서 상권에 영향을 주는 변수들을 여러 논문을 공부하여 선택했고 여기서 커뮤니케이션 능력이 향상됐습니다. 서울시 공공데이터 포털에서의 데이터를 분석하는 과정에서 데이터의 범주가 너무 큰 경우에 대해서 처음에는 상용로그를 사용해서 범주를 줄였지만 특정 데이터에서 대부분의 데이터가 0과 가까운 값을 가지는 경우가 발생하여 모델의 정확도가 낮아졌습니다. 따라서 매출예측에 대해서 데이터의 값이 0인 부분에서 일부를 제거하고 상한값을 Outlier를 고려하여 설정하고 상한값보다 큰 값을 모두 치환하여 데이터를 변경하여 매출의 예측 정확도를 높였습니다.

[아쉬웠던 점]

변수 선택간에 중요하다고 생각되는 중심상권에서 떨어진 거리에 대한 데이터를 찾지 못해서 아쉬운 결과를 얻은 것 같습니다. 또한 리뷰 데이터를 수집할 때, 썸트렌드 사이트를 이용하여 보다 많은 포털에서 다양한 길이의 리뷰데이터를 수집하고 싶었지만 비용관계상 맛집 포털의 댓글 리뷰데이터를 수집한 것이 비정형 데이터의 다양성에서 아쉬웠습니다.

[시연영상]

Video Label

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors