진행 : 스마트인재개발원 핵심역량프로젝트
2023.04.24 ~ 2023.05.07
팀원(매출예측 머신러닝 모델, 리뷰 감성분석 모델)
사용자가 선택한 서울시에 있는 상권에 대해서 Tableau를 활용한 음식점 리뷰를 크롤링한 데이터 감성분석, 워드 클라우드를 포함하고 상권정보와 월 예상 매출을 시각화한 보고서
Python - pandas, matplotlib, seaborn
Tableau
Lightgbm(Regression, Classifier), Linear Regression
BiLSTM
- 서울시 공공데이터 포털에서 상권정보 관련 데이터 API로 다운
- 상권정보, 크롤링한 리뷰 데이터 전처리
- BiLSTM 모델로 리뷰의 감성분석, KoNLPy의 Okt 형태소 분석기로 워드 클라우드 생성
- 상권의 월 매출을 예측하는 LightGBM(회귀, 분류)모델 선택, 학습
월 예상 매출을 예측하는 3가지 모델을 비교하여 LightGBM 회귀모델로 R2 score를 0.952가 되었고 111만원의 오차를 가지는 모델을 만들었고 Tableau를 통해 다양한 시각화 자료를 제공함으로써 핵심역량 프로젝트에서 우수상을 받을 수 있었습니다.
- Tableau 링크 : https://public.tableau.com/app/profile/.59263054/viz/_16828449150750/sheet7?publish=yes
팀원들과 데이터 선별과정에서 상권에 영향을 주는 변수들을 여러 논문을 공부하여 선택했고 여기서 커뮤니케이션 능력이 향상됐습니다. 서울시 공공데이터 포털에서의 데이터를 분석하는 과정에서 데이터의 범주가 너무 큰 경우에 대해서 처음에는 상용로그를 사용해서 범주를 줄였지만 특정 데이터에서 대부분의 데이터가 0과 가까운 값을 가지는 경우가 발생하여 모델의 정확도가 낮아졌습니다. 따라서 매출예측에 대해서 데이터의 값이 0인 부분에서 일부를 제거하고 상한값을 Outlier를 고려하여 설정하고 상한값보다 큰 값을 모두 치환하여 데이터를 변경하여 매출의 예측 정확도를 높였습니다.
변수 선택간에 중요하다고 생각되는 중심상권에서 떨어진 거리에 대한 데이터를 찾지 못해서 아쉬운 결과를 얻은 것 같습니다. 또한 리뷰 데이터를 수집할 때, 썸트렌드 사이트를 이용하여 보다 많은 포털에서 다양한 길이의 리뷰데이터를 수집하고 싶었지만 비용관계상 맛집 포털의 댓글 리뷰데이터를 수집한 것이 비정형 데이터의 다양성에서 아쉬웠습니다.
