GitHub - jin2304/AD_Cleaner: 인스타그램 게시글의 광고성 수치를 측정하는 BiLSTM-Attention 기반 AI 시스템

프로젝트 개요

소셜 네트워크 서비스 중 하나인 인스타그램에서 작성된 리뷰 게시글의 광고성 여부를 판별하고, 수치화하여 사용자에게 시각적으로 제공하는 BiLSTM-Attention 기반 인공지능 시스템이다. 최근 전자상거래와 소셜커머스의 확산으로 인해 SNS를 통한 광고성 리뷰 게시글이 증가하고 있으며, 이러한 게시글은 소비자들이 신뢰할 수 있는 정보를 얻는 데 방해요인이 되고 있다. 특히, SNS 기반 소셜 커머스에서는 협찬이나 대가성으로 작성된 리뷰가 적절히 표기되지 않아 소비자들이 이를 일반 리뷰로 오인하는 사례가 빈번하다. 이는 허위 및 과대광고로 인한 경제적 피해와 사용자 만족도 저하로 이어질 수 있다.

1. 팀원 및 역할 분담


🔥서진영	🌳김수훈	💧김찬종
팀장, 데이터 수집 인공지능 모델링	데이터 전처리 인공지능 모델링	데이터 정제 인공지능 모델링

2. 프로젝트 배경(문제정의)

산업통상자원부(2021)에 따르면 한국 전자상거래 시장 규모는 2010~2020년 동안 연평균 19.7% 증가해 2020년 131조원에 달했다. 전자상거래 활성화로 인한 SNS를 통한 소셜커머스의 확산과 함께, 광고성 리뷰 게시글(광고성 정보) 또한 증가하고 있다. 한국소비자원이 SNS에서 광고를 접한 경험이 있는 10대 ~ 20대 소비자 500명을 대상으로 조사한 결과에 따르면, 응답자 중 절반가량인 47%가 'SNS를 이용하며 하루 최소 6편 이상의 광고를 접한다'라고 답했다. 이들 가운데 14.2%는 SNS 광고로 직접적인 피해를 경험한 것으로 조사되었다. 특히, 이들 피해자의 48.3%는 "구매한 상품이 광고 내용과 다르게 효능이 없거나 미비했다"고 답했으며, 31%는 "광고와 다른 상품이 판매되었다"고, 24%는 "하자나 결함 있는 상품이 판매되었다"고 응답했다. 이는 SNS 광고와 관련된 대다수 소비자 피해가 허위 및 과대광고와 밀접한 관련이 있음을 보여준다. 다음은 허위 및 과대광고에 인한 부작용에 대한 실제 사례를 각색한 내용이다.

사례 1)

대학생 A 씨(21)는 일반인 후기가 많은 다이어트 보조제 광고를 보고 구매해서 복용한 뒤 복통을 겪었다며 해당 광고 게시글에 '먹고 나서 배가 아팠다'라는 댓글을 달았지만 얼마 뒤 게시물이 삭제된 걸 목격했다고 말했다.
이어서 복통에 대한 댓글을 작성할 때 '나만 이 제품과 안맞아서 그런가'라는 생각이 들어 업체에 연락을 하지 않았다고 덧붙였다.

사례 2)

직장인 B씨(21)는 평소 즐겨보던 유튜버가 액상차를 먹고 붓기제거와 독소배출 효과를 봤다는 영상을 보고 해당 제품을 구매했다. 하지만 이는 전혀 효과가 없었고, 이후 인터넷 기사에서 허위, 과장 광고로 적발된 제품에 해당 제품이 있는 것을 확인하고 배신감이 들었다고 전했다.

이러한 사례들은 광고성 리뷰 게시글이 소비자들에게 미치는 부정적인 영향을 잘 보여준다. 소비자는 광고성 리뷰 게시글을 일반 리뷰로 오인하여 1) 신뢰할 수 없는 정보 를 기반으로 구매 결정을 내리게 되며, 이는 경제적 피해뿐만 아니라 2) 사용자의 만족도를 저하 시킨다. 특히, SNS 기반 소셜커머스에서는 협찬이나 대가성으로 작성된 리뷰가 적절히 표기되지 않아 3) 소비자들이 이를 구분하기 어려운 상황이다.

출처

2-1. 문제정의

1) 정보의 신뢰성 저하

광고성 리뷰 게시글은 제품에 대해서 긍정적으로만 평을 하는 리뷰가 될 확률이 높음
실제 제품이나 서비스의 품질, 성능, 기능 등에 대한 객관적인 정보를 파악하기 어려움을 겪게 함
이는 정보의 신뢰성을 저하시켜 마케팅 시장에 좋지 않은 영향을 줌

2) 사용자의 만족도 저하

사용자들은 신뢰할만한 정보를 얻기 위해 리뷰를 참고하는데, 광고성 리뷰는 이러한 목적을 달성하기
어려워지게 함.
결국 이는 사용자 만족도를 저하시킴.

3) 소비자들을 보호하기 어려움

광고성 리뷰가 제품이나 서비스의 단점을 감추거나 왜곡.
이는 선택 과정에서발생할 수 있는 문제에 대해 경고받지 못하게 만들어 예상치 못한 문제에 직면.
이러한 경우에 소비자들은 손해를 입게 되는데, 이에 따른 손실은 소비자들이 직접 부담을 하는 상황.

3. 시스템 설계

3-1. 시스템 구성도

3-2. 시스템 환경

구분	사양
저작언어	Python 3.7.16
프레임워크	Pycharm
가상환경	Anaconda 24.9.2
GPU	NVIDIA Geforce RTX 3070 Ti

4. 시스템 구현

구현 절차

4-1. 데이터 수집(크롤링)

데이터 수집이란 광고성을 판별 및 측정하는 인공지능 모델이 학습하는 데 필요한 데이터를 수집하는 과정.
본 프로젝트에서는 데이터 수집을 "웹 크롤링"과 "Github에서 데이터 수집" 2가지 방법으로 진행 하였음.
웹 크롤링 방법에서는 파이썬의 Selenium 라이브러리와 ChromeDriver를 이용하여 인스타그램에서 웹 크롤링을 수행하여 '광고성 게시글' 5346개와 '일반 리뷰 게시글' 4146개 게시글 해시태그와 게시글 텍스트 데이터를 수집하였음.
Github에서 데이터 수집 방법에서는 오픈 소스 플랫폼 GitHub에서 본 프로젝트와 관련된 인스타그램 게시글 데이터 'label_0.csv' 파일에서 38,288개 데이터를 수집하여 본 프로젝트에 맞게 재가공 하여 활용하였음. 이 과정을 통해 크롤링 인스타그램 데이터 수집을 보완하고, 데이터의 양과 다양성을 확보할 수 있었음.

1) 웹 크롤링

광고성 리뷰 게시글을 수집하기 위해, 인스타그램에서 주로 광고성 리뷰 게시물에 사용되는 #광고, #광고입니다, #협찬, #협찬광고, #협찬리뷰 등의 해시태그를 검색후, 각 게시글에서 해시태그와 텍스트를 추출하여 데이터를 수집하였다. 수집된 광고성 게시글은 최종적으로 '광고.xlsx' 엑셀파일에 저장하였으며 0열에는 게시글 해시태그, 1열에는 게시글 텍스트를 기록하였다.

일반 리뷰 게시글을 수집하기 위해, 인스타그램에서 주로 일반 게시물에 사용되는 #내돈내산, #내돈내산후기, #광고아님, #협찬아님, #찐리뷰 등의 해시태그를 검색후, 각 게시글에서 게시글의 해시태그와 텍스트 추출하여 데이터를 수집하였다. 수집된 광고성 게시글은 최종적으로 '일반.xlsx' 엑셀파일에 저장하였으며 0열에는 게시글 해시태그, 1열에는 게시글 텍스트를 기록하였다.

[표 1] 웹 크롤링 수집 결과
(데이터 수집 기간 2024/4/29 ~ 2024/11/24)

게시글 구분	파일 이름	사용한 해시태그	개수
광고성 게시글	광고.xlsx	#광고, #광고입니다, #제품제공, #협찬, #협찬리뷰, #협찬광고, #협찬제품	5346개
일반 게시글	일반.xlsx	#내돈내산, #내돈내산후기, #찐리뷰, #찐리뷰어, 진후기, #광고아님, ...	4146개

2) Github에서 데이터 수집

GitHub에서는 본 프로젝트와 유사한 "Text 데이터 광고 필터링을 위한 분류 모델 구축" 관련 프로젝트에서 38,288개 인스타그램 리뷰 데이터셋을 확보하여, 본 연구 목적의 목적에 맞게 데이터를 재가공하여 활용하였다. 이 관련 프로젝트의 목적은 인스타그램 텍스트 데이터에서 광고성 정보를 자동으로 분류하고 필터링하는 분류 모델을 구축하는 것이다. 하지만 이 관련 프로젝트에서 사용되는 데이터셋은 '광고성 리뷰 게시글'과 광고성 리뷰 게시글 아닌 나머지 게시글들은 모두 '일반 게시글'로 분류하여 데이터를 수집 및 학습하였다. [그림 1]은 관련 프로젝트에서 모델 학습시킬때 사용하는 데이터셋'train_final.csv'의 데이터 일부이다. 이 샘플 데이터 중에서 57번 데이터 "학교 가고 싶다", 83번 데이터 "이젠 민국이가 나보다 손 얇을 듯" 과 같은 텍스트를 통해 '일반 리뷰 게시글'이 아닌 '일반 게시글 데이터인 것을 확인할 수 있다.

때문에 본 연구에서는 '광고성 리뷰 게시글'과 '일반 리뷰 게시글'을 명확히 분류하기 위해 관련 연구 데이터셋 중 '광고성 리뷰 게시글'과 '일반 게시글' 데이터가 섞여있는 원본 데이터 'label_0.csv'에서, 데이터 정제 과정의 '광고 리뷰 게시글/일반 리뷰 게시글 필터링' 작업을 통해 데이터셋을 본 프로젝트의 목적에 맞게 재가공 하였다.

4-2. 데이터 정제

데이터 정제과정에서는 수집한 리뷰 게시글을 분석하기 위해 불필요하거나 잘못된 요소를 제거하고, 광고성 판별 및 수치화에 필요한 핵심 데이터를 추출하는 과정.
이를 통해 데이터의 품질을 높이고, 이후 모델 학습에 적합한 형태로 데이터를 준비.

1) 중복 데이터 제거

수집한 데이터에서 동일한 게시글이 여러 번 저장된 경우를 방지하기 위해, 게시글 텍스트을 기준으로 중복 데이터를 제거.
이 과정에서는 pandas 라이브러리의 drop_duplicates 기능을 사용하여 데이터의 중복성을 검증하고 고유한 데이터를 유지.

2) 결측 데이터 처리

수집된 데이터에는 텍스트가 비어 있거나 필수 정보가 누락된 경우가 포함될 수 있음.
이를 방지하기 위해 결측치를 포함된 데이터를 pandas 라이브러리의 dropna 기능을 활용하여 제거.

3) 광고성/일반 리뷰 게시글 필터링

광고성 리뷰 게시글과 일반 리뷰 게시글을 명확히 구분하기위해 특정 단어를 기준으로 필터링 작업을 수행.
예를 들어, 광고성 리뷰 게시글이지만 "#내돈내산, #광고아님, 내돈내산 , 광고아님, ... 등"과 같은 특정 단어들이 포함된 경우, 일반 리뷰 게시글로 간주하여 데이터를 제거.
일반 리뷰 게시글에서도 동일한 방법으로 필터링 작업을 수행. [ 표2 ]는 필터링 작업에 사용된 실제 단어 목록.

[ 표 2 ] 광고성/일반 리뷰 게시글 필터링 목록

게시글 구분	(적용한) 파일 이름	필터링 리스트
광고성 리뷰 게시글	광고.xlsx	#내돈내산, #내돈내산후기, #제품리뷰, #리뷰, #진리뷰, #진리뷰어, #광고쿠폰, #진리뷰, 광고아님, #광고아닙니다, ...
	광고_Github.xlsx	#광고, #광고입니다, #제품제공, #협찬, #협찬리뷰, #협찬광고, #협찬제품, ...
일반 리뷰 게시글	일반.xlsx	#광고, #광고입니다, #제품제공, #협찬, #협찬리뷰, #협찬광고, #카톡, #디엠, #DM, #010, .com, ...
	일반_Github.xlsx	+ 해시태그 외 단어

4) 텍스트 길이 필터링

텍스트 길이 필터링에서는 모델 학습에 적합하지 않은 지나치게 짧은 텍스트를 제거.
본 프로젝트에서는 텍스트가 10자 이하인 경우 학습에 중요하지않다고 판단하여 제거.

5) 외국어 게시글 제거

한글 기반의 모델 학습을 위해 한글 비율을 계산하여, 한글 비율이 5% 이하의 게시글은 외국어 게시글로 간주하고 제거.

6) 데이터 라벨링

최종적으로 정제된 데이터에 광고성 리뷰 게시글은 라벨 1, 일반 리뷰 게시글은 라벨 0으로 라벨링하여 데이터를 구분.

4-3. 데이터 전처리

데이터 전처리란 데이터가 모델에 입력되기 전에 추가적인 작업을 수행하여 최적화하는 작업.
전처리가 완료된 데이터는 본 연구에서 제안하는 인공지능 모델에 입력되어 학습하게 됨.

1) 이모지 제거

게시글 내 이모지는 광고성과 직접적인 관련이 없고 모델의 학습에 혼란을 줄 수 있다고 판단하여 파이썬의 emoji 라이브러리를 활용하여 이모지를 탐지 및 제거 하는 과정을 진행.

2) 특수문자 제거

게시글 내 중요한 의미를 부여하지않은 '!', '@', '#', '$', '^' 등과 같은 특수문자는 모델의 학습에 중요하지않다고 판단하여 제거하는 과정을 진행.

3) 형태소 분석 및 토큰화

형태소란 언어에서 "의미를 가진 최소 단위"를 뜻 함.
여기서 말하는 의미는 단어가 가진 문법적인 의미 또는 관계적인 의미를 말함. 따라서 형태소를 분석한다는 것은 어떤 단어는 하나의 형태소 그자체로 완전한 단어인 경우이지만, 일상적으로 사용하는 말의 대부분은 단어, 어절, 문장들은 여러 형태소가 결합된 언어.
형태소 분석은 이 '말'들을 '형태소'의 단위로 분리시키는 작업. 본 프로젝트에서는 Mecab 형태소 분석기를 활용하여 리뷰 게시글을 형태소 분석 및 토큰화 하였음.

4) 불용어 제거

불용어 제거불용어란 데이터 중에서 학습에 도움이 되지않은 즉, 자주 등장하지만 분석하는 것에 있어 도움이 되지않은 단어들을 불용어(stopword) 라고함.
때문에 모델이 잘 학습하기 위해서는 불용어 제거 과정이 필요하며, 본 연구에서는 [14]에서 초기 불용어를 추출하고, Attention 메커니즘을 활용하여 본 연구에서 적합한 불용어를 선별하여 추가적으로 제거.

5) 정수 인코딩 및 워드 임베딩

인공지능 모델이 텍스트(리뷰 게시글)를 처리하려면 신경망이 소화할 수 있는 방식으로 신경망에게 제공해야 함.
신경망은 오직 숫자만 입력으로 사용하여 학습. 따라서 텍스트를 처리할 때, 단어들을 수치값으로 변환해야 하는 작업이 필요.
본 프로젝트에서는 고유한 숫자를 사용하여 각 단어를 인코딩하는 '정수 인코딩' 방식과 하나의 단어를 밀집 벡터(dense vector)로 표현하는 워드 '워드 임베딩' 방식을 사용하여 텍스트의 단어들을 수치값으로 변환.

4-4. 인공지능 모델링

인공지능 모델링 과정에서는 수집, 정제, 전처리된 인스타그램 리뷰 데이터를 기반으로, 광고성 리뷰 게시글을 판별하고 수치화하기 위한 딥러닝 모델을 설계하고 구현
본 프로젝트에서는 BiLSTM-Attention 모델을 활용함. 이 모델은 리뷰 텍스트의 문맥을 양방향으로 학습하여 깊이 이해하며, Attetnion 메커니즘을 통해 중요한 정보(단어)에 집중할 수 있도록 설계하였음.
이를 통해 광고성 리뷰 게시글에 판단하는 데 영향을 미치는 핵심 단어를 분석하고, 광고성 리뷰 게시글과 일반 리뷰 게시글을 효과적으로 분류하도록 설계.
모델 학습 및 평가에는 광고성 리뷰 게시글 4,500개와 일반 리뷰 게시글 4,500개로 구성된 총 9,000개의 라벨링된 리뷰 데이터를 활용.
전체 데이터를 학습 데이터 80%와 테스트 데이터 20%로 분할하여 사용. 학습 데이터는 모델이 광고성 여부를 학습하는 데 사용 되었으며, 테스트는 학습된 모델의 성능을 평가하는 데 사용.

4-5. 분류 및 모델 성능 평가

모델 학습 결과, [ 표 3 ]에서 처럼 테스트 데이터에 대한 정확도는 5회의 실험 횟수 결과 평균 93.88%, 테스트 손실은 평균 0.1944를 기록하며, 광고성 리뷰 게시글과 일반 리뷰 게시글을 높은 확률로 분류.
학습 데이터에서의 정확도는 99.44%, 학습 손실은 평균 0.0207로 안정적인 학습이 이루어진 것으로 확인.

[ 표 3 ] 모델 학습 결과

실험 횟수	학습 정확도 (%)	학습 손실	테스트 정확도 (%)	테스트 손실	학습 주기 (epoch)
1	99.47	0.0179	92.38	0.2703	3
2	99.55	0.0184	93.71	0.1983	3
3	99.19	0.0290	94.87	0.1650	3
4	99.27	0.0249	93.55	0.1706	3
5	99.71	0.0135	94.87	0.1700	3
평균	99.44	0.0207	93.88	0.1944	3

또한, Attention 메커니즘을 통해 학습 데이터 및 테스트 데이터에서 광고성 리뷰 게시글에서 높은 중요도를 가진 상위 30개 단어를 추출하여 분석하였음.
광고성 리뷰 게시글에서 높은 중요도를 나타내는 단어는 [ 표 4 ]에서 처럼 "협찬", "official", "광고", "이벤트", "제공" ... 등과 같은 단어들이 광고성 리뷰 게시글을 판단하는데 핵심 단어인 것으로 나타남.

[ 표 4 ] 광고성 단어 상위 20개

순위	광고성 단어	순위	광고성 단어
1	협찬	11	010
2	official	12	com
3	광고	13	카톡
4	이벤트	14	디엠
5	제공	15	후기
6	링크	16	당첨
7	dm	17	제품
8	https	18	체험
9	문의	19	repost
10	공구	20	소중

5. 프로젝트 결과

본 프로젝트에서 구현한 시스템의 결과 화면.
정적/동적으로 입력 받은 인스타그램 리뷰 게시글의 광고성 여부를 판단하여 사용자에게 확률로 시각적으로 제공하며, 광고성 리뷰 게시글의 경우 관련 단어에 대한 강조 표시를 통해 직관적으로 정보를 전달.
이 시스템은 SNS 사용자가 신뢰할 수 없는 광고성 리뷰를 쉽게 식별하고, 소비자 피해를 줄이는 데 기여할 수 있는 잠재력 보여줌.

다음은 인스타그램 리뷰 게시글의 광고성 단어를 상세 분석하는 과정

Step 1: Input Text:
#광고 @origin_aminade 스킨 글로우 히알루론산 오리진 아미네이드(ORIGINAMINADE)는 안전하고 전문적인 원료로 건강과 아름다움을 모두 회복시키는 제품을 만드는 브랜드입니다. 아름다움을 위한 완벽한 준비, 당신만을 위해 준비된 아름다움을 선사합니다. 촉촉해진 ’느낌‘이
선사합니다. 촉촉해진 ’느낌‘이 아닌 성분의 ’채워짐‘을 경험해보세요. 대한민국 이너뷰티 대표상품 오리진아미네이드 무신사에 입점하였습니다. 오리진아미네이드 무신사 개업식 행사 진행도했습니다. 피부보습에 도움을 줄 수 있는 식약처 인 🤚🏻 이런 고민 있으신분들 ❕ 피부 증 받은 건강기능식품 추천드려요 🤚🏻 이런 고민 있으신분들 ❕ 피부가 푸석하고 생기 없어 보여요. 세안 후 피부 속 당김을 느껴요. 피부에 좋다는 성분 중에 어떤걸 먹어야할지 모르겠어요. 속부터 촉촉하고 부드러운 피부를 갖고싶어요. 탱탱 면 피부 수분 하루 한 포로 섭취하 하고 생기있는 피부를 원해요. 물광피부의 핵심 히알루론산 요거 하나면 피부 수분 하루 한 포로 섭취하는 100% 꿀 피부 가능합니다 😳 #무신사 #오리진아미네이드

Step 2: preprocessed_text Text:
광고 originaminade 스킨 글로우 히알루론산 오리진 아미네이드ORIGINAMINADE는 안전하고 전문적인 원료로 건강과 아름다움을 모두 회복시키는 제품을 만드는 브랜드입니다 아름다움을 위한 완벽한 준비 당신만을 위해 준비된 아름다움을 선사합니다 촉촉해진 느낌이 아닌 성분의 니다 촉촉해진 느낌이 아닌 성분의 채워짐을 경험해보세요 대한민국 이너뷰티 대표상품 오리진아미네이드 무신사에 입점하였습니다 오리진아미네이드 무신사 개업식 행사 진행도했습니다 피부보습에 도움을 줄 수 있는 식약처 인증 받은 건강기능분들 피부가 푸석하고 생기 없어 식품 추천드려요 이런 고민 있으신분들 피부가 푸석하고 생기 없어 보여요 세안 후 피부 속 당김을 느껴요 피부에 좋다는 성분 중에 어떤걸 먹어야할지 모르겠어요 속부터 촉촉하고 부드러운 피부를 갖고싶어요 탱탱하고 생기있는 피부를 원해 하고 생기있는 피부를 원해요. 물광피부의 핵심 히알루론산 요거 하나면 피부 수분 하루 한 포로 섭취하는 100% 꿀 피부 가능합니다 😳 #무신사 #오리진아미네이드

Step 3: Tokenized Text:
['광고', 'originaminade', '스킨', '글', '로우', '히알루론산', '오리진', '아미네', '이드', 'ORIGINAMINADE', '전하', '전문', '원료', '건강', '아름다움', '모두', '회복', '시키', '제품', '만드', '브랜드', '아름다움', '위한', '완벽' , '준비', '당신', '위해', '준비', '아름다움', '선사', '합니다', '촉촉', '해진', '느낌', '아닌', '성분', '채워', '짐', '경험', '대한민국', '이너', '뷰티', '대표', '상품', '오리진', '아미네', '이드', '입점', '오리진', '아미네', ' 이드', '무신', '개업식', '행사', '진행', '피부', '보습', '도움', '줄', '식', '약', '처', '인증', '건강', '기능', '식품', '추천', '드려요', '이런', '고민', '으신', '피부', '푸석', '생기', '보여요', '세안', '피부', '속', '당김', ' 느껴요', '피부', '성분', '어떤', '걸', '어야', '할지', '모르', '속', '촉촉', '부드러운', '피부', '갖', '탱탱', '생기', '있는', '피부', '원해요', '물', '광피', '부', '핵심', '히알루론산', '요거', '나면', '피부', '수분', '하루', ' 포로', '섭취', '1', '00', '%', '꿀', '피부', '가능', '합니다', '오리진', '아미네', '이드']

Step 4: Tokenized Sequence: [[13, 683, 108, 567, 3379, 19915, 2903, 1480, 900, 1759, 51, 4974, 107, 2361, 1061, 8, 926, 178, 4974, 450, 641, 179, 2964, 239, 179, 4974, 3710, 18, 201, 1165, 50, 461, 118, 1592, 731, 880, 3119, 1956, 147, 1042, 432, 19915, 2 903, 3872, 19915, 2903, 9549, 27129, 756, 176, 17, 316, 335, 80, 562, 732, 603, 329, 51, 262, 755, 3, 196, 261, 124, 681, 17, 7227, 825, 7851, 1475, 17, 137, 3817, 14580, 17, 118, 422, 141, 638, 3064, 425, 137, 201, 446, 17, 109 7, 4123, 825, 8822, 17, 35051, 67, 6693, 508, 5138, 3379, 818, 7997, 17, 332, 99, 11406, 1113, 6, 16, 156, 238, 17, 19, 18, 19915, 2903]]

Step 5: Padded Sequence Shape: (1, 250)

Step 6: Raw Prediction Output: [[0.00105652 0.9989435 ]]

Step 7: Ad Probability: 99.89%, Non-Ad Probability: 0.11%

Step 8: Label: 광고성 게시글

Step 9: Important Words:
[{'word': '전문', 'score': 0.38460084795951843, 'dictionary_score': 3.6302797896105403}, {'word': '광고', 'score': 0.2831777036190033, 'dictionary_score': 207.87481851059118}, {'word': '모두', 'score': 0.01778349094092846, 'dic tionary_score': 1.5930014481339185}, {'word': '생기', 'score': 0.008300527930259705, 'dictionary_score': 1.3414834902100665}, {'word': '제품', 'score': 0.006821709685027599, 'dictionary_score': 38.07590625037378}, {'word': '진행 ', 'score': 0.004158413037657738, 'dictionary_score': 5.355287769408278}, {'word': '합니다', 'score': 0.003348119091242552, 'dictionary_score': 11.038324952081545}, {'word': '상품', 'score': 0.0028569616843014956, 'dictionary_sc ore': 2.101467823242956}, {'word': '합니다', 'score': 0.0026372892316430807, 'dictionary_score': 11.038324952081545}, {'word': '부드러운', 'score': 0.002518994966521859, 'dictionary_score': 3.5146841475307156}, {'word': '생기', 'score': 0.001970479264855385, 'dictionary_score': 1.3414834902100665}, {'word': '가능', 'score': 0.0013945826794952154, 'dictionary_score': 2.668462150153715}, {'word': '00', 'score': 0.0004949333961121738, 'dictionary_score': 1.4655985870994641}, {'word': '1', 'score': 0.0004101219237782061, 'dictionary_score': 3.1905765478164483}]

6. 향후 과제

본 프로젝트는 인스타그램 리뷰 게시글의 초점을 맞췄지만 향후 연구에서는 유튜브, 페이스북, 트위터, 네이버 등 다양한 SNS 플랫폼으로 확장하여 광고성 콘텐츠를 탐지하고 분류하는 모델을 개발할 필요가 있다. 이를 통해 SNS 전반에서 투명성을 높이고 신뢰할 수 있는 정보 환경을 조성할 수 있을 것이다.
또한, 향후 프로젝트에서는 광고성 여부뿐만 아니라 리뷰의 긍정적/부정적 감성 분석, 신뢰도 점수 기반 리뷰 추천 시스템 등 추가적인 기능을 구현함으로써, 사용자 경험을 더욱 개선시키고 향상된 서비스를 만들 수 있을것으로 기대된다.

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
.idea		.idea
Crawling		Crawling
__pycache__		__pycache__
data		data
images		images
templates		templates
.gitattributes		.gitattributes
README.md		README.md
data_cleansing.py		data_cleansing.py
data_cleansing_2.py		data_cleansing_2.py
data_preprocessing.py		data_preprocessing.py
model_predict.py		model_predict.py
model_train.py		model_train.py

Folders and files

Latest commit

History

Repository files navigation

프로젝트 개요

📜 목차

1. 팀원 및 역할 분담

2. 프로젝트 배경(문제정의)

사례 1)

사례 2)

2-1. 문제정의

1) 정보의 신뢰성 저하

2) 사용자의 만족도 저하

3) 소비자들을 보호하기 어려움

3. 시스템 설계

3-1. 시스템 구성도

3-2. 시스템 환경

4. 시스템 구현

구현 절차

4-1. 데이터 수집(크롤링)

1) 웹 크롤링

[표 1] 웹 크롤링 수집 결과 (데이터 수집 기간 2024/4/29 ~ 2024/11/24)

2) Github에서 데이터 수집

4-2. 데이터 정제

1) 중복 데이터 제거

2) 결측 데이터 처리

3) 광고성/일반 리뷰 게시글 필터링

[ 표 2 ] 광고성/일반 리뷰 게시글 필터링 목록

4) 텍스트 길이 필터링

5) 외국어 게시글 제거

6) 데이터 라벨링

4-3. 데이터 전처리

1) 이모지 제거

2) 특수문자 제거

3) 형태소 분석 및 토큰화

4) 불용어 제거

5) 정수 인코딩 및 워드 임베딩

4-4. 인공지능 모델링

4-5. 분류 및 모델 성능 평가

[ 표 3 ] 모델 학습 결과

[ 표 4 ] 광고성 단어 상위 20개

5. 프로젝트 결과

6. 향후 과제

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

[표 1] 웹 크롤링 수집 결과
(데이터 수집 기간 2024/4/29 ~ 2024/11/24)

Packages