Skip to content

p. 266 힙합 가사 텍스트마이닝 #75

@DYK1323

Description

@DYK1323

안녕하세요, 10장 텍스트마이닝 스터디중입니다.

교재에 나오는 대로 실행했는데요,

txt <- readLines("hiphop.txt")
head(txt) 명령을 실행하면

[1] ""\xba\xb8\xb0\xed \xbdʹ\xd9" "\xc0̷\xb8\xb0\xd4 \xb8\xbb\xc7ϴϱ\xee \xb4\xf5 \xba\xb8\xb0\xed \xbdʹ\xd9"
[3] "\xb3\xca\xc8\xf1 \xbb\xe7\xc1\xf8\xc0\xbb \xba\xb8\xb0\xed \xc0־" "\xba\xb8\xb0\xed \xbdʹ\xd9"
[5] "\xb3ʹ\xab \xbe\u07fc\xd3\xc7\xd1 \xbdð\xa3" "\xb3\xaa\xb4\xc2 \xbf츮\xb0\xa1 \xb9Ӵ\xd9"

이런 식으로 한글이 모두 깨져서 나옵니다.

처음 셋팅 시 알려주셨던 대로 인코딩은 프로젝트 단위, 글로벌 단위 모두 UTF-8로 설정했고,

검색을 통해 readLines("hiphop.txt", encoding = "UTF-8")로 해봐도 똑같습니다.

인코딩 설정 시에 UTF-8이 system default로 뜨고 있고,

혹시나 싶어 CP949, EUC-KR도 시도해봤지만 소용이 없습니다.

혹시 해결 방법이 있는지 궁금해서 질문 남깁니다.

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions