한국지도학회지 제18권 제2호 (p.53-69)

트윗데이터를 활용한 스트레스 토픽의 지역별 특징 분석

Analyzing Spatial Characteristics of Stress Topics Using Tweet Data
키워드 :
텍스트마이닝,토픽모델링,트윗,SNS,스트레스,공간분석,Text mining,Topic modeling,Tweet,Social Network Service,Stress,Spatial data analysis

목차

요약
Abstract
I. 서론
II. SNS데이터에서 추출한 사회적 현안의공간적 탐색 연구
III. 스트레스 토픽 분석
  1. 스트레스의 개념과 구조
  2. 텍스트마이닝을 통한 스트레스 토픽 추출
  3. 트윗의 위치정보 부여
IV. 스트레스 토픽의 지역차
V. 결론
참고문헌

초록

본 연구는 SNS를 통해 사용자들이 표현하는 감성을 공간적으로 어떻게 나타낼 수 있는지를 연구하고자 하였다. 이를 위해 트윗데이터를 이용하여 현대인이 느끼는 스트레스라는 현상의 시도별 차이를 분석하였다. 트윗데이터는 2014년 7월 12일부터 2015년 7월 21일까지 총 503,737건의 데이터를 다운받고, 이 가운데 광고와 뉴스를 제외한 332,328건을 분석대상으로 하였다. 트윗데이터 분석을 위해 트윗의 텍스트를 형태소로 구분하고, 스트레스에 대한 토픽을 파악하기 위해 LDA알고리즘을 기반으로 하는 토픽모델링을 실시하였으며, 그 결과 15개의 토픽이 생성되었다. 15개의 토픽에는 스트레스 원인관련 “성격”, “학업”, “직무”, “가정”, “SNS사용” 토픽이 포함되었으며, 스트레스 결과에는 “질병”, “심리적상태”, “두피 및 탈모” 토픽이 포함되었다. 스트레스 해소방법 주제에는 “그림”, “게임”, “운동 및 문화생활”, “음식섭취”, “노래 등”의 토픽이 포함되었다. 트윗데이타의 분석대상 332,328 건 가운데 거주지역이 명확히 기재된 경우는 1,035개에 불과하여 거주지역 유추모델을 통해 시도별로 34,641개의 트윗에 위치를 부여하였다. 토픽모델링 결과를 시도별로 분석하여 시도별 최대 개수와 최소 개수 토픽명을 확인하고, 토픽을 스트레스 원인, 결과, 해소방법 3가지 주제로 구분하여 시도별로 어떤 토픽에 높은 관심을 가지고 있는지를 비교하였다. 본 논문은 스트레스라는 사회적 병리현상에 대해 사람들의 느낌과 이를 표현하는 방법, 이들의 지역차를 규명했다는데 의의가 있으며 비가시적 감성적 현상을 지도화하여 공간데이터의 장을 확장시켰다는데 의의가 있다.
This study aims how to find the spatial characteristics by region on the stress sentiment and the topics extracted from tweet data by twitter users. We downloaded 503,737 tweet data from July 12, 2014 to July 21, 2015, but analyzed 332,328 tweet data excluding advertisement and news. We classified tweet texts into morphemes in order to analyze the tweet data and applied the topic modeling based on LDA algorithm to search the topic about stress. As a result, 15 topics were generated and classified into 3 categories such as causes, results and relief methods of stress. The topics related to causes of stress are “personality”, “learning”, “job”, “family”, and “SNS use”, those related to results of stress are “illness”, “mental status”, “hair loss” and those related to relief methods of stress are “painting”, “gaming”, “exercise and cultural life”, “food intake”, “music”. Tweet data that home location are clearly identified are only 1,035 among 332,328 tweet data. So, we geolocated 34,641 tweet data through the residence model. We analyzed the results of the topic modeling by using 17 administrative districts (Si-Do) and then identified maximum and minimum number of topics. Finally, we compared which topics are highly interested in 17 administrative districts according to causes, results, and relief methods of stress. This paper is meaningful in two folds: First, this paper shows how to represent the meaning of people's sentiment which is the social pathology of stress. Second, this paper extends the field of spatial data by mapping invisible and emotional phenomena.