논문 상세보기

Image-Text Sentiment Analysis Model Based on Visual Aspect Attention KCI 등재

시각적 주의를 기반으로 한 영상-텍스트 감정 분석 모델

  • 언어ENG
  • URLhttps://db.koreascholar.com/Article/Detail/412514
구독 기관 인증 시 무료 이용이 가능합니다. 4,500원
한국컴퓨터게임학회 논문지 (Journal of The Korean Society for Computer Game)
한국컴퓨터게임학회 (Korean Society for Computer Game)
초록

소셜 네트워크는 우리 일상 생활의 필수적인 부분이 되었다. 소셜 미디어 정보에 대한 정서 분석은 소셜 네 트워킹 사이트에 대한 사람들의 견해, 태도, 감정을 이해하는 데 도움이 된다. 전통적인 정서 분석은 주로 텍 스트에 의존한다. 스마트폰이 등장하면서 문자뿐만 아니라 이미지 등 네트워크 상의 정보도 점차 다양해지고 있다. 많은 경우 이미지가 감정을 독립적으로 표현하기 보다는 텍스트를 향상시킬 수 있다는 것이 밝혀졌습 니다. 우리는 새로운 이미지 텍스트 정서 분석 모델(LSTM-VAA)을 제안한다. 구체적으로 이 모델은 사진 정보 를 직접 입력으로 가져가지 않고 VGG16 네트워크를 사용하여 이미지 특징을 추출한 다음 시각적 측면 주의 를 생성하고 문서의 핵심 문장에 더 높은 가중치를 부여하고 시각적 측면 주의를 기반으로 문서 표현을 얻 는다. 또한, 우리는 LSTM 네트워크를 사용하여 텍스트 감성을 추출하고 텍스트만을 기반으로 문서 표현을 얻 는다. 마지막으로, 우리는 두 분류 결과 그룹을 통합하여 최종 분류 레이블을 얻는다. 옐프 레스토랑 리뷰 데 이터 세트에서, 우리의 모델은 감정 분류를 위한 시각 주의 보조 텍스트로 시각 정보를 사용하는 것의 효과 를 검증하는 BiGRU-m VGG보다 18.92% 높은 62.08%의 정확도를 달성한다. 비스타넷 모델보다 0.32% 높아 비스타넷 모델의 이미지가 텍스트를 완전히 커버할 수 없는 결함을 LSTM 모델이 효과적으로 보완할 수 있 음을 입증했다.

Social network has become an integral part of our daily life. Sentiment analysis of social media information is helpful to understand people's views, attitudes and emotions on social networking sites. Traditional sentiment analysis mainly relies on text. With the rise of smart phones, information on the network is gradually diversified, including not only text, but also images. It is found that, in many cases, images can enhance the text rather than express emotions independently. We propose a novel image text sentiment analysis model (LSTM-VAA). Specifically, this model does not take the picture information as the direct input, but uses the VGG16 network to extract the image features, and then generates the visual aspect attention, and gives the core sentences in the document a higher weight, and get a document representation based on the visual aspect attention. In addition, we use the LSTM network to extract the text sentiment and get the document representation based on text only. Finally, we fuse the two groups of classification results to obtain the final classification label. On the yelp restaurant reviews data set, our model achieves an accuracy of 62.08%, which is 18.92% higher than BiGRU-m VGG, which verifies the effectiveness of using visual information as aspect attention assisted text for emotion classification; It is 0.32% higher than Vista-Net model, which proves that LSTM model can effectively make up for the defect that images in Vista-Net model cannot completely cover text.

목차
ABSTRACT
1. Introduction
2. Related work
    2.1. Text sentiment analysis
    2.2 Visual sentiment analysis
    2.3 Text + Visual Sentiment Analysis
3. LSTM-VAA model
    3.1 Text and images emotional analysis withVisual Aspect Attention
    3.2 LSTM performs sentiment analysis on text
    3.3 Obtaining LSTM-VAA model results
4. Experiment
    4.1 Data Set
    4.2 Training details
    4.3 Comparison model
    4.4 Analysis of experimental results
5. Conclusion
References
<국문초록>
<결론 및 향후 연구>
저자
  • Daniel James
  • Seung Hyun LEE
  • Won Hyung LEE Corresponding author