논문 상세보기

Implementation of a Personalized Music Content Creation Platform Utilizing Emotion Recognition Technology and Generative AI KCI 등재

  • 언어ENG
  • URLhttps://db.koreascholar.com/Article/Detail/437230
구독 기관 인증 시 무료 이용이 가능합니다. 4,200원
한국컴퓨터게임학회 논문지 (Journal of The Korean Society for Computer Game)
한국컴퓨터게임학회 (Korean Society for Computer Game)
초록

현대 사회에서 음악은 일상생활에 깊숙이 자리 잡아, 개인의 음악적 취향과 감정 상태에 맞는 콘텐츠를 손쉽게 찾고 소비하는 것이 중요해지고 있다. 콘텐츠 소비 증가와 더불어 제작 속도 및 효율 또한 중요한 요소로 부상하고 있다. 그러나 기존 음악 콘텐츠 제작 방식은 주로 기존 음악을 플레이리스트로 만들고 간단한 애니메이션이나 이미지를 영상으로 추가하는 방식이다. 이러한 한계를 극복하고자, 인공지능(AI) 기술을 활용하여 사용자 맞춤형 음악을 생성하고 콘 텐츠를 제공하는 어플리케이션을 개발하였다. AI 모델을 통해 사용자의 감정 상태를 분석하고, 이를 기반으로 음악적 요소를 최적화하여 개인화된 음악 콘텐츠를 생성하는 것에 목표를 두었 다. Mel-frequency cepstral coefficients(MFCC)와 템포 분석을 통해 음악 데이터의 특징을 추출하고, 이를 기반으로 사용자 감정에 부합하는 프롬프트를 생성하였다. 생성된 프롬프트는 MusicGen 모델에 입력되어, 사용자의 감정 상태와 음악적 취향을 반영한 새로운 음악을 생성 하는 데 활용하였다. 또한, ComfyUI를 활용하여 텍스트-이미지-비디오 변환 파이프라인을 구 축함으로써, 생성된 프롬프트를 기반으로 다양한 멀티미디어 콘텐츠 제작을 가능하게 하였다. 기존 음악 콘텐츠 제작 방식의 시간 및 비용 문제를 해결하고, 사용자에게 보다 정교하고 개 인화된 음악 경험을 제공하는 데 기여할 수 있을 것으로 기대된다. 향후 다양한 분야에서의 응용 가능성을 제시한다.

In modern society, music plays an integral role in daily life, making it crucial for individuals to easily find content that aligns with their musical preferences and emotional state. Traditional music production methods, which rely on playlists and basic visuals, are limited in their ability to offer personalized experiences. To address these limitations, a new application utilizing AI technology was developed to generate personalized music and multimedia content. The AI model analyzes the user's emotional state and optimizes musical elements to create custom music. This is achieved through the extraction of features like Mel-frequency cepstral coefficients (MFCC) and tempo from the user's music data, which are then used to generate prompts that reflect their emotional state. These prompts are fed into the MusicGen model to create new, emotion-based music. Additionally, a text-to-image-to-video conversion pipeline using ComfyUI was implemented, allowing the creation of diverse multimedia content based on the user's emotions and preferences. This approach not only addresses the time and cost constraints of traditional music production but also enhances the personalization and quality of the content. The method holds potential for future applications across various industries by providing more refined and tailored user experiences.

목차
ABSTRACT
1. Introduction
    1.1 Research Background and Necessity
    1.2 Research Objective
    1.3 Expected Benefits
2. System Design and Implementation
    2.1 Definition of Music Emotion
    2.2 Music Emotion Analysis andRecommendation System
    2.3 Emotion Prediction Model Design andTraining
    2.4 Emotion Prompt Generation
3.1 System Architecture and Key Features
3.2 Pipeline Design and API Implementation
3.3 Webpage Implementation
4. Conclusion
Acknowledgement
References
<국문초록>
<결론 및 향후 연구>

저자
  • Jung-Bin Lee(Department of Technology Art, GSAIM, Chung-Ang University, Art Center, Seoul 06974, Korea) | 이정빈
  • Min-Jin Kim(Department of Technology Art, GSAIM, Chung-Ang University, Art Center, Seoul 06974, Korea) | 김민진
  • Jin-Wan Park(Department of Technology Art, GSAIM, Chung-Ang University, Art Center, Seoul 06974, Korea) | 박진완 Corresponding author