현대 사회에서 음악은 일상생활에 깊숙이 자리 잡아, 개인의 음악적 취향과 감정 상태에 맞는 콘텐츠를 손쉽게 찾고 소비하는 것이 중요해지고 있다. 콘텐츠 소비 증가와 더불어 제작 속도 및 효율 또한 중요한 요소로 부상하고 있다. 그러나 기존 음악 콘텐츠 제작 방식은 주로 기존 음악을 플레이리스트로 만들고 간단한 애니메이션이나 이미지를 영상으로 추가하는 방식이다. 이러한 한계를 극복하고자, 인공지능(AI) 기술을 활용하여 사용자 맞춤형 음악을 생성하고 콘 텐츠를 제공하는 어플리케이션을 개발하였다. AI 모델을 통해 사용자의 감정 상태를 분석하고, 이를 기반으로 음악적 요소를 최적화하여 개인화된 음악 콘텐츠를 생성하는 것에 목표를 두었 다. Mel-frequency cepstral coefficients(MFCC)와 템포 분석을 통해 음악 데이터의 특징을 추출하고, 이를 기반으로 사용자 감정에 부합하는 프롬프트를 생성하였다. 생성된 프롬프트는 MusicGen 모델에 입력되어, 사용자의 감정 상태와 음악적 취향을 반영한 새로운 음악을 생성 하는 데 활용하였다. 또한, ComfyUI를 활용하여 텍스트-이미지-비디오 변환 파이프라인을 구 축함으로써, 생성된 프롬프트를 기반으로 다양한 멀티미디어 콘텐츠 제작을 가능하게 하였다. 기존 음악 콘텐츠 제작 방식의 시간 및 비용 문제를 해결하고, 사용자에게 보다 정교하고 개 인화된 음악 경험을 제공하는 데 기여할 수 있을 것으로 기대된다. 향후 다양한 분야에서의 응용 가능성을 제시한다.
경쟁과 협력을 인식하는 것은 일하는 공간에서 상호작용 디자인을 하는 데에 필요한 요소이다. 본 연구는 타인과의 상호작용에서 유발되는 경쟁과 협력의 사회 감성을 심장의 생리 반응 패턴으로 객관적이고 정량적으로 인식하는 방법을 개발하는 것이 목적이다. 피험자 60명은 패턴 게임으로 구성된 과제로 경쟁-협력 실험에 참여하였고 심전도를 측정하였다. 심전도로부터 시간 영역 지표인 RRI와 SDNN, pNN50, rMSSD를 추출하였고, 주파수 영역 지표인 VLF와 LF, HF, VLF/HF, LF/HF, lnVLF, lnLF, lnHF, lnVLF/lnHF를 추출하였다. 독립 표본 t검정으로 사회 감성에 따라 추출한 지표들의 통계적 유의성을 확인하였다. 통계적으로 유의한 지표들로 단계적 판별 분석을 진행하여 선정 된 SDNN, VLF, lnVLF/lnHF 지표로 경쟁-협력 규칙을 정의하고 검증하였다. 검증 결과 85%의 인식 정확도를 보였 다. 본 연구에서 제안한 감성 인식 방법은 다양한 분야에 접목되어 사용자 맞춤형 서비스 제공에 활용될 수 있을 것이라 생각된다.
게임 플레이에서 몰입은 매우 중요한 개념이며 게임을 이루는 요소들 중 몰입에 많은 영향을 미치는 요소는 바로 컷씬이다. 컷씬은 재미와 감동을 주는 게임의 스토리를 플레이어에게 직접적으로 전달해준는 매개체 이다. 대부분의 게임에서 모든 플레이어는 같은 컷씬을 보게 된다. 본 연구는 플레이어의 감성 데이터를 바 탕으로 플레이어마다 다른 컷씬을 감상하게 하게 게임 플레이의 몰입을 증가시키는 실험을 검증하였다. 우리는 각 이벤트 후 보여지는 컷씬을 감상하기 전 인터페이스를 통해 플레이어의 각 상황에 대한 감성을 입력받아 실시간으로 보여지는 컷씬에 효과를 적용시켰다. 적용시켜지는 칼라 효과는 러셀의 감성모델과 그 감 성모델에 매칭되는 컬러표를 기반으로 구현하였다. 플레이어의 감성에 따라 컷씬은 달라지게 된다. 많은 연 구들이 게임에서의 몰입을 다루고 있으며 이계속 이루어 질 것이다. 본 연구는 게임에서 플레이어의 몰입증가에 새로운 시도가 될 것이다.
본 연구는 비콘 기반의 웨어러블 디바이스를 통해 Social Distance로부터 감성 상호작용을 인식하기 위한 기술을 개발하였다. 인식된 상호작용은 Photoplethysmogram(PPG)로부터 추정된 심혈관 동시성과 비교하여 평가되었다. 상호작용은 Social Distance가 일정 시간 이상 유지되었을 경우 인식되었으며, 심혈관 동시성은 PPG로부터 계산된 Beats Per Minute(BPM) 간의 상관분석을 통해 추정되었다. Social Distance로부터 유효한 상호작용을 인식하기 위한 유지시간을 결정하기 위해 상호작용 대상일 때와 아닐 때의 심혈관 동시성에 대해 Mann-Whitney U test를 실시하였다. 15개 집단(집단 당 2명)이 실험에 참여하였으며, 이들은 일상생활에서 비콘 및 PPG 웨어러블 디바이스를 착용하도록 요청받았다. 그 결과, 본 연구에서 인식한 상호작용 대상은 더 높은 심혈관 동시성을 보이는 것으로 나타났으며, 유효상호작용 시간은 통계적 유의차를 보이는 11초로 결정되었다(p=.045). 결과적으로 실 공간에서의 사회관계망에 대한 실시간 측정과 평가를 할 가능성을 높였다.
감성을 인식하는데 있어 생리적 반응은 중요하다. 생리적 반응은 인체의 주요 기관들과 밀접한 관련이 있지만 감성을 인식하는데 연결성은 고려되지 않고 있다. 자율신경계는 감성과 밀접한 관련이 있는데, 심장과 폐와 같은 인체 내주요 내장기관에 분포되어 기능적 상보작용을 통해 생리적 반응을 조절하기 때문이다. 따라서 본 연구는 심장과 호흡의 연결성을 분석하고 감성을 인식하는 중요한 연결 변수를 찾고자 하였다. 피험자 18명(남 10명, 평균 나이 24.72 ± 2.47)은 소리 자극을 이용한 감성 유발 실험에 참여하였고 심전도와 호흡 데이터를 측정하였다. 수집된 심장과 호흡 데이터는 스펙트럼 분석을 이용하여 HRV와 BRV spectrum을 구하였고, 감성에 따른 HRV와 BRV spectrum의 동기화 차이를 일원배치분산분석을 통해 통계적 유의성을 확인하였다. Tukey 검증 결과, arousal-relaxation은 HF 대역에서 심전도와 호흡의 동기화 차이로 인식 가능하였고(p = 0.008, d = 1.4274), negative-positive는 LF 대역에서 인식이 가능하였다(p = 0.002, d = 1.7377). 본 연구 결과로 심장과 호흡의 연결성을 통해 차원적 감성을 정량적으로 평가할 수 있음을 확인하였고, 복합적인 원인으로 발현되는 감성을 인식하는데 생리적 반응들의 연결성 변수의 활용도가 높을 것으로 기대된다.
Recently, information technology has been developed rapidly over than everyone thinks. The computer technology with hardware and software development of artificial intelligent and machine learning would be more interested in the interactive computer technology. In this paper, we propose a new paradigm to implement the system which recognizes human’s emotion and reacts with the emotion, and this will be human interactive and applied in every information technical field. This system implements an intelligent system that analyzes human’s faces following with the recognition of emotion, which will be the intelligent system that reacts in accordance with the emotion. The proposed real-time intelligent system will develop the system that recognizes human’s emotion, with the emotion, and reacts the actions in the field of marketing of enterprises, intelligent games, and intelligent robots.
Recently, the field of emotional ICT which recognizes human's emotion is a rapidly growing interest. For example, various products applying emotion are being released and Softbank's robot, Pepper, is the one of those. This robot can recognize human's emotion through facial expressions and have conversations accordingly. By reading emotion through facial expressions, communication with humans become more natural. In addition, the emotional interface between machines and humans in various areas are applied to show a more intimate interface such as emotional application games that respond differently based on the emotion. In this paper, a system applying special effects on images based on recognition of six emotions from the facial expressions is proposed. A more friendly content can be produced by applying an appropriate emotional effect on the image loaded by the user with the user's facial expression. The result of this paper can be very appropriate to game scenarios and developing game program stages with the recognition of human emotion.
인간의 감정을 인식하는 기술은 많은 응용분야가 있음에도 불구하고 감정 인식의 어려움으로 인해 쉽게 해결 되지 않는 문제로 남아 있다. 인간의 감정 은 크게 영상과 음성을 이용하여 인식이 가능하다. 감정 인식 기술은 영상을 기반으로 하는 방법과 음성을 이용하는 방법 그리고 두 가지를 모두 이용하는 방법으로 많은 연구가 진행 중에 있다. 이 중에 특히 인간의 감정을 가장 보편적으로 표현되는 방식이 얼굴 영상을 이용한 감정 인식 기법에 대한 연구가 활발히 진행 중이다. 그러나 지금까지 사용자의 환경과 이용자 적응에 따라 많은 차이와 오류를 접하게 된다. 본 논문에서는 감정인식률을 향상시키기 위해서는 이용자의 내면적 성향을 이해하고 분석하여 이에 따라 적절한 감정인식의 정확도에 도움을 주어서 감정인식률을 향상시키는 메카니즘을 제안하였으며 본 연구는 이러한 이용자의 내면적 성향을 분석하여 감정 인식 시스템에 적용함으로 얼굴 표정에 따른 감정인식에 대한 오류를 줄이고 향상 시킬 수 있다. 특히 얼굴표정 미약한 이용자와 감정표현에 인색한 이용자에게 좀 더 향 상된 감정인식률을 제공 할 수 있는 방법을 제안하였다.
This paper presents a statistical analysis method for the selection of electroencephalogram (EEG) electrode positions and spectral features to recognize emotion, where emotional valence and arousal are classified into three and two levels, respectively. T
본 연구에서는 개인 맞춤형 감성인식이 가능한 실시간 개인화 프로세스를 개발하였다. 설계된 개인화 프로세스는 실시간 생체신호 중립밴드 알고리즘과 사용자의 주관적인 감성응답을 실시간으로 입력받아 개인 감성룰베이스를 업데이트하는 과정을 포함한다. 실시간 감성인식을 위해 PPG(Photoplethysmography), GSR(Galvanic skin reflex), SKT(Skin Temperature)를 자율신경계 신호를 측정하고 사용하였다. 개인화 프로세스를 적용한 감성인식과 적용하지 않은 감성인식의 일치도 평가는 대학생 10명(남 5명, 여 5명, 22.1세±2.2세)의 피실험자를 대상으로 실시하였다. 45장의 이미지를 무작위로 제시하였으며, 5회 반복 측정하였다. 개인화 프로세스를 적용시켰을 때 약 71.67%의 일치도를 보였으며, 적용시키지 않았을 때보다 약 5배 이상 높은 일치도의 차이를 보였다. 본 연구에서는 개인화 프로세스가 실시간 개인 맞춤 감성인식에 매우 유용함을 보였다. 추후 개인화 프로세스는 다양한 감성 애플리케이션이나 서비스에서 감성인식 만족도를 높일 수 있을 것으로 판단된다.
정서 컴퓨팅 분야는 인간과 컴퓨터 간 상호작용을 효과적이게 하기 위하여 사용자의 정서를 재인하는 컴퓨터 시스템을 개발했다. 본 연구의 목적은 심리학적 이론에 기반한 정서 재인 연구들을 고찰하고 보다 진보된 정서 재인 방법을 제안하고자 하였다. 본 연구의 본론에서는 심리학적 이론에 근거한 대표적인 정서 재인 방법을 고찰하였다. 첫째, Darwin 이론에 근거한 얼굴 표정 기반 정서 재인 방법을 고찰하였다. 둘째, James 이론에 근거한 생리신호기반 정서 재인 방법을 고찰하였다. 셋째, 앞의 두 이론에 통합적으로 근거한 다중 모달리티 기반 정서 재인 방법을 고찰하였다. 세 가지 방법들은 이론적 배경과 현재까지 이루어진 연구 결과들을 중심으로 고찰되었다. 결론에서는 선행 연구의 한계점을 종합하여 보다 진보된 정서 재인 방법을 제안하였다. 본 연구는 첫째, 현재 사용되고 있는 제한된 생리 신호에 대한 대안으로 다양한 생리 반응(예., 뇌 활동, 얼굴온도 등)을 정서 재인에 포함하도록 제안하였다. 둘째, 애매한 정서를 구분할 수 있도록 정서의 차원 개념에 기반한 정서 재인 방법을 제안하였다. 셋째, 정서 유발에 영향을 미치는 인지적 요소를 정서 재인에 포함하도록 제안하였다. 본 연구에서 제안한 정서 재인 방법은 다양한 생리 신호를 포함하고, 정서의 차원적 개념에 기반하며, 인지적 요소를 고려한 통합적인 모델이다.
감성을 인식하고 반응하는 감성컴퓨터를 개발하기 위한 감성인식에 대한 연구가 활발하다. 본 연구는 2차원으로 정의한 감성을 측정하기 위해서 시간에 따른 생리신호의 반응 변수를 정의하고 그 변수로 인한 감성을 구분하고자 하였다. 10명의 대학생에게 16장의 감성을 유발시킬 수 있는 이미지를 제시하였다. 그리고 자율신경계 반응으로 ECG(electrocardiogram), PPG(photoplethysmogram), GSR(Galvanic skin response), RSP (respiration), 그리고 SKT(skin temperature)를 측정하였다. 본 연구는 자율신경계 반응에 대해 Delay, Activation, Half recovery 그리고 Full recovery로 이루어진 TDP(Time Dependent Parameters)를 정의하고 감성을 구분할 수 있는지에 대한 통계적 유의성을 검증하였다. 그 결과, TDP가 감성을 구분할 수 있는 유의미한 변수로 확인하였고 특징적 경향을 보임을 알 수 있었다. 그러므로 본 연구는 TDP가 감성 인식을 위한 유효한 변수일 가능성을 보였다.
In this paper, we propose and examine the feasibility of the robot-assisted behavioral intervention system so as to strengthen positive response of the children with autism spectrum disorder (ASD) for learning social skills. Based on well-known behavioral treatment protocols, the robot offers therapeutic training elements of eye contact and emotion reading respectively in child-robot interaction, and it subsequently accomplishes pre-allocated meaningful acts by estimating the level of children’s reactivity from reliable recognition modules, as a coping strategy. Furthermore, for the purpose of labor saving and attracting children’s interest, we implemented the robotic stimulation configuration with semi-autonomous actions capable of inducing intimacy and tension to children in instructional trials. From these configurations, by evaluating the ability of recognizing human activity as well as by showing improved reactivity for social training, we verified that the proposed system has some positive effects on social development, targeted for preschoolers who have a high functioning level.
뇌파 및 심전도 생체신호를 복합적으로 이용한 감정인식을 통한 실시간 사용자 인터페이스를 제안한다. 기존에 뇌파를 통한 감정인식의 문제점이었던 낮은 정확도를 개선하기 위해 뇌파의 Theta, Alpha, Beta, Gamma의 상대파워 값과 심전도의 자율신경계 비율을 혼합하는 복합 생체 신호 감정 인식 시스템을 개발했다. 기쁨, 공포, 슬픔, 즐거움, 화남, 혐오에 해당하는 6가지 감 정을 인식하기 위해 사용자별 확률 값을 저장하는 데이터 맵을 생성하고, 채널에 대응하는 감 정 인식의 정확도를 향상시키기 위해 가중치를 갱신하는 알고리즘을 제안한다. 또한 뇌파로 구 성된 단일 데이터와 뇌파/심전도 생체신호 복합 데이터의 실험 결과를 비교한 결과 23.77%의 정확도 증가를 보였다. 제안된 인터페이스 시스템은 높은 정확도를 통해 게임 및 스마트 공간 의 제어에 필요한 인터페이스로 기기에 활용이 가능할 것이다.
Facial feature extraction and tracking are essential steps in human-robot-interaction (HRI) field such as face recognition, gaze estimation, and emotion recognition. Active shape model (ASM) is one of the successful generative models that extract the facial features. However, applying only ASM is not adequate for modeling a face in actual applications, because positions of facial features are unstably extracted due to limitation of the number of iterations in the ASM fitting algorithm. The unaccurate positions of facial features decrease the performance of the emotion recognition. In this paper, we propose real-time facial feature extraction and tracking framework using ASM and LK optical flow for emotion recognition. LK optical flow is desirable to estimate time-varying geometric parameters in sequential face images. In addition, we introduce a straightforward method to avoid tracking failure caused by partial occlusions that can be a serious problem for tracking based algorithm. Emotion recognition experiments with k-NN and SVM classifier shows over 95% classification accuracy for three emotions: "joy", "anger", and "disgust".