최근 심층 학습 기반의 표정 재연 기술에 대한 많은 연구가 진행되고 있다. 표정 재연 기술이란 입력 이미지 속 사람의 표정을 원하는 표정으로 재연하는 기술이다. 표정 재연 기술은 게임 산업 분야에 유용하게 활용될 수 있을 것이나 표정 재연 기술을 게임 캐릭터에 적용하는 것은 쉽지 않다. 게임 캐릭터의 AU(Action Unit)를 추출하는 것이 힘든 일이기 때문이다. 따라서 본 논문에서는 색상 모듈을 사용하여 게임 캐릭터에도 적용할 수 있는 심층 표정 재연 기술을 제안한다. 게임 캐릭터에서 AU 추출이 가능하도록 색상 모듈을 이용, 캐릭터의 얼굴 색을 실제 사람 얼굴의 색으로 조정한다. 본 논문의 모델은 GAN 기반 구조이다. 본 논문이 제시한 프레임 워크는 색상 모듈, 두가지 생성자, 두가지 판별자, Identity 보존 모듈로 이루어진다. 입력 이미지를 색상 모듈을 통해 얼굴 색을 조정한 후 입력 AU에 따라 생성자를 통해 중립 이미지를 생성한 후 재연 이미지를 생성한다. 그 후 색상 모듈을 통해 입력 이미지 캐릭터의 피부색으로 다시 조정하여 결과 이미지를 생성한다. 이미지가 생성될 때마다 판별자를 통해 이미지의 품질을 측정하고 Identity 보존 모듈을 통해 Identity를 예측하여 보존한 다. 본 연구의 결과는 게임 캐릭터에 대해 기존 연구들보다 표정 변화가 잘 일어난 이미지를 생성했고 이를 게임 분야에 활용할 수 있을 것이다.
최근 GAN(Generative Adversarial Network) 등장 이후 얼굴 표정 재연(face reenactment)의 연구가 활발해지고 있다. 얼굴 표정 재연은 입력으로 주어진 얼굴 이미지를 원하는 표정의 이미지 혹은 표정 정보를 갖는 벡터(vector)을 입력으로 주어 원하는 표정으로 합성하는 기술이다. 본 논문은 GAN 아키텍쳐(architecture)를 기반으로 회전 모듈 (rotate module)과 다양한 각도의 게임 캐릭터 표정을 표정 정보를 갖는 AUs(Action Units) vector를 통해 재연시키 는 방법을 제안한다. 입력으로 다양한 각도의 게임 캐릭터 얼굴이 주어지면 회전 모듈을 통해 정면화(frontalization) 시킨 이미지를 합성한다. 이를 통해, 다양한 각도의 게임 캐릭터들은 각도의 영향에서 벗어날 수 있다. 정면화 이미지는 원하는 표정으로 합성하기 위해 표정 정보를 갖는 AU벡터와 함께 생성자(generator)에 입력으로 주어진다. 이 때, 표정 정보를 갖고 있는 벡터는 AUs를 사용함으로써 다양한 표정과 세기(intensity)를 표현할 수 있다. 생성자는 표정 정보에 대한 관심 지역을 의미하는 관심 마스크(attention mask)를 생성하고 색상 정보를 의미하는 색상 마스크(color mask)를 생성한다. 이를 통해, 게임 캐릭터의 특징과 기타 부착물을 보존하며 표정을 재연한 이미지를 합 성할 수 있다. 관심 마스크와 색상 마스크를 이용하여 원하는 표정으로 재연한 재연 이미지를 합성하고 다시 회전 모듈을 통해 기존의 입력 이미지의 각도로 재회전하여 원하는 결과 이미지를 얻을 수 있다.
이제는 모바일 마켓순위에서 많은 게임이 높은 점유율을 차지하지만 점유율을 오랫동안 유지 하는 것은 쉽지 않다. 게이머를 끌어당기는 중요한 요소는 게임 재미(Game Fun)이고, 게임을 재미있게 만드는 가장 중요한 요소는 게임 난이도이다. 하지만 게임 난이도를 디자인하는 것은 매우 어려운 일이다.
본 논문은 두 개의 연속적인 컨볼루셔널 레이어를 사용한 컨볼루셔널 신경망과 SVM 분류기를 이용하여 게임 시 플레이어의 얼굴 표정을 실시간으로 검출하고 판단한다. 실험 결론은 CNN을 이용한 표정 시스템은 게임 play-time 및 score를 늘릴 수 있고, 게임 재미를 증진시키기에 도와 준다고 증명하였다.
본 연구는 자기공명영상 기법을 이용하여 알코올 중독자의 정서 인식과 관련된 뇌 활성화 특성을 관찰하였다. 입원치료 중인 알코올 중독자 18명과 이들과 나이, 성별, 교육 수준 등이 유사한 비중독자 16명이 실험에 참여하였다. 참여자들은 뇌 영상 촬영 동안에 얼굴 사진을 보고 얼굴 표정 정서의 강도를 평정하였다. 연구 결과, 행동 반응에서는 알코올 중독자와 비중독자 간에 유의한 차이는 나타나지 않았다. 뇌 반응 결과, 알코올 집단에서는 비중독자 집단과 비교하여 얼굴 표정 정서 인식 동안에 정서 처리와 관련된 편도체/해마는 더 적게 활성화되었으며, 얼굴 정보 처리와 관련된 방추이랑, 시·공간 탐색과 관련된 이마엽 및 마루엽 영역은 더 크게 활성화되었다. 반면, 알코올 집단에서 혀이랑/방추이랑(BA 19), 시각적 탐색에 관여하는 가운데이마이랑(BA 8/9/46), 그리고 시공간적 정보 처리에 관여하는 위마루소엽(BA 7)이 더 크게 활성화 되었다. 본 연구를 통해 알코올 중독자의 정서 인식과 관련된 뇌 활성화 특성을 확인할 수 있었다.
Recently, information technology has been developed rapidly over than everyone thinks. The computer technology with hardware and software development of artificial intelligent and machine learning would be more interested in the interactive computer technology. In this paper, we propose a new paradigm to implement the system which recognizes human’s emotion and reacts with the emotion, and this will be human interactive and applied in every information technical field. This system implements an intelligent system that analyzes human’s faces following with the recognition of emotion, which will be the intelligent system that reacts in accordance with the emotion. The proposed real-time intelligent system will develop the system that recognizes human’s emotion, with the emotion, and reacts the actions in the field of marketing of enterprises, intelligent games, and intelligent robots.
로봇과 인간의 상호작용에서 언어에 의한 정보 전달은 상호작용의 한계가 있으므로, 더욱 원활하고 효율적인 의사소통과 나아가 로봇의 감정 표현까지 구현하기 위해서는 비언어적 커뮤니케이션이 필요하다.
본 연구에서는 쇼핑을 지원하는 로봇을 전제로 하여 쇼핑 행태에 따른 7가지 비언어적 정보를 도출하였다. 도출된 비언어적 정보의 요소로서 표정을 선정하고, 2D 분석을 통하여 얼굴 구성요소를 코드화 하였다.
얼굴 구성요소의 코드를 조합한 3D 애니메이션을 이용하여 비언어적 정보의 표현에 대한 유의성을 분석하였 다. 분석 결과, 제안된 비언어적 정보의 표현 방법은 높은 수준의 유의성을 보여 비언어적 정보 연구의 기초자료 로서 활용 가능성이 확인되었다. 다만, '당황'의 경우 코드화된 얼굴 구성 요소의 모양 적용에 한계가 있으며 보 다 체계적 연구가 요구된다.
Recently, the field of emotional ICT which recognizes human's emotion is a rapidly growing interest. For example, various products applying emotion are being released and Softbank's robot, Pepper, is the one of those. This robot can recognize human's emotion through facial expressions and have conversations accordingly. By reading emotion through facial expressions, communication with humans become more natural. In addition, the emotional interface between machines and humans in various areas are applied to show a more intimate interface such as emotional application games that respond differently based on the emotion. In this paper, a system applying special effects on images based on recognition of six emotions from the facial expressions is proposed. A more friendly content can be produced by applying an appropriate emotional effect on the image loaded by the user with the user's facial expression. The result of this paper can be very appropriate to game scenarios and developing game program stages with the recognition of human emotion.
인간의 감정을 인식하는 기술은 많은 응용분야가 있음에도 불구하고 감정 인식의 어려움으로 인해 쉽게 해결 되지 않는 문제로 남아 있다. 인간의 감정 은 크게 영상과 음성을 이용하여 인식이 가능하다. 감정 인식 기술은 영상을 기반으로 하는 방법과 음성을 이용하는 방법 그리고 두 가지를 모두 이용하는 방법으로 많은 연구가 진행 중에 있다. 이 중에 특히 인간의 감정을 가장 보편적으로 표현되는 방식이 얼굴 영상을 이용한 감정 인식 기법에 대한 연구가 활발히 진행 중이다. 그러나 지금까지 사용자의 환경과 이용자 적응에 따라 많은 차이와 오류를 접하게 된다. 본 논문에서는 감정인식률을 향상시키기 위해서는 이용자의 내면적 성향을 이해하고 분석하여 이에 따라 적절한 감정인식의 정확도에 도움을 주어서 감정인식률을 향상시키는 메카니즘을 제안하였으며 본 연구는 이러한 이용자의 내면적 성향을 분석하여 감정 인식 시스템에 적용함으로 얼굴 표정에 따른 감정인식에 대한 오류를 줄이고 향상 시킬 수 있다. 특히 얼굴표정 미약한 이용자와 감정표현에 인색한 이용자에게 좀 더 향 상된 감정인식률을 제공 할 수 있는 방법을 제안하였다.
이 연구의 목적은 학습용 에이전트의 비언어적 의사소통이 의인화 효과에 미치는 영향을 검증하는 것이다. 대학생 56명을 대상으로 실험이 진행되었으며, 비언어적 의사소통은 제스처(지시적 제스처 vs. 대화적 제스처)와 얼굴표정(적용유무)에 의해서 구현되었다. 학습용 에이전트에 적용된 제스처는 지시적 제스처와 대화적 제스처였다. 지시적 제스처는 주의집중 유도 가설에 의해서 학습용 에이전트의 제스처가 시각단서의 역할을 수행할 것이라는 가설에 근거하고 있다. 대화적 제스처는 사회성 가설에 의한 것으로 학습용 에이전트의 사회적 상호작용을 촉진시키기 위한 것이다. 얼굴표정은 주로 사회성 가설을 지지하는 설계원리로 보았다. 의인화 효과 측정에서는 학습개입에 대한 상호작용이 유의미했다. 대화적 제스처 조건에서 얼굴표정이 있고 없음에 따라서 학습개입에 대한 의인화 효과가 유의미했다. 대화적 제스처와 얼굴표정이 적용되면 학습개입을 촉진하는 것으로 나타났다. 이 연구는 두 가지 시사점을 제공하고 있다. 첫째, 얼굴표정은 학습개입에서 중요한 역할을 한다. 둘째, 제스처와 더불어 얼굴표정과 제스처가 동시에 적용되어야 한다.
본 연구는 시각작업기억에 저장이 요구되는 얼굴 자극이 보유한 긍정적, 부정적 그리고 중립적 정서가 기억 정확성에 미치는 영향을 조사하였다. 참가자들은 유쾌, 불쾌 및 무표정의 세 가지 표정 유형 중 하나가 무선적으로 부여된 얼굴들의 표정을 기억한 후 잠시 후 제시된 검사 얼굴들에 대한 대조를 통해 기억항목과 검사항목 간 얼굴 표정의 변화 유무를 보고하였다. 얼굴 표정의 변화에 대한 탐지정확도를 측정한 결과 기억항목의 노출시간이 500ms이었을 경우, 긍정적 표정을 보유한 기억항목에 대한 변화탐지는 부정 및 중립 표정에 비해 상대적으로 정확했다. 반면에 노출시간이 1000ms로 연장되자 이러한 차이는 관찰되지 않았다. 이러한 결과는 긍정적 정서가 시각작업기억의 정확성을 향상시킬 수 있음을 의미하며, 특히 긍정적 정서에 의한 기억 촉진 효과는 기억 표상 형성에 있어서 요구되는 시간이 상대적으로 촉박한 경우에 나타남을 의미한다. 따라서 본 연구는 작업기억과 정서간의 관계를 규명하기 위하여 비교적 단순한 과제인 변화탐지과제를 사용하여 긍정적 정서가 시각작업기억 표상 형성의 효율성을 향상시킨다는 것을 발견했다는 점에서 중요한 시사점을 제공한다.
오늘날 가상 세계에서 인간과 인간, 컴퓨터와 인간의 상호작용을 좀 더 효율적으로 도와줄 수 있는 매개체로서 에이전트에 대한 관심이 증대되고 있다. 특히 에이전트의 정서표현도 인간의 정서 표현처럼 해석할 수 있고 그에 대해 인간의 정서표현에 반응하는 것과 마찬가지의 방식으로 반응한다는 연구들이 있어왔다. 그렇다면 에이전트의 정서표현이 표정과 목소리에서 서로 불일치한다면 어떤 쪽에 더 치중해서 에이전트의 정서를 해석할지 또는 어느 한 쪽에 치중하는 것이 아니라 두 정서 모두 조합해서 받아들일지 알아보고자 했다. 또한 만약 표정과 목소리의 두 가지 정서를 조합해서 인지한다면 표정이나 목소리에서는 표현되지 않은 제 3의 정서를 느끼지는 않는 것인지 알아보았다. 실험은 표정(4) × 목소리(4)로 이루어졌다. 실험 결과 사람들은 에이전트의 한 가지 채널에 지배받아서 정서를 인지하는 것이 아니라 표정(시각)과 목소리(청각) 두 채널 모두를 조합해서 정서를 인지하는 것으로 나타났다. 또한 두 채널의 정서가 불일치할 때에는 혼란에 빠져 무슨 정서인지 모르게 되는 것이 아니라 또 다른 실망, 지루함, 지친, 반가운 등의 제 3의 정서를 느끼는 것으로 나타났다.
게임의 인트로 영상, TV 씨리즈 물 등에서의 ‘디지털 액터’들의 연기는 물론이거니와, 근래에 와서 표현방법들을 기준으로 애니메이션과 영화를 구분하기가 상당히 어려워졌다고 해도 과언이 아닐 것 같다. 이전의 영화에서는 반드시 실제의 배우가 등장하여 연기를 하는 방향으로 전개가 되어졌었다. 그렇지만 최근에는 영화에서도 '디지털 액터'가 등장하는 빈도가 증가되어, 그 역할과 표현의 한계에 대해서 언급이 되고 있는 바, 다양한 소재의 장르를 소화 할 수 있는 연기력을 기반으로 획기적인 제작 프로세스를 가져다 줄 것이며, 제작비 또한 큰 변화를 가져 올 수 있다고 생각한다. 이러한 측면에서 연기학적 측면과 생리학적 측면과 동시에 실사적 동작의 특징, 카툰적 동작의 특징 및 실사적 동작과 카툰적 동작의 차이점 등을 기준으로, 이미 개봉이 되었던 <헐크(Hulk, 2003 / 감독: 이안)>에서 '디지털 액터'의 '표정연기'에 관해서 슬픈 장면과 분노의 장면을 위주로 다루어 보고자 한다.
본 연구는 공감-체계화 유형, 얼굴제시영역, 정서유형에 따른 정서 인식과 정서 변별 간 관계를 알아보기 위하여 수행되었다. 실험 1에서는 개인의 공감-체계화 유형, 얼굴제시영역, 정서유형에 따라 정서 인식 정도가 어떻게 달라지는지 알아보았다. 그 결과 공감-체계화 유형에 따른 정서 인식 정도에는 유의미한 차이가 없었고, 얼굴제시영역과 정서유형에 따른 차이는 유의미하게 나타났다. 실험 2에서는 과제를 바꾸어 개인의 공감-체계화 유형, 얼굴제시영역, 정서유형에 따라 정서 변별 정도에 차이가 있는지 알아보았다. 그 결과 얼굴제시영역과 정서 유형에 따른 정서 변별 정도에 유의미한 차이가 있었다. 공감-체계화 유형과 정서유형 간 유의미한 상호작용이 있었는데, 기본정서에서는 공감-체계화 유형에 따른 변별 정도가 유의미한 차이를 보이지 않은 반면, 복합정서에서는 공감-체계화 유형 간 유의미한 차이를 보였다. 즉, 정서 인식과 달리 정서 변별에 있어서는 정서 유형에 따라 공감-체계화 유형 간 정확률에 차이가 나타났다. 이는 정서를 인식하는 것과 변별하는 것이 공감-체계화 유형에 따라 다르게 나타난다는 것을 보여준다. 본 연구를 통해 한 개인이 가지고 있는 공감하기와 체계화하기 특성, 얼굴제시영역, 정서유형이 정서인식과 정서 변별에 서로 다른 영향을 줄 수 있다는 것을 밝혔다.
본 연구에서는 얼굴 표정 정서를 인식하는데 있어서 우울 집단과 통제 집단간에 차이가 있는지를 알아보고자 하였다. 연구 대상은 305명의 대학생에게 BDI-II를 실시하여 14점(상위 20%) 이상을 얻은 학생을 우울 집단으로, 5점 이하(하위 20%)를 얻은 학생을 통제 집단으로 선정하였다. 최종적으로 우울 집단 20명, 통제 집단 20명이 분석에 포함되었으며, 이들에게 기쁨, 슬픔, 화남, 두려움의 각 얼굴 표정이 중립에서부터 시작되어 점점 정서 강도가 커지면서 가장 강한 강도의 표정 사진에 이르도록 변하는 자극을 제시하였다. 그 결과, 집단과 정서(특히 기쁨-슬픔 조건)간의 유의한 상호작용 효과가 관찰되었고, 이러한 결과는 우울감이 얼굴 표정과 같은 정서적 정보처리에 영향을 미친다는 것을 의미한다. 우울한 개인의 이러한 정서 일치적 정보 처리 경향이 가지는 함의에 대하여 논의하였다.
본 연구에서는 얼굴표정을 통하여 다른 사람의 정서 상태를 판단하는 능력이 연령(3세, 5세, 대학생), 성별(남, 여), 얼굴제시영역(얼굴전체, 눈), 정서의 종류(기본정서, 복합정서)에 따라 어떻게 다른지 알아보고자 하였다. 본 연구에서는 얼굴표정과 정서어휘 간의 연결이 비교적 분명하게 나타나는 32개의 정서 상태를 자극으로 사용하였으며, 표정사진은 32개의 정서 상태에 해당하는 얼굴표정을 배우에게 연기하도록 하여 사용하였다. 과제는 각 실험참가자에게 정서유발 상황에 대한 이야기를 들려주고 이야기 속의 주인공이 어떤 얼굴표정을 할 것인지를 판단하게 한 후 네 개의 얼굴표정 중에 적절한 것을 선택하도록 한 것이었다. 그 결과 연령이 증가함에 따라 얼굴표정을 판단하는 능력이 증가하였으며, 눈만 제시한 경우보다는 얼굴전체를 제시하였을 때, 복합정서보다는 기본정서에서 더 좋은 수행을 보였다. 또한 여자는 제시영역에 따른 수행의 차이가 없는 것에 반해, 남자는 눈 조건에 비해 얼굴조건의 경우에 더 좋은 수행을 보였다. 본 연구의 결과는 연령, 얼굴제시영역, 정서의 종류가 얼굴표정을 통해 타인의 정서를 판단하는데 영향을 줌을 시사한다.
본 연구에서는 동영상 자극과 정지 영상 자극을 사용하여 얼굴 표정의 영역(얼굴 전체/눈 영역/입 영역)에 따른 정서 상태 전달 효과를 알아보고자 하였다. 동영상 자극은 7초 동안 제시되었으며, 실험 1에서는 12개의 기본 정서에 대한 얼굴 표정 제시 유형과 제시 영역에 따른 정서 인식 효과를, 실험 2에서는 12개의 복합 정서에 대한 얼굴 표정 제시 유형과 제시 영역에 따른 정서 인식 효과를 살펴보았다. 실험 결과, 동영상 조건이 정지 영상 조건보다 더 높은 정서 인식 효과를 보였으며, 입 영역과 비교하였을 때 동영상에서의 눈 영역이 정지 영상 보다 더 큰 효과를 보여 눈의 움직임이 정서 인식에 중요할 것임을 시사하였다. 이는 기본 정서 뿐 아니라 복합 정서에서도 어느 정도 관찰될 수 있는 결과였다. 그럼에도 불구하고 정서의 종류에 따라 동영상의 효과가 달라질 수 있기 때문에 개별 정서별 분석이 필요하며, 또한, 얼굴의 특정 영역에 따라서도 상대적으로 잘 나타나는 정서 특성이 다를 수 있음을 사사해 준다.
얼굴표정과 내적상태의 관계 모형을 수립하기 위한 기초 자료로서 얼굴표정과 내적상태의 대응 관계를 조사하였다. 심리적으로 최소유의미거리에 있는 두 내적상태는 서로 구별되는 얼굴표정으로 대응된다는 것을 확인함으로써 얼굴표정과 내적상태의 일대일 대응 관계가 성립한다는 것을 발견하였다. 얼굴표정 차원값과 내적상태 차원값의 관계 구조를 파악하기 위하여 중다희귀분석 및 정준상관분석을 실시한 결과, 쾌-불쾌는 입의 너비에 의해서 각성-수면은 눈과 입이 열린 정도에 의해서 얼굴표정에 민감하게 반영되는 것으로 나타났다. 얼굴표정 차원 열 두 개가 내적상태 차원상의 변화를 설명하는 정도는 50%내외였다. 선형모형이 이처럼 높은 예측력을 갖는다는 것은 이 두 변수 사이에 비교적 단순한 수리적 대응 구조가 존재한다는 것을 암시한다.
본 논문은 얼굴인식 분야에 있어서 필수 과정인 얼굴 및 얼굴의 주요소인 눈과 입의 추출에 관한 방법을 제시한다. 얼굴 영역 추출은 복잡한 배경하에서 움직임 정보나 색상정보를 사용하지 않고 통계적인 모델에 기반한 일종의 형찬정합 방법을 사용하였다. 통계적인 모델은 입력된 얼굴 영상들의 Hotelling변환 과정에서 생성되는 고유 얼굴로, 복잡한 얼굴 영상을 몇 개의 주성분 갑으로 나타낼 수 있게 한다. 얼굴의 크기, 영상의 명암, 얼굴의 위치에 무관하게 얼굴을 추출하기 위해서, 단계적인 크기를 가지는 탐색 윈도우를 이용하여 영상을 검색하고 영상 강화 기법을 적용한 후, 영상을 고유얼굴 공간으로 투영하고 복원하는 과정을 통해 얼굴을 추출한다. 얼굴 요소의 추출은 각 요소별 특성을 고려한 엣지 추출과 이진화에 따른 프로젝션 히스토그램 분석에 의하여 눈과 입의 경계영역을 추출한다. 얼굴 영상에 관련된 윤곽선 추출에 관한 기존의 연구에서 주로 기하학적인 모양을 갖는 눈과 입의 경우에는 주로 가변 템플릿(Deformable Template)방법을 사용하여 특징을 추출하고, 비교적 다양한 모양을 갖는 눈썹, 얼굴 윤곽선 추출에는 스네이크(Snakes: Active Contour Model)를 이용하는 연구들이 이루어지고 있는데, 본 논문에서는 이러한 기존의 연구와는 달리 스네이크를 이용하여 적절한 파라미터의 선택과 에너지함수를 정의하여 눈과 입의 윤곽선 추출을 실험하였다. 복잡한 배경하에서 얼굴 영역의 추출, 추출된 얼굴 영역에서 눈과 입의 영역 추출 및 윤곽선 추출이 비교적 좋은 결과를 보이고 있다.
컴퓨터 하드웨어 기술과 멀티미디어 기술의 발달로 멀티미디어 입출력 장치를 이용한 고급 인터메이스의 필요성이 대두되었다. 친근감 있는 사용자 인터페이스를 제공하기 위해 실감 있는 얼굴 애니메이션에 대한 요구가 증대되고 있다. 본 논문에서는 사람의 내적 상태를 잘 표현하는 얼굴의 표정을 3차원 모델을 이용하여 애니메이션을 수행한다. 애니메이션에 실재감을 더하기 위해 실제 얼굴 영상을 사용하여 3차원의 얼굴 모델을 변형하고, 여러 방향에서 얻은 얼굴 영상을 이용하여 텍스터 매핑을 한다. 변형된 3차원 모델을 이용하여 얼굴 표정을 애니메이션 하기 위해서 해부학에 기반한 Waters의 근육 모델을 수정하여 사용한다. 그리고, Ekman이 제안한 대표적인 6가지 표정들을 합성한다.