GAN 기반의 각도 불변의 게임 캐릭터 얼굴 표정 재연
최근 GAN(Generative Adversarial Network) 등장 이후 얼굴 표정 재연(face reenactment)의 연구가 활발해지고 있다. 얼굴 표정 재연은 입력으로 주어진 얼굴 이미지를 원하는 표정의 이미지 혹은 표정 정보를 갖는 벡터(vector)을 입력으로 주어 원하는 표정으로 합성하는 기술이다. 본 논문은 GAN 아키텍쳐(architecture)를 기반으로 회전 모듈 (rotate module)과 다양한 각도의 게임 캐릭터 표정을 표정 정보를 갖는 AUs(Action Units) vector를 통해 재연시키 는 방법을 제안한다. 입력으로 다양한 각도의 게임 캐릭터 얼굴이 주어지면 회전 모듈을 통해 정면화(frontalization) 시킨 이미지를 합성한다. 이를 통해, 다양한 각도의 게임 캐릭터들은 각도의 영향에서 벗어날 수 있다. 정면화 이미지는 원하는 표정으로 합성하기 위해 표정 정보를 갖는 AU벡터와 함께 생성자(generator)에 입력으로 주어진다. 이 때, 표정 정보를 갖고 있는 벡터는 AUs를 사용함으로써 다양한 표정과 세기(intensity)를 표현할 수 있다. 생성자는 표정 정보에 대한 관심 지역을 의미하는 관심 마스크(attention mask)를 생성하고 색상 정보를 의미하는 색상 마스크(color mask)를 생성한다. 이를 통해, 게임 캐릭터의 특징과 기타 부착물을 보존하며 표정을 재연한 이미지를 합 성할 수 있다. 관심 마스크와 색상 마스크를 이용하여 원하는 표정으로 재연한 재연 이미지를 합성하고 다시 회전 모듈을 통해 기존의 입력 이미지의 각도로 재회전하여 원하는 결과 이미지를 얻을 수 있다.
The recent emergence of generative adversarial networks (GANs) accelerate the research on face reenactment. Face reenactment is a technique for synthesizing a face image of desired expressions from a source face using a target image of desired expressions or a vector with facial expression information. In this paper, we propose a GAN architecture-based method for reenacting the expressions of game characters with various angles through a rotation module and action unit (AU) vectors. In the first step, we devise a rotate module that synthesizes the frontalized face images from the face of a game character with arbitrary poses. This prevents the side effects of the face poses in reenacting the facial expressions. We feed the frontalized image as well as a vector with facial expression information to the generator in order to synthesize a face with the desired expression. The generator generates an attention mask indicating a region of interest of facial expression and a color mask indicating color information for the expression. This allows us to synthesize a reenacted image that generates facial expressions while preserving the identity and other attachments of a game character. The attention mask and color mask incorporate to synthesize a reenacted image with target expression. Finally, we recover the original pose of a character from the frontalized reenacted image.