본 논문에서는 대규모 실시간 매칭의 생존 게임에서 플레이를 위한 유저들의 소셜 관계에 대해 연구한다. 특 히 “사전 팀 구성”을 통한 자의적인 팀 구성이 어떤 방식으로 유저들을 연결하는 지 연구하고자 한다. 다수 의 사람 간 집단 역학에서 나타나는 특성이나 패턴에 대한 조사를 중심으로 하였으며, 개인의 특성은 보조적 인 수단으로만 사용된다. 이번 연구에서는 게임을 플레이하는 유저들의 익명화 된 대규모 데이터를 활용하며 이에 대한 간소화된 집계 방법을 제안한다. 데이터 세트에는 사전 팀 구성에 관한 11,259만 줄의 속성이 포 함되어 있으며, 데이터에서 우리는 250만개의 노드와 1,182만개의 무방향 에지가 있는 협업 네트워크를 구성 하여 대규모 게임 내 협동 네트워크를 만듭니다. 연결 정도, 경로 길이, 클러스터링 및 소속 하위 컴포넌트의 크기 등 네트워크에 관한 수치를 통해 게임내 소셜 활동에 대한 이해를 높이고자 한다. 본 논문에서는 다음 의 두가지 특성을 중심으로 결론을 제시한다. 첫째, 네트워크 내에는 대규모로 연결된 2개(전체의 44% 및 2%)와 나머지의 파편화된 하위 컴포넌트로 구성 되어있다. 이 대규모 컴포넌트 중 작은 쪽은 한국 유저로만 구성되어 있다. 둘째, 컴포넌트 크기 별 평균 연결 거리와 군집화 계수, k-core를 확인함으로써 기타 다른 네 트워크 대비 이웃 간 연결이 강하면서 전체적으로는 비교적 멀리 떨어져 있음을 확인한다.
As Deepfakes phenomenon is spreading worldwide mainly through videos in web platforms and it is urgent to address the issue on time. More recently, researchers have extensively discussed deepfake video datasets. However, it has been pointed out that the existing Deepfake datasets do not properly reflect the potential threat and realism due to various limitations. Although there is a need for research that establishes an agreed-upon concept for high-quality datasets or suggests evaluation criterion, there are still handful studies which examined it to-date. Therefore, this study focused on the development of the evaluation criterion for the Deepfake video dataset. In this study, the fitness of the Deepfake dataset was presented and evaluation criterions were derived through the review of previous studies. AHP structuralization and analysis were performed to advance the evaluation criterion. The results showed that Facial Expression, Validation, and Data Characteristics are important determinants of data quality. This is interpreted as a result that reflects the importance of minimizing defects and presenting results based on scientific methods when evaluating quality. This study has implications in that it suggests the fitness and evaluation criterion of the Deepfake dataset. Since the evaluation criterion presented in this study was derived based on the items considered in previous studies, it is thought that all evaluation criterions will be effective for quality improvement. It is also expected to be used as criteria for selecting an appropriate deefake dataset or as a reference for designing a Deepfake data benchmark. This study could not apply the presented evaluation criterion to existing Deepfake datasets. In future research, the proposed evaluation criterion will be applied to existing datasets to evaluate the strengths and weaknesses of each dataset, and to consider what implications there will be when used in Deepfake research.
본고는 한국의 한자 데이터셋 구축 현황과 문제점을 점검하고 그 개선방향을 제안한 것이다. 한자 데이터셋은 한자학과 한문학 등 동아시아 인문고전학 연구 및 활용의 기초정보로 매우 중요하다. 하지만 데이터셋 구축방법의 통일성과 관리체계의 부실로 인한 문제점이 다수 발견되고 있으며, 데이터셋 간의 연계 및 호환도 잘 이루어지지 않아 활용가치가 크게 떨어짐을 확인하였다. 이를 해결하기 위한 방안으로 한자 속성정보 규정을 위한 전문위원회와 종합관리시스템을 구축하는 한편, 데이터셋 표준화 및 품질 제고를 위한 노력을 지속적으로 해야 할 것을 제안하였다.
A robot usually adopts ANN (artificial neural network)-based object detection and instance segmentation algorithms to recognize objects but creating datasets for these algorithms requires high labeling costs because the dataset should be manually labeled. In order to lower the labeling cost, a new scheme is proposed that can automatically generate a training images and label them for specific objects. This scheme uses an instance segmentation algorithm trained to give the masks of unknown objects, so that they can be obtained in a simple environment. The RGB images of objects can be obtained by using these masks, and it is necessary to label the classes of objects through a human supervision. After obtaining object images, they are synthesized with various background images to create new images. Labeling the synthesized images is performed automatically using the masks and previously input object classes. In addition, human intervention is further reduced by using the robot arm to collect object images. The experiments show that the performance of instance segmentation trained through the proposed method is equivalent to that of the real dataset and that the time required to generate the dataset can be significantly reduced.