This study investigates using Conditional Tabular Generative Adversarial Networks (CT-GAN) to generate synthetic data for turnover prediction in large employment datasets. The effectiveness of CT-GAN is compared with Adaptive Synthetic Sampling (ADASYN), Synthetic Minority Over-sampling Technique (SMOTE), and Random Oversampling (ROS) using Logistic Regression (LR), Linear Discriminant Analysis (LDA), Random Forest (RF), and Extreme Learning Machines (ELM), evaluated with AUC and F1-scores. Results show that GAN-based techniques, especially CT-GAN, outperform traditional methods in addressing data imbalance, highlighting the need for advanced oversampling methods to improve classification accuracy in imbalanced datasets.
Abstract Handling imbalanced datasets in binary classification, especially in employment big data, is challenging. Traditional methods like oversampling and undersampling have limitations. This paper integrates TabNet and Generative Adversarial Networks (GANs) to address class imbalance. The generator creates synthetic samples for the minority class, and the discriminator, using TabNet, ensures authenticity. Evaluations on benchmark datasets show significant improvements in accuracy, precision, recall, and F1-score for the minority class, outperforming traditional methods. This integration offers a robust solution for imbalanced datasets in employment big data, leading to fairer and more effective predictive models.
A robot usually adopts ANN (artificial neural network)-based object detection and instance segmentation algorithms to recognize objects but creating datasets for these algorithms requires high labeling costs because the dataset should be manually labeled. In order to lower the labeling cost, a new scheme is proposed that can automatically generate a training images and label them for specific objects. This scheme uses an instance segmentation algorithm trained to give the masks of unknown objects, so that they can be obtained in a simple environment. The RGB images of objects can be obtained by using these masks, and it is necessary to label the classes of objects through a human supervision. After obtaining object images, they are synthesized with various background images to create new images. Labeling the synthesized images is performed automatically using the masks and previously input object classes. In addition, human intervention is further reduced by using the robot arm to collect object images. The experiments show that the performance of instance segmentation trained through the proposed method is equivalent to that of the real dataset and that the time required to generate the dataset can be significantly reduced.
최적의 선박 운항 항로를 찾기 위해서는 선박의 정확한 추진성능을 추정하는 것이 매우 중요하다. 본 논문은 선박 최적운항시스템 의 추진성능 데이터베이스를 생성하기 위한 전산프로그램의 개발에 대해 기술하고 있다. 실해역에서의 추진성능은 표류와 표면 거칠기 등 선 체 상태뿐 만 아니라 파랑과 바람 등 해상 상태의 영향을 받는다. 이 부가저항 추정 방법들은 ISO 15016:2002 표준의 실선 속력시운전 해석법 을 근간으로 하고 있으며, 추가로 바람과 선체 표면 거칠기에 대한 몇 가지 추정 방법이 보완되었다. 이 추정 방법들은 종합적인 전산프로그 램으로 만들어졌다. 그리고 향후 최적 운항경로 계산에 활용될 쇄빙연구선 아라온 호에 대해서 데이터베이스 계산이 수행되었다. 이 프로그램 은 모든 선박의 항로 최적화 계산에 유용하게 사용될 수 있을 것으로 판단된다.
본 논문에서는 증강 현실 환경에서 실시간 마커리스 트래킹을 수행하기 위한 특징 서술자 데이터베이스 생성 및 검색 방법을 제안한다. 먼저, 특징 서술자를 효율적으로 검색하기 위하여 특징 서술자의 형태를 기준으로 정수 부호화 하여 총 4 단계의 인덱스 데이터베이스를 구성한다. 특정 특징 서술자의 검색은 데이터베이스에서 각 단계별로 유사성 있는 후보 특징 서술자의 인덱스를 탐색하고 입력된 특징 서술자와 탐색된 모든 후보 특징 서술자들의 유클리드 거리 값 비교를 통해 이루어진다. 본 연구에서 제안한 검색방법은 형태를 기반으로 유사하지 않은 특징 서술자들을 검색 대상에서 제외하여 검색의 효율을 높였다. 제안된 방법은 기존 KD-Tree 방법에 비해서 특징 서술자당 약 16ms의 검색 속도 개선이 있었음을 확인할 수 있었다.