This study investigates using Conditional Tabular Generative Adversarial Networks (CT-GAN) to generate synthetic data for turnover prediction in large employment datasets. The effectiveness of CT-GAN is compared with Adaptive Synthetic Sampling (ADASYN), Synthetic Minority Over-sampling Technique (SMOTE), and Random Oversampling (ROS) using Logistic Regression (LR), Linear Discriminant Analysis (LDA), Random Forest (RF), and Extreme Learning Machines (ELM), evaluated with AUC and F1-scores. Results show that GAN-based techniques, especially CT-GAN, outperform traditional methods in addressing data imbalance, highlighting the need for advanced oversampling methods to improve classification accuracy in imbalanced datasets.
해양 환경에서 발생하는 화재는 일반적인 화재 상황에 비해 빠르게 화염이 전파되기 때문에 초기 발견과 대응이 매우 중 요하다. 최근의 화재 감지 시스템은 카메라 센서와 딥러닝 검출 모델을 활용하여 개발되고 있지만, 해양 환경에 특화된 딥러닝 모델 을 학습하기 위해 해양 환경에서 화재 데이터를 실제로 수집하는 것은 기술적, 경제적 측면에서 어려움이 존재한다. 본 논문에서는 이러한 문제를 해결하기 위해 언리얼 엔진 기반 가상 데이터 생성 도구를 활용하여 가상 환경에서 해양 환경을 구축하고 여러 상황 의 시나리오에서 데이터를 수집하여 해양 환경 화재 가상 데이터셋을 구축하였다. 가상 데이터셋으로 학습한 RT-DETR-L 모델은 실 제 해양 환경에서 발생한 화재 상황을 수집하여 제작한 테스트 데이터셋에서 mAP50:95 0.529를 달성하였다. 또한 가상 데이터로 학습 한 검출 모델은 일반적인 화재 상황이나 항만시설에서 연기만 발생하는 상황에서도 화재를 검출하는 것을 볼 수 있었다. 이를 통해 실제 데이터가 아닌 가상 데이터셋을 사용하여 데이터셋을 구축하여도 해양 환경 화재와 같은 특수한 상황에서의 검출 모델 성능 향 상에 도움을 줄 수 있다는 것을 확인하였다.
Abstract Handling imbalanced datasets in binary classification, especially in employment big data, is challenging. Traditional methods like oversampling and undersampling have limitations. This paper integrates TabNet and Generative Adversarial Networks (GANs) to address class imbalance. The generator creates synthetic samples for the minority class, and the discriminator, using TabNet, ensures authenticity. Evaluations on benchmark datasets show significant improvements in accuracy, precision, recall, and F1-score for the minority class, outperforming traditional methods. This integration offers a robust solution for imbalanced datasets in employment big data, leading to fairer and more effective predictive models.
A robot usually adopts ANN (artificial neural network)-based object detection and instance segmentation algorithms to recognize objects but creating datasets for these algorithms requires high labeling costs because the dataset should be manually labeled. In order to lower the labeling cost, a new scheme is proposed that can automatically generate a training images and label them for specific objects. This scheme uses an instance segmentation algorithm trained to give the masks of unknown objects, so that they can be obtained in a simple environment. The RGB images of objects can be obtained by using these masks, and it is necessary to label the classes of objects through a human supervision. After obtaining object images, they are synthesized with various background images to create new images. Labeling the synthesized images is performed automatically using the masks and previously input object classes. In addition, human intervention is further reduced by using the robot arm to collect object images. The experiments show that the performance of instance segmentation trained through the proposed method is equivalent to that of the real dataset and that the time required to generate the dataset can be significantly reduced.
최적의 선박 운항 항로를 찾기 위해서는 선박의 정확한 추진성능을 추정하는 것이 매우 중요하다. 본 논문은 선박 최적운항시스템 의 추진성능 데이터베이스를 생성하기 위한 전산프로그램의 개발에 대해 기술하고 있다. 실해역에서의 추진성능은 표류와 표면 거칠기 등 선 체 상태뿐 만 아니라 파랑과 바람 등 해상 상태의 영향을 받는다. 이 부가저항 추정 방법들은 ISO 15016:2002 표준의 실선 속력시운전 해석법 을 근간으로 하고 있으며, 추가로 바람과 선체 표면 거칠기에 대한 몇 가지 추정 방법이 보완되었다. 이 추정 방법들은 종합적인 전산프로그 램으로 만들어졌다. 그리고 향후 최적 운항경로 계산에 활용될 쇄빙연구선 아라온 호에 대해서 데이터베이스 계산이 수행되었다. 이 프로그램 은 모든 선박의 항로 최적화 계산에 유용하게 사용될 수 있을 것으로 판단된다.
본 논문에서는 증강 현실 환경에서 실시간 마커리스 트래킹을 수행하기 위한 특징 서술자 데이터베이스 생성 및 검색 방법을 제안한다. 먼저, 특징 서술자를 효율적으로 검색하기 위하여 특징 서술자의 형태를 기준으로 정수 부호화 하여 총 4 단계의 인덱스 데이터베이스를 구성한다. 특정 특징 서술자의 검색은 데이터베이스에서 각 단계별로 유사성 있는 후보 특징 서술자의 인덱스를 탐색하고 입력된 특징 서술자와 탐색된 모든 후보 특징 서술자들의 유클리드 거리 값 비교를 통해 이루어진다. 본 연구에서 제안한 검색방법은 형태를 기반으로 유사하지 않은 특징 서술자들을 검색 대상에서 제외하여 검색의 효율을 높였다. 제안된 방법은 기존 KD-Tree 방법에 비해서 특징 서술자당 약 16ms의 검색 속도 개선이 있었음을 확인할 수 있었다.