The bandgap characteristics of semiconductor materials are an important factor when utilizing semiconductor materials for various applications. In this study, based on data provided by AFLOW (Automatic-FLOW for Materials Discovery), the bandgap of a semiconductor material was predicted using only the material’s compositional features. The compositional features were generated using the python module of ‘Pymatgen’ and ‘Matminer’. Pearson’s correlation coefficients (PCC) between the compositional features were calculated and those with a correlation coefficient value larger than 0.95 were removed in order to avoid overfitting. The bandgap prediction performance was compared using the metrics of R2 score and root-mean-squared error. By predicting the bandgap with randomforest and xgboost as representatives of the ensemble algorithm, it was found that xgboost gave better results after cross-validation and hyper-parameter tuning. To investigate the effect of compositional feature selection on the bandgap prediction of the machine learning model, the prediction performance was studied according to the number of features based on feature importance methods. It was found that there were no significant changes in prediction performance beyond the appropriate feature. Furthermore, artificial neural networks were employed to compare the prediction performance by adjusting the number of features guided by the PCC values, resulting in the best R2 score of 0.811. By comparing and analyzing the bandgap distribution and prediction performance according to the material group containing specific elements (F, N, Yb, Eu, Zn, B, Si, Ge, Fe Al), various information for material design was obtained.
데이터마이닝의 사전 단계에서 데이터의 차원(Dimensionality)을 줄이기 위한 단계로서 많은 요소선택(Feature Selection)방법들이 개발되었다. 이 방법은 결과를 예측하거나 데이터를 설명하고자 할 때 어떤 요소들이 관련이 있는지를 결정하는 과정을 포함한다. 또한 이 방법은 데이터의 크기에 대한 확장성(Scalability)를 향상시키며 학습 모델을 더욱 이해하기 쉽도록 줄 수 있다. 이 논문에서는 NP(Nested Partition)
본 연구에서 조합 최적화(Combinatorial Optimization) 이론에 바탕을 두고 있는 네스티드 분할(Nested Partition, 이하 NP) 방법을 이용한 최적화 기반 요소선택 방법(Feature Selection)을 제안한다. 이 새로운 방법은 좋은 요소 부분집합을 찾는 휴리스틱 탐색 절차를 채용하고 있으며 데이터의 인스턴스(Instances 또는 Records)의 무작위 추출(Random Sampling)을 이용하여 이 요소선택
다양한 데이터 마이닝 기법들의 발전과 더불어, 속성 (Feature 또는 Attribute) 의 범위 (Dimension) 를 줄이기 위해 많은 요소 선택 방법이 개발되었다. 이는 확장성 (Scalability) 을 향상시킬 수 있고 학습 모델 (Learning Model)을 더욱 쉽게 해석할 수 있도록 한다. 이 논문에서는 네스티드 분할 (Nested Partition, 이하 NP) 을 이용한 새로운 최적화 기반 속성 선택 방법을 NP 기본 구조와 다양한 실험 문제의 수치적 결과들과 함께 제시하여 어떻게 NP의 최적화 구조가 속성 선택 과정에 기여를 하고 있는지 보여준다. 그리고 이 새로운 지능적인 분할 방법이 어떻게 매우 효율적인 분할을 수행하는지를 제시한다. 이 새로운 속성 선택 방법은 필터 (Filter) 방법과 래퍼 (Wrapper) 방법 두 가지로 구현될 수 있다. 사례 연구로서, B2B e-비즈니스 시스템에서 효과적으로 사용될 수 있는 추천 시스템(Recommender System) 을 제안하였다. 이 추천 시스템은 분류 기법 (Classification Rule) 과 제시된 NP 기반 요소 선택 방법을 사용하고 있다. 이 추천 시스템은 사용자의 인터넷 경매 참여를 추천하는데 사용되며, 이 때 제안된 요소 선택 앨고리듬은 추천 규칙들이 쉽게 이해될 수 있도록 모델을 간략화 하는데 사용된다.
다양한 데이터 마이닝 기법들의 발전과 더불어, 속성 (Feature 또는 Attribute)의 범위 (Dimension)를 줄이기 위해 많은 요소 선택 방법이 개발되었다. 이는 확장성 (Scalability)을 향상시킬 수 있고 학습 모델 (Learning Model)을 더욱 쉽게 해석할 수 있도록 한다. 이 논문에서는 네스티드 분할 (Nested Partition, 이하 NP)을 이용한 새로운 최적화 기반 속성 선택 방법을 NP 기본 구조와 다양한
The consequences of rapid industrial advancement, diversified types of business and unexpected industrial accidents have caused a lot of damage to many unspecified persons both in a human way and a material way Although various previous studies have been analyzed to prevent industrial accidents, these studies only provide managerial and educational policies using frequency analysis and comparative analysis based on data from past industrial accidents. The main objective of this study is to find an optimal algorithm for data analysis of industrial accidents and this paper provides a comparative analysis of 4 kinds of algorithms including CHAID, CART, C4.5, and QUEST. Decision tree algorithm is utilized to predict results using objective and quantified data as a typical technique of data mining. Enterprise Miner of SAS and AnswerTree of SPSS will be used to evaluate the validity of the results of the four algorithms. The sample for this work chosen from 19,574 data related to construction industries during three years (2002~2004) in Korea.
정보 검색 분야의 문서 분류에 기계 학습 기법을 적용할 때 발생하는 가장 큰 문제는 문서를 패턴으로 표현할 때, 하나의 패턴이 가지는 특징의 수가 기계 학습 기법에서 처리할 수 있는 범위를 넘어서는 것이다. 이러한 문제를 해결하기 위하여 특징 선택 기법은 패턴을 구성하고 있는 특징 중에서 실제 문서 분류에 많은 영향을 주는 특징만을 선택하여, 기계 학습 기법에서 쉽게 처리할 수 있을 정도의 패턴을 구성하게 한다. 본 논문에서는 이러한 특징 선택 기법 중에서 IG(Information Gain), Gini index, Relief-F, DF(Document Frequency)를 비교하였다. 실험 결과 문서들에 포함된 모든 고유 단어를 특징의 길이로 하여 패턴을 구성했을 때보다 특징 선택 기법을 적용하여 고유 단어 중 일부를 특징으로 패턴을 구성할 때 기계학습에서 더 향상된 분류 성능을 보였다