인공지능을 적용한 시력데이터 분석 기계학습 모델간 비교 및 최적모델제시
목적 : 인공지능의 기계학습 또는 심층학습을 이용한 연구가 다양한 분야에서 시도되고 있다. 본 연구는 공공 시력데이터를 자동화 수집하고, 수집한 데이터를 기계학습에 적용 및 예측하였다. 다양한 학습모델간 성능을 비교 함으로써, 시과학분야에서 적용 가능한 기계학습 최적화모델을 제시함에 있다.
방법 : 국민건강보험(NHISS) 및 통계포털(KOSIS)에 발표된 국민 시력분포 현황관련 자료를 특정 색인을 포함하 는 자료검색기법인 크롤링(crawling)을 사용하여 검색 및 수집을 자동화하였다. 2011년부터 2018년까지 보고된 모든 자료를 수집하였으며, 데이터 학습을 위해 Linear Regression, LASSO, Ridge, Elastic Net, Huber Regression, LASSO/LARS, Passive Aggressive Regressor 그리고 Pansacregressor 총 8개 모델을 사용하여 각각 데이터 학습 하였다.
결과 : 수집한 데이터를 기반으로 기계학습 모델을 통해 2018년을 예측하였다. 각 모델간 2018년도 실제-예측데 이터 차이를 MAE(Mean Absolute Error)와 RMSE(Root Mean Square Error) 점수로 각각 나타냈다. 학습모델 별 차이 중 MAE 평가결과 모델간 우/좌 Linear Regression(0.22/0.22), LASSO(0.83/0.81), RIDGE(0.31/0.31), Elastic Net(0.86/0.84), Huber Regression(0.14/0.07), LASSO/LARS(0.15/0.14), Passive Aggressive Regressor (0.29/0.18) 그리고 RANSA Regressor(0.22/0.22)를 보였다. RMSE에서 Linear Regression(0.40/0.40), LASSO (1.08/1.06), Ridge(0.54/0.54), Elastic Net(1.19/1.17), Huber Regression(0.20/0.20), LASSO/LARS(0.24/0.23), Passive Aggressive Regressor(0.21/0.58) 그리고 RANSA Regressor(0.40/0.40) 각각 나타냈다.
결론 : 본 연구는 자동화 자료검색 및 수집을 위한 크롤링 기법을 이용하여 데이터를 수집하였다. 이를 기반으 로 고전 선형모델을 기계학습에 적용할 수 있도록 하고, 데이터 학습을 위한 8개 학습모델들 간 성능을 비교하였다.
Purpose : Recently, the use of AI in research has shown widespread investigation in various fields. In this study, we performed an automated collection of vision acuity (V.A.) data, and trained mechanical learning models for prediction. By comparing performance between eight different learning models, we present a machine learning optimization model applicable in the field of vision science.
Methods : Automated search and collection of data related to the national vision distribution status published in the National Health Insurance Sharing Service (NHISS) and the Korean Statistical Information Service (KOSIS) were performed through crawling, a data retrieval technique that includes specific indexes. Reported data from 2011 to 2018 were collected, and were studied using all of eight different models for data analysis such as Linear Region, LASSO, Ridge, Elastic Net, Huber Region, LASSO Lars, Passive Aggregation and Pansacrerestor.
Results : V.A. of the 2018 portion of the dataset was predicted in the test session. The difference between ground truth and prediction from each model was expressed as MAE (Mean Absolute Error) and RMSE (Root Mean Square Error) scores, respectively. MAE evaluation results for model difference in Right/Left were as the following: Linear Region(0.22/0.22), LASSO(0.83/0.81), Ridge(0.31/0.31), Elastic Net(0.86/0.84), HUBER Region(0.14/0.07), LASSO/LARS(0.15/0.14), Passive Aggressive Regressior(0.29/0.18), and RANSA Regressor(0.22/0.22). In RMSE, it also shows Linear Region(0.40/0.40), LASSO(1.08/1.06), Ridge(0.54/0.54), Elastic Net(1.19/1.17), Huber Region(0.20/0.20), LASSO/LARS(0.24/0.23), Passive Aggregation Regressor(0.21/0.58), and RANSA Regressor (0.40/0.40).
Conclusion : In this study, we collected data using crawling techniques for automatic data retrieval and collection. Based on the data, classical linear machine learning models were applied for prediction, and performance of the eight machine learning models was compared for performance.