목적 : 인공지능의 기계학습 또는 심층학습을 이용한 연구가 다양한 분야에서 시도되고 있다. 본 연구는 공공 시력데이터를 자동화 수집하고, 수집한 데이터를 기계학습에 적용 및 예측하였다. 다양한 학습모델간 성능을 비교 함으로써, 시과학분야에서 적용 가능한 기계학습 최적화모델을 제시함에 있다.
방법 : 국민건강보험(NHISS) 및 통계포털(KOSIS)에 발표된 국민 시력분포 현황관련 자료를 특정 색인을 포함하 는 자료검색기법인 크롤링(crawling)을 사용하여 검색 및 수집을 자동화하였다. 2011년부터 2018년까지 보고된 모든 자료를 수집하였으며, 데이터 학습을 위해 Linear Regression, LASSO, Ridge, Elastic Net, Huber Regression, LASSO/LARS, Passive Aggressive Regressor 그리고 Pansacregressor 총 8개 모델을 사용하여 각각 데이터 학습 하였다.
결과 : 수집한 데이터를 기반으로 기계학습 모델을 통해 2018년을 예측하였다. 각 모델간 2018년도 실제-예측데 이터 차이를 MAE(Mean Absolute Error)와 RMSE(Root Mean Square Error) 점수로 각각 나타냈다. 학습모델 별 차이 중 MAE 평가결과 모델간 우/좌 Linear Regression(0.22/0.22), LASSO(0.83/0.81), RIDGE(0.31/0.31), Elastic Net(0.86/0.84), Huber Regression(0.14/0.07), LASSO/LARS(0.15/0.14), Passive Aggressive Regressor (0.29/0.18) 그리고 RANSA Regressor(0.22/0.22)를 보였다. RMSE에서 Linear Regression(0.40/0.40), LASSO (1.08/1.06), Ridge(0.54/0.54), Elastic Net(1.19/1.17), Huber Regression(0.20/0.20), LASSO/LARS(0.24/0.23), Passive Aggressive Regressor(0.21/0.58) 그리고 RANSA Regressor(0.40/0.40) 각각 나타냈다.
결론 : 본 연구는 자동화 자료검색 및 수집을 위한 크롤링 기법을 이용하여 데이터를 수집하였다. 이를 기반으 로 고전 선형모델을 기계학습에 적용할 수 있도록 하고, 데이터 학습을 위한 8개 학습모델들 간 성능을 비교하였다.