장대교량은 낮은 고유진동수와 감쇠비를 가지는 초유연구조물로 진동사용성 문제에 취약하다. 하지만 현재 국내 설계지침에서는 풍속이나 진폭에 대한 임계값을 기반으로 유해진동 발생 여부를 평가하고 있다. 본 연구에서는 장대교량에서 발생하는 유해진동을 보다 정교하게 식별하기 위하여 딥러닝 기반 신호분할 모델을 활용한 데이터 포인트 단위의 와류진동 식별 방법론을 제안한다. 특별 히 포락선을 가지는 사인파를 활용하여 와류진동에 해당하는 데이터를 합성함으로써 모델 구축에 필수적인 와류진동 데이터 획득 및 라벨링 과정을 대체하였다. 이후 푸리에 싱크로스퀴즈드 변환를 적용하여 시간-주파수 특징을 추출하여 신경망의 인풋 데이터로 사 용하였다. 합성데이터만을 이용하여 양방향 장단기 기억신경망(Bidirectional Long-Short-Term-Memory) 모델을 훈련하였고 이를 라 벨 정보를 포함한 실제 사장교의 계측데이터를 이용하여 학습한 모델과 비교하여 모델의 실시간 와류진동 식별 성능을 검증하였다.
증산은 적정 관수 관리에 중요한 역할을 하므로 수분 스트레스에 취약한 토마토와 같은 작물의 관개 수요에 대한 지식이 필요하다. 관수량을 결정하는 한 가지 방법은 증산량을 측정하는 것인데, 이는 환경이나 생육 수준의 영향을 받는다. 본 연구는 분단위 데이터를 통해 수학적 모델과 딥러닝 모델을 활용하여 토마토의 증발량을 추정하 고 적합한 모델을 찾는 것을 목표로 한다. 라이시미터 데이터는 1분 간격으로 배지무게 변화를 측정함으로써 증산 량을 직접 측정했다. 피어슨 상관관계는 관찰된 환경 변수가 작물 증산과 유의미한 상관관계가 있음을 보여주었다. 온실온도와 태양복사는 증산량과 양의 상관관계를 보인 반면, 상대습도는 음의 상관관계를 보였다. 다중 선형 회귀 (MLR), 다항 회귀 모델, 인공 신경망(ANN), Long short-term memory(LSTM), Gated Recurrent Unit(GRU) 모델을 구 축하고 정확도를 비교했다. 모든 모델은 테스트 데이터 세트에서 0.770-0.948 범위의 R2 값과 0.495mm/min- 1.038mm/min의 RMSE로 증산을 잠재적으로 추정하였다. 딥러닝 모델은 수학적 모델보다 성능이 뛰어났다. GRU 는 0.948의 R2 및 0.495mm/min의 RMSE로 테스트 데이터에서 최고의 성능을 보여주었다. LSTM과 ANN은 R2 값이 각각 0.946과 0.944, RMSE가 각각 0.504m/min과 0.511로 그 뒤를 이었다. GRU 모델은 단기 예측에서 우수한 성능 을 보였고 LSTM은 장기 예측에서 우수한 성능을 보였지만 대규모 데이터 셋을 사용한 추가 검증이 필요하다. FAO56 Penman-Monteith(PM) 방정식과 비교하여 PM은 MLR 및 다항식 모델 2차 및 3차보다 RMSE가 0.598mm/min으로 낮지만 분단위 증산의 변동성을 포착하는 데 있어 모든 모델 중에서 가장 성능이 낮다. 따라서 본 연구 결과는 온실 내 토마토 증산을 단기적으로 추정하기 위해 GRU 및 LSTM 모델을 권장한다.
Nowadays, artificial intelligence model approaches such as machine and deep learning have been widely used to predict variations of water quality in various freshwater bodies. In particular, many researchers have tried to predict the occurrence of cyanobacterial blooms in inland water, which pose a threat to human health and aquatic ecosystems. Therefore, the objective of this study were to: 1) review studies on the application of machine learning models for predicting the occurrence of cyanobacterial blooms and its metabolites and 2) prospect for future study on the prediction of cyanobacteria by machine learning models including deep learning. In this study, a systematic literature search and review were conducted using SCOPUS, which is Elsevier’s abstract and citation database. The key results showed that deep learning models were usually used to predict cyanobacterial cells, while machine learning models focused on predicting cyanobacterial metabolites such as concentrations of microcystin, geosmin, and 2-methylisoborneol (2-MIB) in reservoirs. There was a distinct difference in the use of input variables to predict cyanobacterial cells and metabolites. The application of deep learning models through the construction of big data may be encouraged to build accurate models to predict cyanobacterial metabolites.
Machine learning-based data analysis approaches have been employed to overcome the limitations in accurately analyzing data and to predict the results of the design of Nb-based superalloys. In this study, a database containing the composition of the alloying elements and their room-temperature tensile strengths was prepared based on a previous study. After computing the correlation between the tensile strength at room temperature and the composition, a material science analysis was conducted on the elements with high correlation coefficients. These alloying elements were found to have a significant effect on the variation in the tensile strength of Nb-based alloys at room temperature. Through this process, a model was derived to predict the properties using four machine learning algorithms. The Bayesian ridge regression algorithm proved to be the optimal model when Y, Sc, W, Cr, Mo, Sn, and Ti were used as input features. This study demonstrates the successful application of machine learning techniques to effectively analyze data and predict outcomes, thereby providing valuable insights into the design of Nb-based superalloys.
PURPOSES : In this study, model-agnostic methods are applied for interpreting machine learning models, such as the feature global effect, the importance of a feature, the joint effects of features, and explaining individual predictions.
METHODS : Model-agnostic global interpretation techniques, such as partial dependence plot (PDP), accumulated local effect (ALE), feature interaction (H-statistics), and permutation feature importance, were applied to describe the average behavior of a machine learning model. Moreover, local model-agnostic interpretation methods, individual conditional expectation curves (ICE), local surrogate models (LIME), and Shapley values were used to explain individual predictions.
RESULTS : As global interpretations, PDP and ALE-Plot demonstrated the relationship between a feature and the prediction of a machine learning model, where the feature interaction estimated whether one feature depended on the other feature, and the permutation feature importance measured the importance of a feature. For local interpretations, ICE exhibited how changing a feature changes the interested instance’s prediction, LIME explained the relationship between a feature and the instance’s prediction by replacing the machine model with a locally interpretable model, and Shapley values presented how to fairly contribute to the instance’s prediction among the features.
CONCLUSIONS : Model-agnostic methods contribute to understanding the general relationship between features and a prediction or debut a model from the global and/or local perspective, securing the reliability of the learning model.
As Deepfakes phenomenon is spreading worldwide mainly through videos in web platforms and it is urgent to address the issue on time. More recently, researchers have extensively discussed deepfake video datasets. However, it has been pointed out that the existing Deepfake datasets do not properly reflect the potential threat and realism due to various limitations. Although there is a need for research that establishes an agreed-upon concept for high-quality datasets or suggests evaluation criterion, there are still handful studies which examined it to-date. Therefore, this study focused on the development of the evaluation criterion for the Deepfake video dataset. In this study, the fitness of the Deepfake dataset was presented and evaluation criterions were derived through the review of previous studies. AHP structuralization and analysis were performed to advance the evaluation criterion. The results showed that Facial Expression, Validation, and Data Characteristics are important determinants of data quality. This is interpreted as a result that reflects the importance of minimizing defects and presenting results based on scientific methods when evaluating quality. This study has implications in that it suggests the fitness and evaluation criterion of the Deepfake dataset. Since the evaluation criterion presented in this study was derived based on the items considered in previous studies, it is thought that all evaluation criterions will be effective for quality improvement. It is also expected to be used as criteria for selecting an appropriate deefake dataset or as a reference for designing a Deepfake data benchmark. This study could not apply the presented evaluation criterion to existing Deepfake datasets. In future research, the proposed evaluation criterion will be applied to existing datasets to evaluate the strengths and weaknesses of each dataset, and to consider what implications there will be when used in Deepfake research.
목적 : 인공지능의 기계학습 또는 심층학습을 이용한 연구가 다양한 분야에서 시도되고 있다. 본 연구는 공공 시력데이터를 자동화 수집하고, 수집한 데이터를 기계학습에 적용 및 예측하였다. 다양한 학습모델간 성능을 비교 함으로써, 시과학분야에서 적용 가능한 기계학습 최적화모델을 제시함에 있다.
방법 : 국민건강보험(NHISS) 및 통계포털(KOSIS)에 발표된 국민 시력분포 현황관련 자료를 특정 색인을 포함하 는 자료검색기법인 크롤링(crawling)을 사용하여 검색 및 수집을 자동화하였다. 2011년부터 2018년까지 보고된 모든 자료를 수집하였으며, 데이터 학습을 위해 Linear Regression, LASSO, Ridge, Elastic Net, Huber Regression, LASSO/LARS, Passive Aggressive Regressor 그리고 Pansacregressor 총 8개 모델을 사용하여 각각 데이터 학습 하였다.
결과 : 수집한 데이터를 기반으로 기계학습 모델을 통해 2018년을 예측하였다. 각 모델간 2018년도 실제-예측데 이터 차이를 MAE(Mean Absolute Error)와 RMSE(Root Mean Square Error) 점수로 각각 나타냈다. 학습모델 별 차이 중 MAE 평가결과 모델간 우/좌 Linear Regression(0.22/0.22), LASSO(0.83/0.81), RIDGE(0.31/0.31), Elastic Net(0.86/0.84), Huber Regression(0.14/0.07), LASSO/LARS(0.15/0.14), Passive Aggressive Regressor (0.29/0.18) 그리고 RANSA Regressor(0.22/0.22)를 보였다. RMSE에서 Linear Regression(0.40/0.40), LASSO (1.08/1.06), Ridge(0.54/0.54), Elastic Net(1.19/1.17), Huber Regression(0.20/0.20), LASSO/LARS(0.24/0.23), Passive Aggressive Regressor(0.21/0.58) 그리고 RANSA Regressor(0.40/0.40) 각각 나타냈다.
결론 : 본 연구는 자동화 자료검색 및 수집을 위한 크롤링 기법을 이용하여 데이터를 수집하였다. 이를 기반으 로 고전 선형모델을 기계학습에 적용할 수 있도록 하고, 데이터 학습을 위한 8개 학습모델들 간 성능을 비교하였다.
개(Canis lupus familiaris)는 인간의 소외 현상을 개선하고, 공동체 생활 의식 향상에 기여하는 반려동물이다. 반려견 품종을 명확히 관리하는 것은 유전병을 감소시키거나, 형질 개량, 종 다양성 유지 등을 위해 중요하다. 본 연구에서는 고밀도 SNP 칩 유전자형 데이터와 기계학습 기술을 이용하여, 유전자형 데이터에 기반한 품종 식별이 가능한지, 가능하다면 최소 몇 개의 유전마커로 품종 식별을 유의하게 수행할 수 있는지 확인하기 위하여, 반려견 11 품종 226두의 23K SNP 칩 데이터를 분석하였다. 9종의 기계학습 다중범주 분류 알고리즘과 2종의 특징 선택 방법의 성능을 비교하여, 선형 서포트 벡터 머신 분류기와 주성분 분석 특징 기여도를 이용한 특징 선택 방법을 이용했을 때, 11종의 반려견 품종을 90% 이상 정확도로 식별하였으며, 이 때 40개의 유전마커가 필요함을 확인하였다. 최종 선발 된 40개의 반려견 품종 식별 유전마커는 타 질병 예측 마커와 결합하여 유전자 검사 키트로 제작될 수 있으며, 반려견 품종 관리 및 질병 관리 기술로 유용하게 활용될 수 있을 것이다.
본 연구에서는 중학교 및 고등학교의 지구과학 내용에 대한 멀티미디어 학습 프로그램을 개발하였다. 개발된 학습프로그램은 HTML 형식이며 텍스트, 사진, 그림, 동영상 등 다양한 내용물들로 구성되어 있다. 그리고 크게 학습 내용, 용어사전, 생활 과학, 탐구 활동, 영상 자료, 형성 평가 등 6가지 데이터베이스 요소들로 구성되어 있다. 본 연구에서 개발된 멀티미디어 학습 프로그램을 교사와 학생들에게 적용해본 결과 긍정적인 반응을 보였다. 이 프로그램은 현재 공주대학교 과학교육연구소 인터넷 흠페이지에서 무료로 제공하고 있다.