The prediction of algal bloom is an important field of study in algal bloom management, and chlorophyll-a concentration(Chl-a) is commonly used to represent the status of algal bloom. In, recent years advanced machine learning algorithms are increasingly used for the prediction of algal bloom. In this study, XGBoost(XGB), an ensemble machine learning algorithm, was used to develop a model to predict Chl-a in a reservoir. The daily observation of water quality data and climate data was used for the training and testing of the model. In the first step of the study, the input variables were clustered into two groups(low and high value groups) based on the observed value of water temperature(TEMP), total organic carbon concentration(TOC), total nitrogen concentration(TN) and total phosphorus concentration(TP). For each of the four water quality items, two XGB models were developed using only the data in each clustered group(Model 1). The results were compared to the prediction of an XGB model developed by using the entire data before clustering(Model 2). The model performance was evaluated using three indices including root mean squared error-observation standard deviation ratio(RSR). The model performance was improved using Model 1 for TEMP, TN, TP as the RSR of each model was 0.503, 0.477 and 0.493, respectively, while the RSR of Model 2 was 0.521. On the other hand, Model 2 shows better performance than Model 1 for TOC, where the RSR was 0.532. Explainable artificial intelligence(XAI) is an ongoing field of research in machine learning study. Shapley value analysis, a novel XAI algorithm, was also used for the quantitative interpretation of the XGB model performance developed in this study.
PURPOSES : This study was conducted to develop a traffic accident prediction model using traffic accident data and management and service evaluation data on bus companies in Busan, and to determine the possibility of establishing customized traffic accident prevention measures for each company.
METHODS: First, we collected basic data on the characteristics of urban bus traffic accidents and conducted basic statistical analysis. Then, we developed traffic accident prediction models using Poisson regression and negative binomial regression to examine the characteristics of major items of management and service evaluation affecting traffic accidents.
RESULTS : The Poisson regression model showed overdispersion; hence, the negative binomial regression model was selected. The results of the traffic accident prediction model developed using negative binomial regression are acceptable at 95% confidence level (a = 0.05).
CONCLUSIONS : The traffic accident prediction model indicates that the management of the traffic record system and internal and external management items in service evaluation have a significant effect on the reduction of traffic accidents. In particular, because human factors are the main cause of traffic accidents, bus traffic accidents are expected to greatly decrease if drivers' dangerous driving behaviors are effectively controlled by bus companies.
Conventional data envelopment analysis (DEA) models require that inputs and outputs are given as crisp values. Very often, however, some of inputs and outputs are given as imprecise data where they are only known to lie within bounded intervals. While a typical approach to addressing this situation for optimization models such as DEA is to conduct sensitivity analysis, it provides only a limited ex-post measure against the data imprecision. Robust optimization provides a more effective ex-ante measure where the data imprecision is directly incorporated into the model. This study aims to apply robust optimization approach to DEA models with imprecise data. Based upon a recently developed robust optimization framework which allows a flexible adjustment of the level of conservatism, we propose two robust optimization DEA model formulations with imprecise data; multiplier and envelopment models. We demonstrate that the two models consider different risks regarding imprecise efficiency scores, and that the existing DEA models with imprecise data are special cases of the proposed models. We show that the robust optimization for the multiplier DEA model considers the risk that estimated efficiency scores exceed true values, while the one for the envelopment DEA model deals with the risk that estimated efficiency scores fall short of true values. We also show that efficiency scores stratified in terms of probabilistic bounds of constraint violations can be obtained from the proposed models. We finally illustrate the proposed approach using a sample data set and show how the results can be used for ranking DMUs.
일반국도의 연장 및 공용기간의 증가로 포장상태가 불량한 구간이 증가하고 이로 인한 유지보수비용이 증가하고 있다. 제한된 예산으로 일반국도를 효율적으로 관리·감독하기 위하여 포장관리시스템(PMS, Pavement Management System)이 1980년대 말 도입된 이후 현재 한국건설기술연구원에서 국토교통부 로부터 위탁을 받아 운영 중이다. 일반국도 포장관리시스템에는 다양한 종류의 유지보수 공법이 적용되고 있다. 특히, 아스팔트 포장의 소성변형이 급격히 증가하여 2000년대 초반 개질아스팔트 포장(PMA, Polymer Modified Asphalt), SMA(Stone Mastic Asphalt)와 같은 장수명 포장이 도입되기 시작하였다. 하지만 이러한 장수명 포장은 일반 아스팔트 포장과 달리 보수구간 및 공용기간이 적어 공용수명 예측모 형 개발에 필요한 충분한 데이터를 확보하기 어려운 실정이다. 따라서 본 연구에서는 공용수명 자료의 특 성을 고려하여 일반국도 아스팔트 포장의 공용수명예측모형을 개발하였다. 분석대상구간은 일반국도에서 연장이 긴 남북방향 노선 5개(1, 3, 5, 7, 31호선)와 동서방향 5개 노선 (2, 4, 6, 24, 34호선)에 대한 일반국도 모니터링 구간을 교통량과 환산교통량을 기준으로 각 2그룹으로 구분하여 사용하였다. 일반국도 포장관리시스템은 포장상태를 균열률과 소성변형, 종단평탄성을 적용하 고 있으나 본 연구에서는 공용수명을 결정하는 포장상태지표로 균열률을 적용하였다. 그림 1은 일반포장 과 장수명포장이 적용된 구간에서 나타나는 공용수명에 따른 균열률의 변화를 나타낸다. 공용수명 예측모 형은 일반포장과 장수명 포장으로 구분하여 결정론적 방법론인 일반 회귀모형방법론(직선,곡선)과 확률론 적 방법론인 마르코프, 생존확률 방법론을 적용하였다. 또한, 현재의 공용수명 자료 특성이 고려된 다양 한 공용수명예측모형의 검증과 활용방안을 제시하는 것을 목적으로 한다.
본 연구에서는 대관령 지역에서의 광학우적계(PARSIVEL disdrometer) 강수관측으로부터 산출된 강수율에 따른 강수입자분포 자료를 바탕으로 기존의 강수입자분포 모형을 개선하였다. 선행 연구에서 제안한 다양한 강수입자분포 모형과 측정 자료와의 상관성을 분석한 결과, 대관령 지역에 적용 가능한 원형 모형은 개선된 γ 분포 모형임을 확인하였다. 원형 모형을 대관령 지역에 적용할 수 있도록, 민감도 실험을 통해 최적의 매개변수들(α, A, B)을 산정하였으며, 다섯 가지 강수율에 대한 강수입자분포 모형을 제안하였다. 강수율에 따른 강수입자분포 모형의 결과는 관측에서 측정된 값과 높은 상관성(R2=0.975)을 보였다. 강수율에 따라 표현되는 강수입자분포 모형을 일반화 형태로 개선하기 위해 강수율과 매개변수의 상관성을 도출하여 일반식을 결정하였다. 일반화된 강수입자분포 모형은 대관령 지역의 강수입자분포 측정 자료와 높은 상관성(R2=0.953)을 보였으며, 이는 본 연구에서 제안한 모형이 대관령 지역의 강수입자분포를 모의하는데 효과적임을 의미한다. 그러나 본 연구에서 제안된 강수입자분포 모형은 대관령 지역의 강수입자분포에만 최적화 되었다는 한계성이 있어, 따라서 한반도를 대표하는 모형을 개발하기 위해서는 다른 지역에 대한 광범위한 측정이 필요하다.
In this paper, we have considered the modeling and analyses of categorical data. We modeled binary data with categorical predictors, using logistic regression to develop a statistical method. We found that ANOVA-type analyses often performed unsatisfactory, even when using arcsine-square-root transformations. We concluded that such methods are not appropriate, especially in cases where the fractions were close to 0 or 1. The logistic transformation of fraction data could be a promising alternative, but it is not desirable in the statistical sense. The major purpose of this paper is to demonstrate that logistic regression with an ANOVA-model like parameterization aids our understanding and provides a somewhat different, but sound, statistical background. We examined a simple real-world example to show that we can efficiently test the significance of regression parameters, look for interactions, estimate confidence intervals, and calculate the difference between the mean values of the referent and experimental subgroups. This paper demonstrates that precise confidence interval estimates can be obtained using the proposed ANOVA-model like approach. The method discussed here can be extended to any type of fraction data analysis, particularly for experimental design.
최근 들어 널리 확대되는 ITS시설과 장비의 효율적인 활용을 위해서는 실시간 통행시간예측과 같은 핵심기술의 개발이 매우 중요하다. 실시간 통행시간 예측기술을 통해 도로 이용자에게 통행시간 정보를 제공해줌으로써 운전자가 정보에 기반을 둔 선택을 할 수 있게 되며, 이에 따라 도로이용자의 통행 효용 및 도로시설 이용효율을 극대화할 수 있다. 본 연구에서는 자료 성질이 다른 VDS정보와 AVI정보를 하나의 틀 안에서 융합하는 모형을 제시하였으며, 이를 통해 VDS정보의 실시간성과 AVI 정보의 현실반영 특성을 반영한 통행시간추정이 가능하게 되었다. 또한 실시간 교통정보 제공을 위해 알고리즘의 수치연산 처리량이 실시간 현장 적용이 가능한 수준이 되도록 모형을 개발하였다. 본 연구에서 제시된 통행시간 추정 모형의 적용가능성과 신뢰성은 실제 국도 교통량자료를 이용하여 검증하였다. 실험결과에 따르면 본 모형은 연산처리 효율성이 매우 우수하여 실시간 운영 이 가능할 뿐만 아니라 실시간으로 수집되는 검지정 보를 사용함으로써 예측의 정확도를 향상시켰다. 특히 본 연구에서 제시한 이질적 자료의 융합방법은 향후 새로운 형태의 검지자료를 활용하는데 있어서 매우 유용하게 사용될 수 있을 것으로 기대된다.
The computation of the undulation of the Moho discontinuity from gravity data has frequently been carried out by the application of the Fourier series and the Sinc function (sin x/x), However, no serious effort has been attempted to examine the suitability of data and the adaptability of implicit assumptions required in such methods. This paper deals with model studies for comparison of the Fourier series and Sinc function methods, and examinations of several criteria for obtaining meaningful results. Also, an inversion method based on mass plane concept has been devised to complement the weakness of the above two methods. This method has been appeared as an effective scheme for increasing depth computation points so that a more detailed undulation is obtained.
Quantitative habitat model is established with species occurrence and spatial abundance data, which were usually acquired by professional field ecologists and citizen scientists. The importance of citizen science data is increasing, but the quality of these data needs to be evaluated. This study aims to identify and compare both expert-based data and citizen science data based on the performance power of quantitative models derived from both data sets. A Maximum Entropy (MaxENT) model was developed using eight environmental variables, including climate, topography, landcover and distance to forest edge. The AUC values derived from the MaxENT model were 0.842 and 0.809, respectively, indicating a high level of explanatory power. All environmental variables has similar values for both data sets, except for the distance to forest edge and rice paddy, which was relatively higher for expert-based survey data than that of the citizen science data as the distances increased. This result suggests that habitat model derived from expert-based survey data shows more ecological niche including wider ranges from forest edges and isolated habitat patches of rice paddy. This is presumably because citizen scientists focuses on direct observation methods, whereas professional field surveys investigate a wider variety of methods.
가뭄재해는 다른 재해와 다르게 광범위한 공간에 걸쳐서 충분한 강우가 발생하기 전까지 오랜 기간 동안 발생되는 특성이 있다. 위성 영상은 시공간적으로 지속적인 강수량 관측을 제공할 수 있다. 본 연구는 위성 영상 기반의 강수자료를 활용하여 기상학적 가뭄 전망 모형을 개발하였다. PERSIANN_CDR, TRMM 3B42와 GPM IMERG 영상을 활용하여 강수 자료를 구축한 뒤, 표준강수지수(SPI)를 기반으로 기상학적 가뭄을 정의 하였다. 과거의 가뭄 정보와 물리적 예측 모형 기반의 가뭄 예측 결과를 결합할 수 있는 베이지안 네트워크 기반 가뭄 예측 기법을 이용하여 확률론적 가뭄 예측 결과를 생산하였으며, 가뭄 예측결과를 가뭄 전망 의사결정 모형에 적용하여 가뭄 전망 결과를 도출하였다. 가뭄 전망 정보는 가뭄 발생, 지속, 종결, 가뭄 없음의 4단계로 구분하였다. 본 연구의 가뭄 전망 결과는 ROC 분석을 통하여 물리적 예측 모형인 다중모형 앙상블(MME)을 활용한 가뭄 전망 결과와 전망 성능을 비교하였다. 그 결과, 2∼3개월 가뭄 전망에 대한 가뭄 발생 및 지속의 단계에서는 MME 모형보다 높은 전망 성능을 보여주었다.
본 연구에서는 비슬산 이중편파 Radar 자료와, GPM 위성자료 및 21개 (Korea Meteorological Administration, KMA) 지상강우자료를 활용하여 분포형 강우-유출 모형(KIneMatic wave STOrm Runoff Model2, KIMSTORM2)을 이용해 남강댐 유역(2,293 km2)을 대상으로 유출해석을 수행 하였다. 모형의 유출 해석은 2016년 10월 5일 02:00∼09:00 총 8시간 동안 최대강우강도 33 mm/hr, 유역평균 총 강우량 82 mm이 발생한 태풍 차 바(CHABA)를 대상으로 하였으며, Radar 및 GPM 자료와 조건부합성(Conditional Merging, CM) 기법을 적용한 Radar (CM-corrected Radar) 및 GPM (CM-corrected GPM) 자료를 각각 활용하여 결과를 비교하였다. 이 때, 공간 강우자료에 유출 검보정은 남강댐 유역 내 3개의 수위관측 지점(산청, 창촌, 남강댐)을 대상으로 실시하였으며, 모형의 매개변수 초기토양수분함량, 지표와 하천의 Manning 조도계수를 이용하여 검보정하였다. 유출 결과는 결정계수(Determination coefficient, R2), Nash-Sutcliffe의 모형효율계수(NSE) 및 유출용적지수(Volume Conservation Index, VCI)를 산정하였다. 그 결과 CM-corrected Radar, GPM 자료가 평균 R2는 0.96, NSE의 경우 0.96, 유출용적지수(VCI)는 1.03으로 가장 우수한 결과를 나타내었다. 최종적으로 CM 기법을 이용한 보정된 공간분포자료는 기존의 자료에 비해 시공간적으로 정확한 홍수 예측에 사용 될 것으로 판단된다.
Since climate change increases the risk of extreme rainfall events, concerns on flood management have also increased. In order to rapidly recover from flood damages and prevent secondary damages, fast collection and treatment of flood debris are necessary. Therefore, a quick and precise estimation of flood debris generation is a crucial procedure in disaster management. Despite the importance of debris estimation, methodologies have not been well established. Given the intrinsic heterogeneity of flood debris from local conditions, a regional-scale model can increase the accuracy of the estimation. The objectives of this study are 1) to identify significant damage variables to predict the flood debris generation, 2) to ascertain the difference in the coefficients, and 3) to evaluate the accuracy of the debris estimation model. The scope of this work is flood events in Ulsan city region during 2008-2016. According to the correlation test and multicollinearity test, the number of damaged buildings, area of damaged cropland, and length of damaged roads were derived as significant parameters. Key parameters seems to be strongly dependent on regional conditions and not only selected parameters but also coefficients in this study were different from those in previous studies. The debris estimation in this study has better accuracy than previous models in nationwide scale. It can be said that the development of a regional-scale flood debris estimation model will enhance the accuracy of the prediction.