본 연구에서는 비산먼지 농도를 평가하기 위한 영향 요인인 먼지부하량(Silt loading, sL)에 대한 연구로 노면에 쌓여있는 먼지 수집 시 효율적인 방법을 제시하기 위해 실험적 데이터 수집과 시각화를 통해 위치별 특성에 따른 먼지 분포량과 효율적인 먼지 수집 위치 를 분석하고자 하였다. 기존의 미국 EPA(Environmental Protection Agency)에서는 도로 전구간을 샘플링하기에 어려움이 있어 구간별 교 차로 길이(2.4km)를 기준으로 샘플링 위치를 제시하거나 1km 이하 구간에서는 2개를 샘플링하도록 제시하고 있다. 하지만 국내 실정 에 적용하기에는 교차로 사이 간격이 너무 넓거나, 샘플링 개수가 적은 등 한계점을 가지고 있다. 이에 본 연구에서는 청소기의 길이 0.3m에 따라 3m(0.3m X 10회) 샘플링 기법을 통해 25m와 100m 구간을 대표할 수 있는 위치를 제시해주는 것을 목표로 하고 있으며, 이때 시료를 채취하여 통계분석과 클러스터링 분석을 통해 샘플링 위치를 선정하고자 하였다. 또한 샘플링 위치에 따른 검증을 위해 서 도로 먼지 부하량과 비산먼지와의 상관관계를 정량적으로 평가하였다. 이때 먼저 sL의 양에 따른 비산먼지의 농도 측정은 도심부 제한속도에 따라 50km/h의 속도로 주행하는 조건에서 측정되었으며, 측정차량을 통해 수집된 GPS 좌표를 활용하여 도로 먼지 농도의 변화를 정량적으로 분석하였다. 분석 결과, 먼지 부하량(sL)이 농도가 높을수록 도로 먼지 농도가 증가하는 경향이 나타났으며, 이러한 상관관계는 먼지가 많을수록 공기중으로 비산되는 먼지의 양이 많은 것에 기인한 것으로 분석되었고 이때 측정한 전 구간에서 sL과 비산먼지 농도 간의 높은 상관 관계(상관계수 0.76)가 확인되었다. 추가적으로, 각 시료 채취 지점에서의 sL의 변화가 도로 먼지 농도에 미치는 영향을 평가하기 위해 K-평균 클러스터링 기법을 사용하였다. 클러스터링 결과, 최적의 샘플링 지점이 25m 구간 내에서는 3개, 100m 구간 안에서는 5개의 샘플링 위치로 대표값을 띄는 것으로 도출되었으며 비산먼지 농도의 변화와도 일치하는 것을 보였다. 이러한 방법을 통해 도로 먼지 샘플링의 신뢰성을 높일 수 있었으며, 도로 먼지의 특성을 보다 정확하게 분석할 수 있었고, 인력 수집에 따른 시간적, 공간적인 한계 를 해결할 수 있을 것으로 판단된다. 또한 이는 향후 비산먼지 측정 차량 제작 연구의 기초 자료로 활용될 수 있을 것이다.
2020년 이후 코로나-19로 인해 전 세계적으로 다양한 사회・경제적 문제가 발생하였고, 이로 인해 비대면 문화와 소셜 네트워크 서비스(SNS)를 통한 활동이 급격히 늘어났다. SNS 데이터는 저비용으로 많은 양의 데이터를 확보할 수 있으며, 다양한 정보를 포함하고 있어 도시 계획 및 운영에 활용될 수 있다. 이에 따라, 새로운 방법의 적용이 필요해졌고, 최근 발전한 인공지능 기술을 활용하여 공간 유형의 변화를 설명하는 것이 가능해졌다. 이를 위해 머신러닝 군집화 방법을 사용하여 관광지 분포 패턴 및 도시 관심 지역을 추출할 수 있게 되었다. 기존에는 군집화를 위해 K-means, DBSCAN을 활용해 왔으나. HDBSCAN에 대한 국내 연구 활용 사례는 부족한 상황이다. 따라서, 본 연구는 2019년과 2020년의 서울시 플리커 데이터와 HDBSCAN을 활용하여 도시 관심 지역에 대한 공간 유형의 변화를 설명하고자 하였다. 본 연구에서는 HDBSCAN 방법을 이용하여 플리커 게시물을 군집화하고 도시 관심 지역을 도출하였으며, 실루엣 점수를 통해 각 군집에 대한 군집화 정도를 점수화하였다. 연구 결과, 실제 서울 시내의 도심 및 부도심 등 주요 지점을 따라 군집이 도출되었고, 실루엣 점수를 활용한 평가 결과 군집화 정도가 통계적으로 유의미한 수준으로 계산되었다.
PURPOSES : Local governments in Korea, including Incheon city, have introduced the pavement management system (PMS). However, the verification of the repair time and repair section of roads remains difficult owing to the non-existence of a systematic data acquisition system. Therefore, data refinement is performed using various techniques when analyzing statistical data in diverse fields. In this study, clustering is used to analyze PMS data, and correlation analysis is conducted between pavement performance and influencing factors.
METHODS : First, the clustering type was selected. The representative clustering types include K-means, mean shift, and density-based spatial clustering of applications with noise (DBSCAN). In this study, data purification was performed using DBSCAN for clustering. Because of the difficulty in determining a threshold for high-dimensional data, multiple clustering, which is a type of DBSCAN, was applied, and the number of clustering was set up to two. Clustering for the surface distress (SD), rut depth (RD), and international roughness index (IRI) was performed twice using the number of frost days, the highest temperature, and the average temperature, respectively.
RESULTS : The clustering result shows that the correlation between the SD and number of frost days improved significantly. The correlation between the maximum temperature factor and precipitation factor, which does not indicate multicollinearity, improved. Meanwhile, the correlation between the RD and highest temperature improved significantly. The correlation between the minimum temperature factor and precipitation factor, which does not exhibit multicollinearity, improved considerably. The correlation between the IRI and average temperature improved as well. The correlation between the low- and high-temperature precipitation factors, which does not indicate multicollinearity, improved.
CONCLUSIONS : The result confirms the possibility of applying clustering to refine PMS data and that the correlation among the pavement performance factors improved. However, when applying clustering to PMS data refinement, the limitations must be identified and addressed. Furthermore, clustering may be applicable to the purification of PMS data using AI.
Maritime monitoring requirements have been beyond human operators capabilities due to the broadness of the coverage area and the variety of monitoring activities, e.g. illegal migration, or security threats by foreign warships. Abnormal vessel movement can be defined as an unreasonable movement deviation from the usual trajectory, speed, or other traffic parameters. Detection of the abnormal vessel movement requires the operators not only to pay short-term attention but also to have long-term trajectory trace ability. Recent advances in deep learning have shown the potential of deep learning techniques to discover hidden and more complex relations that often lie in low dimensional latent spaces. In this paper, we propose a deep autoencoder-based clustering model for automatic detection of vessel movement anomaly to assist monitoring operators to take actions on the vessel for more investigation. We first generate gridded trajectory images by mapping the raw vessel trajectories into two dimensional matrix. Based on the gridded image input, we test the proposed model along with the other deep autoencoder-based models for the abnormal trajectory data generated through rotation and speed variation from normal trajectories. We show that the proposed model improves detection accuracy for the generated abnormal trajectories compared to the other models.
Maritime monitoring requirements have been beyond human operators capabilities due to the broadness of the coverage area and the variety of monitoring activities, e.g. illegal migration, or security threats by foreign warships. Abnormal vessel movement can be defined as an unreasonable movement deviation from the usual trajectory, speed, or other traffic parameters. Detection of the abnormal vessel movement requires the operators not only to pay short-term attention but also to have long-term trajectory trace ability. Recent advances in deep learning have shown the potential of deep learning techniques to discover hidden and more complex relations that often lie in low dimensional latent spaces. In this paper, we propose a deep autoencoder-based clustering model for automatic detection of vessel movement anomaly to assist monitoring operators to take actions on the vessel for more investigation.
수역 내 충돌 위험 식별은 항해의 안전을 위해 중요하다. 본 연구에서는 거리 요인을 기반으로 한 군집화 방법인 계층 클러스 터링을 포함하는 새로운 충돌 위험 평가 방법을 도입했으며, 주변의 선박이 많은 경우 실시간 데이터, 그룹 방법론 및 예비 평가를 사용하여 선박을 분류하고 충돌위험평가를 기반으로 평가하였다(HCAAP 처리라 부른다). 조우하는 선박들의 군집은 계층 프로그램에 의해 모아지고, 예비 평가와 결합되어 상대적으로 안전한 선박을 걸러내었다. 그런 다음, 각 군집 내에서 조우하는 선박 사이의 최근접점(DCPA) 및 최근접점까지의 도착시간(TCPA)까지의 시간을 계산하여 충돌위험지수(CRI)와의 관계를 비교하였다. 조우하는 선박들간의 군집에서 CRI와 DCPA 및 TCPA 수학적 관계는 음의 지수 함수로 구성되었다. 이러한 CRI로부터 운영자는 명시된 해역에서 항해하는 모든 선박의 안전성을 보다 쉽게 평가할 수 있으며, 프레임워크는 해상운송의 안전과 보안을 개선하고 인명 및 재산 손실을 줄일 수 있다. 본 연구에 서 제안된 프레임워크의 효과를 설명하기 위해 국내의 목포 연안 해역에서 실험 사례 연구를 수행하였다. 그 결과, 본 연구의 프레임워크가 각 군집 내에서 조우 선박 간의 충돌 위험 지수를 탐지하고 순위를 매기는 데 효과적이고 효율적이라는 것을 보여 주었으며, 추가연구를 위한 자동 위험 우선순위를 지정할 수 있게 해주었다.
K-means algorithm is one of the most popular and widely used clustering method because it is easy to implement and very efficient. However, this method has the limitation to be used with fixed number of clusters because of only considering the intra-cluster distance to evaluate the data clustering solutions. Silhouette is useful and stable valid index to decide the data clustering solution with number of clusters to consider the intra and inter cluster distance for unsupervised data. However, this valid index has high computational burden because of considering quality measure for each data object. The objective of this paper is to propose the fast and simple speed-up method to overcome this limitation to use silhouette for the effective large-scale data clustering. In the first step, the proposed method calculates and saves the distance for each data once. In the second step, this distance matrix is used to calculate the relative distance rate (Vj) of each data j and this rate is used to choose the suitable number of clusters without much computation time. In the third step, the proposed efficient heuristic algorithm (Group search optimization, GSO, in this paper) can search the global optimum with saving computational capacity with good initial solutions using Vj probabilistically for the data clustering. The performance of our proposed method is validated to save significantly computation time against the original silhouette only using Ruspini, Iris, Wine and Breast cancer in UCI machine learning repository datasets by experiment and analysis. Especially, the performance of our proposed method is much better than previous method for the larger size of data.
Data clustering is one of the most difficult and challenging problems and can be formally considered as a particular kind of NP-hard grouping problems. The K-means algorithm is one of the most popular and widely used clustering method because it is easy to implement and very efficient. However, it has high possibility to trap in local optimum and high variation of solutions with different initials for the large data set. Therefore, we need study efficient computational intelligence method to find the global optimal solution in data clustering problem within limited computational time. The objective of this paper is to propose a combined artificial bee colony (CABC) with K-means for initialization and finalization to find optimal solution that is effective on data clustering optimization problem. The artificial bee colony (ABC) is an algorithm motivated by the intelligent behavior exhibited by honeybees when searching for food. The performance of ABC is better than or similar to other population-based algorithms with the added advantage of employing fewer control parameters. Our proposed CABC method is able to provide near optimal solution within reasonable time to balance the converged and diversified searches. In this paper, the experiment and analysis of clustering problems demonstrate that CABC is a competitive approach comparing to previous partitioning approaches in satisfactory results with respect to solution quality. We validate the performance of CABC using Iris, Wine, Glass, Vowel, and Cloud UCI machine learning repository datasets comparing to previous studies by experiment and analysis. Our proposed KABCK (K-means+ABC+K-means) is better than ABCK (ABC+K-means), KABC (K-means+ABC), ABC, and K-means in our simulations.
Data clustering determines a group of patterns using similarity measure in a dataset and is one of the most important and difficult technique in data mining. Clustering can be formally considered as a particular kind of NP-hard grouping problem. K-means algorithm which is popular and efficient, is sensitive for initialization and has the possibility to be stuck in local optimum because of hill climbing clustering method. This method is also not computationally feasible in practice, especially for large datasets and large number of clusters. Therefore, we need a robust and efficient clustering algorithm to find the global optimum (not local optimum) especially when much data is collected from many IoT (Internet of Things) devices in these days. The objective of this paper is to propose new Hybrid Simulated Annealing (HSA) which is combined simulated annealing with K-means for non-hierarchical clustering of big data. Simulated annealing (SA) is useful for diversified search in large search space and K-means is useful for converged search in predetermined search space. Our proposed method can balance the intensification and diversification to find the global optimal solution in big data clustering. The performance of HSA is validated using Iris, Wine, Glass, and Vowel UCI machine learning repository datasets comparing to previous studies by experiment and analysis. Our proposed KSAK (K-means+SA+K-means) and SAK (SA+K-means) are better than KSA(K-means+SA), SA, and K-means in our simulations. Our method has significantly improved accuracy and efficiency to find the global optimal data clustering solution for complex, real time, and costly data mining process.
화산재의 확산은 심각한 사회적 문제를 야기한다. 화산재의 확산을 예측하기 위한 수치 분석은 시간이 걸리기 때문에 초기 대응에 필요한 정보들을 제공하기에는 부적절 하다. 이 연구에서는 시나리오 기반의 대상 기상장과 과거 기상장의 유사도를 분석하여 화산재 확산 정보를 제공할 수 있는 유사기상장 모델을 제안한다. 동아시아 지역 기상장을 분석하기 위하여 2005-2014년 WRF (Weather Research and Forecasting model) 데이터를 k-means 클러스터링 방법을 사용하여 분류하였다. 기상장 데이터의 수에 따른 정밀도를 확 인하기 위하여 2010년 1년치 클러스터링과 2005-2014년 클러스터링 결과의 최종 클러스터와 내부 원소들 사이의 상관계수 (correlation coefficient)와 유클리드 거리 (Euclidean distance)를 측정하여 비교분석 하였다. 1년치 결과의 경우 178 m의 평균 거리와 10년치 결과에서는 52 m의 평균거리로 95% 신뢰수준에서 유의하게 차이를 보여주었다. 모델의 정밀도는 기상장 데이터의 크기와 클러스터링 단 계가 증가함에 따라 높아졌고 기상장의 표준편차는 줄어들어 화산재 확산의 변동성이 감소할 것으로 나타났다.
The conventional clustering approaches are mostly based on minimizing total dissimilarity of input and output. However, the clustering approach may not be helpful in some cases of clustering decision making units (DMUs) with production feature converting multiple inputs into multiple outputs because it does not care converting functions. Data envelopment analysis (DEA) has been widely applied for efficiency estimation of such DMUs since it has non-parametric characteristics. We propose a new clustering method to identify groups of DMUs that are similar in terms of their input-output profiles. A real world example is given to explain the use and effectiveness of the proposed method. And we calculate similarity value between its result and the result of a conventional clustering method applied to the example. After the efficiency value was added to input of K-means algorithm, we calculate new similarity value and compare it with the previous one.
In ubiquitous computing, shared environments adjust themselves so that all users in the environments are satisfied as possible. Inevitably, some of users sacrifice their satisfactions while the shared environments maximize the sum of all users’ satisfactions. In our previous work, we have proposed social welfare functions to avoid a situation which some users in the system face the worst setting of environments. In this work, we consider a more direct approach which is a preference based clustering to handle this issue. In this approach, first, we categorize all users into several subgroups in which users have similar tastes to environmental parameters based on their preference information. Second, we assign the subgroups into different time or space of the shared environments. Finally, each shared environments can be adjusted to maximize satisfactions of each subgroup and consequently the optimal of overall system can be achieved. We demonstrate the effectiveness of our approach with a numerical analysis.
F-Measure is one of the external validity indexes for evaluating clustering results and has been widely used.Though it has clear advantage over other widely usedexternal measures such as Purity and Entropy, FMeasure has inherently been less sensitive than other validity indexes in some cases. This insensitivity owes to the definition of F-Measure that counts only most influential portions. In this research, we define a new validity index based on F-Measure, called Fn-Measure and show that it can detect the difference in the cases that original F-Measure cannot detect the difference in clustering results.
Negative binomial yield model for semiconductor manufacturing consists of two parameters which are the average number of defects per die and the clustering parameter. Estimating the clustering parameter is quite complex because the parameter has not clear