We introduce a new clustering algorithm, MulGuisin (MGS), that can identify distinct galaxy over-densities using topological information from the galaxy distribution. This algorithm was first introduced in an LHC experiment as a Jet Finder software, which looks for particles that clump together in close proximity. The algorithm preferentially considers particles with high energies and merges them only when they are closer than a certain distance to create a jet. MGS shares some similarities with the minimum spanning tree (MST) since it provides both clustering and network-based topology information. Also, similar to the density-based spatial clustering of applications with noise (DBSCAN), MGS uses the ranking or the local density of each particle to construct clustering. In this paper, we compare the performances of clustering algorithms using controlled data and some realistic simulation data as well as the SDSS observation data, and we demonstrate that our new algorithm finds networks most correctly and defines galaxy networks in a way that most closely resembles human vision.
Humans have the ability to perceive an object’s material and properties instantaneously, and use this information to prepare for future actions. Material perception is not only an important factor for humans but also for artificial intelligence robots that are being developed. In addition, material perception is one of the important design requirements in selecting materials suitable for the products desired by consumers and pursued by designers. Because it is impossible to perform material perception using an exact formula, it is determined from tendencies that are identified in surveys. In this study, surveys with a binary selection were conducted, presenting participants with pairs of bipolar adjectives and asking them to choose one of two. After multiple surveys were conducted all the data were merged. Before merging the data, to ensure the reliability of the data homogeneity and correlation were tested using hierarchical clustering, correlation coefficient, and k-means cluster analysis. Afterwards, the merged data was used to analyze universal and comparable perceptual qualities of various material classes using relative frequency and hierarchical cluster analysis.
본 연구는 2013년, 2018년, 2023년 뉴질랜드 인구주택총조사 데이터를 활용하여 오클랜드 한인의 지리적 분포와 거주지 분리 변화를 분석한다. 연구에서는 단계구분도와 국지적 G 통계량을 활용하여 주요 거주지 군집의 변화를 살펴보고, 상이지수와 노출지수를 통해 한인의 분리 수준을 다른 민족과 비교하고자 한다. 결과적으로, 오클랜드 한인의 거주지 분포는 북부 지역을 중심으로 뚜렷한 군집 형태를 유지하면서도 동남부와 중부에서는 지역적 확산이 나타나는 등 공간적 재구성이 관찰되었다. 이러한 연구 결과는 오클랜드 내 한인 거주지 군집의 특성과 분리 수준 변화에 관한 기초 자료로 활용할 수 있고, 향후 유사한 인구 규모와 초기 정착 분포를 보이는 소수 집단이 어떻게 변화할지 예측하는데 중요한 시사점을 제공할 것으로 기대된다.
한국의 주택시장은 2020년대에 들어 유례없는 폭등과 폭락을 반복하는 등 매우 민감한 가격 변동을 경험하였다. 특히 2024년 9월 서울특별시에서는 거래량 급감에도 불구하고 역대 최고 아파트 평균 매매가격이 경신되기도 하였다. 하지만 이러한 주택시장의 변동성은 지역에 따라 다소 이질적인 특성을 보이고 있다. 이에 본 연구에서는 최근 10년 간의 시계열적인 매매가격지 수를 기반으로 수도권 아파트의 주택 하위시장을 유형화하고 그 특성을 살펴보고자 한다. 이를 위해 수도권 시군구 단위로 2014-2024년 월간 아파트 매매가격지수 데이터셋을 구축하였고, 자기조직화 지도를 사용하여 매트릭스 형태의 시계열적 가격 변동을 2차원 공간상에 매핑하여 그래프로 작성하였다. 그 후 동적 타임 워핑을 유사성 척도로 하는 K-평균 군집화 및 계층적 밀도 기반 군집화 알고리즘을 이용한 시계열 군집 분석을 수행하여 주택 하위시장을 식별하였다. 연구 결과, 수도권 지역에서는 공통적으로 2014년 이후 아파트 매매가격이 지속적으로 상승하였고, 2020년을 기점으로 폭등한 후 2022년 급락하는 경향을 보였다. 그러나 지역별로 가격 변동의 정도와 패턴, 속도가 상이하였고 이에 대한 유형화를 진행한 결과 최종적으로 계단형(서울 인근 경기도 지역), 단기변동형(경기도 남・북부 지역), 안정형(경기도 서부 지역), 외곽 저속개발(수도권 외곽 및 접경지역), 지속상승(서울 및 인접 경기도 지역) 총 5개의 하위시장을 확인할 수 있었다. 본 연구는 민감한 가격 변동을 보이는 수도권 아파트의 하위시장을 실증적으로 구분하고, 하위시장의 독특한 시공간적 패턴에 대한 이해를 제공함으로써 향후 실효성 있는 지역 특수적 주택 정책 수립에 기여할 것으로 기대된다.
The purpose of this study was to identify and evaluate hazardous road sections based on roadside friction. Using GIS mapping and clustering techniques, this study analyzed traffic accidents and roadside friction data based on latitude and longitude coordinates. The density-based spatial clustering of applications with noise (DBSCAN) algorithm was applied, with parameters of MinPts = 5 and eps = 0.0001, determined through a K-nearest neighbor analysis. The data were separated based on traffic flow direction (uphill/ downhill), and clustering was performed separately in each direction to identify specific hazard zones. The DBSCAN clustering results revealed 18 clusters in traffic accident data and 44 clusters in roadside friction data. Traffic accident clusters include various types of accidents (e.g., vehicle-to-vehicle and vehicle-to-pedestrian accidents), identifying locations as high-accident zones. The clustering results from the roadside friction data highlighted areas with crosswalks, absence of curbs, and roadside parking zones as major risk sections. Future research should analyze the operational design domain (ODD) of autonomous vehicles on hazardous road sections and explore the integration of multiple data sources to establish a comprehensive safety management system for accident prevention in autonomous driving environments. Additionally, road hazard sections are categorized into stages (e.g., hazardous, cautious, and safe) to enhance the precision in assessing road conditions. This categorization, combined with a detailed analysis of ODD, serves as a foundation for future research aimed at improving the safety of autonomous driving environments.
The purpose of this study was to incorporate Pakistan's climatic conditions into the road design process by performing a cluster analysis using collected climate data. Monthly time-series data for six climate variables—altitude, sea level, maximum temperature, minimum temperature, vapor pressure, and precipitation—were used to cluster 24 locations. Missing values were imputed using the Kalman filter, and hierarchical and k-medoid clustering analyses were performed based on the dynamic time warping (DTW) distance. By evaluating two to five clusters using six validity indices, the optimal number of clusters was determined to be two. the optimal two-cluster classification results were confirmed to be consistent between the two methods. When the clustering results were visualized on a map of Pakistan alongside the data, the clusters were divided into areas with relatively high and low altitudes. By classifying the regions of Pakistan into two clusters using time-series data of climate variables, this study highlights the distinct characteristics of each cluster. These findings suggest that management strategies tailored to the characteristics of each cluster can be applied to various fields.
The purpose of this study was to enhance the correlation between the dependent and independent variables in a prediction model of pavement performance for local roads on Jeju Island by applying K-means clustering for data preprocessing, thereby improving the accuracy of the prediction model. Pavement management system (PMS) data from Jeju Island were utilized. K-means clustering was applied, with the optimal K value determined using the elbow method and silhouette score. The Haversine formula was used to calculate the distances between the analysis sections and weather stations, and Delaunay triangulation and inverse distance weighting (IDW) were employed to interpolate the magnitude of the influencing factors. The preprocessed data were then analyzed for correlations between the rutting depth (RD) and influencing factors, and a prediction model was developed through multiple linear regression analysis. The RD prediction model demonstrated the highest performance with an R² of 0.32 and root-mean-square error (RMSE) of 1.48. This indicates that preprocessing based on the RD is more effective for developing an RD prediction model. The study also observed that the lack of pavement-age data in the analysis was a limiting factor for the prediction accuracy. The application of K-means clustering for data preprocessing effectively improved the correlation between the dependent and independent variables, particularly in the RD prediction model. Future research is expected to further enhance the prediction accuracy by including pavement-age data.
본 연구에서는 비산먼지 농도를 평가하기 위한 영향 요인인 먼지부하량(Silt loading, sL)에 대한 연구로 노면에 쌓여있는 먼지 수집 시 효율적인 방법을 제시하기 위해 실험적 데이터 수집과 시각화를 통해 위치별 특성에 따른 먼지 분포량과 효율적인 먼지 수집 위치 를 분석하고자 하였다. 기존의 미국 EPA(Environmental Protection Agency)에서는 도로 전구간을 샘플링하기에 어려움이 있어 구간별 교 차로 길이(2.4km)를 기준으로 샘플링 위치를 제시하거나 1km 이하 구간에서는 2개를 샘플링하도록 제시하고 있다. 하지만 국내 실정 에 적용하기에는 교차로 사이 간격이 너무 넓거나, 샘플링 개수가 적은 등 한계점을 가지고 있다. 이에 본 연구에서는 청소기의 길이 0.3m에 따라 3m(0.3m X 10회) 샘플링 기법을 통해 25m와 100m 구간을 대표할 수 있는 위치를 제시해주는 것을 목표로 하고 있으며, 이때 시료를 채취하여 통계분석과 클러스터링 분석을 통해 샘플링 위치를 선정하고자 하였다. 또한 샘플링 위치에 따른 검증을 위해 서 도로 먼지 부하량과 비산먼지와의 상관관계를 정량적으로 평가하였다. 이때 먼저 sL의 양에 따른 비산먼지의 농도 측정은 도심부 제한속도에 따라 50km/h의 속도로 주행하는 조건에서 측정되었으며, 측정차량을 통해 수집된 GPS 좌표를 활용하여 도로 먼지 농도의 변화를 정량적으로 분석하였다. 분석 결과, 먼지 부하량(sL)이 농도가 높을수록 도로 먼지 농도가 증가하는 경향이 나타났으며, 이러한 상관관계는 먼지가 많을수록 공기중으로 비산되는 먼지의 양이 많은 것에 기인한 것으로 분석되었고 이때 측정한 전 구간에서 sL과 비산먼지 농도 간의 높은 상관 관계(상관계수 0.76)가 확인되었다. 추가적으로, 각 시료 채취 지점에서의 sL의 변화가 도로 먼지 농도에 미치는 영향을 평가하기 위해 K-평균 클러스터링 기법을 사용하였다. 클러스터링 결과, 최적의 샘플링 지점이 25m 구간 내에서는 3개, 100m 구간 안에서는 5개의 샘플링 위치로 대표값을 띄는 것으로 도출되었으며 비산먼지 농도의 변화와도 일치하는 것을 보였다. 이러한 방법을 통해 도로 먼지 샘플링의 신뢰성을 높일 수 있었으며, 도로 먼지의 특성을 보다 정확하게 분석할 수 있었고, 인력 수집에 따른 시간적, 공간적인 한계 를 해결할 수 있을 것으로 판단된다. 또한 이는 향후 비산먼지 측정 차량 제작 연구의 기초 자료로 활용될 수 있을 것이다.
세계 해양산업은 자율운항선박 기술의 등장으로 급속도로 발전하고 있으며, 해양 데이터에서 파생된 인공지능 활용에 관한 관 심이 높아지고 있다. 다양한 기술 발전 중에서 선박 항로 군집화는 자율운항선박 상용화를 위한 중요한 기술로 부각되고 있다. 항로 군집 화를 통해 해상에서 선박 항로 패턴을 추출하여 가장 빠르고 안전한 항로를 최적화하고 충돌 방지 시스템의 개발에 기반이 된다. 항로 군 집화 알고리즘의 정확성과 효율성을 보장하기 위해 고품질의 잘 처리된 데이터가 필수적이다. 본 연구에서는 다양한 항로 군집화 방법 중 항로의 실제 형태와 특성을 정확히 반영할 수 있는 선박 항로 유사도 기반 군집화 방식에 주목하였다. 이러한 방식의 효율을 극대화하 기 위해 최적의 데이터 전처리 기술 조합을 구성하고자 한다. 구체적으로, 4가지의 선박 항로 간 유사도 측정법과 3가지의 차원 축소 방 법을 조합하여 연구를 진행하였다. 각 조합에 대해 k-means 군집 분석을 수행하고, 그 결과를 Silhouette Index를 통해 정량적으로 평가하여 최고 성능을 보이는 전처리 기법 조합을 도출하였다. 본 연구는 단순히 최적의 전처리 기법을 찾는 것에 그치지 않고, 광범위한 해양 데 이터에서 의미 있는 정보를 추출하는 과정의 중요성을 강조한다. 이는 4차 산업혁명 시대의 해양 및 해운 산업이 직면한 디지털 전환에 효과적으로 대응하기 위한 기초 연구로서 의의를 갖는다.
PURPOSES : In this study, a preliminary study on the optimal clustering techniques for the preprocessing of pavement management system (PMS) data was conducted using K-means and mean-shift techniques to improve the correlation between the dependent and independent variables of the pavement performance model. METHODS : The PMS data of Jeju Island was preprocessed using the K-means and mean-shift algorithms. In the case of the K-means method, the elbow method and silhouette score were used to determine the optimal number of clusters (K). Moreover, in the case of the mean-shift method, Scott’s rule of thumb and Silverman’s rule of thumb were used to determine the optimal cluster bandwidth. RESULTS : The optimal cluster sets were selected for the rut depth (RD), annual average daily traffic (AADT), and annual maximum temperature (AMT) for each clustering technique, and their similarities with the original data were investigated. Additionally, the correlation improvement between the dependent and independent variables were investigated by calculating the clustering score (CS). Consequently, the K-means method was selected as the optimal clustering technique for the preprocessing of PMS data. The K-means method improved the correlations of more variables with the dependent variable compared to the mean-shift method. The correlations of the variables related to high temperature—such as the annual temperature change, summer days, and heat wave days—were improved in the case wherein the AMT, a climate factor, was used as an independent variable in the K-means clustering method. CONCLUSIONS : The applicability of the clustering methods to preprocessing of PMS data was identified in this study. Improvements in the pavement performance prediction model developed using traditional statistical methods may be identified by developing a model using clustering techniques in a future study.
The issue of marine accidents can be based on the traffic/distribution of vessels in the waterways. These accidents are often associated with human and financial losses and require special attention. Usually, these accidents include collision of two fishing vessels with each other, collision of a fishing vessel with other types of vessels in the course and collision of a fishing vessel with an obstacle in the course (Yancai, et al, 2020). In this article, we first want to deal with analysing the recorded statistical samples in 7 fishing areas in coastal waters of South Korea in 2023, while fuzzy clustering them. Then, according to analysing the sample data and finding the probabilistic structure and the membership of data sets the determined clusters, through Monte Carlo simulation, we will generate similar data in each of the 7 studied regions and model them in unsupervised mode. The generated data by Monte Carlo simulation based on the statistical distribution will able us to study the reality of distribution and possible accident in our target areas and find the model for future demands. We show that how the simulated data reduce the cost of data analysis and deliver us the facts of clusters for fishing vessels collisions. Finally, we reach to the most notified area for preventing the fishing vessels accidents and to make more preparations for reducing the human and costly damages in future activities.
This study utilizes association rule learning and clustering analysis to explore the co-occurrence and relationships within ecosystems, focusing on the endangered brackish-water snail Clithon retropictum, classified as Class II endangered wildlife in Korea. The goal is to analyze co-occurrence patterns between brackish-water snails and other species to better understand their roles within the ecosystem. By examining co-occurrence patterns and relationships among species in large datasets, association rule learning aids in identifying significant relationships. Meanwhile, K-means and hierarchical clustering analyses are employed to assess ecological similarities and differences among species, facilitating their classification based on ecological characteristics. The findings reveal a significant level of relationship and co-occurrence between brackish-water snails and other species. This research underscores the importance of understanding these relationships for the conservation of endangered species like C. retropictum and for developing effective ecosystem management strategies. By emphasizing the role of a data-driven approach, this study contributes to advancing our knowledge on biodiversity conservation and ecosystem health, proposing new directions for future research in ecosystem management and conservation strategies.
인공지능(Artificial Intelligence, AI)은 1950년대 초기개념과 이론을 앨런 튜링이 튜링 테스트를 제안하여 기계가 인간과 같은 수준의 지능을 가질 수 있는지 대한 질문을 던지면서 시작되었다. 1980년대부터 특정 분야의 전문 지식을 모방하여 지원하는 AI 시스템인 전 문가 시스템이 부상하기 시작하면서 Machine Learning이 중요성을 얻기 시작하였다. 특히, Decision Tree, Clustering 그리고 Neural Network Algorithm 등이 연구되기 시작하였다. Clustering 기법은 다양한 분야에서 통계분석에 사용되는 자료를 정제하기 위한 비지도 학습 중 하나로, 군집화 알고리즘을 사용하여 자료의 값(Pointer)들을 특정 그룹으로 분류하는 방법이다. 이러한 Clustering을 활용하여 기존 데이터에서 숨겨진 데이터들의 특성을 파악할 수 있으며, 일정 패턴이나 특징을 가진 데이터들끼리의 군집화를 할 수 있게 된다. 이러한 클러스터링은 다양한 산업 분야에서 적용 및 활용하고 있다. 산업화 이후 미국, 벨기에 등 많은 나라에서 효율적인 도로 관 리를 위해 자국의 특성에 맞는 Pavement Management System (PMS)를 운영하고 있지만 현재 많은 분야에서 적용하고 있는 AI를 활용한 사례가 매우 드물다. 한국에서도 수십년 동안 국토교통부와 한국도로공사에서 PMS를 이용하여 도로를 관리해 왔으며, 최근에 는 몇 개 지자체에서 PMS를 도입하였다. 하지만 한국에서는 오랜 PMS 운영 경험에도 불구하고 AI를 활용하지 않고 전통적 방법인 회귀모형을 활용하여 개발한 공용성 예측모형을 사용하고 있기 때문에 그 성능이 떨어지고 있다. 따라서 본 연구에서는 Machine Learning Clustering 기법을 PMS 자료에 적용이 가능한지 확인하였다. 공용성 예측모형의 종속변수인 Performance Factors와 독립변 수인 Influencing Factors 간의 상관성을 확인할 수 없는 경우 클러스터링을 적용하여 종속변수와 독립변수 간의 상관성을 분명히 나 타내고 회귀분석이 가능하도록 하였다. Delaunay Triangulation을 적용하여 인천광역시 기상관측소의 삼각망을 형성하였다. 삼각망의 각 꼭짓점과 도로 각 지점 간의 거리에 대하여 Inverse Distance Weighted 방법을 적용하여 도로 각 구간의 PMS 자료와 영향인자를 매칭하였다. 클러스터링 기법을 원자료에 적용한 결과 공용성인자와 영향인자 간의 상관성이 분명해졌다. 또한, 클러스터링 이전과 이 후 자료의 확률밀도함수의 분포를 비교하여 클러스터링 이후의 자료가 이전의 대해서 대표성을 갖고 있는지 확인하였다.
This study explores modern portfolio theory by integrating the Black-Litterman portfolio with time-series clustering, specificially emphasizing K-shape clustering methodology. K-shape clustering enables grouping time-series data effectively, enhancing the ability to plan and manage investments in stock markets when combined with the Black-Litterman portfolio. Based on the patterns of stock markets, the objective is to understand the relationship between past market data and planning future investment strategies through backtesting. Additionally, by examining diverse learning and investment periods, it is identified optimal strategies to boost portfolio returns while efficiently managing associated risks. For comparative analysis, traditional Markowitz portfolio is also assessed in conjunction with clustering techniques utilizing K-Means and K-Means with Dynamic Time Warping. It is suggested that the combination of K-shape and the Black-Litterman model significantly enhances portfolio optimization in the stock market, providing valuable insights for making stable portfolio investment decisions. The achieved sharpe ratio of 0.722 indicates a significantly higher performance when compared to other benchmarks, underlining the effectiveness of the K-shape and Black-Litterman integration in portfolio optimization.
2020년 이후 코로나-19로 인해 전 세계적으로 다양한 사회・경제적 문제가 발생하였고, 이로 인해 비대면 문화와 소셜 네트워크 서비스(SNS)를 통한 활동이 급격히 늘어났다. SNS 데이터는 저비용으로 많은 양의 데이터를 확보할 수 있으며, 다양한 정보를 포함하고 있어 도시 계획 및 운영에 활용될 수 있다. 이에 따라, 새로운 방법의 적용이 필요해졌고, 최근 발전한 인공지능 기술을 활용하여 공간 유형의 변화를 설명하는 것이 가능해졌다. 이를 위해 머신러닝 군집화 방법을 사용하여 관광지 분포 패턴 및 도시 관심 지역을 추출할 수 있게 되었다. 기존에는 군집화를 위해 K-means, DBSCAN을 활용해 왔으나. HDBSCAN에 대한 국내 연구 활용 사례는 부족한 상황이다. 따라서, 본 연구는 2019년과 2020년의 서울시 플리커 데이터와 HDBSCAN을 활용하여 도시 관심 지역에 대한 공간 유형의 변화를 설명하고자 하였다. 본 연구에서는 HDBSCAN 방법을 이용하여 플리커 게시물을 군집화하고 도시 관심 지역을 도출하였으며, 실루엣 점수를 통해 각 군집에 대한 군집화 정도를 점수화하였다. 연구 결과, 실제 서울 시내의 도심 및 부도심 등 주요 지점을 따라 군집이 도출되었고, 실루엣 점수를 활용한 평가 결과 군집화 정도가 통계적으로 유의미한 수준으로 계산되었다.
냉매 오충전은 에어컨에서 빈번하게 발생하는 고장 모드 중 하나로, 적정 충전량 대비 부족 및 과충전 모두 냉방 성능의 저하를 유 발하므로 충전된 냉매량을 정확하게 판단하는 것이 중요하다. 본 연구에서는 퍼지 군집화 기법을 통한 정상상태 식별을 통해 냉매 오 충전량을 다중 분류하는 모델을 개발하였다. 정상상태 식별을 위해 에어컨 운전 데이터에 대해 이동 평균 간의 차이를 활용한 퍼지 군 집화 알고리즘을 적용하였으며, IFDR를 통해 기존 연구된 정상상태 판단 기법들과 식별 결과를 비교하였다. 이후, 시스템 내 상관성 을 고려한 mRMR을 이용해 특징을 선택하였으며, 도출된 특징을 이용해 SVM 기반의 다중 분류 모델이 생성되었다. 제안된 방법은 시험 데이터를 통해 만족할 만한 분류 정확도와 강건성을 도출하였다.
PURPOSES : Local governments in Korea, including Incheon city, have introduced the pavement management system (PMS). However, the verification of the repair time and repair section of roads remains difficult owing to the non-existence of a systematic data acquisition system. Therefore, data refinement is performed using various techniques when analyzing statistical data in diverse fields. In this study, clustering is used to analyze PMS data, and correlation analysis is conducted between pavement performance and influencing factors.
METHODS : First, the clustering type was selected. The representative clustering types include K-means, mean shift, and density-based spatial clustering of applications with noise (DBSCAN). In this study, data purification was performed using DBSCAN for clustering. Because of the difficulty in determining a threshold for high-dimensional data, multiple clustering, which is a type of DBSCAN, was applied, and the number of clustering was set up to two. Clustering for the surface distress (SD), rut depth (RD), and international roughness index (IRI) was performed twice using the number of frost days, the highest temperature, and the average temperature, respectively.
RESULTS : The clustering result shows that the correlation between the SD and number of frost days improved significantly. The correlation between the maximum temperature factor and precipitation factor, which does not indicate multicollinearity, improved. Meanwhile, the correlation between the RD and highest temperature improved significantly. The correlation between the minimum temperature factor and precipitation factor, which does not exhibit multicollinearity, improved considerably. The correlation between the IRI and average temperature improved as well. The correlation between the low- and high-temperature precipitation factors, which does not indicate multicollinearity, improved.
CONCLUSIONS : The result confirms the possibility of applying clustering to refine PMS data and that the correlation among the pavement performance factors improved. However, when applying clustering to PMS data refinement, the limitations must be identified and addressed. Furthermore, clustering may be applicable to the purification of PMS data using AI.