본 연구에서는 비산먼지 농도를 평가하기 위한 영향 요인인 먼지부하량(Silt loading, sL)에 대한 연구로 노면에 쌓여있는 먼지 수집 시 효율적인 방법을 제시하기 위해 실험적 데이터 수집과 시각화를 통해 위치별 특성에 따른 먼지 분포량과 효율적인 먼지 수집 위치 를 분석하고자 하였다. 기존의 미국 EPA(Environmental Protection Agency)에서는 도로 전구간을 샘플링하기에 어려움이 있어 구간별 교 차로 길이(2.4km)를 기준으로 샘플링 위치를 제시하거나 1km 이하 구간에서는 2개를 샘플링하도록 제시하고 있다. 하지만 국내 실정 에 적용하기에는 교차로 사이 간격이 너무 넓거나, 샘플링 개수가 적은 등 한계점을 가지고 있다. 이에 본 연구에서는 청소기의 길이 0.3m에 따라 3m(0.3m X 10회) 샘플링 기법을 통해 25m와 100m 구간을 대표할 수 있는 위치를 제시해주는 것을 목표로 하고 있으며, 이때 시료를 채취하여 통계분석과 클러스터링 분석을 통해 샘플링 위치를 선정하고자 하였다. 또한 샘플링 위치에 따른 검증을 위해 서 도로 먼지 부하량과 비산먼지와의 상관관계를 정량적으로 평가하였다. 이때 먼저 sL의 양에 따른 비산먼지의 농도 측정은 도심부 제한속도에 따라 50km/h의 속도로 주행하는 조건에서 측정되었으며, 측정차량을 통해 수집된 GPS 좌표를 활용하여 도로 먼지 농도의 변화를 정량적으로 분석하였다. 분석 결과, 먼지 부하량(sL)이 농도가 높을수록 도로 먼지 농도가 증가하는 경향이 나타났으며, 이러한 상관관계는 먼지가 많을수록 공기중으로 비산되는 먼지의 양이 많은 것에 기인한 것으로 분석되었고 이때 측정한 전 구간에서 sL과 비산먼지 농도 간의 높은 상관 관계(상관계수 0.76)가 확인되었다. 추가적으로, 각 시료 채취 지점에서의 sL의 변화가 도로 먼지 농도에 미치는 영향을 평가하기 위해 K-평균 클러스터링 기법을 사용하였다. 클러스터링 결과, 최적의 샘플링 지점이 25m 구간 내에서는 3개, 100m 구간 안에서는 5개의 샘플링 위치로 대표값을 띄는 것으로 도출되었으며 비산먼지 농도의 변화와도 일치하는 것을 보였다. 이러한 방법을 통해 도로 먼지 샘플링의 신뢰성을 높일 수 있었으며, 도로 먼지의 특성을 보다 정확하게 분석할 수 있었고, 인력 수집에 따른 시간적, 공간적인 한계 를 해결할 수 있을 것으로 판단된다. 또한 이는 향후 비산먼지 측정 차량 제작 연구의 기초 자료로 활용될 수 있을 것이다.
세계 해양산업은 자율운항선박 기술의 등장으로 급속도로 발전하고 있으며, 해양 데이터에서 파생된 인공지능 활용에 관한 관 심이 높아지고 있다. 다양한 기술 발전 중에서 선박 항로 군집화는 자율운항선박 상용화를 위한 중요한 기술로 부각되고 있다. 항로 군집 화를 통해 해상에서 선박 항로 패턴을 추출하여 가장 빠르고 안전한 항로를 최적화하고 충돌 방지 시스템의 개발에 기반이 된다. 항로 군 집화 알고리즘의 정확성과 효율성을 보장하기 위해 고품질의 잘 처리된 데이터가 필수적이다. 본 연구에서는 다양한 항로 군집화 방법 중 항로의 실제 형태와 특성을 정확히 반영할 수 있는 선박 항로 유사도 기반 군집화 방식에 주목하였다. 이러한 방식의 효율을 극대화하 기 위해 최적의 데이터 전처리 기술 조합을 구성하고자 한다. 구체적으로, 4가지의 선박 항로 간 유사도 측정법과 3가지의 차원 축소 방 법을 조합하여 연구를 진행하였다. 각 조합에 대해 k-means 군집 분석을 수행하고, 그 결과를 Silhouette Index를 통해 정량적으로 평가하여 최고 성능을 보이는 전처리 기법 조합을 도출하였다. 본 연구는 단순히 최적의 전처리 기법을 찾는 것에 그치지 않고, 광범위한 해양 데 이터에서 의미 있는 정보를 추출하는 과정의 중요성을 강조한다. 이는 4차 산업혁명 시대의 해양 및 해운 산업이 직면한 디지털 전환에 효과적으로 대응하기 위한 기초 연구로서 의의를 갖는다.
PURPOSES : In this study, a preliminary study on the optimal clustering techniques for the preprocessing of pavement management system (PMS) data was conducted using K-means and mean-shift techniques to improve the correlation between the dependent and independent variables of the pavement performance model. METHODS : The PMS data of Jeju Island was preprocessed using the K-means and mean-shift algorithms. In the case of the K-means method, the elbow method and silhouette score were used to determine the optimal number of clusters (K). Moreover, in the case of the mean-shift method, Scott’s rule of thumb and Silverman’s rule of thumb were used to determine the optimal cluster bandwidth. RESULTS : The optimal cluster sets were selected for the rut depth (RD), annual average daily traffic (AADT), and annual maximum temperature (AMT) for each clustering technique, and their similarities with the original data were investigated. Additionally, the correlation improvement between the dependent and independent variables were investigated by calculating the clustering score (CS). Consequently, the K-means method was selected as the optimal clustering technique for the preprocessing of PMS data. The K-means method improved the correlations of more variables with the dependent variable compared to the mean-shift method. The correlations of the variables related to high temperature—such as the annual temperature change, summer days, and heat wave days—were improved in the case wherein the AMT, a climate factor, was used as an independent variable in the K-means clustering method. CONCLUSIONS : The applicability of the clustering methods to preprocessing of PMS data was identified in this study. Improvements in the pavement performance prediction model developed using traditional statistical methods may be identified by developing a model using clustering techniques in a future study.
The issue of marine accidents can be based on the traffic/distribution of vessels in the waterways. These accidents are often associated with human and financial losses and require special attention. Usually, these accidents include collision of two fishing vessels with each other, collision of a fishing vessel with other types of vessels in the course and collision of a fishing vessel with an obstacle in the course (Yancai, et al, 2020). In this article, we first want to deal with analysing the recorded statistical samples in 7 fishing areas in coastal waters of South Korea in 2023, while fuzzy clustering them. Then, according to analysing the sample data and finding the probabilistic structure and the membership of data sets the determined clusters, through Monte Carlo simulation, we will generate similar data in each of the 7 studied regions and model them in unsupervised mode. The generated data by Monte Carlo simulation based on the statistical distribution will able us to study the reality of distribution and possible accident in our target areas and find the model for future demands. We show that how the simulated data reduce the cost of data analysis and deliver us the facts of clusters for fishing vessels collisions. Finally, we reach to the most notified area for preventing the fishing vessels accidents and to make more preparations for reducing the human and costly damages in future activities.
This study utilizes association rule learning and clustering analysis to explore the co-occurrence and relationships within ecosystems, focusing on the endangered brackish-water snail Clithon retropictum, classified as Class II endangered wildlife in Korea. The goal is to analyze co-occurrence patterns between brackish-water snails and other species to better understand their roles within the ecosystem. By examining co-occurrence patterns and relationships among species in large datasets, association rule learning aids in identifying significant relationships. Meanwhile, K-means and hierarchical clustering analyses are employed to assess ecological similarities and differences among species, facilitating their classification based on ecological characteristics. The findings reveal a significant level of relationship and co-occurrence between brackish-water snails and other species. This research underscores the importance of understanding these relationships for the conservation of endangered species like C. retropictum and for developing effective ecosystem management strategies. By emphasizing the role of a data-driven approach, this study contributes to advancing our knowledge on biodiversity conservation and ecosystem health, proposing new directions for future research in ecosystem management and conservation strategies.
인공지능(Artificial Intelligence, AI)은 1950년대 초기개념과 이론을 앨런 튜링이 튜링 테스트를 제안하여 기계가 인간과 같은 수준의 지능을 가질 수 있는지 대한 질문을 던지면서 시작되었다. 1980년대부터 특정 분야의 전문 지식을 모방하여 지원하는 AI 시스템인 전 문가 시스템이 부상하기 시작하면서 Machine Learning이 중요성을 얻기 시작하였다. 특히, Decision Tree, Clustering 그리고 Neural Network Algorithm 등이 연구되기 시작하였다. Clustering 기법은 다양한 분야에서 통계분석에 사용되는 자료를 정제하기 위한 비지도 학습 중 하나로, 군집화 알고리즘을 사용하여 자료의 값(Pointer)들을 특정 그룹으로 분류하는 방법이다. 이러한 Clustering을 활용하여 기존 데이터에서 숨겨진 데이터들의 특성을 파악할 수 있으며, 일정 패턴이나 특징을 가진 데이터들끼리의 군집화를 할 수 있게 된다. 이러한 클러스터링은 다양한 산업 분야에서 적용 및 활용하고 있다. 산업화 이후 미국, 벨기에 등 많은 나라에서 효율적인 도로 관 리를 위해 자국의 특성에 맞는 Pavement Management System (PMS)를 운영하고 있지만 현재 많은 분야에서 적용하고 있는 AI를 활용한 사례가 매우 드물다. 한국에서도 수십년 동안 국토교통부와 한국도로공사에서 PMS를 이용하여 도로를 관리해 왔으며, 최근에 는 몇 개 지자체에서 PMS를 도입하였다. 하지만 한국에서는 오랜 PMS 운영 경험에도 불구하고 AI를 활용하지 않고 전통적 방법인 회귀모형을 활용하여 개발한 공용성 예측모형을 사용하고 있기 때문에 그 성능이 떨어지고 있다. 따라서 본 연구에서는 Machine Learning Clustering 기법을 PMS 자료에 적용이 가능한지 확인하였다. 공용성 예측모형의 종속변수인 Performance Factors와 독립변 수인 Influencing Factors 간의 상관성을 확인할 수 없는 경우 클러스터링을 적용하여 종속변수와 독립변수 간의 상관성을 분명히 나 타내고 회귀분석이 가능하도록 하였다. Delaunay Triangulation을 적용하여 인천광역시 기상관측소의 삼각망을 형성하였다. 삼각망의 각 꼭짓점과 도로 각 지점 간의 거리에 대하여 Inverse Distance Weighted 방법을 적용하여 도로 각 구간의 PMS 자료와 영향인자를 매칭하였다. 클러스터링 기법을 원자료에 적용한 결과 공용성인자와 영향인자 간의 상관성이 분명해졌다. 또한, 클러스터링 이전과 이 후 자료의 확률밀도함수의 분포를 비교하여 클러스터링 이후의 자료가 이전의 대해서 대표성을 갖고 있는지 확인하였다.
This study explores modern portfolio theory by integrating the Black-Litterman portfolio with time-series clustering, specificially emphasizing K-shape clustering methodology. K-shape clustering enables grouping time-series data effectively, enhancing the ability to plan and manage investments in stock markets when combined with the Black-Litterman portfolio. Based on the patterns of stock markets, the objective is to understand the relationship between past market data and planning future investment strategies through backtesting. Additionally, by examining diverse learning and investment periods, it is identified optimal strategies to boost portfolio returns while efficiently managing associated risks. For comparative analysis, traditional Markowitz portfolio is also assessed in conjunction with clustering techniques utilizing K-Means and K-Means with Dynamic Time Warping. It is suggested that the combination of K-shape and the Black-Litterman model significantly enhances portfolio optimization in the stock market, providing valuable insights for making stable portfolio investment decisions. The achieved sharpe ratio of 0.722 indicates a significantly higher performance when compared to other benchmarks, underlining the effectiveness of the K-shape and Black-Litterman integration in portfolio optimization.
2020년 이후 코로나-19로 인해 전 세계적으로 다양한 사회・경제적 문제가 발생하였고, 이로 인해 비대면 문화와 소셜 네트워크 서비스(SNS)를 통한 활동이 급격히 늘어났다. SNS 데이터는 저비용으로 많은 양의 데이터를 확보할 수 있으며, 다양한 정보를 포함하고 있어 도시 계획 및 운영에 활용될 수 있다. 이에 따라, 새로운 방법의 적용이 필요해졌고, 최근 발전한 인공지능 기술을 활용하여 공간 유형의 변화를 설명하는 것이 가능해졌다. 이를 위해 머신러닝 군집화 방법을 사용하여 관광지 분포 패턴 및 도시 관심 지역을 추출할 수 있게 되었다. 기존에는 군집화를 위해 K-means, DBSCAN을 활용해 왔으나. HDBSCAN에 대한 국내 연구 활용 사례는 부족한 상황이다. 따라서, 본 연구는 2019년과 2020년의 서울시 플리커 데이터와 HDBSCAN을 활용하여 도시 관심 지역에 대한 공간 유형의 변화를 설명하고자 하였다. 본 연구에서는 HDBSCAN 방법을 이용하여 플리커 게시물을 군집화하고 도시 관심 지역을 도출하였으며, 실루엣 점수를 통해 각 군집에 대한 군집화 정도를 점수화하였다. 연구 결과, 실제 서울 시내의 도심 및 부도심 등 주요 지점을 따라 군집이 도출되었고, 실루엣 점수를 활용한 평가 결과 군집화 정도가 통계적으로 유의미한 수준으로 계산되었다.
냉매 오충전은 에어컨에서 빈번하게 발생하는 고장 모드 중 하나로, 적정 충전량 대비 부족 및 과충전 모두 냉방 성능의 저하를 유 발하므로 충전된 냉매량을 정확하게 판단하는 것이 중요하다. 본 연구에서는 퍼지 군집화 기법을 통한 정상상태 식별을 통해 냉매 오 충전량을 다중 분류하는 모델을 개발하였다. 정상상태 식별을 위해 에어컨 운전 데이터에 대해 이동 평균 간의 차이를 활용한 퍼지 군 집화 알고리즘을 적용하였으며, IFDR를 통해 기존 연구된 정상상태 판단 기법들과 식별 결과를 비교하였다. 이후, 시스템 내 상관성 을 고려한 mRMR을 이용해 특징을 선택하였으며, 도출된 특징을 이용해 SVM 기반의 다중 분류 모델이 생성되었다. 제안된 방법은 시험 데이터를 통해 만족할 만한 분류 정확도와 강건성을 도출하였다.
PURPOSES : Local governments in Korea, including Incheon city, have introduced the pavement management system (PMS). However, the verification of the repair time and repair section of roads remains difficult owing to the non-existence of a systematic data acquisition system. Therefore, data refinement is performed using various techniques when analyzing statistical data in diverse fields. In this study, clustering is used to analyze PMS data, and correlation analysis is conducted between pavement performance and influencing factors.
METHODS : First, the clustering type was selected. The representative clustering types include K-means, mean shift, and density-based spatial clustering of applications with noise (DBSCAN). In this study, data purification was performed using DBSCAN for clustering. Because of the difficulty in determining a threshold for high-dimensional data, multiple clustering, which is a type of DBSCAN, was applied, and the number of clustering was set up to two. Clustering for the surface distress (SD), rut depth (RD), and international roughness index (IRI) was performed twice using the number of frost days, the highest temperature, and the average temperature, respectively.
RESULTS : The clustering result shows that the correlation between the SD and number of frost days improved significantly. The correlation between the maximum temperature factor and precipitation factor, which does not indicate multicollinearity, improved. Meanwhile, the correlation between the RD and highest temperature improved significantly. The correlation between the minimum temperature factor and precipitation factor, which does not exhibit multicollinearity, improved considerably. The correlation between the IRI and average temperature improved as well. The correlation between the low- and high-temperature precipitation factors, which does not indicate multicollinearity, improved.
CONCLUSIONS : The result confirms the possibility of applying clustering to refine PMS data and that the correlation among the pavement performance factors improved. However, when applying clustering to PMS data refinement, the limitations must be identified and addressed. Furthermore, clustering may be applicable to the purification of PMS data using AI.
Pair trading is a statistical arbitrage investment strategy. Traditionally, cointegration has been utilized in the pair exploring step to discover a pair with a similar price movement. Recently, the clustering analysis has attracted many researchers' attention, replacing the cointegration method. This study tests a clustering-driven pair trading investment strategy in the Korean stock market. If a pair detected through clustering has a large spread during the spread exploring period, the pair is included in the portfolio for backtesting. The profitability of the clustering-driven pair trading strategies is investigated based on various profitability measures such as the distribution of returns, cumulative returns, profitability by period, and sensitivity analysis on different parameters. The backtesting results show that the pair trading investment strategy is valid in the Korean stock market. More interestingly, the clustering-driven portfolio investments show higher performance compared to benchmarks. Note that the hierarchical clustering shows the best portfolio performance.