세계 해양산업은 자율운항선박 기술의 등장으로 급속도로 발전하고 있으며, 해양 데이터에서 파생된 인공지능 활용에 관한 관 심이 높아지고 있다. 다양한 기술 발전 중에서 선박 항로 군집화는 자율운항선박 상용화를 위한 중요한 기술로 부각되고 있다. 항로 군집 화를 통해 해상에서 선박 항로 패턴을 추출하여 가장 빠르고 안전한 항로를 최적화하고 충돌 방지 시스템의 개발에 기반이 된다. 항로 군 집화 알고리즘의 정확성과 효율성을 보장하기 위해 고품질의 잘 처리된 데이터가 필수적이다. 본 연구에서는 다양한 항로 군집화 방법 중 항로의 실제 형태와 특성을 정확히 반영할 수 있는 선박 항로 유사도 기반 군집화 방식에 주목하였다. 이러한 방식의 효율을 극대화하 기 위해 최적의 데이터 전처리 기술 조합을 구성하고자 한다. 구체적으로, 4가지의 선박 항로 간 유사도 측정법과 3가지의 차원 축소 방 법을 조합하여 연구를 진행하였다. 각 조합에 대해 k-means 군집 분석을 수행하고, 그 결과를 Silhouette Index를 통해 정량적으로 평가하여 최고 성능을 보이는 전처리 기법 조합을 도출하였다. 본 연구는 단순히 최적의 전처리 기법을 찾는 것에 그치지 않고, 광범위한 해양 데 이터에서 의미 있는 정보를 추출하는 과정의 중요성을 강조한다. 이는 4차 산업혁명 시대의 해양 및 해운 산업이 직면한 디지털 전환에 효과적으로 대응하기 위한 기초 연구로서 의의를 갖는다.
PURPOSES : In this study, a preliminary study on the optimal clustering techniques for the preprocessing of pavement management system (PMS) data was conducted using K-means and mean-shift techniques to improve the correlation between the dependent and independent variables of the pavement performance model. METHODS : The PMS data of Jeju Island was preprocessed using the K-means and mean-shift algorithms. In the case of the K-means method, the elbow method and silhouette score were used to determine the optimal number of clusters (K). Moreover, in the case of the mean-shift method, Scott’s rule of thumb and Silverman’s rule of thumb were used to determine the optimal cluster bandwidth. RESULTS : The optimal cluster sets were selected for the rut depth (RD), annual average daily traffic (AADT), and annual maximum temperature (AMT) for each clustering technique, and their similarities with the original data were investigated. Additionally, the correlation improvement between the dependent and independent variables were investigated by calculating the clustering score (CS). Consequently, the K-means method was selected as the optimal clustering technique for the preprocessing of PMS data. The K-means method improved the correlations of more variables with the dependent variable compared to the mean-shift method. The correlations of the variables related to high temperature—such as the annual temperature change, summer days, and heat wave days—were improved in the case wherein the AMT, a climate factor, was used as an independent variable in the K-means clustering method. CONCLUSIONS : The applicability of the clustering methods to preprocessing of PMS data was identified in this study. Improvements in the pavement performance prediction model developed using traditional statistical methods may be identified by developing a model using clustering techniques in a future study.
This study explores modern portfolio theory by integrating the Black-Litterman portfolio with time-series clustering, specificially emphasizing K-shape clustering methodology. K-shape clustering enables grouping time-series data effectively, enhancing the ability to plan and manage investments in stock markets when combined with the Black-Litterman portfolio. Based on the patterns of stock markets, the objective is to understand the relationship between past market data and planning future investment strategies through backtesting. Additionally, by examining diverse learning and investment periods, it is identified optimal strategies to boost portfolio returns while efficiently managing associated risks. For comparative analysis, traditional Markowitz portfolio is also assessed in conjunction with clustering techniques utilizing K-Means and K-Means with Dynamic Time Warping. It is suggested that the combination of K-shape and the Black-Litterman model significantly enhances portfolio optimization in the stock market, providing valuable insights for making stable portfolio investment decisions. The achieved sharpe ratio of 0.722 indicates a significantly higher performance when compared to other benchmarks, underlining the effectiveness of the K-shape and Black-Litterman integration in portfolio optimization.
냉매 오충전은 에어컨에서 빈번하게 발생하는 고장 모드 중 하나로, 적정 충전량 대비 부족 및 과충전 모두 냉방 성능의 저하를 유 발하므로 충전된 냉매량을 정확하게 판단하는 것이 중요하다. 본 연구에서는 퍼지 군집화 기법을 통한 정상상태 식별을 통해 냉매 오 충전량을 다중 분류하는 모델을 개발하였다. 정상상태 식별을 위해 에어컨 운전 데이터에 대해 이동 평균 간의 차이를 활용한 퍼지 군 집화 알고리즘을 적용하였으며, IFDR를 통해 기존 연구된 정상상태 판단 기법들과 식별 결과를 비교하였다. 이후, 시스템 내 상관성 을 고려한 mRMR을 이용해 특징을 선택하였으며, 도출된 특징을 이용해 SVM 기반의 다중 분류 모델이 생성되었다. 제안된 방법은 시험 데이터를 통해 만족할 만한 분류 정확도와 강건성을 도출하였다.
Pair trading is a statistical arbitrage investment strategy. Traditionally, cointegration has been utilized in the pair exploring step to discover a pair with a similar price movement. Recently, the clustering analysis has attracted many researchers' attention, replacing the cointegration method. This study tests a clustering-driven pair trading investment strategy in the Korean stock market. If a pair detected through clustering has a large spread during the spread exploring period, the pair is included in the portfolio for backtesting. The profitability of the clustering-driven pair trading strategies is investigated based on various profitability measures such as the distribution of returns, cumulative returns, profitability by period, and sensitivity analysis on different parameters. The backtesting results show that the pair trading investment strategy is valid in the Korean stock market. More interestingly, the clustering-driven portfolio investments show higher performance compared to benchmarks. Note that the hierarchical clustering shows the best portfolio performance.
본 연구는 초등학생의 골연령에 따라 군집화 시켜 각 군집 그룹의 체격, 체력 및 골성숙도를 분석하고 자료 분석을 통해 초등학생들의 균형적인 발달을 위한 기초자료를 제공하는 데 있다. 연구대상은 8세∼13세에 해당하는 2243명을 대상으로 하였으며 골성숙도 산출을 위해 X-ray필름을 촬영한 후 TW3 방법 점수 환산표에 적용시켜 골성숙도를 산출했다. 신장계(Hanebio, Korea, 2021)와 Inbody 270 (Biospace, Korea, 2019)를 사용하여 총 2개의 체격 요소를 측정하였으며, 체력은 근력(악력), 평형성(외발 서기), 민첩성(플랫테핑), 순발력(제자리멀리뛰기), 유연성(좌전굴), 근지구력(윗몸일으키기), 심폐지구력(셔 틀런)으로 총 7개 체력 요소의 종목을 측정하였다. 자료처리 방법은 SPSS PC/Program(Version 26.0)과 Britics Studio Tool을 이용하여 K-Means 클러스터링 기법, 교차분석, 일원변량분석(One-Way ANOVA) 을 실시하였으며, p< .05 수준에서 유의한 것으로 간주하였다. 본 연구의 결과는 다음과 같다. 첫째, 미숙, 보통, 조숙의 3가지 골성숙도를 사용하여 군집화한 결과, 군집 1(미숙)은 근력, 평형성, 민첩성에서 높게 나 타났다. 군집 2(보통)는 유연성에서 낮게 나타났으며, 군집 3(조숙)은 근력에서 높게 나타났다. 둘째, 초등 학생의 개인특성별 군집화에 따른 체격 차이를 분석한 결과, 신장, 체중, 체지방률 모두 군집 3(조숙)이 높 게 나타났다. 셋째, 초등학생의 개인특성별 군집화에 따른 체력 차이를 분석한 결과, 악력검사(좌, 우)는 군 집 3(조숙)이 높게 나타났고 외발서기의 경우 군집 1(미숙)이 높게 나타났으며, 제자리멀리뛰기의 경우 군 집 3(조숙)이 높게 나타났다.
본 연구는 D 대학을 중심으로 DEU-GRIT 검사를 활용하여 대학 신입생의 대학 생활 적응 특성을 분석하는데 그 목적이 있다. 이를 위해, 대학 신입생의 성별과 전공 분야에 따른 대학 생활 적응 수준의 차이를 살펴보고, 대학 생활 적응의 중요한 영역인 학업, 사회, 정서, 진로 적응의 수준을 기반으로 군집화된 대학 신입생의 대학 생활 적응 특성을 살펴보았다. 그리고 DEU-GRIT 검사 규준을 바탕으로 대학 신입생 중 적응에 어려움을 겪는 하위 규준집단을 따로 분류하여 이들의 대학 생활 적응 특성도 살펴보았다. 그 결과, 정서 적응 수준에서 남학생이 여학생에 비해 높은 것으로 나타났으며, 학업 적응과 정서 적응 수준에서 과학기술 전공 분야 학생이 인문사회 전공 분야 학생에 비해 높은 것으로 나타났다. 또한, 대학 생활 적응의 4개 영역 수준을 기준으로 군집 분석을 한 결과, 군집 1은 모든 영역의 적응 수준이 높았지만, 군집 3은 모든 영역의 적응 수준이 낮은 것으로 나타났다. 그리고 군집 2는 정서 적응 수준이 높았지만, 군집 4는 정서 적응 수준이 낮은 것으로 나타났다. 한편, DEU-GRIT 검사의 하위 규준집단에서는 학업 적응과 사회 적응 수준이 남학생보다 여학생에게서 높았으며, 대학 생활 적응 전체 및 학업 적응과 정서 적응 수준이 인문사회 전공 분야 학생보다 과학기술 전공 분야 학생에게서 높은 것으로 나타났다. 또한, 하위 규준집단의 대학 생활 적응의 4개 영역 수준을 기준으로 군집 분석 한 결과, 하위 규준집단 군집 1은 정서 적응 수준이 높았으며, 하위 규준집단 군집 2는 정서 및 진로 적응 수준은 낮고 학업 및 사회 적응 수준은 높은 것으로 나타났다. 그리고 하위 규준집단 군집 3은 모든 영역 수준이 낮았으며, 하위 규준집단 군집 4는 사회 및 정서 적응 수준이 낮고 학업 및 진로 적응 수준이 높은 것으로 나타났다. 이는 대학 신입생의 사회 및 정서 적응 측면에서 성별에 따라 맞춤화된 심리상담 프로그램의 개입이 필요하며, 전공 분야에 따라서는 취업 전망에 대한 기대의 높고 낮음에 따른 상대적 정서 개입의 필요성을 시사한다. 또한, 하위 규준집단의 대학 생활에서 정서 및 사회 적응은 대학 생활 적응의 보호 요인으로 작용할 가능성이 있어 이에 대한 구체적인 개입 방안을 고민할 필요가 있음도 시사한다.
Data on patent and scientific paper is considered as a useful information source for analyzing technological information and has been widely utilized. Technology big data is analyzed in various ways to identify the latest technological trends and predict future promising technologies. Clustering is one of the ways to discover new features by creating groups from technology big data. Patent includes refined bibliographic information such as patent classification code whereas scientific paper does not have appropriate bibliographic information for clustering. This research proposes a new approach for clustering data of scientific paper by utilizing reference titles in each scientific paper. In this approach, the reference titles are considered as textual information because each reference consists of the title of the paper that represents the core content of the paper. We collected the scientific paper data, extracted the title of the reference, and conducted clustering by measuring the text-based similarity. The results from the proposed approach are compared with the results using existing methodologies that one is the approach utilizing textual information from titles and abstracts and the other one is a citation-based approach. The suggested approach in this paper shows statistically significant difference compared to the existing approaches and it shows better clustering performance. The proposed approach will be considered as a useful method for clustering scientific papers.
현 경비 함정의 위치는 해양사고 위치와의 접근성이 떨어져 있어 합리적이고 과학적인 기준이 아닌 주관적인 판단으로 배치되 어 있다. 이에 본 연구에서는 과거 해양사고 데이터를 기반으로 정량적으로 최적의 경비 함정 배치 위치를 도출하고자 한다. 연구 해역은 포항 연안을 대상으로 하였다. 본 연구에서는 k-평균 군집화 알고리즘으로 경비 함정의 배치 위치를 도출한 후, 보로노이 다이어그램으로 각 경비 함정 간 경비 구역을 구획하였다. 연구 결과, 해양사고 1건당 경비 함정의 평균 항해 거리는 4.4해리, 평균 도착 시간은 13.2분이 개선될 수 있었다. 경비 함정을 유동적으로 배치 수를 달리해야 할 경우 본 연구에서 적용한 기법을 활용하여 최적 배치가 가능하며, 신 속한 구조 지원 체계가 더욱 확보될 것으로 판단된다.
In this paper, we consider curriculum mining as an application of process mining in the domain of education. The basic objective of the curriculum mining is to construct a registration pattern model by using logs of registration data. However, subject registration patterns of students are very unstructured and complicated, called a spaghetti model, because it has a lot of different cases and high diversity of behaviors. In general, it is typically difficult to develop and analyze registration patterns. In the literature, there was an effort to handle this issue by using clustering based on the features of students and behaviors. However, it is not easy to obtain them in general since they are private and qualitative. Therefore, in this paper, we propose a new framework of curriculum mining applying K-means clustering based on subject attributes to solve the problems caused by unstructured process model obtained. Specifically, we divide subject’s attribute data into two parts : categorical and numerical data. Categorical attribute has subject name, class classification, and research field, while numerical attribute has ABEEK goal and semester information. In case of categorical attribute, we suggest a method to quantify them by using binarization. The number of clusters used for K-means clustering, we applied Elbow method using R-squared value representing the variance ratio that can be explained by the number of clusters. The performance of the suggested method was verified by using a log of student registration data from an ‘A university’ in terms of the simplicity and fitness, which are the typical performance measure of obtained process model in process mining.
Several fields of science have demanded large-scale workflow support, which requires thousands of CPU cores or more. In order to support such large-scale scientific workflows, high capacity parallel systems such as supercomputers are widely used. In order to increase the utilization of these systems, most schedulers use backfilling policy: Small jobs are moved ahead to fill in holes in the schedule when large jobs do not delay. Since an estimate of the runtime is necessary for backfilling, most parallel systems use user’s estimated runtime. However, it is found to be extremely inaccurate because users overestimate their jobs. Therefore, in this paper, we propose a novel system for the runtime prediction based on workload-aware clustering with the goal of improving prediction performance. The proposed method for runtime prediction of parallel applications consists of three main phases. First, a feature selection based on factor analysis is performed to identify important input features. Then, it performs a clustering analysis of history data based on self-organizing map which is followed by hierarchical clustering for finding the clustering boundaries from the weight vectors. Finally, prediction models are constructed using support vector regression with the clustered workload data. Multiple prediction models for each clustered data pattern can reduce the error rate compared with a single model for the whole data pattern. In the experiments, we use workload logs on parallel systems (i.e., iPSC, LANL-CM5, SDSC-Par95, SDSC-Par96, and CTC-SP2) to evaluate the effectiveness of our approach. Comparing with other techniques, experimental results show that the proposed method improves the accuracy up to 69.08%.
As Internet has been wildly spreaded and it's technique is advanced, the use of computers has been routinized and almost data are stored in computers. Accordingly, many companies and researchers have tried to find the relations in these tremendous data and the one way is to use clustering algorithm which is used to find out similar data set in the entire data set and to discover the common properties. In early period, clustering algorithm was performed based on a main memory of a computer and PAM(Partitioning Around Medoids) was representative, which can be complemented k-means algorithm defeat. PAM performs clustering by using the medoid of data instead of means. PAM works well in small data set but it is difficult to apply it to large data set. Therefore, CLARA(Clutering LARge Application) shows up to be used in large data set. This algorithm samples data from large data set and applies PAM to the sample data. CLARA has limits caused by the fixed samples in each clustering stage and has a problem that if the good mediod is not sampled then the result of the clustering becomes not good. CLARANS(Clustering Large Application based upon Randomized Search) overcomes these problems by drawing a sample with some randomness. This algorithm executes clustering using k mediod set extracted in the processing of clustering in each stage. The main objective is to compare and analyze the algorithms which are popularly used for the clustering of big data.
효율적인 악취관리를 위해서는 민원지역에서 발생한 악취를 분류하고, 그 악취원을 분 석해야 한다. 이를 위해서는 민원지역에서 발생한 악취를 나타낼 수 있는 악취대표패턴과 악취원의 냄새가 필요하다. 이에 본 논문에서는 민원지역의 악취분류를 위해 k-mean 알고리즘을 이용하여 악취데이 터에 대한 군집화를 수행하였다. 그 결과 생성된 악취대표패턴과 미리 측정된 악취원별 냄새와의 유사도를 비교하여 악취에 대한 분류를 수행하였다. 또한, 대기 중에서 여러 악 취가 섞였을 경우를 고려하여 non-negative least square를 이용하여 해당 악취에 대해 책임 이 있는 하나 이상의 악취원과 기여도를 추적하였다. 이러한 본 연구의 성과는 악취 관련 민원해결에 기여할 것으로 사료된다.
논문에서는 하천 수위 감지용 CCD카메라에서 입력된 동영상에서 다리 기둥 영역과 물 영역을 구분하여 수위를 감지하는 방법을 제안한다. 하천 영상에서는 다리 기둥이 있고 그 사이로 강물이 흐르기 때문에, 물이 흐르는 부분에서만 강한 움직임이 발생하게 된다. 따라서, 본 논문에서는 optical flow를 사용하여 강물의 움직임을 감지하고 움직임이 감지된 픽셀들을 Y축으로 투영시켜 움직임 누적 히스토그램을 생성한다. 이후, 생성된 움직임 누적 히스토그램에 대해 K-means 군집화를 적용 시킨다. 단순히 기둥 영역과 물 영역을 구분하기 위해서는 K=2인 K-means 군집화를 수행하면 되지만, 기둥 영역과 물보라가 심한 부분, 물이 잔잔하게 흐르는 부분으로 나누기 위해서 K=3인 K-means 군집화를 수행한다. K-means 군집화에 의해 3개의 군집으로 나뉜 히스토그램에서 위쪽 첫 번째 군집과 두 번째 군집의 경계를 검출하면 그 부분이 곧 하천의 수위가 된다. 본 논문에서는 K=2, K=3일 경우의 K-means 군집화를 사용한 방법과 기존의 CCD카메라 기반의 수위감지알고리즘을 비교 실험하였고, 실험 결과 기존의 연구보다 움직임백터와 K-means 군집화 방법을 결합한 방법이 가장 좋은 성능을 보여 주었다.