        2023.12
        This study explores modern portfolio theory by integrating the Black-Litterman portfolio with time-series clustering, specificially emphasizing K-shape clustering methodology. K-shape clustering enables grouping time-series data effectively, enhancing the ability to plan and manage investments in stock markets when combined with the Black-Litterman portfolio. Based on the patterns of stock markets, the objective is to understand the relationship between past market data and planning future investment strategies through backtesting. Additionally, by examining diverse learning and investment periods, it is identified optimal strategies to boost portfolio returns while efficiently managing associated risks. For comparative analysis, traditional Markowitz portfolio is also assessed in conjunction with clustering techniques utilizing K-Means and K-Means with Dynamic Time Warping. It is suggested that the combination of K-shape and the Black-Litterman model significantly enhances portfolio optimization in the stock market, providing valuable insights for making stable portfolio investment decisions. The achieved sharpe ratio of 0.722 indicates a significantly higher performance when compared to other benchmarks, underlining the effectiveness of the K-shape and Black-Litterman integration in portfolio optimization.
        2022.12
        냉매 오충전은 에어컨에서 빈번하게 발생하는 고장 모드 중 하나로, 적정 충전량 대비 부족 및 과충전 모두 냉방 성능의 저하를 유 발하므로 충전된 냉매량을 정확하게 판단하는 것이 중요하다. 본 연구에서는 퍼지 군집화 기법을 통한 정상상태 식별을 통해 냉매 오 충전량을 다중 분류하는 모델을 개발하였다. 정상상태 식별을 위해 에어컨 운전 데이터에 대해 이동 평균 간의 차이를 활용한 퍼지 군 집화 알고리즘을 적용하였으며, IFDR를 통해 기존 연구된 정상상태 판단 기법들과 식별 결과를 비교하였다. 이후, 시스템 내 상관성 을 고려한 mRMR을 이용해 특징을 선택하였으며, 도출된 특징을 이용해 SVM 기반의 다중 분류 모델이 생성되었다. 제안된 방법은 시험 데이터를 통해 만족할 만한 분류 정확도와 강건성을 도출하였다.
        2022.09
        Pair trading is a statistical arbitrage investment strategy. Traditionally, cointegration has been utilized in the pair exploring step to discover a pair with a similar price movement. Recently, the clustering analysis has attracted many researchers' attention, replacing the cointegration method. This study tests a clustering-driven pair trading investment strategy in the Korean stock market. If a pair detected through clustering has a large spread during the spread exploring period, the pair is included in the portfolio for backtesting. The profitability of the clustering-driven pair trading strategies is investigated based on various profitability measures such as the distribution of returns, cumulative returns, profitability by period, and sensitivity analysis on different parameters. The backtesting results show that the pair trading investment strategy is valid in the Korean stock market. More interestingly, the clustering-driven portfolio investments show higher performance compared to benchmarks. Note that the hierarchical clustering shows the best portfolio performance.
        2022.02
        본 연구는 초등학생의 골연령에 따라 군집화 시켜 각 군집 그룹의 체격, 체력 및 골성숙도를 분석하고 자료 분석을 통해 초등학생들의 균형적인 발달을 위한 기초자료를 제공하는 데 있다. 연구대상은 8세∼13세에 해당하는 2243명을 대상으로 하였으며 골성숙도 산출을 위해 X-ray필름을 촬영한 후 TW3 방법 점수 환산표에 적용시켜 골성숙도를 산출했다. 신장계(Hanebio, Korea, 2021)와 Inbody 270 (Biospace, Korea, 2019)를 사용하여 총 2개의 체격 요소를 측정하였으며, 체력은 근력(악력), 평형성(외발 서기), 민첩성(플랫테핑), 순발력(제자리멀리뛰기), 유연성(좌전굴), 근지구력(윗몸일으키기), 심폐지구력(셔 틀런)으로 총 7개 체력 요소의 종목을 측정하였다. 자료처리 방법은 SPSS PC/Program(Version 26.0)과 Britics Studio Tool을 이용하여 K-Means 클러스터링 기법, 교차분석, 일원변량분석(One-Way ANOVA) 을 실시하였으며, p< .05 수준에서 유의한 것으로 간주하였다. 본 연구의 결과는 다음과 같다. 첫째, 미숙, 보통, 조숙의 3가지 골성숙도를 사용하여 군집화한 결과, 군집 1(미숙)은 근력, 평형성, 민첩성에서 높게 나 타났다. 군집 2(보통)는 유연성에서 낮게 나타났으며, 군집 3(조숙)은 근력에서 높게 나타났다. 둘째, 초등 학생의 개인특성별 군집화에 따른 체격 차이를 분석한 결과, 신장, 체중, 체지방률 모두 군집 3(조숙)이 높 게 나타났다. 셋째, 초등학생의 개인특성별 군집화에 따른 체력 차이를 분석한 결과, 악력검사(좌, 우)는 군 집 3(조숙)이 높게 나타났고 외발서기의 경우 군집 1(미숙)이 높게 나타났으며, 제자리멀리뛰기의 경우 군 집 3(조숙)이 높게 나타났다.
        2020.09
        본 연구는 D 대학을 중심으로 DEU-GRIT 검사를 활용하여 대학 신입생의 대학 생활 적응 특성을 분석하는데 그 목적이 있다. 이를 위해, 대학 신입생의 성별과 전공 분야에 따른 대학 생활 적응 수준의 차이를 살펴보고, 대학 생활 적응의 중요한 영역인 학업, 사회, 정서, 진로 적응의 수준을 기반으로 군집화된 대학 신입생의 대학 생활 적응 특성을 살펴보았다. 그리고 DEU-GRIT 검사 규준을 바탕으로 대학 신입생 중 적응에 어려움을 겪는 하위 규준집단을 따로 분류하여 이들의 대학 생활 적응 특성도 살펴보았다. 그 결과, 정서 적응 수준에서 남학생이 여학생에 비해 높은 것으로 나타났으며, 학업 적응과 정서 적응 수준에서 과학기술 전공 분야 학생이 인문사회 전공 분야 학생에 비해 높은 것으로 나타났다. 또한, 대학 생활 적응의 4개 영역 수준을 기준으로 군집 분석을 한 결과, 군집 1은 모든 영역의 적응 수준이 높았지만, 군집 3은 모든 영역의 적응 수준이 낮은 것으로 나타났다. 그리고 군집 2는 정서 적응 수준이 높았지만, 군집 4는 정서 적응 수준이 낮은 것으로 나타났다. 한편, DEU-GRIT 검사의 하위 규준집단에서는 학업 적응과 사회 적응 수준이 남학생보다 여학생에게서 높았으며, 대학 생활 적응 전체 및 학업 적응과 정서 적응 수준이 인문사회 전공 분야 학생보다 과학기술 전공 분야 학생에게서 높은 것으로 나타났다. 또한, 하위 규준집단의 대학 생활 적응의 4개 영역 수준을 기준으로 군집 분석 한 결과, 하위 규준집단 군집 1은 정서 적응 수준이 높았으며, 하위 규준집단 군집 2는 정서 및 진로 적응 수준은 낮고 학업 및 사회 적응 수준은 높은 것으로 나타났다. 그리고 하위 규준집단 군집 3은 모든 영역 수준이 낮았으며, 하위 규준집단 군집 4는 사회 및 정서 적응 수준이 낮고 학업 및 진로 적응 수준이 높은 것으로 나타났다. 이는 대학 신입생의 사회 및 정서 적응 측면에서 성별에 따라 맞춤화된 심리상담 프로그램의 개입이 필요하며, 전공 분야에 따라서는 취업 전망에 대한 기대의 높고 낮음에 따른 상대적 정서 개입의 필요성을 시사한다. 또한, 하위 규준집단의 대학 생활에서 정서 및 사회 적응은 대학 생활 적응의 보호 요인으로 작용할 가능성이 있어 이에 대한 구체적인 개입 방안을 고민할 필요가 있음도 시사한다.
        2020.06
        Data on patent and scientific paper is considered as a useful information source for analyzing technological information and has been widely utilized. Technology big data is analyzed in various ways to identify the latest technological trends and predict future promising technologies. Clustering is one of the ways to discover new features by creating groups from technology big data. Patent includes refined bibliographic information such as patent classification code whereas scientific paper does not have appropriate bibliographic information for clustering. This research proposes a new approach for clustering data of scientific paper by utilizing reference titles in each scientific paper. In this approach, the reference titles are considered as textual information because each reference consists of the title of the paper that represents the core content of the paper. We collected the scientific paper data, extracted the title of the reference, and conducted clustering by measuring the text-based similarity. The results from the proposed approach are compared with the results using existing methodologies that one is the approach utilizing textual information from titles and abstracts and the other one is a citation-based approach. The suggested approach in this paper shows statistically significant difference compared to the existing approaches and it shows better clustering performance. The proposed approach will be considered as a useful method for clustering scientific papers.
        2017.12
        현 경비 함정의 위치는 해양사고 위치와의 접근성이 떨어져 있어 합리적이고 과학적인 기준이 아닌 주관적인 판단으로 배치되 어 있다. 이에 본 연구에서는 과거 해양사고 데이터를 기반으로 정량적으로 최적의 경비 함정 배치 위치를 도출하고자 한다. 연구 해역은 포항 연안을 대상으로 하였다. 본 연구에서는 k-평균 군집화 알고리즘으로 경비 함정의 배치 위치를 도출한 후, 보로노이 다이어그램으로 각 경비 함정 간 경비 구역을 구획하였다. 연구 결과, 해양사고 1건당 경비 함정의 평균 항해 거리는 4.4해리, 평균 도착 시간은 13.2분이 개선될 수 있었다. 경비 함정을 유동적으로 배치 수를 달리해야 할 경우 본 연구에서 적용한 기법을 활용하여 최적 배치가 가능하며, 신 속한 구조 지원 체계가 더욱 확보될 것으로 판단된다.
        2015.12
        In this paper, we consider curriculum mining as an application of process mining in the domain of education. The basic objective of the curriculum mining is to construct a registration pattern model by using logs of registration data. However, subject registration patterns of students are very unstructured and complicated, called a spaghetti model, because it has a lot of different cases and high diversity of behaviors. In general, it is typically difficult to develop and analyze registration patterns. In the literature, there was an effort to handle this issue by using clustering based on the features of students and behaviors. However, it is not easy to obtain them in general since they are private and qualitative. Therefore, in this paper, we propose a new framework of curriculum mining applying K-means clustering based on subject attributes to solve the problems caused by unstructured process model obtained. Specifically, we divide subject’s attribute data into two parts : categorical and numerical data. Categorical attribute has subject name, class classification, and research field, while numerical attribute has ABEEK goal and semester information. In case of categorical attribute, we suggest a method to quantify them by using binarization. The number of clusters used for K-means clustering, we applied Elbow method using R-squared value representing the variance ratio that can be explained by the number of clusters. The performance of the suggested method was verified by using a log of student registration data from an ‘A university’ in terms of the simplicity and fitness, which are the typical performance measure of obtained process model in process mining.
        2015.09
        Several fields of science have demanded large-scale workflow support, which requires thousands of CPU cores or more. In order to support such large-scale scientific workflows, high capacity parallel systems such as supercomputers are widely used. In order to increase the utilization of these systems, most schedulers use backfilling policy: Small jobs are moved ahead to fill in holes in the schedule when large jobs do not delay. Since an estimate of the runtime is necessary for backfilling, most parallel systems use user’s estimated runtime. However, it is found to be extremely inaccurate because users overestimate their jobs. Therefore, in this paper, we propose a novel system for the runtime prediction based on workload-aware clustering with the goal of improving prediction performance. The proposed method for runtime prediction of parallel applications consists of three main phases. First, a feature selection based on factor analysis is performed to identify important input features. Then, it performs a clustering analysis of history data based on self-organizing map which is followed by hierarchical clustering for finding the clustering boundaries from the weight vectors. Finally, prediction models are constructed using support vector regression with the clustered workload data. Multiple prediction models for each clustered data pattern can reduce the error rate compared with a single model for the whole data pattern. In the experiments, we use workload logs on parallel systems (i.e., iPSC, LANL-CM5, SDSC-Par95, SDSC-Par96, and CTC-SP2) to evaluate the effectiveness of our approach. Comparing with other techniques, experimental results show that the proposed method improves the accuracy up to 69.08%.
        2014.04
        As Internet has been wildly spreaded and it's technique is advanced, the use of computers has been routinized and almost data are stored in computers. Accordingly, many companies and researchers have tried to find the relations in these tremendous data and the one way is to use clustering algorithm which is used to find out similar data set in the entire data set and to discover the common properties. In early period, clustering algorithm was performed based on a main memory of a computer and PAM(Partitioning Around Medoids) was representative, which can be complemented k-means algorithm defeat. PAM performs clustering by using the medoid of data instead of means. PAM works well in small data set but it is difficult to apply it to large data set. Therefore, CLARA(Clutering LARge Application) shows up to be used in large data set. This algorithm samples data from large data set and applies PAM to the sample data. CLARA has limits caused by the fixed samples in each clustering stage and has a problem that if the good mediod is not sampled then the result of the clustering becomes not good. CLARANS(Clustering Large Application based upon Randomized Search) overcomes these problems by drawing a sample with some randomness. This algorithm executes clustering using k mediod set extracted in the processing of clustering in each stage. The main objective is to compare and analyze the algorithms which are popularly used for the clustering of big data.
        2013.12
        효율적인 악취관리를 위해서는 민원지역에서 발생한 악취를 분류하고, 그 악취원을 분 석해야 한다. 이를 위해서는 민원지역에서 발생한 악취를 나타낼 수 있는 악취대표패턴과 악취원의 냄새가 필요하다. 이에 본 논문에서는 민원지역의 악취분류를 위해 k-mean 알고리즘을 이용하여 악취데이 터에 대한 군집화를 수행하였다. 그 결과 생성된 악취대표패턴과 미리 측정된 악취원별 냄새와의 유사도를 비교하여 악취에 대한 분류를 수행하였다. 또한, 대기 중에서 여러 악 취가 섞였을 경우를 고려하여 non-negative least square를 이용하여 해당 악취에 대해 책임 이 있는 하나 이상의 악취원과 기여도를 추적하였다. 이러한 본 연구의 성과는 악취 관련 민원해결에 기여할 것으로 사료된다.
        2011.09
        논문에서는 하천 수위 감지용 CCD카메라에서 입력된 동영상에서 다리 기둥 영역과 물 영역을 구분하여 수위를 감지하는 방법을 제안한다. 하천 영상에서는 다리 기둥이 있고 그 사이로 강물이 흐르기 때문에, 물이 흐르는 부분에서만 강한 움직임이 발생하게 된다. 따라서, 본 논문에서는 optical flow를 사용하여 강물의 움직임을 감지하고 움직임이 감지된 픽셀들을 Y축으로 투영시켜 움직임 누적 히스토그램을 생성한다. 이후, 생성된 움직임 누적 히스토그램에 대해 K-means 군집화를 적용 시킨다. 단순히 기둥 영역과 물 영역을 구분하기 위해서는 K=2인 K-means 군집화를 수행하면 되지만, 기둥 영역과 물보라가 심한 부분, 물이 잔잔하게 흐르는 부분으로 나누기 위해서 K=3인 K-means 군집화를 수행한다. K-means 군집화에 의해 3개의 군집으로 나뉜 히스토그램에서 위쪽 첫 번째 군집과 두 번째 군집의 경계를 검출하면 그 부분이 곧 하천의 수위가 된다. 본 논문에서는 K=2, K=3일 경우의 K-means 군집화를 사용한 방법과 기존의 CCD카메라 기반의 수위감지알고리즘을 비교 실험하였고, 실험 결과 기존의 연구보다 움직임백터와 K-means 군집화 방법을 결합한 방법이 가장 좋은 성능을 보여 주었다.
        2005.05
        최근 전자상거래나 웹 컨텐츠 사이트가 늘어나면서 웹 로그 정보를 분석하여 사용자 행동 패턴이나 사이트 구조를 분석하기 위한 연구가 활발하게 이루어지고 있다. 웹 사이트에 접속함으로써 발생되는 누적된 로그를 데이터 마이닝 기법을 이용하여 사용자 행동 패턴을 분석하여 효과적으로 이용하려는 연구는 다양한 웹 컨텐츠 정보 안에서 고객이 진정으로 원하는 정보를 얻기까지 소요되는 시간과 노력을 절약하기 위한 고객 지원 서비스의 차원에서 중요한 문제로 대두되고 있다. 그러나 이러한 연구들 또한 개인화와 고객의 구매성향의 변화에 대한 실시간 대응이라는 두 가지 관점에서 해결방안을 동시에 제시하지 못하고 있다. 본 논문에서는 ART2 신경망 알고리즘을 통해 실시간적이고 방대한 량의 웹 로그 데이터를 효과적으로 군집화하기 위하여 군집화 특성을 평가하고자 한다.
        2019.12
        A new algorithm has been propose to detect the reflected light region as disturbances in a real-time vision system. There have been several attempts to detect existing reflected light region. The conventional mathematical approach requires a lot of complex processes so that it is not suitable for a real-time vision system. On the other hand, when a simple detection process has been applied, the reflected light region can not be detected accurately. Therefore, in order to detect reflected light region for a real-time vision system, the detection process requires a new algorithm that is as simple and accurate as possible. In order to extract the reflected light, the proposed algorithm has been adopted several filter equations and clustering processes in the HSI (Hue Saturation Intensity) color space. Also the proposed algorithm used the pre-defined reflected light data generated through the clustering processes to make the algorithm simple. To demonstrate the effectiveness of the proposed algorithm, several images with the reflected region have been used and the reflected regions are detected successfully.
