        본 연구는 역삼투 해수담수화 플랜트의 실 데이터 분석을 통해 에너지 소모를 줄이는 방안을 제안한다. 이를 위해 10,000m3/d 이상의 플랜트를 대상으로 70여개의 데이터를 수집하고 분석하였다. 역삼투 해수담수화 플랜트의 에너지 소모는 에너지회수장치 발전으로 인해 크게 감소하였으나 각 요인에 따라 다른 값을 보였다. 에너지 소모는 유입수 수질에 영향을 받고, 높은 수질의 생산수를 얻기 위해선 더 많은 에너지가 소모됨을 확인하였다. 또한, 플랜트 규모가 커지면 에너지 소모가 줄어든다고 알려져 있으나 반드시 그런 것은 아니며, 역삼투시스템 운영 시 에너지 소모가 최소가 되는 회수율이 있음을 알아냈다. 마지막으로 에너지 소모와 관련된 요인을 정리하고 이를 바탕으로 저에너지 소모를 위한 3가지 방안을 제시한다.
        The base quality score recalibration (BQSR) is an important step in the variant calling from high-throughput sequence data. Motivated by the fact that BQSR necessarily requires a database of known variants such as the dbSNP, we present an extensive analysis on BQSR results for human and rice genome. We showed that the recalibration results depended on the size of the database. The more variants are there in the database, the larger averaged value of the recalibrated quality scores is obtained. This implies that the recalibrated quality score is lower than it should be when the number of variants in the database is not large enough. Based on the finding that the size of the database should play a crucial role in BQSR, we proposed a method to create a database when the size of a database is not large enough for BQSR results to be reliable. We demonstrated that, in the case of human, the database constructed by the proposed method generated almost the same results as the human dbSNP. In the case of rice, however, we showed that the proposed database is more reasonable than the rice dbSNP by illustrating how the proposed method is effective.
        최근 대한민국에서는 사회·경제적으로 지위가 있는 사람들의 비윤리적 행위인 ‘갑 질’이 사회적 문제로 대두되고 있다. 사회적 지위를 가진 사람이 비도덕적 행위 혹은 범죄를 저지를 때마다 미디어에 ‘갑질’이라는 용어가 빈도 높게 사용되고 있다. 이에 본 연구에서는 ‘갑질’ 행위를 범죄학적 관점(화이트칼라 범죄이론)과 개인 성격적 관점(화이트칼라 사이코패스이론)으로 비교하여 분석해보고자 한다. ‘갑질’을 범죄학적 관점으로 설명하면 ‘갑질’의 행위자는 대부분 사회적으로 지위가 높은 개인 또는 집단 이라는 점에서 사회적 위치가 중요요인인 화이트칼라 범죄와 부분적으로 일치한다. 개인 성격적인 관점인 화이트칼라 사이코패스이론을 통해 ‘갑질’을 해석하면 ‘갑질’ 행위자의 사회적 지위를 배제하고 개인의 성격특질인 충동성, 폭발적 분노 등을 ‘갑질’의 원인으로 보아 ‘갑질’ 행위자가 화이트칼라 사이코패스의 성격특질을 지녔다고 볼 수 있다. 이를 위해 빅데이터 분석을 사용해 2013년부터 2018년까지의 네이버 뉴 스기사와 소셜미디어의 한 종류인 Twitter 기록의 문자파일을 수집하여 각 파일 안에서 사용된 특정 단어와 중복되어 사용된 단어들의 빈도를 추적하였다. 연차별로 150개 의 단어를 선발해 상위 50위까지의 단어를 분석한 결과, 사회적 특성을 나타내는 단어들이 개인적 성격특질을 나타내는 단어들보다 많은 수를 보였다. 이를 통해 대중의 ‘갑 질’에 대한 인식은 행위자 개인의 성격특성보다 행위자의 직업과 지위 등 사회적 특성 에 더 집중함을 알 수 있었다. 이 결과는 대중들이 ‘갑질’ 사건을 보는 시선은 앞선 두 가지 범죄이론 중 화이트칼라 범죄이론에 더 부합하는 것으로 해석할 수 있다.
        With the recent development of manufacturing technology and the diversification of consumer needs, not only the process and quality control of production have become more complicated but also the kinds of information that manufacturing facilities provide the user about process have been diversified. Therefore the importance of big data analysis also has been raised. However, most small and medium enterprises (SMEs) lack the systematic infrastructure of big data management and analysis. In particular, due to the nature of domestic manufacturing companies that rely on foreign manufacturers for most of their manufacturing facilities, the need for their own data analysis and manufacturing support applications is increasing and research has been conducted in Korea. This study proposes integrated analysis platform for process and quality analysis, considering manufacturing big data database (DB) and data characteristics. The platform is implemented in two versions, Web and C/S, to enhance accessibility which perform template based quality analysis and real-time monitoring. The user can upload data from their local PC or DB and run analysis by combining single analysis module in template in a way they want since the platform is not optimized for a particular manufacturing process. Also Java and R are used as the development language for ease of system supplementation. It is expected that the platform will be available at a low price and evolve the ability of quality analysis in SMEs.
        This study conducted to predict the stock market prices based on the assumption that internet news articles might have an impact and effect on the rise and fall of stock market prices. The internet news articles were tested to evaluate the accuracy by comparing predicted values of the actual stock index and the forecasting models of the companies. This paper collected stock news from the internet, and analyzed and identified the relationship with the stock price index. Since the internet news contents consist mainly of unstructured texts, this study used text mining technique and multiple regression analysis technique to analyze news articles. A company H as a representative automobile manufacturing company was selected, and prediction models for the stock price index of company H was presented. Thus two prediction models for forecasting the upturn and decline of H stock index is derived and presented. Among the two prediction models, the error value of the prediction model ① is low, and so the prediction performance of the model ① is relatively better than that of the prediction model ②. As the further research, if the contents of this study are supplemented by real artificial intelligent investment decision system and applied to real investment, more practical research results will be able to be developed.
        This paper proposed data driven techniques to forecast the time point of water management of the water reservoir without measuring manganese concentration with the empirical data as Juam Dam of years of 2015 and 2016. When the manganese concentration near the surface of water goes over the criteria of 0.3mg/l, the water management should be taken. But, it is economically inefficient to measure manganese concentration frequently and regularly. The water turnover by the difference of water temperature make manganese on the floor of water reservoir rise up to surface and increase the manganese concentration near the surface. Manganese concentration and water temperature from the surface to depth of 20m by 5m have been time plotted and exploratory analyzed to show that the water turnover could be used instead of measuring manganese concentration to know the time point of water management. Two models for forecasting the time point of water turnover were proposed and compared as follow: The regression model of CR20, the consistency ratio of water temperature, between the surface and the depth of 20m on the lagged variables of CR20 and the first lag variable of max temperature. And, the Box-Jenkins model of CR20 as ARIMA (2, 1, 2).
        본 논문에서는 한국형 이내비게이션 프로젝트의 사고취약선박 모니터링 지원서비스 중 상황대응 및 상황관리 프로토타입 모델을 개발하였다. 프로토타입 모델 개발을 위해서 해사데이터 교환 표준 현황과 S-100 표준 데이터 모델 개발 절차를 분석하고 개발 절차에 따라 서비스의 요구사항 분석 및 관련 표준을 참고하여 상황대응 및 상황관리 모델에 대한 프로토타입 어플리케이션 스키마를 개발하고, S-100 표준에 맞추어 프로토타입 피쳐 카탈로그와 프로토타입 포트레이얼 카탈로그를 제작하였다. 개발된 프로토타입 데이터 모델의 검증을 위해서 광양항을 기반으로 테스트 데이터셋을 제작하고, S-100 기반 데이터의 유효성 검증을 위한 소프트웨어를 통해 검증한 결과 모든 데이터가 유효함을 확인하였으며, S-100 뷰어에서 정확한 위치에 지정된 심볼이 표출됨을 확인하였다.
        본 연구는 SNS를 통해 사용자들이 표현하는 감성을 공간적으로 어떻게 나타낼 수 있는지를 연구하고자 하였다. 이를 위해 트윗데이터를 이용하여 현대인이 느끼는 스트레스라는 현상의 시도별 차이를 분석하였다. 트윗데이터는 2014년 7월 12일부터 2015년 7월 21일까지 총 503,737건의 데이터를 다운받고, 이 가운데 광고와 뉴스를 제외한 332,328건을 분석대상으로 하였다. 트윗데이터 분석을 위해 트윗의 텍스트를 형태소로 구분하고, 스트레스에 대한 토픽을 파악하기 위해 LDA알고리즘을 기반으로 하는 토픽모델링을 실시하였으며, 그 결과 15개의 토픽이 생성되었다. 15개의 토픽에는 스트레스 원인관련 “성격”, “학업”, “직무”, “가정”, “SNS사용” 토픽이 포함되었으며, 스트레스 결과에는 “질병”, “심리적상태”, “두피 및 탈모” 토픽이 포함되었다. 스트레스 해소방법 주제에는 “그림”, “게임”, “운동 및 문화생활”, “음식섭취”, “노래 등”의 토픽이 포함되었다. 트윗데이타의 분석대상 332,328 건 가운데 거주지역이 명확히 기재된 경우는 1,035개에 불과하여 거주지역 유추모델을 통해 시도별로 34,641개의 트윗에 위치를 부여하였다. 토픽모델링 결과를 시도별로 분석하여 시도별 최대 개수와 최소 개수 토픽명을 확인하고, 토픽을 스트레스 원인, 결과, 해소방법 3가지 주제로 구분하여 시도별로 어떤 토픽에 높은 관심을 가지고 있는지를 비교하였다. 본 논문은 스트레스라는 사회적 병리현상에 대해 사람들의 느낌과 이를 표현하는 방법, 이들의 지역차를 규명했다는데 의의가 있으며 비가시적 감성적 현상을 지도화하여 공간데이터의 장을 확장시켰다는데 의의가 있다.
        본 논문에서는 차량용 반도체가 제품 출하 후 사용 환경에 따라 발생되는 불량률을 데이터 마이닝 기법을 이용하여 분석하였다. 20세기 이후 가장 보편적인 이동 수단인 자동차는 전자 컨트롤 장치와 자동차용 반도체의 사용량이 급격히 증가하면서 매우 빠른 속도로 진화하고 있다. 자동차용 반도체는 차량용 전자 컨트롤 장치 중 핵심 부품으로 소비자들에게 안정성, 연료 사용의 효율성, 운전의 안정감을 제공하기 위해 사용되고 있다. 자동차용 반도체는 가솔린엔진, 디젤 엔진, 전기 모터를 컨트롤하는 기술, 헤드업 디스플레이, 차선 유지 시스템 등 많은 부분에 적용되고 있다. 이와 같이 반도체는 자동차를 구성하는 거의 모든 전자 컨트롤 장치에 적용되고 있으며 기계적인 장치를 단순히 조합한 이상의 효과를 만들어 내고 있다. 자동차용 반도체는 10년 이상의 자동차 사용 기간을 고려하여 높은 신뢰성, 내구성, 장기공급 등의 특성을 요구하고 있다. 자동차용 반도체의 신뢰성은 자동차의 안전성과 직접적으로 연결되기 때문이다. 반도체업계에서는 JEDEC과 AEC 등의 산업 표준 규격을 이용하여 자동차용 반도체의 신뢰성을 평가하고 있다. 또한 자동차 산업에서 표준으로 제시한 신뢰성 실험 방법과 그 결과를 이용하여 개발 초기 단계 및 제품 양산 초기 단계에서 제품의 수명을 예측 하고 있다. 하지만 고객의 다양한 사용 조건 및 사용 시간 등 여러 변수들에 의해 발생되는 불량률을 예측하는 데는 한계가 있다. 이러한 한계점을 극복하기 위하여 학계와 산업계에서 많은 연구가 있어왔다. 그 중 데이터 마이닝 기법을 이용한 연구가 다수의 반도체 분야에서 진행되고 있지만, 아직 자동 차용 반도체에 대한 적용 및 연구는 미비한 상태이다. 이러한 관점에서 본 연구는 데이터 마이닝 기법을 이용하여 반도체 조립(Assembly) 과 패키지 테스트(Package test) 공정 중 발생 된 데이터들간의 연관성을 규명하고, 고객 불량 데이터를 이용하여 잠재 불량률 예측에 적합한 데이터 마이닝 기법을 검증하였다.
        해양사고 감소를 위해 다양한 연구들이 수행되어 왔다. 그에 비해 준해양사고에 대한 연구는 미미한 수준에 그치고 있다.준해 양사고는 건수가 많은 대신 내용이 정성적이기 때문에 분석하기에는 현실적인 어려움이 있었다. 하지만 해양사고 감소를 위해서는 준해 양사고의 정량적인 분석이 필요하다. 이번 논문의 목적은 준해양사고 경향을 예측하고 해양사고를 감소시키기 위해 빅데이터 기법을 적용하여 준해양사고 데이터를 정량적으로 분석하는 것이다. 이를 위해 10,000여건의 준해양사고 보고서를 전처리 작업을 통해 통일된 양식 으로 정리하였다. 전처리된 데이터에 대해서 1차적으로, 텍스트마이닝 기법을 적용하여 항해 중 준해양사고 발생원인에 대한 주요 키워드를 도출하였다. 주요 키워드에 대해 2차로 시계열 및 클러스터 분석을 통해 발생할 수 있는 준해양사고 상황에 대한 경향 예측을 도출 하였다. 이번 연구에서는 정성적 자료인 준해양사고 보고서를 빅데이터 기법을 활용하여 정량화된 데이터로 전환할 수 있고, 이를 통해 통계적 분석이 가능함을 확인하였다. 또한 빅데이터 기법을 통해 차 후 발생할 수 있는 준해양사고에 대한 객관적인 경향을 파악함으로써 예방 대책에 대한 정보 제공이 가능함을 확인할 수 있었다.
        The study on the database for the noise of the large machine and high power machine. The object of this project is to prepare the countermeasure of the health care according to investigate and database the basic information of the large machine and high power machine. To accomplish the object ; The dimension and noise of the large machine, which is mounted in the factory, was investigated. And the prediction and measurement method of the noise for the machine by manufacturers were investigated. The database of the noise by the machine type and power was built. The measurement and management methods for the machine noise were considered. The database of the noise was built from the measurement data. The major sound sources and frequency range for the large machine and the high power machine were investigated. The noise effect by the large machine and the high power machine was investigated. The application fields are; The setting of the management plan of the noise which generates from the large machine and the high power machine. The effective noise reduction for the major sound source with low cost. The application as the frequency transition considering the psycho-acoustics characteristics.
        본 연구에서는 커피(C. Arabica)의 FT-IR 스펙트럼 데이터 를 기반한 다변량통계분석을 이용한 대사체 분석을 통해 품종 식별을 하여 육종 연구에 기초자료로 활용하고자 한다. 1. FT-IR 스펙트럼 데이터를 이용한 PCA(principal component analysis), PLS-DA(partial least square discriminant analysis) 그리고 HCA(hierarchical clustering analysis) 분석을 통해 품종 분류가 가능하였다. 2. 커피 품종들은 FT-IR 스펙트럼 부위인 1700-1500-1 (Amide I 과 II을 포함하는 아미노산 및 단백질계열의 화합물 들), 1500-1300-1 (phosphodiester group을 포함한 핵산 및 인지질의 정보), 1100-950cm-1 (단당류나 복합 다당류를 포함하는 carbohydrates 계열의 화합물)에서 질적, 양적 정보의 차이가 나타났다. 3. PCA 상에 나타난 8품종의 커피 품종이 각각 그룹을 형성하였다. 그 중 ‘Caturra’와 ‘Mahsellesa’ 품종은 각각의 그룹을 나타내면서 C. arabica 종에서도 다른 대사체 정보를 나타내는 것으로 확인하였고, ‘Catuai’, ‘CR-95’, ‘Geisra’, ‘Obata’, ‘Vemecia’ 그리고 ‘non’ 품종은 유사한 대사체 정보를 나타내는 것으로 확인하였다. 4. PLS-DA 분석의 경우 PCA 분석 보다 커피 품종간 식별이 뚜렷하게 나타났다. 5. 본 연구에서 확립된 대사체 수준에서 커피의 품종 식별 기술은 품종, 계통의 신속한 선발 수단으로 활용이 가능할 것으로 기대되며 육종을 통한 품종개발 가속화에 기여 할 수 있을 것으로 예상된다.
        목적 : 본 연구는 국가치매관리사업과 관련된 공공데이터를 수집하여 치매안심센터에서 시행되는 작업치료 의 비용편익분석을 통해 미래의 국가치매관리사업의 효율화 방안을 모색하고자 한다. 연구방법 : 2016년 1월부터 12월까지의 국가치매관리사업 관련 공공데이터를 정보공개 창구를 이용하여 수집하였다. 수집된 자료를 토대로 작업치료 비용편익분석을 위한 각종 변수를 정의하고, 빈도분석 및 산술계산으로 변수의 값을 산출했다. 결과 : 우리나라에서 서울은 모든 자치구에서 치매관리사업을 시행하고 있고, 사업수행인원 전원이 전담인력으로 배치되어 있다. 특히 작업치료 전담인력을 치매안심센터의 96.0%에 배치하여 치매안심센터 서비스에서 작업치료를 제공하고 있다. 치매안심센터에서 시행되는 작업치료의 순 편익은 작업치료 전담인력이 배치된 경우 서울에서 약 73억 원으로 산출되었다. 결론 : 서울과 같은 형태로 국가치매관리사업 사업을 확대하고, 작업치료 전담인력을 통한 프로그램 시행으로 치매관리비용을 절감하는 효과가 있을 것으로 기대된다. 치매 국가책임제 추진으로 치매관리사업이 국가 단위의 보건사업으로 발돋움하고 있는 지금 한정된 보건의료자원을 효율적으로 사용하기 위해서는 치매안심센터에서 작업치료의 확대가 필요할 것으로 보인다.
        In recent years, the diminishing of operation and maintenance cost using advanced maintenance technology is attracting many companies’ attention. Especially, the heavy machinery industry regards it as a crucial problem since a failure of heavy machinery requires high cost and long downtime. To improve the current maintenance process, the heavy machinery industry tries to develop a methodology to predict failure in advance and to find its causes using usage data. A better analysis of failure causes requires more data so that various kinds of sensor are attached to machines and abundant amount of product usage data is collected through the sensor network. However, the systemic analysis of the collected product usage data is still in its infant stage. Many previous works have focused on failure occurrence as statistical data for reliability analysis. There have been less works to apply product usage data into root cause analysis of product failure. The product usage data collected while failures occur should be considered failure cause analysis. To do this, this study proposes a methodology to apply product usage data into failure cause analysis. The proposed methodology in this study is composed of several steps to transform product usage into failure causes. Various statistical analysis combined with product usage data such as multinomial logistic regression, T-test, and so on are used for the root cause analysis. The proposed methodology is applied to field data coming from operated locomotive and the analysis result shows its effectiveness.
        K-means algorithm is one of the most popular and widely used clustering method because it is easy to implement and very efficient. However, this method has the limitation to be used with fixed number of clusters because of only considering the intra-cluster distance to evaluate the data clustering solutions. Silhouette is useful and stable valid index to decide the data clustering solution with number of clusters to consider the intra and inter cluster distance for unsupervised data. However, this valid index has high computational burden because of considering quality measure for each data object. The objective of this paper is to propose the fast and simple speed-up method to overcome this limitation to use silhouette for the effective large-scale data clustering. In the first step, the proposed method calculates and saves the distance for each data once. In the second step, this distance matrix is used to calculate the relative distance rate (Vj) of each data j and this rate is used to choose the suitable number of clusters without much computation time. In the third step, the proposed efficient heuristic algorithm (Group search optimization, GSO, in this paper) can search the global optimum with saving computational capacity with good initial solutions using Vj probabilistically for the data clustering. The performance of our proposed method is validated to save significantly computation time against the original silhouette only using Ruspini, Iris, Wine and Breast cancer in UCI machine learning repository datasets by experiment and analysis. Especially, the performance of our proposed method is much better than previous method for the larger size of data.
        The purpose of this study was to make a pants pattern suitable for women 70 to 85 years of age, then analyze that- pattern’s shape, size, appearance, fit, allowance and air gap. Participants made the pattern using 3D simulation program DC Suite version 5.1. The results suggest a design method suitable for the lower-body shapes of elderly women. In external appearance, the A-type earned the highest evaluation in all items except the allowance of the back waist and back hip. The L type earned the highest evaluation in the allowance of back waist and hips. The A-type’s, back waist appeared set at an angle that did not match the body shape of an old-old aged woman in the center-back-line setting. Therefore, the pattern method of A-type combined with L-type’s method of center back, produces an excellent pants pattern. Evaluation of the air gaps among patterns revealed that; the A-type showed the largest air gap in waist and hip circumference and the smallest air gap in thigh circumference. The waists, abdomen, and hip circumferences of older women often become larger while their legs become slimmer. This study accounted for those factors in determining a pattern suitable for the lower-body shape of old-old aged women. However, participants only analyzed four patterns and compared them with women 70 to 85, years of age. Therefore, it is necessary to develop industrial patterns applicable to a wide age group.
        In this paper, we propose an Elman recurrent neural network to predict and analyze a time series of gas energy consumption in an air handling unit. To this end, we consider the volatility of the time series and demonstrate that there exists a correlation in the time series of the volatilities, which suggests that the gas consumption time series contain a non-negligible amount of the non-linear correlation. Based on this finding, we adopt the Elman recurrent neural network as the model for the prediction of the gas consumption. As the simplest form of the recurrent network, the Elman network is designed to learn sequential or time-varying pattern and could predict learned series of values. The Elman network has a layer of “context units” in addition to a standard feedforward network. By adjusting two parameters in the model and performing the cross validation, we demonstrated that the proposed model predicts the gas consumption with the relative errors and the average errors in the range of 2%~5% and 3kWh~8kWh, respectively. The results of this study can be used to the energy management system in terms of the effective control of the cross usage of the electric and the gas energies.