현대 해양 산업은 기술적 발전을 통해 신속한 발전을 이루고 있다. 이러한 발전을 주도하는 주요 기술 중 하나는 데이터 처리 기술이며, 이 중 자연어 처리 기법은 사람의 언어를 기계가 이해하고 처리할 수 있도록 하는 기술이다. 본 연구는 자연어 처리 기법을 통해 해양안전심판원의 재결서를 분석하여 이미 재결이 이루어진 선박 충돌사고의 원인 제공 비율을 학습한 후, 새로운 재결서를 입력 하면 원인 제공 비율을 예측하는 모델을 개발하고자 하였다. 이 모델은 사고 당시 적용되는 항법과 원인 제공 비율에 영향을 주는 핵심 키워드의 가중치를 이용하여 사고의 원인 제공 비율을 계산하는 방식으로 구성하였다. 이 연구는 이러한 방식을 통해 제작한 모델의 정 확도를 분석하고, 모델의 실무 적용 가능성을 검토함과 동시에 충돌사고 재발 방지 및 해양사고 당사자들의 분쟁 해결에 기여할 것으로 기대한다.
The development of Features, Events, and Processes (FEPs) and scenarios, which consider the longterm evolution of repository, is underway, along with the construction of input data and a model database for the adaptive process-based total system performance assessment framework, APro. PAPiRUS serves as an integrated information processing platform, enabling users to seamlessly access, search, and extract essential information. To enhance data usability, it is crucial to establish well-structured metadata for each dataset. Regarding FEPs, individual FEPs consist of extensive text-based data and sets of other short textual data. To enhance the searchability of these FEPs, precise keywords must be assigned to each FEP. For user convenience, the PAPiRUS FEP database contains several FEPs not only the long-term evolution FEPs developed by KAERI but also thousands of FEPs form the databases such as NEA PFEPs and Posiva FEPs. Generating keywords for thousands of FEPs proves to be a labor-intensive task. Consequently, this study explores natural language processing techniques for keyword analysis to boost the productivity of the keyword generation process. Specifically, we employ Generative Pretrained Transformer (GPT) models for keyword extraction. Our test results for keyword extraction demonstrate that, although not flawless, providing suitable prompts yields sufficiently useful keyword sets. We identified several optimal prompts and developed an Excel-based program to derive keywords from the existing FEP database using these prompts. By using the outcomes of this study, initial versions of keyword sets for thousands of FEPs can be rapidly produced and subsequently refined through expert review and editing. The generated keywords will serve as metadata within PAPiRUS.
본 연구는 최근 20년간(2001~2020) 소나무에 관한 주요 연구 주제 및 연구영역 분석을 통한 향후 연구 방향성을 파악하고자 하였다. 이를 위해 Python.3.9.0과 Textom를 활용하여 RISS와 Web of Science의 소나무 관련 총 3866편의 논문 제목과 키워드 데이터를 수집하고 분석을 실시하였다. 분석 결과, 국가별 총 논문 수는 일본 383편(46.8%), 한국 363편(44.4%), 중국 78편(9.5%)순으로 소나무 자생국가를 중심으로 한 관련 연구들이 활발히 진행되었다. 단어 빈도 및 TF-IDF, N-gram, CONCOR 분석을 통해 국내와 국외에서 소나무 관련 주요 연구 주제는 소나무재 선충으로 나타났으며, 사회 및 경제적 환경, 관련 정책 등 차이에 의해 국내와는 달리 국외에서는 '균근' 관련 연구가 주요 연구 영역으로 도출되었다. 또한 소나무 관련 연구는 일부 인문 사회학적인 연구들이 진행되었지만 주로 생태적인 측면에 집중되어 있는 것으로 나타 났다. 이에 소나무의 인문·사회학적 가치를 고려할 때 향후 연구에서는 이와 관련 후속연구가 필요할 것으로 판단된다.
The paper introduces KorLex, Korean WordNet, which uses Princeton WordNet (PWN) as a reference model as well as a pivot that provides KorLex with the multilingual interface. Sub-section 2.1 describes the background for which we intended to build KorLex by ourselves, and the motivations for which we selected PWN as a reference model among other wordnets. Sub-sections 2.2 and 2.3 deal with the semantic features that share both PWN and KorLex, and the linguistic features that we attach to KorLex in order to improve Korean Language Processing (KLP). Section 3 presents two representative applications of KorLex in the field of Natural Language Processing: (1) in KLP environment, <Korean Spell/Grammar Checker (KSGC)> that we have developed for the last 30 years, and for which we decided to elaborate KorLex version 1.5 and to attach the sophisticate information of Korean language to the version 2.0; (2) in multilingual environment, <Korean-Korean_Sign_Language Machine Translation (K2KSL MT)>, which would not be successfully developed without the hierarchical semantic structure of KorLex as well as PWN, since the hierarchy enables K2KSL MT to solve logically the notorious ‘data sparseness (= lack of lexicon)’ problem that KSL encounters during the translation process, like in other bilingual or multilingual MT systems.
정보통신 기술의 발전과 더불어 기계번역, 음성인식, 언어자료 데이터베이스(DB) 구축 등 언어처리 시스템의 실현에 있어서 자연언어처리(NLP)의 중요성이 커지고 있다. 이에 본 연구에서는 한·중 문법구조 대응 방법에 대한 자연언어처리의 정확도를 높이기 위한 방법을 모색하고자 ‘있다’에 대응하는 중국어 단어인 ‘有,在,着’를 중심으로 한국어와 중국어의 대응 구조를 분석하였다. 이와 관련하여 한국인 중국어 학습자들이 자주 범하는 오류 유형에 대해 Google 번역을 시도하고 그 결과를 분석하여 오류를 수정·보완할 수 있는 해결 방안을 제시 하였다. 본 연구가 한국어와 중국어를 위한 전산시스템을 구축하는 데 도움이 되길 기대한다.