해상에서의 안전한 의사소통은 선박 운항의 핵심 요소로, 국제해사기구(IMO)는 SMCP(Standard Marine Communication Phrases)를 제정하여 선내외 교신에서 활용할 수 있도록 하였다. SMCP를 포함한 해사영어는 효과적이고 정확한 의사소통을 위해 일반 영어와는 다 른 문법적, 어휘적, 구조적 특성을 반영하고 있으며, 간결성과 명확성에 초점이 맞추어져 표준화되어 있다. 이러한 맥락에서 본 연구는 상 용 LLM 모델의 해사영어 활용 능력을 PHP Text Similarity 알고리즘과 BERT 기반 모델을 활용하여 평가하였다. 먼저 ChatGPT, Google Gemini, Meta LLaMA 3 70B Instruct 모델을 대상으로 SMCP 기반 문장 구성, 용어 정의, 빈칸 채우기 문제를 포함한 총 60문항을 활용하여 성능을 비교 분석하였다. 이후 해사고등학교 학생들의 시험 결과와 LLM 모델의 결과를 비교하여, LLM이 실제 해기사 교육 수준과 비교 했을 때 어느 정도의 해사영어 이해 및 문장 구성 능력을 갖추었는지 평가하였다. 대체적으로 LLM 모델들은 높은 정답률을 보였으나, 표 준화된 문구를 정확하게 활용하거나 관용적으로 사용되는 해사영어 표현을 이해하고 적용하는 데 한계점이 있음을 확인하였다. 본 연구 는 해기교육기관 및 실무 현장에서 상용 LLM 모델의 해사영어 활용 가능성을 평가하는 기초 자료로 활용될 수 있을 것으로 기대되며, 향 후 보다 정교한 모델을 대상으로 추가연구가 필요하다.
평균법과 클러스터링은 다속성 평가문제에서 널리 쓰이고 있는 중요한 데이터 마이닝 기법들이다. 그러나, 다양한 다속성 평가 문제에서 데이터 마이닝을 할 때, 데이터들의 특징은 그 중요성이 달라질 수 있기 때문에 이러한 데이터의 중요도 차이를 고려해야 할 필요가 있다. 따라서, 이러한 기법들은 데이터의 선택 및 중요도 등과 같이 그 특징을 얼마나 잘 반영하는 지가 중요하다. 게다가, 산술평균법의 경우에는 우선순위 및 가중치로 정의되는 평가구조에서 적합한 결과를 산출하기에는 한계가 있을뿐 만 아니라, 평가자 그룹별 특징을 반영하기 곤란하다. 따라서, 본 연구에서는 기하학적 도형을 바탕으로 유사도를 평가하여, 평가자 그룹별로 특징지어지는 이산적인 환경에서의 평균을 산출하는 알고리즘을 제안하였다. 본 알고리즘의 핵심사항 중 하나는, 항목별 우선순위의 혼돈없이 유사도를 평가할 수 있다는 점이다.