논문 상세보기

OCR 프로그램을 활용한 선박 항해일지 데이터 추출 모델 개발 KCI 등재

Development of a Ship’s Logbook Data Extraction Model Using OCR Program

  • 언어KOR
  • URLhttps://db.koreascholar.com/Article/Detail/432584
구독 기관 인증 시 무료 이용이 가능합니다. 4,200원
해양환경안전학회지 (Journal of the Korean Society of Marine Environment and Safety)
해양환경안전학회 (The Korean Society Of Marine Environment & Safety)
초록

빠르게 발전하는 이미지 인식 기술에도 불구하고 표 형식의 문서와 수기로 작성된 문서를 완벽하게 디지털화하기에는 아직 어려움이 따른다. 본 연구는 표 형식의 수기 문서인 선박 항해일지를 작성하는 데에 사용되는 규칙을 이용하여 보정 작업을 수행함으로 써 OCR 결과물의 정확도를 향상시키고자 한다. 이를 통해 OCR 프로그램을 통하여 추출된 항해일지 데이터의 정확성과 신뢰성을 높일 것 으로 기대된다. 본 연구는 목포해양대학교 실습선 새누리호의 2023년에 항해한 57일간의 항해일지 데이터를 대상으로 OCR 프로그램 인 식 후 발생한 오류를 보정하여 그 정확도를 개선하고자 하였다. 이 모델은 항해일지 기재 시 고려되는 몇 가지 규칙을 활용하여 오류를 식별한 후, 식별된 오류를 보정하는 방식으로 구성하였다. 모델을 활용하여 오류를 보정 후, 그 효과를 평가하고자 보정 전과 후의 데이터 를 항차별로 구분한 후, 같은 항차의 같은 변수끼리 비교하였다. 본 모델을 활용하여 실제 셀 오류율은 약 11.8% 중 약 10.6%의 오류를 식 별하였고, 123개의 오류 중 56개를 개선하였다. 본 연구는 항해일지 중 항해정보를 기입하는 Dist.Run부터 Stand Course까지의 정보만을 대 상으로 수행하였다는 한계점이 있으므로, 추후 항해정보 뿐만 아니라 기상정보 등 항해일지의 더 많은 정보를 보정하기 위한 연구를 진 행할 예정이다.

Despite the rapid advancement in image recognition technology, achieving perfect digitization of tabular documents and handwritten documents still challenges. The purpose of this study is to improve the accuracy of digitizing the logbook by correcting errors by utilizing associated rules considered during logbook entries. Through this, it is expected to enhance the accuracy and reliability of data extracted from logbook through OCR programs. This model is to improve the accuracy of digitizing the logbook of the training ship "Saenuri" at the Mokpo Maritime University by correcting errors identified after Optical Character Recognition (OCR) program recognition. The model identified and corrected errors by utilizing associated rules considered during logbook entries. To evaluate the effect of model, the data before and after correction were divided by features, and comparisons were made between the same sailing number and the same feature. Using this model, approximately 10.6% of errors out of the total estimated error rate of about 11.8% were identified, and 56 out of 123 errors were corrected. A limitation of this study is that it only focuses on information from Dist.Run to Stand Course sections of the logbook, which contain navigational information. Future research will aim to correct more information from the logbook, including weather information, to overcome this limitation.

목차
1. 서 론
2. 연구의 방법
    2.1 데이터 수집
    2.2 데이터 보정
    2.3 모델 평가
3. 결과 및 토의
    3.1 데이터 보정
    3.2 모델 평가
    3.3 결과에 대한 토의
4. 결 론
저자
  • 이다인(목포해양대학교 해상운송시스템학부 석사과정) | Dain Lee (Graduate Student, Department of Maritime Transportation System, Mokpo National Maritime University, Mokpo 58628, Korea)
  • 김성철(목포해양대학교 승선실습과정부 교수) | Sung-Cheol Kim (Professor, Division of Cadet Training, Mokpo National Maritime University, Mokpo 58628, Korea)
  • 윤익현(목포해양대학교 항해정보시스템학부 교수) | Ik-Hyun Youn (Professor, Division of Navigation & Information Systems, Mokpo National Maritime University, Mokpo 58628, Korea) Corresponding author