논문 상세보기

한국 건축구조공학 분야 특화 SAFE 데이터베이스 구축과 MAXIM 검색 기법을 활용한 RAG 시스템 성능 평가 KCI 등재

Construction of the SAFE Database Specialized for Korean Structural Engineering and Performance Evaluation of a Retrieval Augmented Generation System Using the MAXIM Method

  • 언어KOR
  • URLhttps://db.koreascholar.com/Article/Detail/446661
구독 기관 인증 시 무료 이용이 가능합니다. 4,000원
한국전산구조공학회 논문집 (Journal of the Computational Structural Engineering Institute of Korea)
한국전산구조공학회 (Computational Structural Engineering Institute of Korea)
초록

본 연구는 한국 건축・구조공학 도메인에 특화된 SAFE(Safetyoriented AI Framework for Engineering) 지식베이스와 이를 활용한 검 색 증강 생성(RAG) 시스템을 제안한다. SAFE는 전문용어집, 설계 기준, 교과서, 프로젝트 보고서에서 추출한 37.7만개 스니펫을 통 합하여 국내 구조설계기준(KDS)과 최신 실무 사례를 포괄한다. SAFE 기반 파이프라인은 5개 대표 과업(MMLUStruct, Struct QAKO, SPED, StructMCQA, StructCaseY/N)으로 구성된 4,200문항 벤치마크에서 전체 정확도 89.1%를 기록하여, 체인오브생각(CoT) 방식 의 최고 성능 LLM 대비 3.87%p 향상 효과를 나타냈다 . 특히 국내 기준・실무 판정 과업인 StructCaseY/N에서 94.9%의 정확도를 달성 하였다 . 절편 분석 결과, 질의당 32개 스니펫을 투입할 때 정확도와 응답 지연 간 최적 균형점이 형성되며, 그 이상에서는 성능 개선 대 비 비용이 급격히 감소함을 확인하였다. 또한 질문 유형별로 최적 정보 출처가 상이함을 규명하여, 도메인 맞춤형 코퍼스 가중치 조정 의 필요성을 제시하였다. 본 연구는 국내 최초의 구조공학 RAG 평가 체계를 확립함으로써, 안전 중심 AI 의사결정 지원 도구의 실무 적용 가능성을 입증하고 향후 연구의 기반을 마련하였다.

The rapid advancement of large language models (LLMs) presents both significant opportunities and notable challenges to structural‐ engineering practice. To evaluate their reliability within a Korean context, we introduce safety-oriented AI framework for engineering (SAFE) —a domain-specific benchmark that integrates a 377 K-snippet knowledge base with 4,200 expert-designed questions drawn from five representative datasets (MMLU-Struct, StructQA-KO, SPED, StructMCQA, StructCase-Y/N). We used SAFE to analyze several Retrieval‑Augmented Generation (RAG) pipelines that differed in corpus structure, retriever architecture, and LLM family. The optimal configuration—a StructCorpus combined with a StructCPT retriever (MAXIM) feeding an ensemble GPT‑4o generator—achieved an overall accuracy of 89.1%, representing a 3.87-percentage‑point improvement over the strongest baseline LLM employing chain‑of‑thought prompting alone (85.2%). Performance peaked at 94.9% on the StructCase‑Y/N task, which assesses compliance with domestic building standards through practical, case‑based questions. Ablation studies revealed that retrieving approximately 32 snippets per query offers the optimal balance between accuracy and latency, whereas larger context windows yield diminishing returns. These results confirm that a well-curated structural‐engineering knowledge base, combined with a domain‑specialized retriever, significantly reduces hallucination and enhances answer fidelity. Accordingly, SAFE represents the first large‑scale evaluation framework specifically designed for Korean structural engineering and provides a reproducible platform for advancing research on safety‑critical AI decision support.

목차
Abstract
1. 서 론
2. 관련 연구(Related Research)
    2.1 구조공학 분야의 AI 및 LLM 활용
    2.2 검색 증강 생성(RAG) 기술
    2.3 도메인 특화 RAG 시스템 및 벤치마크
3. 지식베이스(SAFE) 구축
4. 성능 평가 및 분석
    4.1 코퍼스 종류 및 검색 기법에 따른 성능 비교
    4.2 검색 스니펫 수에 따른 성능 향상
    4.3 스니펫 수가 응답 정확도와 처리 지연에 미치는 영향
    4.4 과업별 정보 출처 분포
5. 결론 및 향후 과제
감사의 글
References
요 지
저자
  • 허석재(단국대학교 리모델링연구소 연구교수) | Seok-Jae Heo (Research Professor, Seismic Retrofitting and Remodeling Research Center, Dankook University, Yongin, 16890, Korea)
  • 최원준(단국대학교 리모델링연구소 연구교수) | Won-Jun Choi (Research Professor, Seismic Retrofitting and Remodeling Research Center, Dankook University, Yongin, 16890, Korea)
  • 이상현(단국대학교 건축학부 교수) | Sang-Hyun Lee (Professor, Department of Architectural Engineering, Dankook University, Yongin, 16890, Korea) Corresponding author