Exploring the Feasibility of ChatGPT-Based Scoring of Elementary Pre-Service Teachers’ Assessment Responses on Seasonal Changes
본 연구의 목적은 초등 예비교사가 작성한 ‘계절의 변화’ 단원 평가 답안을 대상으로 ChatGPT 기반 채점의 가 능성과 한계를 탐색하는 데 있다. 이를 위해 ‘자연과학개론’ 지구와 우주 영역 강좌에서 수집한 평가 답안을 연구 자료 로 활용하고, 동일 문항과 채점 기준을 적용해 인간 채점과 ChatGPT-4o 기반 채점을 실시하였다. 이후 두 채점 결과를 비교해 문항별 평균 점수와 전체 총점의 전반적 경향을 살펴보고, 응답 해석과 기준 적용의 관점에서 ChatGPT의 채점 근거를 함께 검토해 응답 표현 양식에 따른 특징을 질적으로 분석하였다. 분석 결과, 계절 변화의 원인이나 관련 개념을 텍스트로 명시적으로 설명한 응답에서는 인간 채점과 ChatGPT 기반 채점 사이에 전반적으로 유사한 점수 경향이 나타났다. 위도 분포나 태양의 남중고도 변화처럼 공간적 관계를 그림이나 도식으로 표현한 응답에서는 채점 결과 차이 가 상대적으로 크게 나타났다. 또한 텍스트 중심 응답에서는 ChatGPT가 답안 전체에 포함된 개념 단서를 폭넓게 반영 하는 경향을 보였으며, 그림·도식을 포함한 응답에서는 텍스트로 명시한 설명에 더 높은 비중을 두는 경향이 나타났다. 이는 생성형 인공지능이 텍스트 정보 기반 응답 해석과 기준 적용에서는 일정한 일관성을 보이지만, 시각적·공간적 표 상을 포함한 응답을 종합적으로 해석하고 평가하는 데에는 한계 가능성이 있음을 시사한다. 이러한 결과는 생성형 인공 지능의 초등 과학 평가 보조 도구 활용 가능성과 함께, 평가 문항 유형을 고려한 신중한 적용 필요성을 보여준다.
The purpose of this study was to explore the possibilities and limitations of ChatGPT-based scoring of assessment responses written by pre-service elementary teachers in Seasonal Change unit. To this end, assessment responses collected from pre-service elementary teachers enrolled in the Earth and Space section of the Introduction to Natural Science course were used as research data, and both human scoring and ChatGPT-4o-based scoring were conducted on the same responses. The two sets of scoring results were then compared in terms of the overall patterns of item-level mean scores and total scores, and the interpretation and criteria-application features that emerged according to response representation mode were analyzed. The results showed that, for responses that explicitly explained the causes of seasonal change or related concepts in text, human scoring and ChatGPT-based scoring generally exhibited similar score patterns. In contrast, for responses that expressed spatial relationships such as latitude distribution or changes in the Sun’s culmination altitude through drawings or diagrams, the differences in the scoring results were relatively greater. In addition, in text-centered responses, ChatGPT tended to broadly reflect conceptual cues contained throughout the response, In contrast, for responses that included drawings or diagrams, it tended to assign scores by placing greater weight on explicitly stated textual explanations. This suggests that while generative artificial intelligence demonstrates a certain degree of consistency in interpreting responses and applying criteria based on textual information, it may also show limitations in comprehensively interpreting and evaluating responses that include visual and spatial representations. These findings indicate that generative artificial intelligence may be used as a tool to support teachers’ scoring judgments in elementary science assessment, while also raising the need for cautious application that considers assessment item types.