When two raters assign discrepant ratings in writing assessments, a method of resolving the differences should be applied to improve the accuracy of scores reported to examinees (operational scores). The present study, in an attempt to locate the most effective resolution method for the current context where not only experienced but also novice raters participate in assessment, examined tertium quid method as compared to averaged original scores of experienced and novice raters. The results of paired t-tests and interrater reliability estimates for seven pairs of raters showed that the ratings of experienced and novice raters were significantly different from each other. To investigate the accuracy of averaged and tertium quid scores, Pearson correlation was conducted by correlating the two resolved scores with criterion score (standard for decision making). Tertium quid scores correlated much higher with the criterion than the averaged scores across seven sets of scores for all six categories (Content, Organization, Style and Quality of Expression, Language Use, Mechanics, and Fluency), thereby providing a positive evidence for tertium quid method as score resolution. The study suggests for future research that it is not sufficient enough to test the efficacy of resolution methods without considering sources of rater variability.
본 연구의 목적은 고등학교 교육과정에서 사용되고 있는 지구과학 불일치 용어를 조사하고 그 대안을 탐색하는 데 있다. 고등학교 지구과학 교과서에서 같은 의미를 지니면서 다른 용어를 사용하는 경우 이를 불일치 용어로 정의하였다. 불일치 용어를 참고문헌과 선행 연구의 용어와 비교한 후, 284명의 교사와 학생을 대상으로 선호도를 조사하였다. 연구 결과 불일치 용어는 고등학교 교과서는 물론 참고문헌에서도 다수 조사되었다. 선호도 조사 결과 의미가 쉽게 전달될 수 있는 용어, 이전에 학습한 용어, 외래어 표기법에 맞는 용어에 대한 선호도가 높았다. 그리고 고유명의 표기가 다르거나 서로 다른 문헌과 배경 지식에 기반하고 있는 불일치 용어는 외래어 표기법과 학회 발간물에 근거하여 대안을 모색할 수 있다. 따라서 공인된 이론에 근거하고 의미 전달이 쉬운 지구과학 용어를 공유하여 사용함으로써 혼란을 해소할 수 있을 것이다.