Studies on automatic scoring systems in writing assessments have also evaluated the relationship between human and machine scores for the reliability of automated essay scoring systems. This study investigated the magnitudes of indices for inter-rater agreement and discrepancy, especially regarding human and machine scoring, in writing assessment. The mean of the overall population correlation between automated and human scoring in essay writing was .78. The overall common d effect size was 0.001. Results from this meta-analysis indicated a strong relationship with no discrepancies between automated and human scoring. Both the I2 and Q values suggested that the population correlation values studied seemed to be heterogeneous, in contrast to homogenous d effect sizes. Therefore, it is necessary to investigate the sources of the between-studies variations for r correlations. Practical implications for ways of reporting results of automatic-scoring systems research and limitations of the study are also discussed.
목적 : 본 연구의 목적은 활동분석과 프로세스 맵핑을 기반으로 한 Korean version of Modified Barthel Index(K-MBI) 가이드북을 제작하여 내용 타당도와 평가자 간 신뢰도 및 일치도를 확인하고자 하였다.
연구방법 : 본 연구에서는 활동분석과 프로세스 맵핑을 기반으로 한 K-MBI 가이드북을 개발하였다. 개발 된 K-MBI 가이드북에 대한 이해도 조사 및 수정을 하여 최종 가이드북을 제작하여 40명의 작업치료 전문가 집단에 내용 타당도를 검증하였다. 평가자 간 신뢰도 및 일치도 조사를 위해 기존의 K-MBI 검 사 지침에 근거하여 총 5명의 환자의 일상생활활동 동영상을 촬영하였다. 평가자 간 신뢰도와 일치도 조 사는 84명의 작업치료사가 교육 전과 후에 동일하게 동영상 속의 5명의 환자를 평가하여 확인하였다.
결과 : 내용 타당도 검증 결과는 개발된 K-MBI 가이드북 11개의 모든 항목에서 CVI 점수가 .93 이상으 로 높은 수준의 타당도를 나타내었다. 평가자 간 신뢰도에서는 ICC가 교육 전 .983, 교육 후에 .982로 교육 전과 후 모두 높은 수준의 신뢰도를 보였다. 정답률의 변화는 교육 전 48.37%에서 교육 후에 69.48%로 향상되었고, 평가자 간 일치도는 옷 입고 벗기 항목을 제외한 모든 항목에서 일치도가 향상 된 것으로 나타났다.
결론 : 본 연구의 결과를 통해 활동분석 및 프로세스 맵핑을 기반으로 한 K-MBI 가이드북은 일상생활활 동 평가에서 평가자 간의 신뢰도와 일치도를 향상되게 시키는 것으로 확인되었다.