This study investigated the feasibility of adopting an automatic scoring system (ASS) in a domestic English-speaking education context. Scope, test items, assessment criteria, scoring methods, and reporting strategies of six overseas English-speaking tests utilizing ASSs were examined. Moreover, a comparative analysis was conducted to identify disparities between ASS-based and non-ASS-based speaking tests. Findings were: 1) some ASS-based tests utilized ASS technology throughout the assessment, while others adopted a hybrid scoring system involving human raters; 2) compared to non-ASS-based tests, ASS-based tests used more test items targeting low-level skills such as sound and forms but fewer test items targeting conversation and discourse level skills; 3) pronunciation, fluency, and vocabulary were widely employed as evaluation criteria with sparse use of organization, content, and task completion in most ASS-based tests; 4) differences were minimal in assessment criteria application and score calculation between ASS-based and non-ASS-based tests; and 5) some ASS-based tests provided criteria-specific results and feedback with total scores and proficiency levels.
This paper aims to analyze the scores assigned to compositions of Korean as a foreign language (KFL) in terms of the many-facet Rasch measurement (MFRM) model. The MFRM computer program Facets has recently been updated and this research uses it in order to investigate the scoring reliability of KFL writing test. For the research data the Korean compositions written by 270 KFL learners were collected and rated by eleven Korean raters. At first a brief theoretical basis for the Facets is introduced based on the MFRM model. Then focusing on the raters’ characteristics such as rating consistency and fitness in terms of the rating scheme of content/organization and language, the collected scores of KFL compositions are analyzed and the analysis results are interpreted. As a result, a few cases of unreliable scoring of Korean raters are identified, but it appears that the ratings of Korean raters for a standardized KFL writing test are generally reliable. Finally it is suggested that the Facets program of MFRM offer many potential advantages for validating the scoring reliability of Korean writing assessment.
The purpose of this study was to investigate inter- and intra- rater reliability in an interview and a computerized oral test. It was also examined whether rater characteristics influenced on their reliability and biases, and finally the scores of both tests were compared with those of the Versant test using an automated computer rating system. For the study, the data from 21 Korean university students and 18 Korean or native speakers of English raters with various characteristics were collected. Some of the main findings from the study were as follows. First, rater severity was significantly different in each test, but each rater consistently graded on both tests suggesting lower inter-rater reliability and higher intra-rater reliability. Secondly, rater severity was impacted by the rater characteristics such as mother tongue, gender, age, and major. Lastly, there existed a positive correlation among the scores of the three tests, indicating that the scores of human beings and computers are strongly related.
현재 한국에서는 거짓말탐지검사의 채점과정에서 '일관성' 기준을 사용하고 있다. 본 연구에서는 현재 한국에서 사용하고 있는 거짓말탐지검사 기법의 채점 기준 중 '일관성' 기준의 실증적 타당성을 검증하고자 하였다. 구체적으로는 한국에서 이루어지고 있는 거짓말탐지검사의 채점과정에서 '일관성'을 실제로 고려하고 있는지의 여부를 검증한 후 '일관성'을 고려하여 채점하는 경우와 그렇지 않은 경우에서 거짓말탐지검사 결과의신뢰도(Cronbach' α)와 정확성이 어떻게 달라지는지를 파악하였다. 본 연구는 실제 현장에서 '일관성'을 고려하여 채점 한 원채점자료와 '일관성'을 고려할 수 없도록 가공하여 채점한 실험채점자료를 분석하였다. 원채점자료와 실험채점자료는 동일한 검사관들이 채점하도록 하였다. 그 결과 현재 한국에서는 거짓말탐지검사의 채점과정에서 '일관성'을 고려하고 있는 것이 확인되었다. 신뢰도는 원채점자료가 .93, 실험채점자료가 .91로 비슷한 수준이었다. 정확성은 검찰의 기소 여부와 거짓말탐지검사 점수에 의한 판정을 지표로 사용한 잠재계층분석(N=182)의 결과를 실제 거짓말 여부를 판단하는 기준으로 사용했을 때 원채점자료에서 76.9%, 실험채점자료에서 61.5%로 나타났다. 논의에서는 이러한 결과가 나타난 원인과 한국에서 사용하고 있는 '일관성' 기준이 거짓말탐지검사 채점에서 갖는 유용성에 대하여 논의하였다.
본 연구에서는 일반화가능도 이론을 이용하여 폴리그라프 검사에 사용된 관련 질문의 개수와 반복측정 횟수 (차트의 수), 채점자 수가 폴리그라프 검사의 신뢰도에 미치는 영향을 평가하였다. 검찰청에서 형사피의자를 대상으로 Backster ZCT를 사용한 폴리그라프 검사자료 중 31명의 폴리그라프 검사자료를 표본추출하였으며, 31명의 검사자료를 13명의 채점자가 수치적 채점방법을 이용하여 채점한 점수에 대하여 일반화가능도 이론을 적용하여 분석하였다. 분석결과, 피검사자의 변량성분이 43.97%로 가장 컸으며, 다음으로 잔여오차변량성분이 16.84%, 피검사자와 반복측정 횟수의 상호작용오차변량성분이 12.17%, 피검사자와 반복측정 횟수, 관련 질문 개수의 삼원상호작용오차변량성분이 10.31%였으며, 나머지 변량성분은 모두 7% 미만이었다. 관련 질문의 개수와 반복측정 횟수, 채점자의 수에 따른 일반화가능도 계수를 산출한 결과, 바람직한 일반화가능도 계수인 0.80 이상을 보이는 조건은 관련 질문 2개 이상과 반복측정 3회 이상, 채점자 2명 이상의 조합인 것으로 나타났다.
Recent developments in multifaceted Rasch measurement (Linacre, 1989) have made possible new kinds of investigations of facets of speaking test samples. The Rasch measurement, implemented through the computer program FACETS 3.56 version, can provide useful information in separate graphics and tables for the facets (e.g., test takers’ ability, item difficulty, and rater severity, bias analyses). This study investigates the roles of newly updated FACETS in the context of rater monitoring of English speaking test. Data for this study came from G-TELP Speaking Test. The performance of 50 candidates on the speaking test was multiply rated and analyzed using the most updated FACETS version of Rasch model. After exploring the extent to which new graphics and analyses tables of new FACETS are useful in rater monitoring, it was suggested that other tester groups should bring analytic tools like FACETS to effectively analyze raters’ consistency patterns as well as other rating patterns of individual raters for specific test tasks and criteria.
Serious inherent problems with practicality, intra-rater and inter-rater reliability overshadow the known positive washback effects of performance assessment in language education. In particular, it has been welldocumented that inter-rater reliability poses a serious threat to overall test validity, since individual raters necessarily measure performance according to their own subjective severity criteria in language proficiency. However, language testing has witnessed a remarkable series of breakthroughs in performance assessment during the recent advent of the information era. One such breakthrough utilizes state-of-the-art automatic speech recognition (ASR) technology for oral proficiency interviews(OPI). Granting that current forms of ASR technologies may not produce results with the reliability needed to accommodate highstakes standardized test administration, they do offer aid in approaching the thorny issues of practicality and inherent human inter-rater subjectivity. Accordingly, this paper is intended to investigate the degree to which ASR-based OPI ratings match similar human-conducted OPI ratings by employing correlational analyses on the basis of degrees of rater severity. Furthermore, this paper attempts to explore a method of enhancing the robustness of ASR-based OPI ratings which capitalizes on suprasegmental information by measuring fluency based principally on the test-takers’ response time length.
이 연구의 목적은 마인드 맵의 채점 기준을 개발하는 것이다. 이 연구에는 평택시 소재 한 초등학교 4학년 2개 학급 학생들이 참여하였다. 학생들은 마인드 맵 작성 기초 훈련을 받고, 과학 단원 2개를 배우는 동안 마인드 맵 4개를 작성하였다. 마인드 맵을 채점하기 위해서 채점기준을 개발하였다. 채점기준의 채점자간 신뢰도를 검증하기 위하여 표집한 마인드 맵을 초등 현직 교사 3인이 채점하고, 채점자간 상관계수를 산출하였다. 연구 결과 중심원, 가지, 표현의 세 영역으로 구성된 마인드 맵 채점 기준을 개발하였다. 채점 기준의 신뢰도는 높음에서 매우 높음의 범위를 보였다.
이 연구에서는 Rasch 모형을 활용하여 쓰기 채점 방식에 따른 국어 교사의 채점 신뢰도를 비교하고자 하였다. 이를 위해 채점 방식 별로 총체적 채점, 분석적 채점, 주요 특성 채점(1, 2)의 네 집단에 각 4명씩 총 16명의 국어교사에게 고등학생의 비평문 20편을 채점하게 하였다. 그 결과 채점자내 일관성에 있어서는 분석적 채점을 시행한 채점자들이 가장 적합한 일관성을 보였으며 총체적 채점이 중간 정도의 적합성을, 주요 특성 채점 방식이 가장 낮은 적합성을 보였다. 채점자 간 엄격성의 차이를 의미하는 채점자간 신뢰도에 있어서는 총체적 채점에서 매우 높은 신뢰도를 보인 반면 분석적 채점이나 주요 특성 채점 방식에서는 매우 낮은 신뢰도를 보였다. 이를 통해 볼 때, 각각의 채점 방식에서 비롯된 채점 신뢰도의 특성을 이해하고 이를 보완할 수 있는 채점 방안이 마련되어야 할 것으로 보인다.