본 사례 연구는 실시간 음성인식을 결합한 설치 작품의 기술, 언어학과 인터랙티브 아트의 융합을 탐구하는 것을 목표로 한다. 따라서 음성인식 기술이 언어라는 축을 통해 ‘Spect’actor’에게 어떻게 전달할 수 있는지에 대한 예술적 관점과 심도 깊은 이해를 도모하고자 한다. 본 연구는 음성인식 기술을 통한 미디어아트 해석 의 가능성을 전반으로 확대하고, 특히 인터랙티브 미디어아트 분야에서 회화적 자동 음성인식을 통한 미디어 아트 해석의 가능성을 넓히고자 합니다.
본 연구는 청각장애인의 재활 훈련을 위한 모바일 기능성 게임 프로그램을 기획하였고, 청각 장애 아동의 특성과 청력 손실에 따른 분류를 알고 음성인식 기술을 적용하여 개발되었다. 본게임은 청각장애인의 재활훈련을 위해 발성훈련 및 발음교정을 하기 위한 미니게임으로 구성하였고, 모바일을 활용한 게임을 이용, 재활치료를 실시하여 재미있게 훈련을 할 수 있도록 설계하였다.
이 논문은 선박의 자동조타장치를 음성인식으로 제어할 수 있는 시스템을 개발하기 위한 기초연구로 SMCP(IMO Standard Marine Communication Phrases)에 제시된 조타명령문의 구성 형태를 분석하여 화자의 의도를 예측할 수 있는 특정 파라미터를 추출하였다. 그리고 이 파라미터를 이용하여 1차 패턴인식 과정으로부터 도출된 후보단어 집합으로부터 최종 단어를 결정하는 후처리 인식 프로시저를 설계하였다. 이 프로시저의 유용성을 검증하기 위하여 음성인식용으로 총 525개의 조타명령문을 획득하였고, 표준패턴 기반의 인식과정 인식률과의 비교실험을 수행하였다. 실험결과 의도예측 특정 파라미터를 이용한 인식 프로시저의 인식률이 약 42.3% 향상되어 유효함을 알 수 있었다.
The deficiency of competent native English speaker raters and the inherent problem with intra-rater and inter-rater reliability of the oral proficiency interview (OPI) has precluded the full-fledged implementation of English performance testing, inevitably ushering in the computer- based oral proficiency interview (COPI) as its viable alternative with the help of automatic speech recognition (ASR). The plausibility and feasibility of implementing ASR-based COPI has recently been investigated with favorable results, which warrants more sophisticated research focusing on development of desirable test methods that will meet the rigorous criteria required by high-stakes language tests. In this respect, employing varied statistical methods as correlational, regression analyses, and ANOVA, the present study attempts to explore strengths and limitations of test method facets and to identify valid test methods to maximize the validity and reliability of ASR-based COPⅠ. Within the theoretical framework of communicative language components to be measured, the statistical findings reveal that some test methods prove to be more effective than others in producing COPI test results with better discriminability and reliability. The survey of students and teachers also suggest their favorable attitudes toward utilizing the COPI for in-class evaluation. Both findings strongly corroborates potential of the COPI in question as a valid performance testing tool to measure overall communicative competence. The current research is expected not only to shed light on advancement of performance testing, but also to serve the purpose of enhancing communicative English teaching.
Serious inherent problems with practicality, intra-rater and inter-rater reliability overshadow the known positive washback effects of performance assessment in language education. In particular, it has been welldocumented that inter-rater reliability poses a serious threat to overall test validity, since individual raters necessarily measure performance according to their own subjective severity criteria in language proficiency. However, language testing has witnessed a remarkable series of breakthroughs in performance assessment during the recent advent of the information era. One such breakthrough utilizes state-of-the-art automatic speech recognition (ASR) technology for oral proficiency interviews(OPI). Granting that current forms of ASR technologies may not produce results with the reliability needed to accommodate highstakes standardized test administration, they do offer aid in approaching the thorny issues of practicality and inherent human inter-rater subjectivity. Accordingly, this paper is intended to investigate the degree to which ASR-based OPI ratings match similar human-conducted OPI ratings by employing correlational analyses on the basis of degrees of rater severity. Furthermore, this paper attempts to explore a method of enhancing the robustness of ASR-based OPI ratings which capitalizes on suprasegmental information by measuring fluency based principally on the test-takers’ response time length.
The present study aims to investigate how well Google Voice Actions, an automatic speech recognition system, recognizes Korean young English learners’ pronunciation of English words. To achieve this aim, the current study arranged for 18 Korean elementary school students to pronounce 219 English words and recorded their pronunciation. Then, the intelligibility of their pronunciation was measured using Google Voice Actions. The current study analyzed the measured intelligibility of Google Voice Actions in terms of the phonemic difficulty and familiarity the learners have with the words. The phonemic difficulty of each word was labelled as Group 1 to 5, depending on the number of difficult phonemic elements it contains. The familiarity of each word was also measured through a questionnaire. The findings revealed that the accuracy in Google Voice Actions’ recognition was closely related to the students’the phonemic difficulties and familiarity of the words. Interestingly, the pronunciation of words in Group 5 gained the highest recognition scores and that of Group 1 the second highest scores. Those of Group 2, 3, and 4 recorded lower recognition scores than the two groups. These results suggest that the more phonemic information the pronunciation of a word provides, the more relevant clues would be available for Google Voice Actions. This increases the possibility of successful search from the speech database.
최근 게임에도 다국어를 대상으로 하는 음성인식에 대한 요구와 여러 나라의 서로 다른 언어로 표현된 음성을 하나의 음성 모델로 표현하는 다국어 시스템의 개발에 대한 필요성이 점차 증가하고 있다. 이에 따라 다양한 언어로 구성되어 있는 음성을 하나의 음성 모델로 표현할 수 있는 다국어 음성인식 시스템의 발전에 대한 연구가 필요하다. 본 논문에서는 다국어 음성 모델을 통합적으로 구축하기 위한 기본 연구로 한국어 음성과 영어 음성을 국제음소기호(IPA)로 인식하는 시스템을 연구하였고 한국어와 영어 음소를 동시에 만족하는 IPA모델을 찾는데 중점을 두어 실험한 결과 한국어 음성에 대하여 90.62%, 영어 음성에 대하여 91.71%라는 인식률을 얻을 수 있었다.
자동 음성 인식(Automatic Speech Recognition)기술은 세계적인 의사소통과 협력을 원활히 할 수 있는 가능성을 제시한다. 현재까지 대부분의 연구들은 주로 사용되는 단일 언어의 말하기에만 집중되어 있다. 따라서 다른 언어들과 함께 사용되는 특정 ASR 시스템을 도입하는 데에는 비싼 비용이 뒤따른다. 본 논문은 다국어 음성 인식에 대한 일반적 접근으로 각 나라 언어를 대표한 발음사전(어휘모델)을 만들기 위하여 음성 인식에 이용하는 어휘 모델을 만들기 위하여 음소 언어 인식(PLI, Phonetic Language Identity) 형식의 입력된 파일을 해석하는 국제 음소 엔진(IPE, International Phoneticizing Engine)를 제안한다. IPE는 독립적이며 규칙을 기본으로 한다. 어휘모델 생성 과정은 Java 언어로 구현된 프로그램에 의해 이루어지고, 이 과정들은 규칙 상충을 줄여주며, 언어학적 훈련을 받지 않은 사람의 규칙 생성도 가능하게 한다. IPE에 의해 생성된 어휘모델을 연속 음성 인식기에 적용한 결과 우리말 인식률이 92.55%, 영어에 대하여 89.93%를 얻었다.