본 사례 연구는 실시간 음성인식을 결합한 설치 작품의 기술, 언어학과 인터랙티브 아트의 융합을 탐구하는 것을 목표로 한다. 따라서 음성인식 기술이 언어라는 축을 통해 ‘Spect’actor’에게 어떻게 전달할 수 있는지에 대한 예술적 관점과 심도 깊은 이해를 도모하고자 한다. 본 연구는 음성인식 기술을 통한 미디어아트 해석 의 가능성을 전반으로 확대하고, 특히 인터랙티브 미디어아트 분야에서 회화적 자동 음성인식을 통한 미디어 아트 해석의 가능성을 넓히고자 합니다.
This study examined effects of pronunciation training using automatic speech recognition technology on common pronunciation errors of Korean English learners. Participants were divided into two groups. One group was given instruction and training about the use of automatic speech recognition for pronunciation practice. The other group was not given such instruction or training as a control group. A pre- and post-test experimental design was used. The treatment period was four weeks. Participants who were taught about using automatic speech recognition for pronunciation practice showed small but significant improvements in pronunciation accuracy than those who did not. In addition, automatic speech recognition was found to assist in the diagnostic evaluation of common pronunciation errors, although it did not produce statistically significant improvements. Participants responded positively to the use of automatic speech recognition for pronunciation practice and testing, although there remain some concerns over technical aspects of the test.
This study utilized Automated Speech Recognition technology to determine the potential utility and acceptance of such technology in the English as a Foreign Language classroom. Learners were made aware of the Automatic Speech Recognition potential of their mobile devices and provided with some direction in, and incentive for, its use. Participants were then scored on their assessment of the technology according to the Technology Acceptance Model. Participants showed a marked appreciation for the ease and utility of the technology with over 72% agreeing that the technology was both accessible and useful. Support for the use of Automatic Speech Recognition as a testing method was somewhat mixed, with 75% of participants agreeing that the testing was fair, but only 60% reporting that they felt they did well on the test. As a secondary point of interest, this study examined the potential use of Automatic Speech Recognition technology for teaching and testing pronunciation.
이 논문은 선박의 자동조타장치를 음성인식으로 제어할 수 있는 시스템을 개발하기 위한 기초연구로 SMCP(IMO Standard Marine Communication Phrases)에 제시된 조타명령문의 구성 형태를 분석하여 화자의 의도를 예측할 수 있는 특정 파라미터를 추출하였다. 그리고 이 파라미터를 이용하여 1차 패턴인식 과정으로부터 도출된 후보단어 집합으로부터 최종 단어를 결정하는 후처리 인식 프로시저를 설계하였다. 이 프로시저의 유용성을 검증하기 위하여 음성인식용으로 총 525개의 조타명령문을 획득하였고, 표준패턴 기반의 인식과정 인식률과의 비교실험을 수행하였다. 실험결과 의도예측 특정 파라미터를 이용한 인식 프로시저의 인식률이 약 42.3% 향상되어 유효함을 알 수 있었다.
The present study aims to investigate how well Google Voice Actions, an automatic speech recognition system, recognizes Korean young English learners’ pronunciation of English words. To achieve this aim, the current study arranged for 18 Korean elementary school students to pronounce 219 English words and recorded their pronunciation. Then, the intelligibility of their pronunciation was measured using Google Voice Actions. The current study analyzed the measured intelligibility of Google Voice Actions in terms of the phonemic difficulty and familiarity the learners have with the words. The phonemic difficulty of each word was labelled as Group 1 to 5, depending on the number of difficult phonemic elements it contains. The familiarity of each word was also measured through a questionnaire. The findings revealed that the accuracy in Google Voice Actions’ recognition was closely related to the students’the phonemic difficulties and familiarity of the words. Interestingly, the pronunciation of words in Group 5 gained the highest recognition scores and that of Group 1 the second highest scores. Those of Group 2, 3, and 4 recorded lower recognition scores than the two groups. These results suggest that the more phonemic information the pronunciation of a word provides, the more relevant clues would be available for Google Voice Actions. This increases the possibility of successful search from the speech database.
최근 게임에도 다국어를 대상으로 하는 음성인식에 대한 요구와 여러 나라의 서로 다른 언어로 표현된 음성을 하나의 음성 모델로 표현하는 다국어 시스템의 개발에 대한 필요성이 점차 증가하고 있다. 이에 따라 다양한 언어로 구성되어 있는 음성을 하나의 음성 모델로 표현할 수 있는 다국어 음성인식 시스템의 발전에 대한 연구가 필요하다. 본 논문에서는 다국어 음성 모델을 통합적으로 구축하기 위한 기본 연구로 한국어 음성과 영어 음성을 국제음소기호(IPA)로 인식하는 시스템을 연구하였고 한국어와 영어 음소를 동시에 만족하는 IPA모델을 찾는데 중점을 두어 실험한 결과 한국어 음성에 대하여 90.62%, 영어 음성에 대하여 91.71%라는 인식률을 얻을 수 있었다.
자동 음성 인식(Automatic Speech Recognition)기술은 세계적인 의사소통과 협력을 원활히 할 수 있는 가능성을 제시한다. 현재까지 대부분의 연구들은 주로 사용되는 단일 언어의 말하기에만 집중되어 있다. 따라서 다른 언어들과 함께 사용되는 특정 ASR 시스템을 도입하는 데에는 비싼 비용이 뒤따른다. 본 논문은 다국어 음성 인식에 대한 일반적 접근으로 각 나라 언어를 대표한 발음사전(어휘모델)을 만들기 위하여 음성 인식에 이용하는 어휘 모델을 만들기 위하여 음소 언어 인식(PLI, Phonetic Language Identity) 형식의 입력된 파일을 해석하는 국제 음소 엔진(IPE, International Phoneticizing Engine)를 제안한다. IPE는 독립적이며 규칙을 기본으로 한다. 어휘모델 생성 과정은 Java 언어로 구현된 프로그램에 의해 이루어지고, 이 과정들은 규칙 상충을 줄여주며, 언어학적 훈련을 받지 않은 사람의 규칙 생성도 가능하게 한다. IPE에 의해 생성된 어휘모델을 연속 음성 인식기에 적용한 결과 우리말 인식률이 92.55%, 영어에 대하여 89.93%를 얻었다.