본 연구는 관광 관련 서비스 분야에 필요한 특수 목적 중국어(CSP) 교육과정 개 발을 위한 첫 단계로 AI 데이터 기반으로 구축된 구어체 병렬 코퍼스에서 CSP 어휘 리스트를 선정하여 용어색인과 어휘다발(n-gram)등을 분석하였다. 어휘리스트 어휘 규모는 토큰 수 총 304, 228개와 타입 수 17, 286개로 나타났으며, 어휘 누적 증가율 을 분석하면 2-Gram과 3-Gram의 어휘다발이 가장 많았고, 실무 현장에서 가장 많 이 활용되고 있음을 알 수 있었다. 본 연구에서 구축된 특수 목적 관광 중국어 어휘 리스트는 실제 교육 자료로 제공하여 관광 중국어 학습자와 교수자에게 실용적으로 사용될 수 있을 것이라 기대한다.
국제 중국어 교재에 초과 한자와 초과 어휘가 존재한다는 것은 객관적인 사실이다. 이는 학생 이 텍스트를 이해하는데 영향을 주며, 교사가 수업을 진행하는데 있어서도 피하기 힘든 문제이 다. 본고는 《국제 중국어 교육 중국어 수준 등급 표준》를 기준으로, 『發展漢語』 고급 종합 교재에 포함되어 있는 초과 한자와 초과 어휘를 연구 대상으로 삼았다. 코퍼스 기술을 바탕으로 빠른 식별과 태깅을 진행하여, 『發展漢語』 고급 종합 단계 교재에 나타난 초과 한자와 초과 어휘 현황을 분석하였다. 또한, 초과 한자를 기준으로 真性과 假性으로 구분하고 글자 단위의 의미와 어휘 단위의 의미의 연관성을 근거로 교육 방법을 제안하였다. 한자와 연결되는 동사를 함께 가르치고, 한자와 어휘를 연결하여 학습시키는 방안은 학생의 중국어 학습 능력을 향상시킬 것이다.
This study investigated the structural and functional differences between formulaic sequences in College Scholastic Ability Test (CSAT) and SAT reading assessment texts. The results of the RANGE program showed that SAT used more diverse and difficult words compared to CSAT. The frequency analysis revealed that CSAT used more formulaic sequences than the SAT counterpart. This suggests that CSAT used more repeated expressions, whereas SAT used diverse vocabulary items. The structural analysis showed that noun phrases were the most dominant in CSAT, whereas prepositional phrases were pervasive in SAT. The functional analysis showed that both corpora relied heavily on referential expressions. The results indicate that referential bundles are dominantly used in institutional writing (Biber & Barbieri, 2007). In accordance with the previous studies, the results suggest that high frequency formulaic sequences can be different according to the register. In CSAT, connectives and discourse organizers were prevalent. This may be due to the characteristics of question types in CSAT. The results may indicate that formulaic sequences in texts are partly influenced by the characteristics of a register.
본 연구는 한국어 학습자의 한자계 어휘 습득을 교육내용으로 설정하고, 이에 필요한 학습용 어휘와 한자를 다양한 언어자료(코퍼스)를 활용하여 추출하여 선정한 후, 이를 다시 학습 단계별로 위계화하려는 목표 아래 진행된 두 번째 연구성과물이다.
첫 번째 연구에서 기존 한문교육용 기초한자의 문제점을 제기하였다. 현재의 한문교육용 기초한자는 한문고전적 독해는 물론, 한자계 어휘 습득의 목표에도 부적절하다는 점을 실례를 통하여 확인할수 있었다. 후속 연구인 본 단계에서는 한자계 어휘 습득을 위한 한자어와 한자를 선정하는 이론과 실제를 제시하고, 다양한 코퍼스 자료를 분석하여 추출하였다. 세 번째 단계의 연구에서는 한문고전을 독해 학습에 필요한 한자를 선정하고, 마지막으로 한자의 학습층위별 위계화를 제시하고자 한다.
이와 같은 목표 아래 진행된 본 연구는 연구의 대상을 ‘한자계 어휘 습득’으로 설정하고, 이에 따라 현실 언어 생활에 사용되는 한자어와 이를 구성하는 한자를 추출하기 위해 다양한 코퍼스를 이용하였다. 관련 통계 프로그램을 별도로 설계 제작하였으며, 한국어에 사용되는 다양한 언어 자료에서 높은 빈도를 가진 어휘와 한자를 추출하였다. 추출한 한자어는 모두 3732개(사용된 한자 1794개), 개별 한자는 2600개이다. 이는 순수하게 한국어 언어 생활에 활용되는 한자어와 한자를 추출한 것이므로, 기존의 한문교육용 기초한자와는 그 대상이나 목적이 다르다.
본 연구를 통해 다음과 같은 사실을 다시 확인할 수 있다.
첫째, 한자와 어휘 선정은 교육의 대상과 그 목적을 분명히 해야 한다. 이에 따라 추출 및 선정 어휘와 결과가 달라지기 때문이다.
둘째, 연구 방법에 있어 코퍼스의 특성과 언어의 특성 등을 모두 고려한 별도의 오픈소스 프로그램 개발이 필요하다.
셋째, 연구 대상 자료는 사회적 합의를 기초로 객관적이며 대표적 자료를 수집해야 한다.
넷째, 본 연구 결과물과 같은 소논문 형태로는 그 연구의 합리성을 대표하기 어려우므로 관련 연구자들을 중심으로 별도의 연구 프로젝트 플랫폼을 구성하고 공동 개발해야 한다.
다섯째, 한 개인의 연구가 아닌 집단 연구의 결과물로 이용될 수 있도록 저작권을 지닌 공개자료로 제공되어야 한다.
The present study examines the features of communicative functions in middle school English textbooks, identifying whether or not they are presented based on the spiral structure. It also compares the communicative functions of 15 different middle school English textbooks and investigates whether the National English Listening Tests (NELTs) reflect the communicative functions presented in the textbooks. Two corpora were compiled using the 15 middle school English textbooks and the NELTs, and they were analyzed using WordSmith Tools. The results show that all the textbooks included communicative functions that the National Curriculum recommends; however, the textbooks presented a limited number of functions. Nonetheless, the communicative functions were presented relatively in a spiral way. The majority number of communicative functions in the textbooks and the NELTs were similar to each other, but there were some functions in the tests that were not covered in the textbooks. These results imply that more diverse communicative functions should be included in textbooks in order to help improve students’ communicative competence. The communicative functions not presented in the textbooks should not be included in the NELTs.
As a preliminary study for the effective development of a genre-focused English learner corpus, this article aims to investigate most frequent error types and their frequencies in English emails written by undergraduate freshmen in South Korea. Data for this study include English emails of 86 Korean students majoring in humanities or social science in a university located in Daegu. With the rise of Internet, ESL/EFL education has witnessed a growing interest in teaching email usage in composition courses, as it provides a variety of opportunities to evaluate language abilities including interpersonal and pragmatic abilities. The present article revealed that the most frequent error type was concerned with style, such as capitalization (28.7%) and punctuation (7.8%), which was followed by determiner deletion (6.3%), genre convention such as closing (3%), countability of nouns (3%), and verb choice (2.7%). Different error types and frequencies were identified according to different English proficiency levels (Korean SAT and TOEIC), which evidenced the need to include the English proficiency level annotation in the corpus design and to focus on different types of errors in class in accordance with learners’ proficiency levels.
This study mainly explores the research themes and topics of corpus-based studies published in English Teaching in an attempt to provide future directions and pedagogical implications in this research domain. For the purposes of the study, a total of 42 corpus-based research articles published in English Teaching were reviewed and analyzed in terms of research topics, methodology, and characteristics of the corpora employed in the studies. The thematic and topical analysis of the corpus-based studies showed that much research, i.e., 64%, has focused on the analysis ofvocabulary items. Further, the analysis of the research methods revealed that corpus-based studies published in English Teaching mainly employed quantitative methods to describe frequency and distribution information of the target linguistic items. It also provided the description of the characteristics of the corpora adopted in the corpus-based research. Interestingly, many corpus-based studies published in English Teaching focused on the analysis of the learner corpus data. The paper discusses the future research directions and pedagogical implications for corpus-based studies on TEFL.
Kim, Hyesook. 2014. Corpus-based Study on Gender Differences in the Functions of English Tag Questions. The Sociolinguistic Journal of Korea 22(3). This study examines gender differences, focusing on the functions of English tag questions using three social variables: age, education, and private/public situations. This research is a corpus-based study which used 753 tag questions extracted from the British component of International Corpus of English (ICE-GB). This paper is the sequel to Kim Hye-Sook(2010), which examined gender differences in the frequency of tag usage. In this present study attention was turned to functions of tag questions to examine whether the gender differences in the tag usage were related to different tag functions. The four functions considered in the study were informational, facilitating, softening and challenging(cf., Holmes 1995; Tottie & Hoffmann 2006). The 753 tags were categorized into those four functions by a native speaker of British English. The tags used by the British men and women in the ICE-GB corpus had no significant gender differences in the functions of tag questions. The tags were used consistently in the order of informational, facilitating, challenging, and softening by both men and women regardless of age, education and private/public situations.
최근 대량으로 쏟아지는 감성공학 연구 결과와 논문들을 가치 있는 자료로 만들기 위해서는 감성 데이터가 산업 전반에 활용될 수 있도록 지표로 정리해야 한다. 본 논문에서는 "웹기반 감성 데이터 베이스 구축 및 보급에 관한 연구" 과제를 통해 작성된 감성 데이터 지표에 입각해서 앞으로 대량으로 출현할 감성공학 데이터의 지속적인 지표화를 위한 과정의 자동화를 제안한다. 문서 데이터의 지표화 작업이 자동요약과 유사하다는 점에 착안하여 자동지표화 시스템을 위한 기술들의 기초가 되는 정보유형 및 주요어 추출, 특성표현을 통한 정보문 추출에 대해 감성공학 코퍼스 분석을 통해 연구하고자 한다. 이는 감성공학 분야에서의 지식관리 시스템이나 자동요약 시스템에 활용될 수 있다. 활용될 수 있다.
본 연구는 2015 개정 교육과정을 기반으로 개발되어 사용되고 있는 중등학교 영어 교과서의 읽기 지문에 나타난 고빈도 어휘 뭉치(lexical bundles)의 유형과 특성을 고찰하고, 어휘 뭉치가 갖는 구조적, 기능적 특징을 살펴보고자 한다. 또한 원어민 참조 코퍼스와의 비교·분석을 통해 어떠한 차이가 있는지를 알아보고자 한다. 이를 위해 2015 개정 교육과정 중·고등학교 영어 교과서의 읽기 지문을 코퍼스로 구축한 후 고빈도 어휘 뭉치를 비교·분석하였으며, 그 결과는 다음과 같다. 첫째, 중학교 교과서에 비해 고등학교 교과서의 읽기 지문이 다양한 내용과 더 많은 양의 텍스트를 다루므로 예상대로 더 많은 어휘 뭉치가 출현하였으며, 어휘 다양성 또한 높은 것으로 확인되었다. 둘째, 어휘 뭉치의 구조적 분석을 통해 동사구 결합 유형의 비율이 가장 높은 중학교 읽기 지문은 구어 담화적인 성격을 지녔으며, 전치사구 결합 유형의 비율이 높은 고등학교 읽기 지문은 학술적인 글의 특성을 지녔음을 알 수 있었다. 셋째, 중·고등학교 교과서 어휘 뭉치의 기능적 분석 결과 지칭 표현 기능의 어휘 뭉치가 70% 이상의 높은 비율을 차지하였는데, 이는 교과서 읽기 지문이 문어적 특징을 지녔음을 보여준다. 한편, 중학교 교과서의 고빈도 어휘 뭉치 유형이 고등학교 교과 서에서 나타나지 않는 경우가 있었고, 원어민 코퍼스에서 빈도 높게 쓰인 표현이 교과서에서는 쓰이지 않은 경우와 원어민들의 사용 빈도에 비해 교과서에서의 사용 빈도가 지나치게 높은 어휘 뭉치도 있었다. 이는 영어 학습자들이 영어를 이해하고 표현하는 의사소통 능력을 꾸준히 향상시 킬 수 있도록 어휘와 어휘 뭉치 표현이 학년별, 학교급별 연계와 위계를 고려하여 반복적으로 접할 수 있도록 나선형으로 제시될 필요가 있으며, 실제 의사소통 상황에서의 활용 빈도와 중요도를 고려한 어휘 뭉치를 교과서에서 균형적으로 다룰 필요가 있다는 것을 시사한다.
본 연구는 한국 대학생 134명을 대상으로 구두 인터뷰를 통해 수집한 영어 말하기 코퍼스에 대해 코퍼스 기반 분석을 적용하여 학생들의 말하기에 나타난 특징을 규명하고 일반적인 오류와 연어 사용 오류에 대해 탐구하였다. 오류 분석은 질적 연구 도구와 절차를 적용하여 오류를 추출한 후 분류 하고 분석하였다. 연구 결과, 한국 대학생들의 말하기 코퍼스에 사용된 총 어휘 수는 33,306으로 나타났으며 유형이 다른 어휘는 총 2,308개였다. 유형이 다른 개별 어휘군을 분석한 결과 영어 원어민이 가장 빈번하게 사용하는 1,000 어휘군의 90% 범위에 해당하는 것으로 보아 한국 학생들은 원어민이 빈도 높게 사용하는 쉬운 일상 단어를 반복적으로 사용하는 것으로 보인다. 오류 분석 결과, 가장 빈번하게 나타난 오류 유형은 생략(omission)과 비문(misformation)으로 규명되었으며, 세부적으로는 정관사, 전치사, 시제 불일치, 단수/복수형 오류가 빈번하였다. 연어 오류 분석 결과, G8-D(동사+전치사+목적어) 유형의 문법적 연어 오류가 가장 빈번하였으며, 어휘적 연어 오류에서는 L1(동사+명사/대명사) 유형이 가장 흔하게 나타났다. 한국 대학생들이 영어 말하기에서 흔하게 범하는 이러한 오류들은 다른 언어 기능 사용 측면에도 지장을 줄 수 있으므로 향후 한국 학생들을 위한 영어 교재 개발과 교수·학습 활동 개발과 적용 시에 이러한 특징과 양상을 반영하여 이를 해결할 방안을 모색할 필요 가 있다.
Hyeree Kim. 2016. A Corpus-Based Study in the Diachronic Change of the Adjective/Participle+V-ing Construction. Studies in Modern Grammar 90, 1-30. In the Present-Day English adjectives and participles are often followed by a preposition plus V-ing (hereafter called PG construction). However, some adjectives and participles can be immediately followed by V-ing without an intermediate preposition (hereafter NG). Therefore, such adjectives/participles can have both NG and PG constructions. This article investigates 13 such predicates (happy, comfortable, bored, tired, fed up; busy, engaged, occupied; late, quick, slow, done, finished) in the Corpus of Historical American English (COHA) and examines the frequency changes of their NG vs PG structures in American English from 1820 to 2009. The findings of this study are as follows: (i) NG is a more recent structure than PG, (ii) the frequency of NG has gradually increased over time with most predicates, (iii) except engaged, the percentage of NG to PG was higher in the late 1900 than the early 1800, and with some predicates NG is more preferred than PG in the Present-Day English, (iv) as shown by the fact that some predicates were more resistant to the change, a linguistic innovation does not apply simultaneously but spread gradually across the relevant lexical items/structures.
In the Present-Day English adjectives and participles are often followed by a preposition plus V-ing (hereafter called PG construction). However, some adjectives and participles can be immediately followed by V-ing without an intermediate preposition (hereafter NG). Therefore, such adjectives/participles can have both NG and PG constructions. This article investigates 13 such predicates (happy, comfortable, bored, tired, fed up; busy, engaged, occupied; late, quick, slow, done, finished) in the Corpus of Historical American English (COHA) and examines the frequency changes of their NG vs PG structures in American English from 1820 to 2009. The findings of this study are as follows: (i) NG is a more recent structure than PG, (ii) the frequency of NG has gradually increased over time with most predicates, (iii) except engaged, the percentage of NG to PG was higher in the late 1900 than the early 1800, and with some predicates NG is more preferred than PG in the Present-Day English, (iv) as shown by the fact that some predicates were more resistant to the change, a linguistic innovation does not apply simultaneously but spread gradually across the relevant lexical items/structures.
The goal of this study is to investigate the use of the two English synonymous adjectives difficult and hard through BNC, and to examine Korean college students’knowledge of difficult/hard+noun expressions. The main findings of this paper are as follows. First, The adjective difficult is mainly (83.33%) used to mean ‘not easy to do or deal with’, while hard is mainly (60%) used as idiomatic expressions. Second, both adjectives have different meanings according to the nouns which they are combined with (hard rock/life, difficult decision/concept), and sometimes they have a radically different meaning even when they are combined with the same noun (difficult man, hard man). Third, The average score of the subjects was as low as 54.50%. Fourth, The average score by type is in the order of hard+noun (77.19%), difficult+noun (45.46%) and difficult-hard+noun(38.34%), which shows that the subjects’ overall knowledge of difficult/hard+noun combinations is considerably poor and unbalanced. This result implies that Korean learners of English need to study English, not just memorizing individual words, but with a focus on chunks.