This paper analyses various types of unethical expressions and distribution features in both large-scale broadcasting corpus and messenger corpus. The use of these unethical expressions appear to vary considerably depending on the register. As such, annotations for de-identification should be based on a register-specific approach rather than a general one. The results of the study can be summarized as follows. First, unethical expressions are categorized into four types: 'swearing expressions, hate speech, aggressive expressions, and sexual expressions.' Second, the quantitative analysis shows that the amount of unethical expressions in messenger is much higher than in broadcasting. Third, the proportion of [+person] expressions is very high in broadcast conversations, while swearing expressions account for more than 90% of the unethical expressions in the messenger corpus. Our study suggests that register variation, contextual information and language categories beyond word unit need to be reconsidered to detect unethical expressions.
본 연구의 목적은 유사 문법 항목 ‘에게’, ‘한테’, ‘에게서’, ‘한테서’의 사용역에 따른 분포를 분석하고, 이를 바탕으로 사전 및 문법서 기술에서 수정 보완해야 할 지점을 밝히는 데 있다. 이를 위해 구어/문어, 격식/비격식 사용역에 따른 말뭉치를 구성하고 각 사용역에서의 분포를 분석한 후, 분포 차이에 대한 통계적 유의성을 G2 값으로 확인하였다. 본 연구의 주요 결과는 다음과 같다. 첫째, 대부분의 사전 및 문법서에서 ‘한테서’는 구어적 표현 이라고 기술되었지만, 분포를 분석한 결과 문어적 표현이라고 나타났다. 둘째, 사전에서 ‘에게’와 ‘에게서’에 대한 구어/문어 사용역 정보가 기술되지 않고 있지만, 문어성이 강하므로 사용역 정보 를 기술할 필요가 있다. 셋째, 사전에서 ‘에게’와 ‘에게서’에 대한 격식/비격식 사용역 정보가 기술되지 않고 있지만, 구어 격식성을 가지고 있는 나타나 이를 사전에서 기술할 필요가 있다.