Exploration of Variables to Predict Students’ Sense of Belonging to School via glmmLasso, a Machine Learning Technique: A Comparison of General and Specialized Vocational High Schools
학교소속감이 중도탈락을 막을 수 있는 중요한 변수임에도 불구하고 특히 고등학교 학생에 대한 학교소속감 연구는 그 수가 많지 않다. 아직 충분한 연구가 이루어지지 않은 분야에서 기계학습 기법을 활용하는 탐색적 연구가 학문적 기여를 할 수 있다. 본 연구의 주요 목적은 일반고 및 특성화고 학생들의 학교소속감을 예측하는 중요한 변수를 파악하는 것이다. 이를 위하여 부산교육종단 연구 2016 4차년도 데이터의 일반고와 특성화고 학생, 교사, 교장, 학교 변수를 모두 활용하였다. 구체적으로 75개 일반고 1,775명의 824개 변수 자료와 36개 특성화고 739명의 854개 변수 자료를 기계학습 기법으로 분석한 결과, 일반고와 특성화고에서 각각 20개와 21개의 학생, 교사, 학교 관련 변수가 선택되었다. 학교소속감을 개인의 심리적 차원에 초점을 맞추어 분석한 선행연구와 달리, 본 연구는 교사, 교장, 학교 변수까지 모두 모형에 투입함으로써 학교 현장에서의 변화를 꾀하였다. 기계학습 기법 중 벌점회귀모형으로 분류되는 glmmLasso를 활용하여 변수 선택 시 자료의 위계적 구조를 반영한 점 또한 연구 의의라 하겠다. 특히 특성화고 자료는 사례 수보다 변수 수가 더 많은 고차원 자료였으므로 기계학습 기법을 활용하는 것이 필수적이었다. 연구 결과를 토대로 고등학생의 학교소속감을 향상시키기 위하여 필요한 정책적 제언을 제시하고, 후속 연구주제 또한 논하였다.
Although students’ sense of belonging to school is an important indicator of at-risk students including early dropouts, there has not been sufficient research on high school students’ sense of belonging. While confirmatory research requires solid theoretical background, exploratory research particularly via machine learning is unbounded by established theory and thus can make contributions to the existing body of literature. This study aimed at exploring and identifying important variables to predict students’ sense of belonging enrolled in general and specialized vocational high schools. BELS (Busan Educational Longitudinal Study) 2016 fourth wave data (824 variables of 1,775 general high school students and 854 of 739 specialized vocational high school students) were analyzed with glmmLasso, a machine learning technique. In particular, vocational high school data were high-dimensional and thus machine learning was a necessary tool. Specifically, glmmLasso, grouped as penalized regression among machine learning, is known to consider the hierarchical data structure resulting from multistage sampling schemes in variable selection. Among student, teacher, principal, and school variables explored, a total of 20 and 21 variables were selected as important for general and vocational high schools, respectively. Policy suggestions and future research topics were discussed based on the results of the study.