미래교육연구 제12권 2호 (p.1-22)

로지스틱 회귀분석 방법과 랜덤포레스트 방법을 활용한 대학생의 소속 학과 만족도에 대한 영향 요인 분석

Analysis of factors influencing college students' satisfaction with their departments using logistic regression analysis method and random forest method.
키워드 :
로지스틱 회귀분석,랜덤포레스트,학과 만족도,머신러닝,logistic regression analysis,randomforest,machine learning,department satisfaction

목차

요 약
Ⅰ. 서론
Ⅱ. 이론적 배경
   1. 학과 만족도
   2. 머신러닝
Ⅲ. 연구방법
   1. 분석 자료
   2. 변수 선정
   3. 분석방법
Ⅳ. 분석 결과
   1. 대학생의 소속 학과 만족도 관련 영향 요인 탐색
   2. 로지스틱 회귀분석과 랜덤포레스트 분석 결과 비교
Ⅴ. 결론
참고문헌
Abstract

초록

이 연구의 목적은 머신러닝 분석방법을 활용하여 대학생의 소속 학과 만족도에 영향을 미치는 주요 요 인을 분석하여 대학생의 진로지도와 중도탈락 예방 관련 정책 및 제도 수립을 위한 기초 연구 자료를 제 공하기 위함이다. 이를 위해 한국교육고용패널 􎟯(KEEP 􎟯)자료의 4년제 대학 진학생 1,298명을 연구대 상으로 머신러닝 분석방법인 로지스틱 회귀분석과 랜덤포레스트 방법을 통하여 분석을 진행하였다. 주요 분석 결과는 다음과 같다. 첫째, 대학 입학년도에는 대학 생활 관련 변수 이외에도 고등학교 재학 시기 및 고등학교 졸업 후 진로 계획과 관련한 설명변수들이 중요도 상위 10개 항목 중 상당수를 차지하였으며, 입학년도와 졸업년도를 제외한 기간에는 전공 학습과 진로활동에 대한 변수들이, 졸업년도에는 취업준비 및 교육훈련 경험 등이 로지스틱 회귀분석과 랜덤포레스트 분석 결과에서 공통적으로 높은 중요도를 기록하였다. 둘째, 두 분석방 법에 따른 학년별 중요도 상위 10개 변수의 일치도는 63.3%로 나타났다. 셋째, 로지스틱 회귀분석과 달리 랜덤포레스트 분석에서는 설문의 응답자가 다수의 척도를 사용하여 응답한 설명변수들이 중요도 상위 10 개 설명변수에 포함된 경우가 상대적으로 많았다. 이 연구는 교육패널 자료를 단일 분석방법이 아닌 두 가지 머신러닝 방법을 사용하여 공통 요소를 도출하고, 결과의 비교를 시도했다는 점에 의의가 있다.
The purpose of this study is to provide basic research data for college students' career guidance and policy and system establishment related to dropout prevention by analyzing major factors affecting college students' satisfaction with their departments by using machine learning analysis methods. For this purpose, 1,298 four-year college students from the 􍾧Korean Education & Employment Panel 􎟯(KEEP􎟯)' data were analyzed through logistic regression analysis and random forest analysis method, which are machine learning analysis methods. The main analysis results are as follows. First, in the year of college admission, explanatory variables related to high school enrollment period and career plan after high school graduation, in addition to variables related to college life, accounted for a significant proportion of the top 10 items of importance. In the period excluding the year of admission and the year immediately before graduation, variables related to major learning and career activities were important variables. In the year immediately before graduation, activity variables such as job preparation and education and training experience recorded high importance in both logistic regression analysis and random forest analysis results. Second, according to the two analysis methods, the agreement of the top 10 variables by grade level was 63.3%. Third, unlike logistic regression analysis, in random forest analysis, the explanatory variables answered by the survey respondents using multiple scales were included in the top 10 explanatory variables of importance in relatively many cases. This study is significant in that it attempted to compare the results by deriving common factors using two machine learning methods rather than a single analysis method for the educational panel data.