마할라노비스 거리를 이용한 다변량 공간 클러스터 분석
본 연구는 로컬 단위에서의 다변량 공간적 클러스터와 아웃라이어에 대한 분석에 대하여 논한다. 공간적 클러스터나 아웃라이어는 그 접근 방법이나 쓰임에 따라 다양한 정의를 내릴 수 있으나, 공간적 연관성을 기반으로 한다는 점에서는 근본적인 공통점이 있다. 그러나 현존하는 공간 연관성 척도들은 투입할 수 있는 변수의 수가 한정적이기 때문에 다변량 상황에서 공간적 연관성을 측정할 수 있는 방법에 대한 연구가 필요하다. 다변량 local 공간 연관성 척도의 개발을 위해, 본 연구에서는 두 집단간 분리 정도에 대한 측정이 가능한 마할라노비스 거리를 이용하였다. 마할라노비스 거리는 변수의 평균, 분산 그리고 변수간 공분산을 고려하여 계산이 된다. 본 연구에서 고안된 로컬 마할라노비스 거리는 해당 지역의 변수 벡터와 주변지역 변수의 평균 값 벡터를 통해 계산이 되며, 이를 수도권 지역 동읍면 단위에서 인구 전입/전출의 변수에 대해 적용하였다. 해당 단위에서의 공간적 변동은 카이제곱 p값 지도를 통해 확인할 수 있으며, 유의성 검정을 실시한 로컬 마할라노비스 거리 지도를 통해 인구 유출입 차원에서의 공간적 클러스터와 아웃라이어를 확인할 수 있다.
This paper introduces an approach for analyzing multivariate spatial cluster/outlier in local scale. Even though spatial cluster/outlier has various definitions, the fundamental of spatial cluster/outlier is based on spatial association. Existing methods for measuring local spatial association had a limitation of applying multiple numbers of variables. Univariate local spatial association measures such as local Moran’s Ii, local Geary’s Ci and Getis and Ord’s Gi * are widely used, and bivariate local spatial association measures are already developed; Cross Moran and Lee’s Li. However, the measures are not used for measuring spatial association among three or more variables. This is a critical limitation when spatial variation with the complex multi-dimensional approaches is explained and described. The measure in this paper, multivariate local spatial association measure, is based on Mahalanobis Distance (MD) and it enables distinguishing spatial similarities and differences among multiple numbers of data sets simultaneously. MD considers variables’ means, variances and co-variances and allows measuring the variables’ distribution. It is the same concept as distance measuring with Euclidean Distance but improved. Significance of MD could be tested because it is following chi-square distribution when the variables are multi-normal. Local MD is applied to demographic variables, in- and out-migration in Seoul Metropolitan Area. The spatial variation of multivariables could be identified by chi-squared p-value map, and a local MD map is provided to show the detected spatial clusters or outliers at a given significance level.