통계 분석 기초 용어 정리


빅데이터를 학습하기 전에 가장 먼저 맞닥뜨리는 것이 아무래도 통계일 것입니다. 수집된 자료를 정리, 분석하고 일정한 패턴 분석 및 인과관계를 파악하기 위해서는 기본이 되는 통계 개념을 이해하고 넘어가고자 아래와 같이 정리합니다.

■ 평균

  • 자료의 합 / 자료의 개수

■ 중앙값(Median)     

  • 자료를 크기순서로 나열했을 때 가장 중앙에 위치한 값이다.      ㄴ = MEDIAN(범위)

■ 최빈값(mode) 

  • 자료 중에서 가장 출현빈도가 높은 값이다.
  • = MODE(범위)

■ 분산(Variance)      ㄴ평균을 중심으로 관찰값들이 얼마나 떨어져 분포하는가를 나타낸다.      ㄴ편차제곱합 : 편차1^2 + 편차2^2 + …..      ㄴ분산 = 편차제곱합 / 데이터 수 = VAR(범위)

■ 표준편차(standard deviation)

  • 분산의 양의 제곱근으로 원 자료 측정단위와 같은 단위로 퍼짐 정도를 나타낸다.
  • 표준편차 = 분산^(1/2) = STDEV(범위)

■ 변동계수(coefficient of variation, CV)

  • 평균이 크게 다른 두 개 이상의 집단을 비교할 때 또는 각 집단의 상대적 동질성을 비교할 때 주로 사용
  • CV = 표준편차 / 평균

■ 범위

  • 최대값 - 최소값, 가장 간단하게 퍼짐 정도를 파악할 수 있는 척도이다.

■ 사분위수 범위(IQR : Interquartile Range)

  • 제 3사분위수와 제 1사분위수의 차를 의미, 자료의 가운데 부분에 위치한 50%의미
  • 사분위수 = 3사분위수 - 1사분위수 = QUARTILE(범위, quart)

■ 상자그림

  • 최소값, 1사분위, 2사분위, 3사분위, 최대값을 이용하여 그림을 그린다.

■ 백분위수

  • 어떤 숫자들의 집합에서 제c백분위수는 수들의 c% 가 그 값보다 작고 나머지는 그 값보다 큰 값을 말한다.

■ 데이터의 Z 값

  • 어떤 특정한 자료값이 평균으로부터 표준편차의 몇 배 만큼 떨어져 있는가를 측정한다.
  • Z = (변량(x) - 평균) / 표준편차 = STANDARIDZE(x, mean, standard_dev)