통계 분석 기초 용어 정리
빅데이터를 학습하기 전에 가장 먼저 맞닥뜨리는 것이 아무래도 통계일 것입니다. 수집된 자료를 정리, 분석하고 일정한 패턴 분석 및 인과관계를 파악하기 위해서는 기본이 되는 통계 개념을 이해하고 넘어가고자 아래와 같이 정리합니다.
■ 평균
- 자료의 합 / 자료의 개수
■ 중앙값(Median)
- 자료를 크기순서로 나열했을 때 가장 중앙에 위치한 값이다. ㄴ = MEDIAN(범위)
■ 최빈값(mode)
- 자료 중에서 가장 출현빈도가 높은 값이다.
- = MODE(범위)
■ 분산(Variance) ㄴ평균을 중심으로 관찰값들이 얼마나 떨어져 분포하는가를 나타낸다. ㄴ편차제곱합 : 편차1^2 + 편차2^2 + ….. ㄴ분산 = 편차제곱합 / 데이터 수 = VAR(범위)
■ 표준편차(standard deviation)
- 분산의 양의 제곱근으로 원 자료 측정단위와 같은 단위로 퍼짐 정도를 나타낸다.
- 표준편차 = 분산^(1/2) = STDEV(범위)
■ 변동계수(coefficient of variation, CV)
- 평균이 크게 다른 두 개 이상의 집단을 비교할 때 또는 각 집단의 상대적 동질성을 비교할 때 주로 사용
- CV = 표준편차 / 평균
■ 범위
- 최대값 - 최소값, 가장 간단하게 퍼짐 정도를 파악할 수 있는 척도이다.
■ 사분위수 범위(IQR : Interquartile Range)
- 제 3사분위수와 제 1사분위수의 차를 의미, 자료의 가운데 부분에 위치한 50%의미
- 사분위수 = 3사분위수 - 1사분위수 = QUARTILE(범위, quart)
■ 상자그림
- 최소값, 1사분위, 2사분위, 3사분위, 최대값을 이용하여 그림을 그린다.
■ 백분위수
- 어떤 숫자들의 집합에서 제c백분위수는 수들의 c% 가 그 값보다 작고 나머지는 그 값보다 큰 값을 말한다.
■ 데이터의 Z 값
- 어떤 특정한 자료값이 평균으로부터 표준편차의 몇 배 만큼 떨어져 있는가를 측정한다.
- Z = (변량(x) - 평균) / 표준편차 = STANDARIDZE(x, mean, standard_dev)