분산
1에서 5까지의 범위를 갖는 주사위를 세 번 던져 나온 눈의 합계 X와 1에서 8까지의 범위를 갖는 주사위를 두 번 던져 나온 눈의 합계 Y에 대한 확률 분포는 다음과 같다.
X 값 | 확률 | Y 값 | 확률 |
---|---|---|---|
2 | 0 | 2 | 1/64 = 0.016 |
3 | 1/125 = 0.008 | 3 | 2/64 = 0.031 |
4 | 3/125 = 0.024 | 4 | 3/64 = 0.047 |
5 | 6/125 = 0.048 | 5 | 4/64 = 0.063 |
6 | 10/125 = 0.080 | 6 | 5/64 = 0.078 |
7 | 15/125 = 0.120 | 7 | 6/64 = 0.094 |
8 | 18/125 = 0.144 | 8 | 7/64 = 0.109 |
9 | 19/125 = 0.152 | 9 | 8/64 = 0.125 |
10 | 18/125 = 0.144 | 10 | 7/64 = 0.109 |
11 | 15/125 = 0.120 | 11 | 6/64 = 0.094 |
12 | 10/125 = 0.080 | 12 | 5/64 = 0.078 |
13 | 6/125 = 0.048 | 13 | 4/64 = 0.063 |
14 | 3/125 = 0.024 | 14 | 3/64 = 0.047 |
15 | 1/125 = 0.008 | 15 | 2/64 = 0.031 |
16 | 0 | 16 | 1/64 = 0.016 |
위의 표를 보면 기대값 \(E[X]=E[Y]=9\)로 동일하지만 Y가 중심에서 벗어나는 값이 더 많음을 알 수 있다. 이와같이 벗어난 정도를 측정하고 싶을 때 사용하는 방식을 분산이라고 한다. 또한 ‘기대값에서 벗어난 상태’의 기대값으로도 해석한다.
확률변수 \(X\)의 기대값이 \(E[X]=\mu\) 일 때, 절대값이 아닌 \((x-\mu)^2\) 라는 제곱 오차가 널리 사용되며 다음과 같이 표현한다.
\[V[X] \equiv E[(X-\mu)^2] \ \ \ where, \ \mu \equiv E[X]\]이 식을 사용한다면 위의 \(V[X]\)와 \(V[Y]\)는 다음과 같다.
\[V[X] \equiv E[(X-\mu)^2] = \sum_{X=1}^{16} (X-9)^2P(X) \\ =(3-9)^2 P(X=3)+(4-9)^2P(X=4)+... \\ +(14-9)^2 P(X=14)+(15-9)^2 P(X=15)\\ =6^2 \times \frac{1}{125} + 5^2 \times \frac{3}{125}+...+ 5^2 \times \frac{3}{125} +6^2 \times \frac{1}{125}=\frac{750}{125} = 6\]결과에서 \(V[X]<V[Y]\)로 확실히 Y의 분산이 더 큼을 알 수 있다.
또한 위 식에서 \(E[(X-\mu)^2]\)이 0이 되려면 \(P(X=\mu)\)가 반드시 1이어야 한다. 그리고 정의에 의해 \(\mu\)가 0인경우 \(E[X]=0\)이며 \(V[X]=E[(X-\mu)^2]=E[X^2]\)이다.
표준편차
위의 분산식을 다시 살펴보자
\[V[X] \equiv E[(X-\mu)^2] \ \ \ where, \ \mu \equiv E[X]\]이 식에서 제곱을 사용했으므로 \(V[X]\)는 \(X\)와 \(\mu\)의 차이의 제곱이 된다. 이 표현을 길이개념으로 돌리기 위해 제곱근을 사용한다. 그리고 이 분산의 제곱근을 표준편차(Standard deviation)라고 부르며 문자는 일반적으로 \(\sigma\)로 표기한다.
\[\sigma \equiv \sqrt{V[X]}\]분산과 표준편차의 성질
-
\(V[Y] = V[X+c] = V[x]\).
-
\(V[Z] = V[cX] = c^2 V[X]\).
ex)
\(E[X] \equiv \mu\)라고 두면 \(E[Y]= \mu +c\) 그리고 \(E[Z] = c\mu\)다. 따라서 다음과 같다. \(V[Y] = E[ \left\{Y-(\mu+c)^2 \right\}] = E[\left\{(X+c)-(\mu+c)^2\right\}] =E[(X-\mu)^2]=V[X] \\ V[Z]=E[(Z-c\mu)^2]=E[(cX-c\mu)^2]=E[c^2(X-\mu)^2]=c^2E[(X-\mu)^2]=c^2V[X]\)
-
\(E[X] = \mu , \ V[X] = \sigma^2 >0\)일 때, \(W \equiv \frac{X-\mu}{\sigma}\)이면 \(E[W]=0 , \ V[W]=1\). 또한, 이를 표준화라고 한다.
ex)
\(E[W]=E\left[\frac{X-\mu}{\sigma}\right]=\frac{E[X-\mu]}{\sigma}=\frac{E[X]-\mu}{\sigma}=\frac{\mu - \mu}{\sigma}=0 \\ V[W] = V\left[ \frac{X-\mu}{\sigma}\right]=\frac{V[X-\mu]}{\sigma^2}=\frac{V[X]}{\sigma^2}=\frac{\sigma^2}{\sigma^2}=1\)
ex2)
이를 역으로 유도할 수도 있다.
\(W=aX+b\)로 두고, \(E[W]=0, \ V[W]=1\)이 되는 \(W\)를 찾는다. 그러면 다음이 성립하게 된다.
\[E[W] = a\mu + b = 0, \ V[W]= a^2 \sigma^2 = 1\]분산을 나타내는 식에서 \(a=1/ \sigma\) 를 얻을 수 있고, 기대값 식에 대입하면 \(b=-\mu / \sigma\)를 얻을 수 있고 최종적으로 다음을 얻는다.
\[W = \frac{X-\mu}{\sigma}\]정리하면 다음과 같다.
1) 원래 \(X\)의 기대값 \(\mu\)와 표준편차 \(\sigma\)를 구한다.
2) 먼저 전체를 시프트(평행이동)해서 기대값이 0이 되도록 조절한다.
\(\tilde{X} \equiv X-\mu \qquad \rightarrow E[\tilde{X}] =0, V[\tilde{X}]=\sigma^2\).
3) 이어서 스케일링(크기 변환)으로 폭을 조절하고 표준편차를 1로 한다.
\(W \equiv \frac{1}{\sigma} \tilde{X} \qquad \rightarrow E[W] =0, V[W] =1\) .
-
\(X\)와 \(Y\)가 독립일 때, \(V[X+Y]=V[X]+V[Y]\).
ex)
\(E[X]=\mu\), \(E[Y]=\nu\)라고 가정하면 \(V[X+Y]=E\left[\left( (X+Y) - (\mu + \nu) \right)^2 \right] = E\left[((X-\mu)+(Y-\nu))^2\right] \\ =E[(X-\mu)^2+(Y-\nu)^2+2(X-\mu)(Y-\nu)] \\ =E[(X-\mu)^2] + E[(Y-\nu)^2]+E[2(X-\mu)(Y-\nu)] \\ = V[X]+V[Y]+2E[(X-\mu)(Y-\nu)]\)
-
\(E[X^2]=\mu^2+\sigma^2\)가 성립한다.
ex)
\(Z \equiv X-\mu\) 로 두고, \(E[Z]=0\)이며, \(X=Z+\mu\)가 되고 다음이 성립한다. \(E[X^2]=E[(Z+\mu)^2]=E[Z^2+\mu^2+2\mu Z] \\ =E[Z^2]+E[\mu^2]+E[2\mu Z] \\ =E[Z^2]+\mu^2+2\mu E[Z]\)
-
임의의 상수 \(a\)에 대해 \(E[(X-a)^2] =(\mu - a)^2+\sigma^2\)이 성립한다.
ex)
\[E[(X-a)^2]=E[X^2 - 2aX +a^2] = E[X^2]-2aE[X]+a^2 \\ = \sigma^2 + \mu^2 -2a\mu + a^2 = (\mu-a)^2 +\sigma^2\]또한, 이를 기준값 \(a\)와 실제 값 X 차이의 제곱의 기대값으로 해석 할 수 있다.
\[(X와 \ a의 \ 제곱 \ 오차의 \ 기대값) = (기대값의 \ 제곱 \ 오차)+(분산) \\ = (편향에 \ 의한 \ 오차)+(편차에 \ 의한 \ 오차)\]
Comments