조건부 기댓값과 최소제곱 예측

조건부 기댓값

\(X=a\)라는 관측값을 얻었을 때 \(Y\)를 예측하기 위해 조건부 확률 \(P(Y=b|X=a)\)를 계산하면 된다. 이외에 \(X=a\)라는 조건하에 Y의 조건부분포를 구해 그 기대값을 취하는 방식을 선택할 수도 있다.
조건부 기대값은 다음과 같다.

\[E[Y|X=a] \equiv \sum_{b}bP(Y=b|X=a)\]

또한, 모든 X의 확률을 알고 있다면 다음을 구할 수 있다.

\[E[Y] = \sum_b b P(Y=b) \\ =\sum_{b} b \sum_{a} P(Y=b,X=a) \\ =\sum_{b} b \sum_{a} \frac{P(Y=b,X=a)}{P(X=a)} P(X=a) \\ = \sum_{a} \sum_{b} b P(Y=b|X=a) P(X=a) \\ = \sum_{a} E[Y|X=a]P(X=a)\]

최소제곱 예측

조건부분포 \(P(Y=b \mid X=a)\)가 주어지고 \(X\)의 값을 입력하면 \(Y\)의 전망값 \(\hat{Y}\)를 출력하는 프로그램을 작성했을 때, 제곱 오차 \((Y-\hat{Y})^2\)의 기대값 \(E[(Y-\hat{Y})^2]\)를 최소로 하자.

다시 말하면, ‘X를 입력했을 때 Y의 예측값이 나오는 형태의 함수 g 중 \(E[(Y-g(X))^2]\)이 최소가 되는 것을 답하라’라는 문제이다. 여기서 \(g(a)\)는 다음과 같이 표현할 수 있다.

\[g(a)=E[Y|X=a]\]

우선 이해하기 쉽도록 X를 1에서 3까지의 정수값을 가진다고 가정하자. 이때 제곱 오차의 기대값은

\[E[(Y-\hat{Y})^2]=E[(Y-g(X))^2] \\ = \sum_{a=1}^3 \sum_{b} (b-g(a))^2 P(X=a,Y=b) \\ = \sum_{b}(b-g(1))^2 P(X=1,Y=b) \\ + \sum_{b}(b-g(2))^2 P(X=2,Y=b) \\ + \sum_{b}(b-g(3))^2 P(X=3,Y=b) \\ = (g(1)으로 정해진 양)+(g(2)으로 정해진 양)+(g(3)으로 정해진 양)\]

처럼 세 개로 나뉘고 각각 최소가 되도록 개별적으로 조사하면 최적의 g를 얻을 수 있다.

\[\sum_{b} (b-g(1))^2 P(X=1,Y=b) = \sum_{b} (b-g(1))^2 P(Y=b|X=1)P(X=1) \\ = P(X=1) \sum_{b} (b-g(1))^2 P(Y=b|X=1)\]

여기서 \(P(X=1)\)은 고정이므로 결국 \(\sum_{b} (b-g(1))^2 P(Y=b \mid X=1)\)를 최소화 해야한다.

\[h_1 (g(1)) \equiv \sum_{b} (b-g(1))^2 P(Y=b|X=1)\]

로 두고 \(g(1)\)에 대해 미분을 하면 다음과 같다.

\[\frac{dh_{1}}{dg(1)} =2\sum_{b}(g(1)-b) P(Y=b|X=1) \\ =2 \left( \sum_{b} g(1) P(Y=b|X=1) - \sum_{b} b P(Y=b|X=1)\right) \\ =2 \left(g(1) \sum_{b} P(Y=b|X=1) - \sum_{b} b P(Y=b|X=1)\right) \\ =2(g(1) - E[Y|X =1])\]

따라서 \(dh_{1}/dg(1) =0\)이 될 때( \(g(1)=E[Y \mid X=1]\) 일 때), \(h_{1}(g(1))\)이 최소가 된다. 또한, g(2), g(3)도 동일하다.

결과적으로 \(g(a) = E[Y \mid X=a]\)일 때 최소화된다.

20/06/24 ~ 29

  • 6/24~29
    • 하루에 1개씩 알고리즘 문제를 풀이.
  • 6/24
    • Alex data loader를 짰는데 아직 정리가 덜 되었다.
  • 6/25~28
    • 2개의 기업과 추가적으로 참여하고 싶은 곳에 자소서를 썼는데 자소서는 써도써도 감이 안온다.
  • 6/29
    • 분산, 표준편차 정리 및 업로드

분산과 표준편차(Variance and standard deviation)

분산

1에서 5까지의 범위를 갖는 주사위를 세 번 던져 나온 눈의 합계 X와 1에서 8까지의 범위를 갖는 주사위를 두 번 던져 나온 눈의 합계 Y에 대한 확률 분포는 다음과 같다.

X 값 확률 Y 값 확률
2 0 2 1/64 = 0.016
3 1/125 = 0.008 3 2/64 = 0.031
4 3/125 = 0.024 4 3/64 = 0.047
5 6/125 = 0.048 5 4/64 = 0.063
6 10/125 = 0.080 6 5/64 = 0.078
7 15/125 = 0.120 7 6/64 = 0.094
8 18/125 = 0.144 8 7/64 = 0.109
9 19/125 = 0.152 9 8/64 = 0.125
10 18/125 = 0.144 10 7/64 = 0.109
11 15/125 = 0.120 11 6/64 = 0.094
12 10/125 = 0.080 12 5/64 = 0.078
13 6/125 = 0.048 13 4/64 = 0.063
14 3/125 = 0.024 14 3/64 = 0.047
15 1/125 = 0.008 15 2/64 = 0.031
16 0 16 1/64 = 0.016

위의 표를 보면 기대값 \(E[X]=E[Y]=9\)로 동일하지만 Y가 중심에서 벗어나는 값이 더 많음을 알 수 있다. 이와같이 벗어난 정도를 측정하고 싶을 때 사용하는 방식을 분산이라고 한다. 또한 ‘기대값에서 벗어난 상태’의 기대값으로도 해석한다.

확률변수 \(X\)의 기대값이 \(E[X]=\mu\) 일 때, 절대값이 아닌 \((x-\mu)^2\) 라는 제곱 오차가 널리 사용되며 다음과 같이 표현한다.

\[V[X] \equiv E[(X-\mu)^2] \ \ \ where, \ \mu \equiv E[X]\]

이 식을 사용한다면 위의 \(V[X]\)와 \(V[Y]\)는 다음과 같다.

\[V[X] \equiv E[(X-\mu)^2] = \sum_{X=1}^{16} (X-9)^2P(X) \\ =(3-9)^2 P(X=3)+(4-9)^2P(X=4)+... \\ +(14-9)^2 P(X=14)+(15-9)^2 P(X=15)\\ =6^2 \times \frac{1}{125} + 5^2 \times \frac{3}{125}+...+ 5^2 \times \frac{3}{125} +6^2 \times \frac{1}{125}=\frac{750}{125} = 6\]


\[V[Y] \equiv E[(Y-\mu)^2] = \sum_{Y=1}^{16} (Y-9)^2P(Y) \\ =(2-9)^2 P(Y=2)+(3-9)^2P(Y=3)+...+(15-9)^2 P(X=15)+(16-9)^2 P(Y=16)\\ =7^2 \times \frac{1}{64} + 6^2 \times \frac{2}{64}+...+ 6^2 \times \frac{2}{64} +7^2 \times \frac{1}{64}=\frac{672}{64} = 10.5\]

결과에서 \(V[X]<V[Y]\)로 확실히 Y의 분산이 더 큼을 알 수 있다.
또한 위 식에서 \(E[(X-\mu)^2]\)이 0이 되려면 \(P(X=\mu)\)가 반드시 1이어야 한다. 그리고 정의에 의해 \(\mu\)가 0인경우 \(E[X]=0\)이며 \(V[X]=E[(X-\mu)^2]=E[X^2]\)이다.


표준편차

위의 분산식을 다시 살펴보자

\[V[X] \equiv E[(X-\mu)^2] \ \ \ where, \ \mu \equiv E[X]\]

이 식에서 제곱을 사용했으므로 \(V[X]\)는 \(X\)와 \(\mu\)의 차이의 제곱이 된다. 이 표현을 길이개념으로 돌리기 위해 제곱근을 사용한다. 그리고 이 분산의 제곱근을 표준편차(Standard deviation)라고 부르며 문자는 일반적으로 \(\sigma\)로 표기한다.

\[\sigma \equiv \sqrt{V[X]}\]


분산과 표준편차의 성질

  1. \(V[Y] = V[X+c] = V[x]\).

  2. \(V[Z] = V[cX] = c^2 V[X]\).

    ex)

    \(E[X] \equiv \mu\)라고 두면 \(E[Y]= \mu +c\) 그리고 \(E[Z] = c\mu\)다. 따라서 다음과 같다. \(V[Y] = E[ \left\{Y-(\mu+c)^2 \right\}] = E[\left\{(X+c)-(\mu+c)^2\right\}] =E[(X-\mu)^2]=V[X] \\ V[Z]=E[(Z-c\mu)^2]=E[(cX-c\mu)^2]=E[c^2(X-\mu)^2]=c^2E[(X-\mu)^2]=c^2V[X]\)

  3. \(E[X] = \mu , \ V[X] = \sigma^2 >0\)일 때, \(W \equiv \frac{X-\mu}{\sigma}\)이면 \(E[W]=0 , \ V[W]=1\). 또한, 이를 표준화라고 한다.

    ex)

    \(E[W]=E\left[\frac{X-\mu}{\sigma}\right]=\frac{E[X-\mu]}{\sigma}=\frac{E[X]-\mu}{\sigma}=\frac{\mu - \mu}{\sigma}=0 \\ V[W] = V\left[ \frac{X-\mu}{\sigma}\right]=\frac{V[X-\mu]}{\sigma^2}=\frac{V[X]}{\sigma^2}=\frac{\sigma^2}{\sigma^2}=1\)

    ex2)

    이를 역으로 유도할 수도 있다.

    \(W=aX+b\)로 두고, \(E[W]=0, \ V[W]=1\)이 되는 \(W\)를 찾는다. 그러면 다음이 성립하게 된다.

    \[E[W] = a\mu + b = 0, \ V[W]= a^2 \sigma^2 = 1\]

    분산을 나타내는 식에서 \(a=1/ \sigma\) 를 얻을 수 있고, 기대값 식에 대입하면 \(b=-\mu / \sigma\)를 얻을 수 있고 최종적으로 다음을 얻는다.

    \[W = \frac{X-\mu}{\sigma}\]

    정리하면 다음과 같다.

1) 원래 \(X\)의 기대값 \(\mu\)와 표준편차 \(\sigma\)를 구한다.

2) 먼저 전체를 시프트(평행이동)해서 기대값이 0이 되도록 조절한다.
\(\tilde{X} \equiv X-\mu \qquad \rightarrow E[\tilde{X}] =0, V[\tilde{X}]=\sigma^2\).

3) 이어서 스케일링(크기 변환)으로 폭을 조절하고 표준편차를 1로 한다.

\(W \equiv \frac{1}{\sigma} \tilde{X} \qquad \rightarrow E[W] =0, V[W] =1\) .

  1. \(X\)와 \(Y\)가 독립일 때, \(V[X+Y]=V[X]+V[Y]\).

    ex)

    \(E[X]=\mu\), \(E[Y]=\nu\)라고 가정하면 \(V[X+Y]=E\left[\left( (X+Y) - (\mu + \nu) \right)^2 \right] = E\left[((X-\mu)+(Y-\nu))^2\right] \\ =E[(X-\mu)^2+(Y-\nu)^2+2(X-\mu)(Y-\nu)] \\ =E[(X-\mu)^2] + E[(Y-\nu)^2]+E[2(X-\mu)(Y-\nu)] \\ = V[X]+V[Y]+2E[(X-\mu)(Y-\nu)]\)

  2. \(E[X^2]=\mu^2+\sigma^2\)가 성립한다.

    ex)

    \(Z \equiv X-\mu\) 로 두고, \(E[Z]=0\)이며, \(X=Z+\mu\)가 되고 다음이 성립한다. \(E[X^2]=E[(Z+\mu)^2]=E[Z^2+\mu^2+2\mu Z] \\ =E[Z^2]+E[\mu^2]+E[2\mu Z] \\ =E[Z^2]+\mu^2+2\mu E[Z]\)

  3. 임의의 상수 \(a\)에 대해 \(E[(X-a)^2] =(\mu - a)^2+\sigma^2\)이 성립한다.

    ex)
    \[E[(X-a)^2]=E[X^2 - 2aX +a^2] = E[X^2]-2aE[X]+a^2 \\ = \sigma^2 + \mu^2 -2a\mu + a^2 = (\mu-a)^2 +\sigma^2\]

    또한, 이를 기준값 \(a\)와 실제 값 X 차이의 제곱의 기대값으로 해석 할 수 있다.

    \[(X와 \ a의 \ 제곱 \ 오차의 \ 기대값) = (기대값의 \ 제곱 \ 오차)+(분산) \\ = (편향에 \ 의한 \ 오차)+(편차에 \ 의한 \ 오차)\]

20/06/15 ~ 23

  • 6/15~23
    • 하루에 1개씩 알고리즘 문제를 풀이.
  • 15~19일
    • 딥러닝 컴퓨터 비전 완벽 가이드를 완강했다. train 도중 google cloud가 강제 종료된 이후 모든 파일이 날라갔다……snap shot 사용을 안했으면 복구가 불가능 하다고 한다.ㅠㅠ
  • 20~21일
    • 책에 있는 내용과 moravec 알고리즘 정리 및 구현
  • 22 일
    • harris corner 알고리즘 정리 및 구현
  • 23 일
    • Alex net 정리 - 작년에 읽었었는데 그때 이해한 정도와 지금 이해한 정도가 다른게 신기하다.

Alex net

Alex net은 2012년 제프리 힌튼 교수팀에서 연구되었다.
이미지넷에서 주고나하는 ILSVRC (Large Salce Visual Recognition Competition)에서 top5 test error 기준 15.4 %를 기록해 큰 폭으로 1위를 차지했다.
또한 DropOut이나 ReLU 같은 다른 논문에서 제안된 방법론들을 네트워크 설계에 차용했으며 이후 여러 논문에서도 이 두개의 논문이 많이 쓰여짐.

More …