Monch

조건부 기댓값과 최소제곱 예측

30 Jun 2020 • Statistics

조건부 기댓값

\(X=a\)라는 관측값을 얻었을 때 \(Y\)를 예측하기 위해 조건부 확률 \(P(Y=b|X=a)\)를 계산하면 된다. 이외에 \(X=a\)라는 조건하에 Y의 조건부분포를 구해 그 기대값을 취하는 방식을 선택할 수도 있다.
조건부 기대값은 다음과 같다.

\[E[Y|X=a] \equiv \sum_{b}bP(Y=b|X=a)\]

또한, 모든 X의 확률을 알고 있다면 다음을 구할 수 있다.

\[E[Y] = \sum_b b P(Y=b) \\ =\sum_{b} b \sum_{a} P(Y=b,X=a) \\ =\sum_{b} b \sum_{a} \frac{P(Y=b,X=a)}{P(X=a)} P(X=a) \\ = \sum_{a} \sum_{b} b P(Y=b|X=a) P(X=a) \\ = \sum_{a} E[Y|X=a]P(X=a)\]

최소제곱 예측

조건부분포 \(P(Y=b \mid X=a)\)가 주어지고 \(X\)의 값을 입력하면 \(Y\)의 전망값 \(\hat{Y}\)를 출력하는 프로그램을 작성했을 때, 제곱 오차 \((Y-\hat{Y})^2\)의 기대값 \(E[(Y-\hat{Y})^2]\)를 최소로 하자.

다시 말하면, ‘X를 입력했을 때 Y의 예측값이 나오는 형태의 함수 g 중 \(E[(Y-g(X))^2]\)이 최소가 되는 것을 답하라’라는 문제이다. 여기서 \(g(a)\)는 다음과 같이 표현할 수 있다.

\[g(a)=E[Y|X=a]\]

우선 이해하기 쉽도록 X를 1에서 3까지의 정수값을 가진다고 가정하자. 이때 제곱 오차의 기대값은

\[E[(Y-\hat{Y})^2]=E[(Y-g(X))^2] \\ = \sum_{a=1}^3 \sum_{b} (b-g(a))^2 P(X=a,Y=b) \\ = \sum_{b}(b-g(1))^2 P(X=1,Y=b) \\ + \sum_{b}(b-g(2))^2 P(X=2,Y=b) \\ + \sum_{b}(b-g(3))^2 P(X=3,Y=b) \\ = (g(1)으로 정해진 양)+(g(2)으로 정해진 양)+(g(3)으로 정해진 양)\]

처럼 세 개로 나뉘고 각각 최소가 되도록 개별적으로 조사하면 최적의 g를 얻을 수 있다.

\[\sum_{b} (b-g(1))^2 P(X=1,Y=b) = \sum_{b} (b-g(1))^2 P(Y=b|X=1)P(X=1) \\ = P(X=1) \sum_{b} (b-g(1))^2 P(Y=b|X=1)\]

여기서 \(P(X=1)\)은 고정이므로 결국 \(\sum_{b} (b-g(1))^2 P(Y=b \mid X=1)\)를 최소화 해야한다.

\[h_1 (g(1)) \equiv \sum_{b} (b-g(1))^2 P(Y=b|X=1)\]

로 두고 \(g(1)\)에 대해 미분을 하면 다음과 같다.

\[\frac{dh_{1}}{dg(1)} =2\sum_{b}(g(1)-b) P(Y=b|X=1) \\ =2 \left( \sum_{b} g(1) P(Y=b|X=1) - \sum_{b} b P(Y=b|X=1)\right) \\ =2 \left(g(1) \sum_{b} P(Y=b|X=1) - \sum_{b} b P(Y=b|X=1)\right) \\ =2(g(1) - E[Y|X =1])\]

따라서 \(dh_{1}/dg(1) =0\)이 될 때( \(g(1)=E[Y \mid X=1]\) 일 때), \(h_{1}(g(1))\)이 최소가 된다. 또한, g(2), g(3)도 동일하다.

결과적으로 \(g(a) = E[Y \mid X=a]\)일 때 최소화된다.

20/06/24 ~ 29

29 Jun 2020 • TIL

6/24~29
- 하루에 1개씩 알고리즘 문제를 풀이.
6/24
- Alex data loader를 짰는데 아직 정리가 덜 되었다.
6/25~28
- 2개의 기업과 추가적으로 참여하고 싶은 곳에 자소서를 썼는데 자소서는 써도써도 감이 안온다.
6/29
- 분산, 표준편차 정리 및 업로드

분산과 표준편차(Variance and standard deviation)

29 Jun 2020 • Statistics

분산

1에서 5까지의 범위를 갖는 주사위를 세 번 던져 나온 눈의 합계 X와 1에서 8까지의 범위를 갖는 주사위를 두 번 던져 나온 눈의 합계 Y에 대한 확률 분포는 다음과 같다.

X 값	확률	Y 값	확률
2	0	2	1/64 = 0.016
3	1/125 = 0.008	3	2/64 = 0.031
4	3/125 = 0.024	4	3/64 = 0.047
5	6/125 = 0.048	5	4/64 = 0.063
6	10/125 = 0.080	6	5/64 = 0.078
7	15/125 = 0.120	7	6/64 = 0.094
8	18/125 = 0.144	8	7/64 = 0.109
9	19/125 = 0.152	9	8/64 = 0.125
10	18/125 = 0.144	10	7/64 = 0.109
11	15/125 = 0.120	11	6/64 = 0.094
12	10/125 = 0.080	12	5/64 = 0.078
13	6/125 = 0.048	13	4/64 = 0.063
14	3/125 = 0.024	14	3/64 = 0.047
15	1/125 = 0.008	15	2/64 = 0.031
16	0	16	1/64 = 0.016

위의 표를 보면 기대값 \(E[X]=E[Y]=9\)로 동일하지만 Y가 중심에서 벗어나는 값이 더 많음을 알 수 있다. 이와같이 벗어난 정도를 측정하고 싶을 때 사용하는 방식을 분산이라고 한다. 또한 ‘기대값에서 벗어난 상태’의 기대값으로도 해석한다.

확률변수 \(X\)의 기대값이 \(E[X]=\mu\) 일 때, 절대값이 아닌 \((x-\mu)^2\) 라는 제곱 오차가 널리 사용되며 다음과 같이 표현한다.

\[V[X] \equiv E[(X-\mu)^2] \ \ \ where, \ \mu \equiv E[X]\]

이 식을 사용한다면 위의 \(V[X]\)와 \(V[Y]\)는 다음과 같다.

\[V[X] \equiv E[(X-\mu)^2] = \sum_{X=1}^{16} (X-9)^2P(X) \\ =(3-9)^2 P(X=3)+(4-9)^2P(X=4)+... \\ +(14-9)^2 P(X=14)+(15-9)^2 P(X=15)\\ =6^2 \times \frac{1}{125} + 5^2 \times \frac{3}{125}+...+ 5^2 \times \frac{3}{125} +6^2 \times \frac{1}{125}=\frac{750}{125} = 6\]

\[V[Y] \equiv E[(Y-\mu)^2] = \sum_{Y=1}^{16} (Y-9)^2P(Y) \\ =(2-9)^2 P(Y=2)+(3-9)^2P(Y=3)+...+(15-9)^2 P(X=15)+(16-9)^2 P(Y=16)\\ =7^2 \times \frac{1}{64} + 6^2 \times \frac{2}{64}+...+ 6^2 \times \frac{2}{64} +7^2 \times \frac{1}{64}=\frac{672}{64} = 10.5\]

결과에서 \(V[X]<V[Y]\)로 확실히 Y의 분산이 더 큼을 알 수 있다.
또한 위 식에서 \(E[(X-\mu)^2]\)이 0이 되려면 \(P(X=\mu)\)가 반드시 1이어야 한다. 그리고 정의에 의해 \(\mu\)가 0인경우 \(E[X]=0\)이며 \(V[X]=E[(X-\mu)^2]=E[X^2]\)이다.

표준편차

위의 분산식을 다시 살펴보자

\[V[X] \equiv E[(X-\mu)^2] \ \ \ where, \ \mu \equiv E[X]\]

이 식에서 제곱을 사용했으므로 \(V[X]\)는 \(X\)와 \(\mu\)의 차이의 제곱이 된다. 이 표현을 길이개념으로 돌리기 위해 제곱근을 사용한다. 그리고 이 분산의 제곱근을 표준편차(Standard deviation)라고 부르며 문자는 일반적으로 \(\sigma\)로 표기한다.

\[\sigma \equiv \sqrt{V[X]}\]

분산과 표준편차의 성질

\(V[Y] = V[X+c] = V[x]\).
\(V[Z] = V[cX] = c^2 V[X]\).

ex)

\(E[X] \equiv \mu\)라고 두면 \(E[Y]= \mu +c\) 그리고 \(E[Z] = c\mu\)다. 따라서 다음과 같다. \(V[Y] = E[ \left\{Y-(\mu+c)^2 \right\}] = E[\left\{(X+c)-(\mu+c)^2\right\}] =E[(X-\mu)^2]=V[X] \\ V[Z]=E[(Z-c\mu)^2]=E[(cX-c\mu)^2]=E[c^2(X-\mu)^2]=c^2E[(X-\mu)^2]=c^2V[X]\)
\(E[X] = \mu , \ V[X] = \sigma^2 >0\)일 때, \(W \equiv \frac{X-\mu}{\sigma}\)이면 \(E[W]=0 , \ V[W]=1\). 또한, 이를 표준화라고 한다.

ex)

\(E[W]=E\left[\frac{X-\mu}{\sigma}\right]=\frac{E[X-\mu]}{\sigma}=\frac{E[X]-\mu}{\sigma}=\frac{\mu - \mu}{\sigma}=0 \\ V[W] = V\left[ \frac{X-\mu}{\sigma}\right]=\frac{V[X-\mu]}{\sigma^2}=\frac{V[X]}{\sigma^2}=\frac{\sigma^2}{\sigma^2}=1\)

ex2)

이를 역으로 유도할 수도 있다.

\(W=aX+b\)로 두고, \(E[W]=0, \ V[W]=1\)이 되는 \(W\)를 찾는다. 그러면 다음이 성립하게 된다.
\[E[W] = a\mu + b = 0, \ V[W]= a^2 \sigma^2 = 1\]
분산을 나타내는 식에서 \(a=1/ \sigma\) 를 얻을 수 있고, 기대값 식에 대입하면 \(b=-\mu / \sigma\)를 얻을 수 있고 최종적으로 다음을 얻는다.
\[W = \frac{X-\mu}{\sigma}\]
정리하면 다음과 같다.

1) 원래 \(X\)의 기대값 \(\mu\)와 표준편차 \(\sigma\)를 구한다.

2) 먼저 전체를 시프트(평행이동)해서 기대값이 0이 되도록 조절한다.
\(\tilde{X} \equiv X-\mu \qquad \rightarrow E[\tilde{X}] =0, V[\tilde{X}]=\sigma^2\).

3) 이어서 스케일링(크기 변환)으로 폭을 조절하고 표준편차를 1로 한다.

\(W \equiv \frac{1}{\sigma} \tilde{X} \qquad \rightarrow E[W] =0, V[W] =1\) .

\(X\)와 \(Y\)가 독립일 때, \(V[X+Y]=V[X]+V[Y]\).

ex)

\(E[X]=\mu\), \(E[Y]=\nu\)라고 가정하면 \(V[X+Y]=E\left[\left( (X+Y) - (\mu + \nu) \right)^2 \right] = E\left[((X-\mu)+(Y-\nu))^2\right] \\ =E[(X-\mu)^2+(Y-\nu)^2+2(X-\mu)(Y-\nu)] \\ =E[(X-\mu)^2] + E[(Y-\nu)^2]+E[2(X-\mu)(Y-\nu)] \\ = V[X]+V[Y]+2E[(X-\mu)(Y-\nu)]\)
\(E[X^2]=\mu^2+\sigma^2\)가 성립한다.

ex)

\(Z \equiv X-\mu\) 로 두고, \(E[Z]=0\)이며, \(X=Z+\mu\)가 되고 다음이 성립한다. \(E[X^2]=E[(Z+\mu)^2]=E[Z^2+\mu^2+2\mu Z] \\ =E[Z^2]+E[\mu^2]+E[2\mu Z] \\ =E[Z^2]+\mu^2+2\mu E[Z]\)
임의의 상수 \(a\)에 대해 \(E[(X-a)^2] =(\mu - a)^2+\sigma^2\)이 성립한다.

ex)
\[E[(X-a)^2]=E[X^2 - 2aX +a^2] = E[X^2]-2aE[X]+a^2 \\ = \sigma^2 + \mu^2 -2a\mu + a^2 = (\mu-a)^2 +\sigma^2\]
또한, 이를 기준값 \(a\)와 실제 값 X 차이의 제곱의 기대값으로 해석 할 수 있다.
\[(X와 \ a의 \ 제곱 \ 오차의 \ 기대값) = (기대값의 \ 제곱 \ 오차)+(분산) \\ = (편향에 \ 의한 \ 오차)+(편차에 \ 의한 \ 오차)\]

20/06/15 ~ 23

23 Jun 2020 • TIL

6/15~23
- 하루에 1개씩 알고리즘 문제를 풀이.
15~19일
- 딥러닝 컴퓨터 비전 완벽 가이드를 완강했다. train 도중 google cloud가 강제 종료된 이후 모든 파일이 날라갔다……snap shot 사용을 안했으면 복구가 불가능 하다고 한다.ㅠㅠ
20~21일
- 책에 있는 내용과 moravec 알고리즘 정리 및 구현
22 일
- harris corner 알고리즘 정리 및 구현
23 일
- Alex net 정리 - 작년에 읽었었는데 그때 이해한 정도와 지금 이해한 정도가 다른게 신기하다.

Alex net

23 Jun 2020 • Backbone

Alex net은 2012년 제프리 힌튼 교수팀에서 연구되었다.
이미지넷에서 주고나하는 ILSVRC (Large Salce Visual Recognition Competition)에서 top5 test error 기준 15.4 %를 기록해 큰 폭으로 1위를 차지했다.
또한 DropOut이나 ReLU 같은 다른 논문에서 제안된 방법론들을 네트워크 설계에 차용했으며 이후 여러 논문에서도 이 두개의 논문이 많이 쓰여짐.

More …