30 Jun 2020
•
Statistics
조건부 기댓값
\(X=a\)라는 관측값을 얻었을 때 \(Y\)를 예측하기 위해 조건부 확률 \(P(Y=b|X=a)\)를 계산하면 된다. 이외에 \(X=a\)라는 조건하에 Y의 조건부분포를 구해 그 기대값을 취하는 방식을 선택할 수도 있다.
조건부 기대값은 다음과 같다.
\[E[Y|X=a] \equiv \sum_{b}bP(Y=b|X=a)\]
또한, 모든 X의 확률을 알고 있다면 다음을 구할 수 있다.
\[E[Y] = \sum_b b P(Y=b) \\ =\sum_{b} b \sum_{a} P(Y=b,X=a) \\
=\sum_{b} b \sum_{a} \frac{P(Y=b,X=a)}{P(X=a)} P(X=a) \\
= \sum_{a} \sum_{b} b P(Y=b|X=a) P(X=a) \\
= \sum_{a} E[Y|X=a]P(X=a)\]
최소제곱 예측
조건부분포 \(P(Y=b \mid X=a)\)가 주어지고 \(X\)의 값을 입력하면 \(Y\)의 전망값 \(\hat{Y}\)를 출력하는 프로그램을 작성했을 때, 제곱 오차 \((Y-\hat{Y})^2\)의 기대값 \(E[(Y-\hat{Y})^2]\)를 최소로 하자.
다시 말하면, ‘X를 입력했을 때 Y의 예측값이 나오는 형태의 함수 g 중 \(E[(Y-g(X))^2]\)이 최소가 되는 것을 답하라’라는 문제이다. 여기서 \(g(a)\)는 다음과 같이 표현할 수 있다.
\[g(a)=E[Y|X=a]\]
우선 이해하기 쉽도록 X를 1에서 3까지의 정수값을 가진다고 가정하자. 이때 제곱 오차의 기대값은
\[E[(Y-\hat{Y})^2]=E[(Y-g(X))^2] \\
= \sum_{a=1}^3 \sum_{b} (b-g(a))^2 P(X=a,Y=b) \\
= \sum_{b}(b-g(1))^2 P(X=1,Y=b) \\
+ \sum_{b}(b-g(2))^2 P(X=2,Y=b) \\
+ \sum_{b}(b-g(3))^2 P(X=3,Y=b) \\
= (g(1)으로 정해진 양)+(g(2)으로 정해진 양)+(g(3)으로 정해진 양)\]
처럼 세 개로 나뉘고 각각 최소가 되도록 개별적으로 조사하면 최적의 g를 얻을 수 있다.
\[\sum_{b} (b-g(1))^2 P(X=1,Y=b) = \sum_{b} (b-g(1))^2 P(Y=b|X=1)P(X=1) \\
= P(X=1) \sum_{b} (b-g(1))^2 P(Y=b|X=1)\]
여기서 \(P(X=1)\)은 고정이므로 결국 \(\sum_{b} (b-g(1))^2 P(Y=b \mid X=1)\)를 최소화 해야한다.
\[h_1 (g(1)) \equiv \sum_{b} (b-g(1))^2 P(Y=b|X=1)\]
로 두고 \(g(1)\)에 대해 미분을 하면 다음과 같다.
\[\frac{dh_{1}}{dg(1)} =2\sum_{b}(g(1)-b) P(Y=b|X=1) \\
=2 \left( \sum_{b} g(1) P(Y=b|X=1) - \sum_{b} b P(Y=b|X=1)\right) \\
=2 \left(g(1) \sum_{b} P(Y=b|X=1) - \sum_{b} b P(Y=b|X=1)\right) \\
=2(g(1) - E[Y|X =1])\]
따라서 \(dh_{1}/dg(1) =0\)이 될 때( \(g(1)=E[Y \mid X=1]\) 일 때), \(h_{1}(g(1))\)이 최소가 된다. 또한, g(2), g(3)도 동일하다.
결과적으로 \(g(a) = E[Y \mid X=a]\)일 때 최소화된다.
29 Jun 2020
•
TIL
- 6/24~29
- 6/24
- Alex data loader를 짰는데 아직 정리가 덜 되었다.
- 6/25~28
- 2개의 기업과 추가적으로 참여하고 싶은 곳에 자소서를 썼는데 자소서는 써도써도 감이 안온다.
- 6/29
29 Jun 2020
•
Statistics
분산
1에서 5까지의 범위를 갖는 주사위를 세 번 던져 나온 눈의 합계 X와 1에서 8까지의 범위를 갖는 주사위를 두 번 던져 나온 눈의 합계 Y에 대한 확률 분포는 다음과 같다.
X 값 |
확률 |
Y 값 |
확률 |
2 |
0 |
2 |
1/64 = 0.016 |
3 |
1/125 = 0.008 |
3 |
2/64 = 0.031 |
4 |
3/125 = 0.024 |
4 |
3/64 = 0.047 |
5 |
6/125 = 0.048 |
5 |
4/64 = 0.063 |
6 |
10/125 = 0.080 |
6 |
5/64 = 0.078 |
7 |
15/125 = 0.120 |
7 |
6/64 = 0.094 |
8 |
18/125 = 0.144 |
8 |
7/64 = 0.109 |
9 |
19/125 = 0.152 |
9 |
8/64 = 0.125 |
10 |
18/125 = 0.144 |
10 |
7/64 = 0.109 |
11 |
15/125 = 0.120 |
11 |
6/64 = 0.094 |
12 |
10/125 = 0.080 |
12 |
5/64 = 0.078 |
13 |
6/125 = 0.048 |
13 |
4/64 = 0.063 |
14 |
3/125 = 0.024 |
14 |
3/64 = 0.047 |
15 |
1/125 = 0.008 |
15 |
2/64 = 0.031 |
16 |
0 |
16 |
1/64 = 0.016 |
위의 표를 보면 기대값 \(E[X]=E[Y]=9\)로 동일하지만 Y가 중심에서 벗어나는 값이 더 많음을 알 수 있다. 이와같이 벗어난 정도를 측정하고 싶을 때 사용하는 방식을 분산이라고 한다. 또한 ‘기대값에서 벗어난 상태’의 기대값으로도 해석한다.
확률변수 \(X\)의 기대값이 \(E[X]=\mu\) 일 때, 절대값이 아닌 \((x-\mu)^2\) 라는 제곱 오차가 널리 사용되며 다음과 같이 표현한다.
\[V[X] \equiv E[(X-\mu)^2] \ \ \ where, \ \mu \equiv E[X]\]
이 식을 사용한다면 위의 \(V[X]\)와 \(V[Y]\)는 다음과 같다.
\[V[X] \equiv E[(X-\mu)^2] = \sum_{X=1}^{16} (X-9)^2P(X) \\
=(3-9)^2 P(X=3)+(4-9)^2P(X=4)+... \\
+(14-9)^2 P(X=14)+(15-9)^2 P(X=15)\\
=6^2 \times \frac{1}{125} + 5^2 \times \frac{3}{125}+...+ 5^2 \times \frac{3}{125} +6^2 \times \frac{1}{125}=\frac{750}{125} = 6\]
\[V[Y] \equiv E[(Y-\mu)^2] = \sum_{Y=1}^{16} (Y-9)^2P(Y) \\
=(2-9)^2 P(Y=2)+(3-9)^2P(Y=3)+...+(15-9)^2 P(X=15)+(16-9)^2 P(Y=16)\\
=7^2 \times \frac{1}{64} + 6^2 \times \frac{2}{64}+...+ 6^2 \times \frac{2}{64} +7^2 \times \frac{1}{64}=\frac{672}{64} = 10.5\]
결과에서 \(V[X]<V[Y]\)로 확실히 Y의 분산이 더 큼을 알 수 있다.
또한 위 식에서 \(E[(X-\mu)^2]\)이 0이 되려면 \(P(X=\mu)\)가 반드시 1이어야 한다. 그리고 정의에 의해 \(\mu\)가 0인경우 \(E[X]=0\)이며 \(V[X]=E[(X-\mu)^2]=E[X^2]\)이다.
표준편차
위의 분산식을 다시 살펴보자
\[V[X] \equiv E[(X-\mu)^2] \ \ \ where, \ \mu \equiv E[X]\]
이 식에서 제곱을 사용했으므로 \(V[X]\)는 \(X\)와 \(\mu\)의 차이의 제곱이 된다. 이 표현을 길이개념으로 돌리기 위해 제곱근을 사용한다. 그리고 이 분산의 제곱근을 표준편차(Standard deviation)라고 부르며 문자는 일반적으로 \(\sigma\)로 표기한다.
\[\sigma \equiv \sqrt{V[X]}\]
분산과 표준편차의 성질
-
\(V[Y] = V[X+c] = V[x]\).
-
\(V[Z] = V[cX] = c^2 V[X]\).
ex)
\(E[X] \equiv \mu\)라고 두면 \(E[Y]= \mu +c\) 그리고 \(E[Z] = c\mu\)다. 따라서 다음과 같다.
\(V[Y] = E[ \left\{Y-(\mu+c)^2 \right\}] = E[\left\{(X+c)-(\mu+c)^2\right\}] =E[(X-\mu)^2]=V[X] \\
V[Z]=E[(Z-c\mu)^2]=E[(cX-c\mu)^2]=E[c^2(X-\mu)^2]=c^2E[(X-\mu)^2]=c^2V[X]\)
-
\(E[X] = \mu , \ V[X] = \sigma^2 >0\)일 때, \(W \equiv \frac{X-\mu}{\sigma}\)이면 \(E[W]=0 , \ V[W]=1\). 또한, 이를 표준화라고 한다.
ex)
\(E[W]=E\left[\frac{X-\mu}{\sigma}\right]=\frac{E[X-\mu]}{\sigma}=\frac{E[X]-\mu}{\sigma}=\frac{\mu - \mu}{\sigma}=0 \\
V[W] = V\left[ \frac{X-\mu}{\sigma}\right]=\frac{V[X-\mu]}{\sigma^2}=\frac{V[X]}{\sigma^2}=\frac{\sigma^2}{\sigma^2}=1\)
ex2)
이를 역으로 유도할 수도 있다.
\(W=aX+b\)로 두고, \(E[W]=0, \ V[W]=1\)이 되는 \(W\)를 찾는다. 그러면 다음이 성립하게 된다.
\[E[W] = a\mu + b = 0, \ V[W]= a^2 \sigma^2 = 1\]
분산을 나타내는 식에서 \(a=1/ \sigma\) 를 얻을 수 있고, 기대값 식에 대입하면 \(b=-\mu / \sigma\)를 얻을 수 있고 최종적으로 다음을 얻는다.
\[W = \frac{X-\mu}{\sigma}\]
정리하면 다음과 같다.
1) 원래 \(X\)의 기대값 \(\mu\)와 표준편차 \(\sigma\)를 구한다.
2) 먼저 전체를 시프트(평행이동)해서 기대값이 0이 되도록 조절한다.
\(\tilde{X} \equiv X-\mu \qquad \rightarrow E[\tilde{X}] =0, V[\tilde{X}]=\sigma^2\).
3) 이어서 스케일링(크기 변환)으로 폭을 조절하고 표준편차를 1로 한다.
\(W \equiv \frac{1}{\sigma} \tilde{X} \qquad \rightarrow E[W] =0, V[W] =1\) .
-
\(X\)와 \(Y\)가 독립일 때, \(V[X+Y]=V[X]+V[Y]\).
ex)
\(E[X]=\mu\), \(E[Y]=\nu\)라고 가정하면
\(V[X+Y]=E\left[\left( (X+Y) - (\mu + \nu) \right)^2 \right] = E\left[((X-\mu)+(Y-\nu))^2\right] \\
=E[(X-\mu)^2+(Y-\nu)^2+2(X-\mu)(Y-\nu)] \\
=E[(X-\mu)^2] + E[(Y-\nu)^2]+E[2(X-\mu)(Y-\nu)] \\
= V[X]+V[Y]+2E[(X-\mu)(Y-\nu)]\)
-
\(E[X^2]=\mu^2+\sigma^2\)가 성립한다.
ex)
\(Z \equiv X-\mu\) 로 두고, \(E[Z]=0\)이며, \(X=Z+\mu\)가 되고 다음이 성립한다.
\(E[X^2]=E[(Z+\mu)^2]=E[Z^2+\mu^2+2\mu Z] \\
=E[Z^2]+E[\mu^2]+E[2\mu Z] \\
=E[Z^2]+\mu^2+2\mu E[Z]\)
-
임의의 상수 \(a\)에 대해 \(E[(X-a)^2] =(\mu - a)^2+\sigma^2\)이 성립한다.
ex)
\[E[(X-a)^2]=E[X^2 - 2aX +a^2] = E[X^2]-2aE[X]+a^2 \\
= \sigma^2 + \mu^2 -2a\mu + a^2 = (\mu-a)^2 +\sigma^2\]
또한, 이를 기준값 \(a\)와 실제 값 X 차이의 제곱의 기대값으로 해석 할 수 있다.
\[(X와 \ a의 \ 제곱 \ 오차의 \ 기대값) = (기대값의 \ 제곱 \ 오차)+(분산) \\
= (편향에 \ 의한 \ 오차)+(편차에 \ 의한 \ 오차)\]
23 Jun 2020
•
TIL
- 6/15~23
- 15~19일
- 딥러닝 컴퓨터 비전 완벽 가이드를 완강했다. train 도중 google cloud가 강제 종료된 이후 모든 파일이 날라갔다……snap shot 사용을 안했으면 복구가 불가능 하다고 한다.ㅠㅠ
- 20~21일
- 책에 있는 내용과 moravec 알고리즘 정리 및 구현
- 22 일
- harris corner 알고리즘 정리 및 구현
- 23 일
- Alex net 정리 - 작년에 읽었었는데 그때 이해한 정도와 지금 이해한 정도가 다른게 신기하다.
23 Jun 2020
•
Backbone
Alex net은 2012년 제프리 힌튼 교수팀에서 연구되었다.
이미지넷에서 주고나하는 ILSVRC (Large Salce Visual Recognition Competition)에서 top5 test error 기준 15.4 %를 기록해 큰 폭으로 1위를 차지했다.
또한 DropOut이나 ReLU 같은 다른 논문에서 제안된 방법론들을 네트워크 설계에 차용했으며 이후 여러 논문에서도 이 두개의 논문이 많이 쓰여짐.
More …