30 Jun 2020
•
Statistics
조건부 기댓값
X=a라는 관측값을 얻었을 때 Y를 예측하기 위해 조건부 확률 P(Y=b|X=a)를 계산하면 된다. 이외에 X=a라는 조건하에 Y의 조건부분포를 구해 그 기대값을 취하는 방식을 선택할 수도 있다.
조건부 기대값은 다음과 같다.
E[Y|X=a]≡∑bbP(Y=b|X=a)
또한, 모든 X의 확률을 알고 있다면 다음을 구할 수 있다.
E[Y]=∑bbP(Y=b)=∑bb∑aP(Y=b,X=a)=∑bb∑aP(Y=b,X=a)P(X=a)P(X=a)=∑a∑bbP(Y=b|X=a)P(X=a)=∑aE[Y|X=a]P(X=a)
최소제곱 예측
조건부분포 P(Y=b∣X=a)가 주어지고 X의 값을 입력하면 Y의 전망값 ˆY를 출력하는 프로그램을 작성했을 때, 제곱 오차 (Y−ˆY)2의 기대값 E[(Y−ˆY)2]를 최소로 하자.
다시 말하면, ‘X를 입력했을 때 Y의 예측값이 나오는 형태의 함수 g 중 E[(Y−g(X))2]이 최소가 되는 것을 답하라’라는 문제이다. 여기서 g(a)는 다음과 같이 표현할 수 있다.
g(a)=E[Y|X=a]
우선 이해하기 쉽도록 X를 1에서 3까지의 정수값을 가진다고 가정하자. 이때 제곱 오차의 기대값은
E[(Y−ˆY)2]=E[(Y−g(X))2]=3∑a=1∑b(b−g(a))2P(X=a,Y=b)=∑b(b−g(1))2P(X=1,Y=b)+∑b(b−g(2))2P(X=2,Y=b)+∑b(b−g(3))2P(X=3,Y=b)=(g(1)으로정해진양)+(g(2)으로정해진양)+(g(3)으로정해진양)
처럼 세 개로 나뉘고 각각 최소가 되도록 개별적으로 조사하면 최적의 g를 얻을 수 있다.
∑b(b−g(1))2P(X=1,Y=b)=∑b(b−g(1))2P(Y=b|X=1)P(X=1)=P(X=1)∑b(b−g(1))2P(Y=b|X=1)
여기서 P(X=1)은 고정이므로 결국 ∑b(b−g(1))2P(Y=b∣X=1)를 최소화 해야한다.
h1(g(1))≡∑b(b−g(1))2P(Y=b|X=1)
로 두고 g(1)에 대해 미분을 하면 다음과 같다.
dh1dg(1)=2∑b(g(1)−b)P(Y=b|X=1)=2(∑bg(1)P(Y=b|X=1)−∑bbP(Y=b|X=1))=2(g(1)∑bP(Y=b|X=1)−∑bbP(Y=b|X=1))=2(g(1)−E[Y|X=1])
따라서 dh1/dg(1)=0이 될 때( g(1)=E[Y∣X=1] 일 때), h1(g(1))이 최소가 된다. 또한, g(2), g(3)도 동일하다.
결과적으로 g(a)=E[Y∣X=a]일 때 최소화된다.
29 Jun 2020
•
Statistics
분산
1에서 5까지의 범위를 갖는 주사위를 세 번 던져 나온 눈의 합계 X와 1에서 8까지의 범위를 갖는 주사위를 두 번 던져 나온 눈의 합계 Y에 대한 확률 분포는 다음과 같다.
X 값 |
확률 |
Y 값 |
확률 |
2 |
0 |
2 |
1/64 = 0.016 |
3 |
1/125 = 0.008 |
3 |
2/64 = 0.031 |
4 |
3/125 = 0.024 |
4 |
3/64 = 0.047 |
5 |
6/125 = 0.048 |
5 |
4/64 = 0.063 |
6 |
10/125 = 0.080 |
6 |
5/64 = 0.078 |
7 |
15/125 = 0.120 |
7 |
6/64 = 0.094 |
8 |
18/125 = 0.144 |
8 |
7/64 = 0.109 |
9 |
19/125 = 0.152 |
9 |
8/64 = 0.125 |
10 |
18/125 = 0.144 |
10 |
7/64 = 0.109 |
11 |
15/125 = 0.120 |
11 |
6/64 = 0.094 |
12 |
10/125 = 0.080 |
12 |
5/64 = 0.078 |
13 |
6/125 = 0.048 |
13 |
4/64 = 0.063 |
14 |
3/125 = 0.024 |
14 |
3/64 = 0.047 |
15 |
1/125 = 0.008 |
15 |
2/64 = 0.031 |
16 |
0 |
16 |
1/64 = 0.016 |
위의 표를 보면 기대값 E[X]=E[Y]=9로 동일하지만 Y가 중심에서 벗어나는 값이 더 많음을 알 수 있다. 이와같이 벗어난 정도를 측정하고 싶을 때 사용하는 방식을 분산이라고 한다. 또한 ‘기대값에서 벗어난 상태’의 기대값으로도 해석한다.
확률변수 X의 기대값이 E[X]=μ 일 때, 절대값이 아닌 (x−μ)2 라는 제곱 오차가 널리 사용되며 다음과 같이 표현한다.
V[X]≡E[(X−μ)2] where, μ≡E[X]
이 식을 사용한다면 위의 V[X]와 V[Y]는 다음과 같다.
V[X]≡E[(X−μ)2]=16∑X=1(X−9)2P(X)=(3−9)2P(X=3)+(4−9)2P(X=4)+...+(14−9)2P(X=14)+(15−9)2P(X=15)=62×1125+52×3125+...+52×3125+62×1125=750125=6
V[Y]≡E[(Y−μ)2]=16∑Y=1(Y−9)2P(Y)=(2−9)2P(Y=2)+(3−9)2P(Y=3)+...+(15−9)2P(X=15)+(16−9)2P(Y=16)=72×164+62×264+...+62×264+72×164=67264=10.5
결과에서 V[X]<V[Y]로 확실히 Y의 분산이 더 큼을 알 수 있다.
또한 위 식에서 E[(X−μ)2]이 0이 되려면 P(X=μ)가 반드시 1이어야 한다. 그리고 정의에 의해 μ가 0인경우 E[X]=0이며 V[X]=E[(X−μ)2]=E[X2]이다.
표준편차
위의 분산식을 다시 살펴보자
V[X]≡E[(X−μ)2] where, μ≡E[X]
이 식에서 제곱을 사용했으므로 V[X]는 X와 μ의 차이의 제곱이 된다. 이 표현을 길이개념으로 돌리기 위해 제곱근을 사용한다. 그리고 이 분산의 제곱근을 표준편차(Standard deviation)라고 부르며 문자는 일반적으로 σ로 표기한다.
σ≡√V[X]
분산과 표준편차의 성질
-
V[Y]=V[X+c]=V[x].
-
V[Z]=V[cX]=c2V[X].
ex)
E[X]≡μ라고 두면 E[Y]=μ+c 그리고 E[Z]=cμ다. 따라서 다음과 같다.
V[Y]=E[{Y−(μ+c)2}]=E[{(X+c)−(μ+c)2}]=E[(X−μ)2]=V[X]V[Z]=E[(Z−cμ)2]=E[(cX−cμ)2]=E[c2(X−μ)2]=c2E[(X−μ)2]=c2V[X]
-
E[X]=μ, V[X]=σ2>0일 때, W≡X−μσ이면 E[W]=0, V[W]=1. 또한, 이를 표준화라고 한다.
ex)
E[W]=E[X−μσ]=E[X−μ]σ=E[X]−μσ=μ−μσ=0V[W]=V[X−μσ]=V[X−μ]σ2=V[X]σ2=σ2σ2=1
ex2)
이를 역으로 유도할 수도 있다.
W=aX+b로 두고, E[W]=0, V[W]=1이 되는 W를 찾는다. 그러면 다음이 성립하게 된다.
E[W]=aμ+b=0, V[W]=a2σ2=1
분산을 나타내는 식에서 a=1/σ 를 얻을 수 있고, 기대값 식에 대입하면 b=−μ/σ를 얻을 수 있고 최종적으로 다음을 얻는다.
W=X−μσ
정리하면 다음과 같다.
1) 원래 X의 기대값 μ와 표준편차 σ를 구한다.
2) 먼저 전체를 시프트(평행이동)해서 기대값이 0이 되도록 조절한다.
˜X≡X−μ→E[˜X]=0,V[˜X]=σ2.
3) 이어서 스케일링(크기 변환)으로 폭을 조절하고 표준편차를 1로 한다.
W≡1σ˜X→E[W]=0,V[W]=1 .
-
X와 Y가 독립일 때, V[X+Y]=V[X]+V[Y].
ex)
E[X]=μ, E[Y]=ν라고 가정하면
V[X+Y]=E[((X+Y)−(μ+ν))2]=E[((X−μ)+(Y−ν))2]=E[(X−μ)2+(Y−ν)2+2(X−μ)(Y−ν)]=E[(X−μ)2]+E[(Y−ν)2]+E[2(X−μ)(Y−ν)]=V[X]+V[Y]+2E[(X−μ)(Y−ν)]
-
E[X2]=μ2+σ2가 성립한다.
ex)
Z≡X−μ 로 두고, E[Z]=0이며, X=Z+μ가 되고 다음이 성립한다.
E[X2]=E[(Z+μ)2]=E[Z2+μ2+2μZ]=E[Z2]+E[μ2]+E[2μZ]=E[Z2]+μ2+2μE[Z]
-
임의의 상수 a에 대해 E[(X−a)2]=(μ−a)2+σ2이 성립한다.
ex)
E[(X−a)2]=E[X2−2aX+a2]=E[X2]−2aE[X]+a2=σ2+μ2−2aμ+a2=(μ−a)2+σ2
또한, 이를 기준값 a와 실제 값 X 차이의 제곱의 기대값으로 해석 할 수 있다.
(X와 a의 제곱 오차의 기대값)=(기대값의 제곱 오차)+(분산)=(편향에 의한 오차)+(편차에 의한 오차)
23 Jun 2020
•
Backbone
Alex net은 2012년 제프리 힌튼 교수팀에서 연구되었다.
이미지넷에서 주고나하는 ILSVRC (Large Salce Visual Recognition Competition)에서 top5 test error 기준 15.4 %를 기록해 큰 폭으로 1위를 차지했다.
또한 DropOut이나 ReLU 같은 다른 논문에서 제안된 방법론들을 네트워크 설계에 차용했으며 이후 여러 논문에서도 이 두개의 논문이 많이 쓰여짐.
More …