20/05/06

밑바닥과 선형대수는 계획한 만큼 했다.

종만북을 못풀어본게 계획 에러이다.

밑바닥 attension 부분이 길어서 2일에 나눠서 공부해야할 것같다.

선형대수 책은 그날그날 이해도에 따라 진도가 너무 달라져서 계획을 하기가 애매한 것 같다.

내일은 종만북 1장을 이해하는 거부터 공부 시작해야 겠다.

TID


  • 밑바닥2 - 7장

    • seq2seq sequence to sequence의 약자이며 한 시계열 데이터를 다른 시계열 데이터로 변환하는 것을 뜻한다. 기계 번역, 챗봇, 메일의 자동 답신 등 다양하게 응용된다.

      일반적으로 encoder와 decoder가 나누어져 있고 둘다 LSTM을 사용, encoder의 마지막 부분을 decoder의 인풋으로 사용한다.

      이미지 캡셔닝같은 경우 CNN을 encoder로 쓰고 LSTM을 decoder로 사용한다.

      학습효율개선 방법에는 입력 반전(reverse)과 엿보기(peeky)가 있다.

      하이퍼파라미터에 영향을 크게 받는다고 한다.

    • 입력 반전(reverse) 입력의 index를 반전시킨다. encoder의 처음 단어와 decoder 처음이 가까워 지므로 기울기가 더 빨리 전달되는 효과가 있다고 한다. 다만 입력 데이터를 반전해도 단어 사이의 평균적인 거리는 그대로 이다. 데이터에 따라 달라지므로 무조건 학습이 좋아진다는 결코 아니다.

    • 엿보기(Peeky) 원래 일반적인 seq2seq의 경우 encoder의 마지막 은닉층 h만 decoder의 lstm 첫 계층에 input으로 들어간다. peeky 방식은 유일한 정보인 h를 모든 계층에 입력으로 넣는 방법이다.(lstm 계층 뿐 아니라 Affine 계층, 그리고 모든 t에 입력으로 넣는다.) 모든계층에 전달해야 하기 때문에 가중치 매개변수가 커져서 계산량도 늘어난다. 즉, 모든 상황에서 좋은 것은 결코 아니다.

  • 프로그래머를 위한 선형대수 2.3장

    • null space, image, rank, linear dependent

TODO list


  • 사진 latex 문법으로 교체
  • 종만북-Algospot 1문제 이상 풀기
  • 밑바닥2 8장
  • 여인수 정리
  • 프로그래머를 위한 선형대수

Comments