1. 강의

2. 피어세션

  • 오늘 멘토링 9시에 있다
  • 앙상블했더니 이렇게 올랐다

3. 회고

  • vfnet이 왜이럴까
  • Htcㅇ엿나 sst엿나 걔넨 하위권이라 ㄷ안돌리기로 결정
  • 내가 잘못돌려놓고 vfnet한테 큰 소리 쳤다 미아내

4. 멘토링

  • 홍유향 논문리뷰
  • Distilling the knowledge in a Neural Network
  • 중요한 것만 골라 정리했다
  • Abstract : 앙상블은 좋은 성능개선 방법이지만, 모델 규모가 커지면 계산이 어렵다. 따라서 지식을 증류하는 방법으로 항상블 효과를 하나의 모델로 전이하는 방법론을 제시하겠다
  • Introdution : 지식 증류 방법 제안
  • Knowledge : 작은 차이도 중요 정보라고 보고 정교한 학습을 돕는다. 큰 모델이 만든 soft target을 사용해 작은 모델이 학습한다
  • Distillation : 증류; 혼합물에서 특정 성분을 분리시키는 법, 신경망에서 복잡한 모델의 일반화 능력을 작은 신경망 모델에 전달하는 것. Softmax 사용
  • 작은 모델과 큰 모델의 예측결과를 비교해 그 차이를 줄이려는 시도 - logit 매칭
  • 실험 / 결론 -> distillation이 앙상블, 정규화모델에서 더 작은 모델로 지식을 전달하는 데 효과적임
  • 모맨텀모델도이용해서 distrividㄴㅇㄹ하는데
  • 쌍방향 학습을 함 모맨텀과 모델과
  • 아 그냥 이런 것도 있구나…
  • Clip을 보고 다시보면 좋을 듯
  • 하드 네거티브 : 강아지와 트럭말고 강아지와 고양이. 얘를 넣어서 더 잘 정교한 분류하도록!
  • 이미지의 해당 부분에 더 스코어가 높았다!
  • 실험관련 : JFT 데이터셋 크다고 유명했던 데이터셋. 스페셜리스트모델과 앙상블
  • KD : 쟤를 티처삼아서 하겠다
  • 개 넣고돌리면 개 9고양이1나옴. 이걸 티처 삼아서. 이게 레이블이 돼서. 개 사진에 1고양이 정보가 들어가서 학습하는 것. 원핫은 너무 한정된 정보만 주니까.

  • 논문 그 이미지보자.
  • 클립 ; 이미지 차라락, 텍스트 차라락. cls토큰도 하나 세우고 삭 두면 각 행마다 열마다 즉 대각선으로 파지티브고 나머진 네거티브겠지. 이게 관련있는건가까이 아닌건 멀게두고싶음.
  • moco 이해 못 해도 됨… 메모리처럼 쌓아둔다? 한배치에 다 갖고있기힘들어서?
  • loss_fn_kd 얘가 핵심이다

  • ml top conferences 치면 학회 스코어 쫙 나온다
  • 컨퍼런스 > 컨퍼런스 내 워크샵
  • 모든 논문을 팔로우업하기보단 7개의 탑티어 학회에서… 나온… 걸 읽자
  • 이건 cvpr에서 비전쪽을했다 오 잘햇다~
  • 요즘 너무 허들이 낮아졌지만

  • 프루닝 : 필요없는가중치 가지치기

  • 논문을 읽고 큰 그림은 이해되는데 실제 구현이 전혀절대 안된다 -> 제로부터만드시려해서그래요 기존 걸 가져와서 구조 바꾸고 파인튜닝하고하는게 보통임. 기존걸 뜯어보는게 이해에 훨 도움됨

  • 데이터 뜯어보고 모델학습한걸로 inference 할 때 뭐가 틀린 건지 확인 했니?
  • 눈으로요…?
  • 매트릭 점수기준을정해서 너무 안나온애들은 데이터를 봐. 모델이 이런걸 못하는구나
  • 모델이 못하는 특징 분석 -> aug를 더 하든 다른 모델을 써보든
  • 각 모델이 어떤 특징을 갖고 있는지 알아두셈
  • 챗지피티에게 나 뭐하지? 물어보면 생각보다 말 잘해준다 -> 납득이 안되면 멘토님께 질문해라
  • base가 있는 상태에서 챗지피티를 써야 안 끌려다닌다
  • 논문 리뷰할 때 영어 땜에 원문을 못 보겠는데 걍 논문 리뷰랑 번역기로만 이해해도 되는지 -> 처음엔 오래 걸리는데 논문에만 쓰이는 표현에 익숙해지는데 시간 들이는 게 필요하긴 함. 할 거 많을 때 할 건 아니지만 언젠가는 원문을 집중해서 읽는 게 좋다. 남이 발표한 논문도 슥 읽어보면 좋다 이해는 멘토님과 하자