클립 : 멀티모달 모델. 이미지 텍스트 학습 이미지와 텍스트가 파지티브 페어면 가까워지게 당겨주고, 네거티브면 멀어지게 최적화함 = 컨트래스트 러닝 ㅇㅇ
기존 cv모델이 비전 데이터셋 얻는 게 코스트 크고 힘들어서 한 가지 테스크에만 잘 되었음….
뉴 테스크에 힘들엇다/.
근데 클립은 일반화가 잘돼서 뉴테스크도 굳
코사인 유사도 커지도록 학습. 대각선애들이 파지티브임
contrastive pre learning
잘 학습된 굳 모델이므로… 테스크에 잘 하는 게 중요
오픈소스임
다양한 분야에 적용되어 연구되고 있으니 잘 가져와서 변형하면 굳임
clip.py를 잘 보면 뭐 그 안에 로드 함수만 잘해도 어웅
근데 좀 변화 주면서 하면 웅
그냥 보고 이해해야겠다
내 스스로 문제정의하고 해결하고 하는 게 좋으면 대학원도 괜찮다
이번 강의는 알아들으라고 만든 게 아니라 로드맵이니까 울지말고 최대한 따라가다가 꽂히면 걔 구글링해봐라