OPEN AI의 CLIP
개인 생각 정리 내용
1) 왜 Text Query 를 쓰는걸까?
그냥 "사과", "복숭아" 로 물어보면 될 것을 "이 사진은 사과 입니다", "이 사진은 복숭아 입니다." 이런 식의 문장형 구조를 가져가는 이유는?
※ 임베딩을 더 안정적으로 만들어, 성능을 좋게만들기 위한 전략 중 하나.
(중의적인 표현을 없애고, Domain을 정의할 수 있음)
2) CLIP은 사진 속 객체 간 상관 관계를 이해할 수 있을까?
"탁상 위에 사과가 있다." , "식탁 밑 고양이" 등 물체와의 상관 관계를 잘 이해할까?
※ TEST 시, On, under 과 같은 전치사 문구에 대해 객체 존재 유무 파악보다 약함을 확인
(Grounding Dino로 가면 관계적인 부분에 대해 개선 가능할지도?)
3) Few shot / Zero shot 까지 확장을 하려면....
: Zero 에서 유를 만들 수 없듯이 대부분의 Few, Zero shot learning 기반의 논문들은 Pretrain된 Model의 인지 능력을 기반으로 발전하는 것이 대부분.
산업용 이미지 Scratched Model 부터 쌓아갈려면 너무 많은 데이터셋과 리소스가 듬
→ 가져다 쓰자.
APPLE / ON THE TABLE
'파이썬 > 코드 TEST' 카테고리의 다른 글
| (CLIP)(OWL-VIT) CLIP보다 좋은 VLM? (0) | 2025.08.28 |
|---|---|
| (Meta Learning) Meta Learning 실전 시 주의점 - 평가 (0) | 2025.08.26 |
| (AutoEncoder)(Resnet) Resnet을 이용한 학습 코드 (0) | 2025.08.22 |
| (CLIP)WINCLIP - Text 구조(CPE) (0) | 2025.08.20 |
| (CLIP)(VLM) CLIP 실사용 - CLIP 모델 불러오기 (0) | 2025.08.20 |
댓글