(OPEN AI)(CLIP) CLIP 활용을 위한 성능 TEST

OPEN AI의 CLIP

개인 생각 정리 내용

1) 왜 Text Query 를 쓰는걸까?

그냥 "사과", "복숭아" 로 물어보면 될 것을 "이 사진은 사과 입니다", "이 사진은 복숭아 입니다." 이런 식의 문장형 구조를 가져가는 이유는?

※ 임베딩을 더 안정적으로 만들어, 성능을 좋게만들기 위한 전략 중 하나.

(중의적인 표현을 없애고, Domain을 정의할 수 있음)

2) CLIP은 사진 속 객체 간 상관 관계를 이해할 수 있을까?

"탁상 위에 사과가 있다." , "식탁 밑 고양이" 등 물체와의 상관 관계를 잘 이해할까?

※ TEST 시, On, under 과 같은 전치사 문구에 대해 객체 존재 유무 파악보다 약함을 확인

(Grounding Dino로 가면 관계적인 부분에 대해 개선 가능할지도?)

3) Few shot / Zero shot 까지 확장을 하려면....

: Zero 에서 유를 만들 수 없듯이 대부분의 Few, Zero shot learning 기반의 논문들은 Pretrain된 Model의 인지 능력을 기반으로 발전하는 것이 대부분.

산업용 이미지 Scratched Model 부터 쌓아갈려면 너무 많은 데이터셋과 리소스가 듬

→ 가져다 쓰자.

APPLE / ON THE TABLE

(CLIP)(OWL-VIT) CLIP보다 좋은 VLM? (0)	2025.08.28
(Meta Learning) Meta Learning 실전 시 주의점 - 평가 (0)	2025.08.26
(AutoEncoder)(Resnet) Resnet을 이용한 학습 코드 (0)	2025.08.22
(CLIP)WINCLIP - Text 구조(CPE) (0)	2025.08.20
(CLIP)(VLM) CLIP 실사용 - CLIP 모델 불러오기 (0)	2025.08.20

생각하고 이뤄라. THINK AND DO IT