본문 바로가기
파이썬/코드 TEST

(OPEN AI)(CLIP) CLIP 활용을 위한 성능 TEST

by Think_JUNG 2025. 8. 21.

OPEN AI의 CLIP

개인 생각 정리 내용

 

1) 왜 Text Query 를 쓰는걸까?

  그냥 "사과", "복숭아" 로 물어보면 될 것을 "이 사진은 사과 입니다", "이 사진은 복숭아 입니다."  이런 식의 문장형 구조를 가져가는 이유는?

 ※ 임베딩을 더 안정적으로 만들어, 성능을 좋게만들기 위한 전략 중 하나.

   (중의적인 표현을 없애고, Domain을 정의할 수 있음)

 

2) CLIP은 사진 속 객체 간 상관 관계를 이해할 수 있을까?

"탁상 위에 사과가 있다." , "식탁 밑 고양이" 등 물체와의 상관 관계를 잘 이해할까?

 ※ TEST 시, On, under 과 같은 전치사 문구에 대해 객체 존재 유무 파악보다 약함을 확인

   (Grounding Dino로 가면 관계적인 부분에 대해 개선 가능할지도?)

 

3) Few shot / Zero shot 까지 확장을 하려면....

 : Zero 에서 유를 만들 수 없듯이 대부분의 Few, Zero shot learning 기반의 논문들은 Pretrain된 Model의 인지 능력을 기반으로 발전하는 것이 대부분.

산업용 이미지 Scratched Model 부터 쌓아갈려면 너무 많은 데이터셋과 리소스가 듬

→ 가져다 쓰자. 

 

APPLE / ON THE TABLE

댓글