Chapter 15 — Vision-Language Models - Signals to Transformers

(Roadmap — content to be written)

This chapter covers:

Contrastive learning: CLIP
Image and text encoders in a shared embedding space
Zero-shot classification
Multimodal reasoning

Depends on: Chapter 14