CLIP (Contrastive Language–Image Pre-training) est un modèle d’IA qui associe images et textes en apprenant des représentations communes : il transforme une image et une phrase en vecteurs (embeddings) comparables et mesure leur similarité. Techniquement, il utilise deux encodeurs (un pour les images, un pour le texte) entraînés avec un objectif contrastif — rapprocher les paires image+texte qui vont ensemble et éloigner les autres — sur d’énormes collections d’images avec leurs légendes. Grâce à ces embeddings, CLIP permet des tâches multimodales sans entraînement spécifique : recherche d’images par texte, classement d’images par requête (« zero-shot classification »), récupération de légendes pertinentes, ou filtrage de contenu. En pratique, on l’utilise comme moteur de similarité multimodale (comparaison par produit scalaire ou cosinus) ou comme composant dans des systèmes plus larges de vision et langage.

Catégories :