CLIP

CLIP (Contrastive Language–Image Pre-training) est un modèle d’IA qui associe images et textes en apprenant des représentations communes : il transforme une image et une phrase en vecteurs (embeddings) comparables et mesure leur similarité. Techniquement, il utilise deux encodeurs (un pour les images, un pour le texte) entraînés avec un objectif contrastif — rapprocher les paires image+texte qui vont ensemble et éloigner les autres — sur d’énormes collections d’images avec leurs légendes. Grâce à ces embeddings, CLIP permet des tâches multimodales sans entraînement spécifique : recherche d’images par texte, classement d’images par requête (« zero-shot classification »), récupération de légendes pertinentes, ou filtrage de contenu. En pratique, on l’utilise comme moteur de similarité multimodale (comparaison par produit scalaire ou cosinus) ou comme composant dans des systèmes plus larges de vision et langage.

Published by Romain on 1 mai 2017 11 mars 2026

La plus grande lune d’Uranus : Titania

La galaxie elliptique singulière Centaurus A

Un message de la Terre

CLIP

Published by Romain on 1 mai 2017 11 mars 2026

Articles similaires

La plus grande lune d’Uranus : Titania

La galaxie elliptique singulière Centaurus A

Un message de la Terre