GPT-4 Vision en danger: Les alternatives open source débarquent avec LLaVA 1.5 !

Une alternative prometteuse à GPT-4 Vision : LLaVA 1.5

Dans le domaine de l’intelligence artificielle générative, les modèles langage multimodaux (LMM) connaissent un essor rapide. Le GPT-4 Vision d’OpenAI est l’exemple le plus marquant de cette nouvelle génération d’IA. Cependant, l’accessibilité de ces technologies fermées et commerciales peut être un frein à leur adoption universelle. C’est ici que la communauté open source intervient en présentant LLaVA 1.5, une alternative prometteuse à GPT-4 Vision.

Les bases des LMM

Les LMM fonctionnent grâce à une architecture multicouche. Ils combinent un modèle pré-entrainé pour le traitement des éléments visuels, un grand modèle de langage (LLM) pour comprendre les instructions de l’utilisateur, et un connecteur multimodal pour lier vision et langage.

Leur entraînement se fait en deux étapes : un alignement initial entre vision et langage, suivi d’un affinage pour répondre aux demandes visuelles. Ce processus, bien que performant, nécessite beaucoup de ressources computationnelles et une base de données riche et précise.

Les atouts de LLaVA 1.5

LLaVA 1.5 repose sur le modèle CLIP pour le traitement visuel et sur Vicuna pour le langage. Contrairement à son prédécesseur, LLaVA, qui utilisait les versions texte de ChatGPT et GPT-4 pour l’affinage visuel, LLaVA 1.5 parvient à relier le modèle de langage et l’encodeur visuel grâce à un perceptron multicouche (MLP). Cette mise à jour a permis d’enrichir la base de données d’environ 600 000 exemples supplémentaires et de surpasser d’autres LMM open source sur 11 des 12 évaluations multimodales.

L’avenir des LMM open source

La démonstration en ligne de LLaVA 1.5, accessible à tous, montre des résultats prometteurs même avec un budget limité. Cependant, il faut noter que l’utilisation des données générées par ChatGPT est limitée à des fins non commerciales.

Malgré cette restriction, LLaVA 1.5 offre un aperçu de l’avenir des LMM open source. Sa rentabilité, sa capacité à générer des données d’entraînement et son efficacité dans le traitement des instructions visuelles en font une avancée majeure. LLaVA 1.5 n’est que le début d’une série d’innovations dans le domaine de l’IA générative, grâce à la communauté open source. Le potentiel illimité de l’intelligence artificielle deviendra accessible à tous.

Partagez votre avis