Modèles de grande taille en IA : une révolution déclenchée par des problèmes d'ingénierie
Le mois dernier, le monde de l'IA a déclenché une "bataille animale".
D'un côté, il y a la série de modèles Llama lancée par Meta, qui est très appréciée des développeurs en raison de sa nature open source. L'entreprise japonaise NEC a rapidement développé une version en japonais de ChatGPT basée sur les articles et le code de Llama, résolvant ainsi le goulot d'étranglement technologique du Japon dans le domaine de l'IA.
L'autre partie est un grand modèle nommé Falcon. En mai de cette année, Falcon-40B a été lancé, dépassant Llama et atteignant le sommet du "classement des grands modèles de langage open source". Ce classement est établi par la communauté open source Hugging Face et fournit des normes pour évaluer les capacités des LLM. Par la suite, Llama et Falcon ont tour à tour mis à jour le classement.
Début septembre, Falcon a lancé la version 180B, atteignant à nouveau le sommet des classements. Fait intéressant, les développeurs de Falcon ne sont pas une entreprise technologique, mais un institut de recherche en innovation technologique basé à Abou Dhabi. Des responsables des Émirats arabes unis ont déclaré qu'ils participaient à la compétition AI pour bouleverser l'ordre établi.
Aujourd'hui, le domaine de l'IA est entré dans une phase de forte concurrence. Tous les pays et entreprises ayant une certaine puissance tentent de créer leur propre version locale de ChatGPT. Rien que dans les pays du Golfe, il y a plusieurs acteurs, l'Arabie Saoudite ayant récemment acheté plus de 3000 puces H100 pour former des LLM dans ses universités.
Un investisseur s'est exclamé : "À l'époque, je méprisais l'innovation des modèles commerciaux d'Internet, pensant qu'il n'y avait pas de barrière. Je ne m'attendais pas à ce que l'entrepreneuriat en hard tech avec des grands modèles soit toujours une bataille de centaines de modèles..."
Pourquoi ce qui était autrefois considéré comme une technologie difficile a-t-il évolué vers une situation de "un pays, un modèle" ?
Transformer : le moteur de la révolution AI
Des start-ups américaines, des géants technologiques chinois et des magnats du pétrole du Moyen-Orient se lancent tous dans le développement de modèles de grande taille, ce qui provient d'un article célèbre : « Attention Is All You Need ».
En 2017, huit scientifiques de Google ont publié l'algorithme Transformer dans cet article. Cet article est actuellement le troisième le plus cité de l'histoire de l'IA, et l'émergence de Transformer a déclenché cette vague actuelle d'engouement pour l'IA.
Les différents grands modèles actuels, y compris la série GPT qui a fait sensation dans le monde entier, sont tous basés sur la technologie Transformer.
Auparavant, "apprendre aux machines à lire" était un problème reconnu dans le milieu académique. Contrairement à la reconnaissance d'images, la lecture humaine tient compte du contexte pour comprendre. Les premiers réseaux de neurones avaient du mal à traiter de longs textes, ce qui entraînait souvent des problèmes comme "开水间" traduit par "open water room".
En 2014, le scientifique de Google Ilya a été le premier à utiliser des réseaux de neurones récurrents (RNN) pour traiter le langage naturel, améliorant considérablement les performances de Google Traduction. Les RNN donnent au réseau de neurones la capacité de comprendre le contexte grâce à leur "conception cyclique".
Cependant, les RNN présentent de graves défauts : le calcul séquentiel entraîne une faible efficacité, rendant difficile le traitement d'un grand nombre de paramètres. À partir de 2015, des scientifiques de Google, dont Ashish Vaswani, ont commencé à développer un substitut aux RNN, aboutissant finalement au Transformer.
Comparé aux RNN, le Transformer présente deux grandes innovations : d'une part, il utilise l'encodage de position pour réaliser un calcul parallèle, ce qui améliore considérablement l'efficacité de l'entraînement ; d'autre part, il renforce encore la capacité de compréhension du contexte.
Le Transformer résout d'un coup plusieurs problèmes et devient progressivement la solution dominante dans le domaine du NLP. Il transforme les grands modèles d'une recherche théorique en un problème purement d'ingénierie.
En 2019, OpenAI a développé GPT-2 basé sur Transformer. En réponse, Google a rapidement lancé Meena, qui surpasse largement GPT-2 en termes de paramètres et de puissance de calcul, sans innovation dans l'algorithme sous-jacent. Cela a laissé l'auteur de Transformer, Ashish Vaswani, émerveillé par la puissance de l'"accumulation violente".
Après l'avènement des Transformers, la vitesse d'innovation des algorithmes de base dans le milieu académique a ralenti. Des éléments d'ingénierie tels que l'ingénierie des données, l'échelle de calcul et l'architecture des modèles deviennent de plus en plus cruciaux dans la course à l'IA. Tant qu'une entreprise dispose d'une certaine compétence technique, elle peut développer de grands modèles.
L'expert en IA Andrew Ng estime que l'IA est devenue une série d'outils technologiques généraux, semblables à l'électricité et à Internet.
Bien qu'OpenAI reste le leader des LLM, les analyses de l'industrie estiment que l'avantage de GPT-4 provient principalement des solutions d'ingénierie. Une fois open source, les concurrents peuvent rapidement le reproduire. On s'attend à ce que bientôt d'autres grandes entreprises technologiques puissent créer des modèles de grande taille comparables à la performance de GPT-4.
Une barrière fragile
Aujourd'hui, "la guerre des grands modèles" est devenue une réalité. Un rapport montre qu'à la fin juillet de cette année, le nombre de grands modèles en Chine a atteint 130, dépassant les 114 des États-Unis. Divers mythes et légendes ne suffisent plus aux entreprises technologiques nationales pour nommer leurs produits.
Hormis la Chine et les États-Unis, de nombreux pays développés ont également réalisé des "modèles nationaux" de manière préliminaire : le Japon, les Émirats arabes unis, l'Inde, la Corée du Sud, etc. ont tous lancé des grands modèles locaux. Cette scène semble rappeler l'époque de la bulle Internet, où le "brûlage d'argent" est devenu le principal moyen de concurrence.
Transformer transforme les grands modèles en problèmes d'ingénierie purs, tant qu'il y a des ressources humaines et matérielles, il est possible de les développer. Cependant, il est facile d'entrer sur le marché, mais devenir un géant de l'ère de l'IA est très difficile.
Le "Animal Battle" mentionné précédemment est un exemple typique : bien que Falcon soit mieux classé que Llama, son impact sur Meta est limité.
L'ouverture des résultats de recherche par les entreprises, c'est à la fois partager les bienfaits de la technologie et espérer mobiliser l'intelligence sociale. Alors que divers secteurs continuent d'utiliser et d'améliorer Llama, Meta peut appliquer les résultats à ses propres produits.
Pour les grands modèles open source, une communauté de développeurs active est la véritable force concurrentielle.
Meta a établi une politique open source dès la création de son laboratoire d'IA en 2015. Zuckerberg comprend bien l'art de "bien gérer les relations publiques". En octobre, Meta a également lancé l'initiative "Incentives pour les créateurs en IA", finançant les développeurs utilisant Llama 2 pour résoudre des problèmes sociaux.
Aujourd'hui, la série Llama de Meta est devenue un indicateur des LLM open source. Au début d'octobre, 8 des 10 premiers du classement Hugging Face sont développés sur la base de Llama 2, avec plus de 1500 LLM utilisant son protocole open source.
Il est certes important d'améliorer les performances, mais la plupart des LLM ont encore un écart évident par rapport à GPT-4. Dans le dernier test AgentBench, GPT-4 a dominé le classement avec un score de 4,41, tandis que le deuxième, Claude, n'a obtenu que 2,77 points, et les LLM open source se situent généralement autour de 1 point.
La sortie de GPT-4 a eu lieu il y a plus de six mois, et les concurrents du monde entier peinent encore à rattraper leur retard. Cela est dû à l'équipe de scientifiques de pointe d'OpenAI et à l'expérience accumulée depuis longtemps dans la recherche sur les LLM.
Il est évident que la capacité clé des grands modèles réside dans la construction de l'écosystème ( open source ) ou purement dans la capacité d'inférence ( closed source ), et non pas dans une simple accumulation de paramètres.
Avec l'essor de la communauté open source, les performances des LLM pourraient converger, car tout le monde utilise des architectures de modèles et des ensembles de données similaires.
Un problème plus évident est que, à part Midjourney, il semble qu'aucun grand modèle n'ait pu réaliser de bénéfices.
Point d'ancrage de la valeur
En août de cette année, un article intitulé "OpenAI pourrait faire faillite d'ici la fin de 2024" a suscité l'attention. Le principal argument est que OpenAI brûle de l'argent trop rapidement.
L'article mentionne qu'après le développement de ChatGPT, les pertes d'OpenAI se sont rapidement aggravées, avec une perte d'environ 540 millions de dollars en 2022, ne pouvant compter que sur les investissements de Microsoft.
Cela reflète le dilemme auquel sont confrontés les fournisseurs de grands modèles : un déséquilibre grave entre les coûts et les revenus.
Les coûts élevés entraînent le fait que les principaux bénéficiaires actuels sont des fabricants de puces tels que Nvidia et Broadcom.
On estime qu'NVIDIA a vendu plus de 300 000 puces AI H100 au deuxième trimestre de cette année, ce qui équivaut au poids de 4,5 Boeing 747. Les performances d'NVIDIA ont explosé de 854 %, choquant Wall Street. Le prix de revente des H100 a grimpé à 40 000-50 000 dollars, alors que le coût n'était que de plus de 3000 dollars.
Le coût de la puissance de calcul est devenu un frein au développement de l'industrie. Selon une estimation de Sequoia Capital, les entreprises technologiques du monde entier dépenseront 200 milliards de dollars chaque année pour construire des infrastructures de grands modèles, mais les revenus annuels des grands modèles ne s'élèveront qu'à 75 milliards de dollars, ce qui laisse un écart d'au moins 125 milliards de dollars.
À l'exception de quelques rares cas, la plupart des entreprises de logiciels n'ont pas trouvé de modèle économique rentable après avoir dépensé des sommes énormes. Même les leaders du secteur comme Microsoft et Adobe font face à des défis.
GitHub Copilot, développé en collaboration entre Microsoft et OpenAI, coûte 10 dollars par mois, mais nécessite une subvention de 20 dollars, tandis que les utilisateurs intensifs font perdre à Microsoft jusqu'à 80 dollars par mois. Le nouveau Microsoft 365 Copilot est tarifé à 30 dollars, et les pertes pourraient être encore plus importantes.
Après le lancement de l'outil Firefly AI par Adobe, un système de points a été rapidement mis en place pour limiter l'utilisation excessive par les utilisateurs, ce qui pourrait entraîner des pertes pour l'entreprise. Une fois les points mensuels alloués dépassés, Adobe réduira la vitesse du service.
Microsoft et Adobe ont déjà des scénarios d'affaires clairs et de nombreux utilisateurs payants. En revanche, pour la plupart des grands modèles avec une accumulation de paramètres, le principal domaine d'application reste la conversation.
L'émergence d'OpenAI et de ChatGPT a déclenché cette révolution de l'IA, mais la valeur de l'entraînement de grands modèles à ce stade est douteuse. Avec l'intensification de la concurrence homogène et l'augmentation des modèles open source, l'espace pour les fournisseurs de grands modèles pourrait être encore davantage compressé.
Le succès de l'iPhone 4 ne réside pas dans le processeur A4 en 45nm, mais dans sa capacité à jouer à "Plants vs. Zombies" et "Angry Birds".
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
La concurrence des grands modèles d'IA s'intensifie : les barrières technologiques goutte, les problèmes commerciaux se révèlent.
Modèles de grande taille en IA : une révolution déclenchée par des problèmes d'ingénierie
Le mois dernier, le monde de l'IA a déclenché une "bataille animale".
D'un côté, il y a la série de modèles Llama lancée par Meta, qui est très appréciée des développeurs en raison de sa nature open source. L'entreprise japonaise NEC a rapidement développé une version en japonais de ChatGPT basée sur les articles et le code de Llama, résolvant ainsi le goulot d'étranglement technologique du Japon dans le domaine de l'IA.
L'autre partie est un grand modèle nommé Falcon. En mai de cette année, Falcon-40B a été lancé, dépassant Llama et atteignant le sommet du "classement des grands modèles de langage open source". Ce classement est établi par la communauté open source Hugging Face et fournit des normes pour évaluer les capacités des LLM. Par la suite, Llama et Falcon ont tour à tour mis à jour le classement.
Début septembre, Falcon a lancé la version 180B, atteignant à nouveau le sommet des classements. Fait intéressant, les développeurs de Falcon ne sont pas une entreprise technologique, mais un institut de recherche en innovation technologique basé à Abou Dhabi. Des responsables des Émirats arabes unis ont déclaré qu'ils participaient à la compétition AI pour bouleverser l'ordre établi.
Aujourd'hui, le domaine de l'IA est entré dans une phase de forte concurrence. Tous les pays et entreprises ayant une certaine puissance tentent de créer leur propre version locale de ChatGPT. Rien que dans les pays du Golfe, il y a plusieurs acteurs, l'Arabie Saoudite ayant récemment acheté plus de 3000 puces H100 pour former des LLM dans ses universités.
Un investisseur s'est exclamé : "À l'époque, je méprisais l'innovation des modèles commerciaux d'Internet, pensant qu'il n'y avait pas de barrière. Je ne m'attendais pas à ce que l'entrepreneuriat en hard tech avec des grands modèles soit toujours une bataille de centaines de modèles..."
Pourquoi ce qui était autrefois considéré comme une technologie difficile a-t-il évolué vers une situation de "un pays, un modèle" ?
Transformer : le moteur de la révolution AI
Des start-ups américaines, des géants technologiques chinois et des magnats du pétrole du Moyen-Orient se lancent tous dans le développement de modèles de grande taille, ce qui provient d'un article célèbre : « Attention Is All You Need ».
En 2017, huit scientifiques de Google ont publié l'algorithme Transformer dans cet article. Cet article est actuellement le troisième le plus cité de l'histoire de l'IA, et l'émergence de Transformer a déclenché cette vague actuelle d'engouement pour l'IA.
Les différents grands modèles actuels, y compris la série GPT qui a fait sensation dans le monde entier, sont tous basés sur la technologie Transformer.
Auparavant, "apprendre aux machines à lire" était un problème reconnu dans le milieu académique. Contrairement à la reconnaissance d'images, la lecture humaine tient compte du contexte pour comprendre. Les premiers réseaux de neurones avaient du mal à traiter de longs textes, ce qui entraînait souvent des problèmes comme "开水间" traduit par "open water room".
En 2014, le scientifique de Google Ilya a été le premier à utiliser des réseaux de neurones récurrents (RNN) pour traiter le langage naturel, améliorant considérablement les performances de Google Traduction. Les RNN donnent au réseau de neurones la capacité de comprendre le contexte grâce à leur "conception cyclique".
Cependant, les RNN présentent de graves défauts : le calcul séquentiel entraîne une faible efficacité, rendant difficile le traitement d'un grand nombre de paramètres. À partir de 2015, des scientifiques de Google, dont Ashish Vaswani, ont commencé à développer un substitut aux RNN, aboutissant finalement au Transformer.
Comparé aux RNN, le Transformer présente deux grandes innovations : d'une part, il utilise l'encodage de position pour réaliser un calcul parallèle, ce qui améliore considérablement l'efficacité de l'entraînement ; d'autre part, il renforce encore la capacité de compréhension du contexte.
Le Transformer résout d'un coup plusieurs problèmes et devient progressivement la solution dominante dans le domaine du NLP. Il transforme les grands modèles d'une recherche théorique en un problème purement d'ingénierie.
En 2019, OpenAI a développé GPT-2 basé sur Transformer. En réponse, Google a rapidement lancé Meena, qui surpasse largement GPT-2 en termes de paramètres et de puissance de calcul, sans innovation dans l'algorithme sous-jacent. Cela a laissé l'auteur de Transformer, Ashish Vaswani, émerveillé par la puissance de l'"accumulation violente".
Après l'avènement des Transformers, la vitesse d'innovation des algorithmes de base dans le milieu académique a ralenti. Des éléments d'ingénierie tels que l'ingénierie des données, l'échelle de calcul et l'architecture des modèles deviennent de plus en plus cruciaux dans la course à l'IA. Tant qu'une entreprise dispose d'une certaine compétence technique, elle peut développer de grands modèles.
L'expert en IA Andrew Ng estime que l'IA est devenue une série d'outils technologiques généraux, semblables à l'électricité et à Internet.
Bien qu'OpenAI reste le leader des LLM, les analyses de l'industrie estiment que l'avantage de GPT-4 provient principalement des solutions d'ingénierie. Une fois open source, les concurrents peuvent rapidement le reproduire. On s'attend à ce que bientôt d'autres grandes entreprises technologiques puissent créer des modèles de grande taille comparables à la performance de GPT-4.
Une barrière fragile
Aujourd'hui, "la guerre des grands modèles" est devenue une réalité. Un rapport montre qu'à la fin juillet de cette année, le nombre de grands modèles en Chine a atteint 130, dépassant les 114 des États-Unis. Divers mythes et légendes ne suffisent plus aux entreprises technologiques nationales pour nommer leurs produits.
Hormis la Chine et les États-Unis, de nombreux pays développés ont également réalisé des "modèles nationaux" de manière préliminaire : le Japon, les Émirats arabes unis, l'Inde, la Corée du Sud, etc. ont tous lancé des grands modèles locaux. Cette scène semble rappeler l'époque de la bulle Internet, où le "brûlage d'argent" est devenu le principal moyen de concurrence.
Transformer transforme les grands modèles en problèmes d'ingénierie purs, tant qu'il y a des ressources humaines et matérielles, il est possible de les développer. Cependant, il est facile d'entrer sur le marché, mais devenir un géant de l'ère de l'IA est très difficile.
Le "Animal Battle" mentionné précédemment est un exemple typique : bien que Falcon soit mieux classé que Llama, son impact sur Meta est limité.
L'ouverture des résultats de recherche par les entreprises, c'est à la fois partager les bienfaits de la technologie et espérer mobiliser l'intelligence sociale. Alors que divers secteurs continuent d'utiliser et d'améliorer Llama, Meta peut appliquer les résultats à ses propres produits.
Pour les grands modèles open source, une communauté de développeurs active est la véritable force concurrentielle.
Meta a établi une politique open source dès la création de son laboratoire d'IA en 2015. Zuckerberg comprend bien l'art de "bien gérer les relations publiques". En octobre, Meta a également lancé l'initiative "Incentives pour les créateurs en IA", finançant les développeurs utilisant Llama 2 pour résoudre des problèmes sociaux.
Aujourd'hui, la série Llama de Meta est devenue un indicateur des LLM open source. Au début d'octobre, 8 des 10 premiers du classement Hugging Face sont développés sur la base de Llama 2, avec plus de 1500 LLM utilisant son protocole open source.
Il est certes important d'améliorer les performances, mais la plupart des LLM ont encore un écart évident par rapport à GPT-4. Dans le dernier test AgentBench, GPT-4 a dominé le classement avec un score de 4,41, tandis que le deuxième, Claude, n'a obtenu que 2,77 points, et les LLM open source se situent généralement autour de 1 point.
La sortie de GPT-4 a eu lieu il y a plus de six mois, et les concurrents du monde entier peinent encore à rattraper leur retard. Cela est dû à l'équipe de scientifiques de pointe d'OpenAI et à l'expérience accumulée depuis longtemps dans la recherche sur les LLM.
Il est évident que la capacité clé des grands modèles réside dans la construction de l'écosystème ( open source ) ou purement dans la capacité d'inférence ( closed source ), et non pas dans une simple accumulation de paramètres.
Avec l'essor de la communauté open source, les performances des LLM pourraient converger, car tout le monde utilise des architectures de modèles et des ensembles de données similaires.
Un problème plus évident est que, à part Midjourney, il semble qu'aucun grand modèle n'ait pu réaliser de bénéfices.
Point d'ancrage de la valeur
En août de cette année, un article intitulé "OpenAI pourrait faire faillite d'ici la fin de 2024" a suscité l'attention. Le principal argument est que OpenAI brûle de l'argent trop rapidement.
L'article mentionne qu'après le développement de ChatGPT, les pertes d'OpenAI se sont rapidement aggravées, avec une perte d'environ 540 millions de dollars en 2022, ne pouvant compter que sur les investissements de Microsoft.
Cela reflète le dilemme auquel sont confrontés les fournisseurs de grands modèles : un déséquilibre grave entre les coûts et les revenus.
Les coûts élevés entraînent le fait que les principaux bénéficiaires actuels sont des fabricants de puces tels que Nvidia et Broadcom.
On estime qu'NVIDIA a vendu plus de 300 000 puces AI H100 au deuxième trimestre de cette année, ce qui équivaut au poids de 4,5 Boeing 747. Les performances d'NVIDIA ont explosé de 854 %, choquant Wall Street. Le prix de revente des H100 a grimpé à 40 000-50 000 dollars, alors que le coût n'était que de plus de 3000 dollars.
Le coût de la puissance de calcul est devenu un frein au développement de l'industrie. Selon une estimation de Sequoia Capital, les entreprises technologiques du monde entier dépenseront 200 milliards de dollars chaque année pour construire des infrastructures de grands modèles, mais les revenus annuels des grands modèles ne s'élèveront qu'à 75 milliards de dollars, ce qui laisse un écart d'au moins 125 milliards de dollars.
À l'exception de quelques rares cas, la plupart des entreprises de logiciels n'ont pas trouvé de modèle économique rentable après avoir dépensé des sommes énormes. Même les leaders du secteur comme Microsoft et Adobe font face à des défis.
GitHub Copilot, développé en collaboration entre Microsoft et OpenAI, coûte 10 dollars par mois, mais nécessite une subvention de 20 dollars, tandis que les utilisateurs intensifs font perdre à Microsoft jusqu'à 80 dollars par mois. Le nouveau Microsoft 365 Copilot est tarifé à 30 dollars, et les pertes pourraient être encore plus importantes.
Après le lancement de l'outil Firefly AI par Adobe, un système de points a été rapidement mis en place pour limiter l'utilisation excessive par les utilisateurs, ce qui pourrait entraîner des pertes pour l'entreprise. Une fois les points mensuels alloués dépassés, Adobe réduira la vitesse du service.
Microsoft et Adobe ont déjà des scénarios d'affaires clairs et de nombreux utilisateurs payants. En revanche, pour la plupart des grands modèles avec une accumulation de paramètres, le principal domaine d'application reste la conversation.
L'émergence d'OpenAI et de ChatGPT a déclenché cette révolution de l'IA, mais la valeur de l'entraînement de grands modèles à ce stade est douteuse. Avec l'intensification de la concurrence homogène et l'augmentation des modèles open source, l'espace pour les fournisseurs de grands modèles pourrait être encore davantage compressé.
Le succès de l'iPhone 4 ne réside pas dans le processeur A4 en 45nm, mais dans sa capacité à jouer à "Plants vs. Zombies" et "Angry Birds".