Évolution de l'industrie de l'IA et perspectives d'intégration avec la Blockchain
Le secteur de l'intelligence artificielle a récemment fait d'énormes progrès, étant considéré comme un moteur clé de la quatrième révolution industrielle. L'émergence de grands modèles linguistiques a considérablement amélioré l'efficacité au travail dans divers domaines, et le Boston Consulting Group estime que GPT a augmenté la productivité globale des États-Unis d'environ 20 %. Parallèlement, la capacité de généralisation des grands modèles est considérée comme un nouveau paradigme de conception de logiciels, différent de l'approche de codage précis du passé ; la conception de logiciels actuelle adopte davantage un cadre de grands modèles ayant une plus grande capacité de généralisation, capable de supporter une plus large gamme d'entrées et de sorties de modalités. La technologie d'apprentissage profond a apporté un nouvel essor au secteur de l'IA, et cette tendance s'étend progressivement au secteur des cryptomonnaies.
Ce rapport explorera en profondeur l'évolution de l'industrie de l'IA, les classifications technologiques, ainsi que l'impact des technologies d'apprentissage profond sur l'industrie. Nous analyserons l'état et les tendances de développement des chaînes de valeur en amont et en aval dans le domaine de l'apprentissage profond, y compris les GPU, le cloud computing, les sources de données et les dispositifs en périphérie. De plus, nous examinerons essentiellement le lien entre les cryptomonnaies et l'industrie de l'IA, et nous organiserons le paysage de la chaîne de valeur de l'IA liée aux cryptomonnaies.
Histoire du développement de l'industrie de l'IA
Depuis le début des années 1950, l'industrie de l'IA a développé différentes écoles de pensée pour réaliser l'intelligence artificielle, dans des contextes académiques et industriels variés.
Les technologies modernes de l'intelligence artificielle utilisent principalement le terme "apprentissage automatique", dont l'idée centrale est de permettre aux machines d'améliorer les performances du système par itérations répétées sur des données dans des tâches spécifiques. Les étapes principales incluent l'entrée des données dans l'algorithme, l'entraînement du modèle avec les données, le test et le déploiement du modèle, et enfin l'utilisation du modèle pour accomplir des tâches de prédiction automatisée.
Actuellement, il existe trois grandes écoles de pensée en apprentissage automatique, à savoir le connexionnisme, le symbolisme et le behaviorisme, qui imitent respectivement le système nerveux, la pensée et le comportement humain. Parmi eux, le connexionnisme, représenté par les réseaux de neurones, domine actuellement ( également connu sous le nom d'apprentissage profond ). L'architecture des réseaux de neurones comprend une couche d'entrée, une couche de sortie et plusieurs couches cachées. Lorsque le nombre de couches et de neurones ( ainsi que le nombre de paramètres ) sont suffisamment élevés, il est possible d'ajuster des tâches générales complexes. En ajustant continuellement les paramètres des neurones en fonction des données entrantes, les neurones atteindront finalement un état optimal, ce qui explique également l'origine du terme "profondeur" - un nombre suffisant de couches et de neurones.
Les technologies d'apprentissage profond basées sur les réseaux de neurones ont également connu plusieurs itérations et évolutions, depuis les premiers réseaux de neurones, jusqu'aux réseaux de neurones à propagation avant, RNN, CNN, GAN, et finalement le développement des grands modèles modernes comme GPT utilisant la technologie Transformer. La technologie Transformer est une direction d'évolution des réseaux de neurones, ajoutant un convertisseur (Transformer), pour coder les données de divers modes ( tels que l'audio, la vidéo, les images, etc. ) en représentations numériques correspondantes, puis les entrer dans le réseau de neurones, permettant ainsi au réseau de neurones de s'adapter à tout type de données et de réaliser un traitement multimodal.
Le développement de l'IA a connu trois vagues technologiques :
La première vague a eu lieu dans les années 1960, provoquée par des techniques de symbolisme, et a résolu les problèmes de traitement du langage naturel général et de dialogue homme-machine. À la même époque, des systèmes experts ont vu le jour, comme le système expert en chimie DENDRAL développé par la NASA.
La deuxième vague a eu lieu dans les années 1990, avec l'émergence des réseaux bayésiens et de la robotique basée sur le comportement, marquant la naissance du comportementalisme. En 1997, Deep Blue d'IBM a vaincu le champion d'échecs Kasparov, ce qui est considéré comme un jalon pour l'intelligence artificielle.
La troisième vague a commencé en 2006. Le concept d'apprentissage profond a été proposé, utilisant des réseaux de neurones artificiels comme architecture pour l'apprentissage de représentations des données. Par la suite, les algorithmes d'apprentissage profond ont continuellement évolué, passant des RNN, des GAN aux Transformers et à la Stable Diffusion, façonnant cette vague technologique, et marquant le pic du connexionnisme.
Plusieurs événements marquants ont eu lieu pendant cette période :
En 2011, Watson d'IBM a battu des concurrents humains dans l'émission de quiz "Danger Zone".
En 2014, Goodfellow a proposé le réseau antagoniste génératif GAN(.
En 2015, Hinton et al. ont proposé des algorithmes d'apprentissage profond dans la revue "Nature", suscitant une énorme réaction. OpenAI a été fondée.
En 2016, AlphaGo a battu le champion du monde de Go, Lee Sedol.
En 2017, Google a proposé l'algorithme Transformer, les modèles de langage à grande échelle ont commencé à apparaître.
En 2018, OpenAI a publié GPT, DeepMind a publié AlphaFold.
En 2019, OpenAI a publié GPT-2.
En 2020, OpenAI a publié GPT-3.
En 2023, ChatGPT basé sur GPT-4 a été lancé et a rapidement atteint cent millions d'utilisateurs.
![新人科普丨AI x Crypto:从零到巅峰])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
Chaîne de valeur de l'apprentissage profond
Les modèles linguistiques de grande taille actuels adoptent principalement des méthodes d'apprentissage profond basées sur des réseaux de neurones. Les grands modèles représentés par GPT ont déclenché une nouvelle vague d'engouement pour l'intelligence artificielle, attirant de nombreux acteurs dans ce domaine, et la demande du marché pour les données et la puissance de calcul a explosé. Cette section explorera la composition de la chaîne industrielle des algorithmes d'apprentissage profond, ainsi que l'état, les relations d'offre et de demande et le développement futur en amont et en aval.
L'entraînement des grands modèles de langage tels que GPT basés sur la technologie Transformer ) LLMs ( se divise principalement en trois étapes :
Pré-entraînement : Entrer une grande quantité de données pour trouver les meilleurs paramètres des neurones. Ce processus nécessite le plus de puissance de calcul et nécessite de nombreuses itérations pour essayer divers paramètres.
Ajustement : utiliser une petite quantité de données de haute qualité pour former, améliorer la qualité de sortie du modèle.
Apprentissage par renforcement : construire un "modèle de récompense" pour évaluer la qualité de la sortie du grand modèle, et itérer automatiquement les paramètres du grand modèle à travers ce modèle. Parfois, une participation humaine à l'évaluation est également nécessaire.
En résumé, le pré-entraînement nécessite une grande quantité de données et consomme le plus de puissance de calcul GPU ; le réglage fin nécessite des données de haute qualité pour améliorer les paramètres ; l'apprentissage par renforcement itère les paramètres à plusieurs reprises à travers un modèle de récompense pour améliorer la qualité de sortie.
Les trois principaux facteurs qui influencent la performance des grands modèles sont : le nombre de paramètres, la quantité et la qualité des données, et la puissance de calcul. Ces trois éléments déterminent ensemble la qualité des résultats et la capacité de généralisation des grands modèles. Supposons que le nombre de paramètres soit p, que la quantité de données soit n) calculée en nombre de Tokens(, on peut estimer la puissance de calcul requise par des règles empiriques, afin de prévoir la puissance de calcul et le temps d'entraînement nécessaires.
La puissance de calcul est généralement exprimée en Flops, représentant une opération flottante. Selon l'expérience pratique, le pré-entraînement d'un grand modèle nécessite environ 6np Flops. Le processus d'inférence pour ), où les données d'entrée attendent la sortie du modèle, nécessite alors 2np Flops.
L'entraînement précoce de l'IA utilisait principalement des puces CPU, qui ont ensuite été progressivement remplacées par des GPU, comme les A100 et H100 de Nvidia. Les GPU surpassent de loin les CPU en termes d'efficacité énergétique, principalement grâce aux modules Tensor Core pour effectuer des calculs en virgule flottante. La capacité de calcul des puces est généralement mesurée en Flops à des précisions FP16/FP32.
Prenons GPT-3 comme exemple, il a 175 milliards de paramètres et un volume de données de 180 milliards de tokens, soit environ 570 Go(. Une préformation nécessite 3,15*10^22 Flops, ce qui équivaut à 584 jours pour une puce Nvidia A100 SXM. Étant donné que le nombre de paramètres de GPT-4 est 10 fois celui de GPT-3 et que le volume de données a également augmenté de 10 fois, il pourrait nécessiter plus de 100 fois la puissance de calcul des puces.
Dans l'entraînement de grands modèles, le stockage des données est également un défi. La mémoire GPU est généralement petite, par exemple, l'A100 a 80 Go, ce qui ne peut pas contenir toutes les données et les paramètres du modèle. Il est donc nécessaire de tenir compte de la bande passante des puces, c'est-à-dire la vitesse de transfert des données entre le disque dur et la mémoire. Lors de l'entraînement collaboratif multi-GPU, le taux de transfert de données entre les puces est également crucial.
![Nouveau guide丨IA x Crypto : de zéro au sommet])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
La chaîne de valeur de l'industrie de l'apprentissage profond comprend principalement les étapes suivantes :
Fournisseurs de GPU matériels : Actuellement, Nvidia est en position de leader absolu. Le milieu académique utilise principalement des GPU grand public ) comme la série RTX (, tandis que l'industrie utilise principalement des puces professionnelles telles que H100, A100, etc. Google a également ses propres puces TPU.
Fournisseurs de services cloud : fournir des capacités de calcul flexibles et des solutions d'entraînement hébergées aux entreprises d'IA disposant de fonds limités. Principalement divisés en trois catégories : fournisseurs de cloud traditionnels ) tels qu'AWS, Google Cloud, Azure (, plateformes de cloud computing AI verticales ) telles que CoreWeave, Lambda (, fournisseurs de services d'inférence ) tels que Together.ai, Fireworks.ai (.
Fournisseurs de données d'entraînement : fournissent une grande quantité de données ou des données de haute qualité pour les grands modèles. Des entreprises possédant une grande quantité de données comme Google, Reddit, etc., sont sous les projecteurs. Il existe également des entreprises spécialisées dans l'annotation de données qui fournissent des données pour des modèles dans des domaines spécifiques.
Fournisseur de base de données : Les tâches d'inférence d'entraînement AI utilisent principalement "base de données vectorielle", pour le stockage et l'indexation efficaces d'énormes données vectorielles de haute dimension. Les principaux acteurs comprennent Chroma, Zilliz, Pinecone, Weaviate, etc.
Équipements périphériques : fournir un support de refroidissement et d'alimentation pour les clusters GPU. Comprend l'approvisionnement en énergie ) comme la géothermie, l'hydrogène, l'énergie nucléaire ( et les systèmes de refroidissement ) comme la technologie de refroidissement liquide (.
Applications : Actuellement, les applications d'IA se concentrent principalement sur des domaines tels que la recherche et les questions-réponses, avec des taux de conservation et d'activité généralement inférieurs à ceux des applications Internet traditionnelles. Les applications se divisent principalement en trois catégories : destinées aux consommateurs professionnels, aux entreprises et aux consommateurs ordinaires.
![Nouveau Guide丨IA x Crypto : De zéro au sommet])https://img-cdn.gateio.im/webp-social/moments-609c5dd6ee0abcec6bf9c118d7741867.webp(
La relation entre les crypto-monnaies et l'IA
La technologie Blockchain repose sur la décentralisation et la désintermédiation. Le Bitcoin a créé un système de transfert de valeur sans confiance, tandis qu'Ethereum a réalisé une plateforme de contrats intelligents décentralisée et sans confiance. Essentiellement, un réseau Blockchain est un réseau de valeur, chaque transaction étant une conversion de valeur basée sur le jeton sous-jacent.
Dans Internet traditionnel, la valeur se reflète dans le prix des actions à travers des indicateurs tels que le P/E. Dans un réseau Blockchain, le jeton natif ) comme ETH( représente la valeur multidimensionnelle du réseau, permettant non seulement de générer des revenus de staking, mais aussi d'agir comme un moyen d'échange de valeur, un moyen de stockage de valeur, et un produit de consommation pour les activités du réseau.
L'économie des jetons ) définit la valeur relative des actifs de règlement de l'écosystème ( jetons natifs ). Bien qu'il soit impossible de fixer un prix séparé pour chaque dimension, le prix des jetons reflète une valeur multidimensionnelle. Une fois que les jetons sont attribués au réseau et mis en circulation, il est possible de réaliser une capture de valeur bien supérieure à celle des actions traditionnelles.
L'attrait de l'économie des jetons réside dans sa capacité à donner de la valeur à toute fonction ou idée. Elle redéfinit et découvre la valeur, ce qui est essentiel pour de nombreux secteurs, y compris l'IA. Dans l'industrie de l'IA, l'émission de jetons peut remodeler la valeur à chaque étape de la chaîne de valeur, incitant davantage de personnes à se concentrer sur des niches spécifiques. Les jetons peuvent également offrir une valeur supplémentaire aux infrastructures, favorisant ainsi la formation du paradigme "protocole lourd, application légère".
La technologie Blockchain, avec ses caractéristiques d'immutabilité et de non-confiance, peut également apporter une valeur réelle à l'industrie de l'IA. Par exemple, il est possible de permettre aux modèles d'utiliser des données tout en protégeant la vie privée des utilisateurs ; il est possible de redistribuer la puissance de calcul GPU inutilisée via un réseau global, redécouvrant ainsi la valeur résiduelle.
Dans l'ensemble, l'économie des tokens aide à remodeler et à découvrir la valeur, tandis que le registre décentralisé peut résoudre les problèmes de confiance et rediriger la valeur à l'échelle mondiale. Cette combinaison offre de nouvelles possibilités à l'industrie de l'IA.
Vue d'ensemble de la chaîne industrielle de l'IA dans le secteur des crypto-monnaies
Côté offre de GPU:
Les principaux projets incluent Render, Golem, etc. Render, en tant que projet plus mature, est principalement destiné aux tâches de rendu vidéo qui ne nécessitent pas de grands modèles. Le marché de la puissance de calcul cloud GPU peut non seulement servir à l'entraînement et à l'inférence des modèles d'IA, mais aussi convenir aux tâches de rendu traditionnelles, réduisant ainsi le risque de dépendance à un marché unique.
Bande passante matérielle :
Des projets comme Meson Network tentent d'établir un réseau de partage de bande passante mondial. Cependant, le partage de bande passante pourrait être un faux besoin pour l'entraînement de grands modèles, car la latence causée par la localisation géographique peut affecter considérablement l'efficacité de l'entraînement.
Données:
Les principaux projets incluent EpiK Protocol, Synesis One, Masa, etc. Par rapport aux entreprises de données traditionnelles, les fournisseurs de données Blockchain ont un avantage en matière de collecte de données, pouvant établir un prix pour les données personnelles et inciter les utilisateurs à contribuer des données par le biais de jetons.
ZKML:
Des projets comme Zama, TruthGPT, etc. utilisent la technologie des preuves à divulgation nulle de connaissance pour réaliser des calculs privés et des formations. De plus, certains projets ZK généralistes comme Axiom, Risc Zero méritent également d'être surveillés.
Applications d'IA:
Actuellement, il s'agit principalement d'applications blockchain traditionnelles combinées à des capacités d'automatisation et de généralisation. L'Agent AI (, tel que Fetch.AI ), est envisagé comme un pont entre les utilisateurs et diverses applications, et devrait être parmi les premiers à en bénéficier.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
14 J'aime
Récompense
14
4
Partager
Commentaire
0/400
mev_me_maybe
· Il y a 12h
gpt a trop monté, il est temps de se refroidir.
Voir l'originalRépondre0
fork_in_the_road
· Il y a 12h
Déjà vu à travers tout, pigeons.
Voir l'originalRépondre0
NotFinancialAdviser
· Il y a 12h
GPT joue bien, le Trading des cryptomonnaies va sûrement atteindre un nouveau sommet.
L'intégration de l'IA et de la Blockchain : remodeler la valeur de la chaîne d'approvisionnement et les tendances de développement futures
Évolution de l'industrie de l'IA et perspectives d'intégration avec la Blockchain
Le secteur de l'intelligence artificielle a récemment fait d'énormes progrès, étant considéré comme un moteur clé de la quatrième révolution industrielle. L'émergence de grands modèles linguistiques a considérablement amélioré l'efficacité au travail dans divers domaines, et le Boston Consulting Group estime que GPT a augmenté la productivité globale des États-Unis d'environ 20 %. Parallèlement, la capacité de généralisation des grands modèles est considérée comme un nouveau paradigme de conception de logiciels, différent de l'approche de codage précis du passé ; la conception de logiciels actuelle adopte davantage un cadre de grands modèles ayant une plus grande capacité de généralisation, capable de supporter une plus large gamme d'entrées et de sorties de modalités. La technologie d'apprentissage profond a apporté un nouvel essor au secteur de l'IA, et cette tendance s'étend progressivement au secteur des cryptomonnaies.
Ce rapport explorera en profondeur l'évolution de l'industrie de l'IA, les classifications technologiques, ainsi que l'impact des technologies d'apprentissage profond sur l'industrie. Nous analyserons l'état et les tendances de développement des chaînes de valeur en amont et en aval dans le domaine de l'apprentissage profond, y compris les GPU, le cloud computing, les sources de données et les dispositifs en périphérie. De plus, nous examinerons essentiellement le lien entre les cryptomonnaies et l'industrie de l'IA, et nous organiserons le paysage de la chaîne de valeur de l'IA liée aux cryptomonnaies.
Histoire du développement de l'industrie de l'IA
Depuis le début des années 1950, l'industrie de l'IA a développé différentes écoles de pensée pour réaliser l'intelligence artificielle, dans des contextes académiques et industriels variés.
Les technologies modernes de l'intelligence artificielle utilisent principalement le terme "apprentissage automatique", dont l'idée centrale est de permettre aux machines d'améliorer les performances du système par itérations répétées sur des données dans des tâches spécifiques. Les étapes principales incluent l'entrée des données dans l'algorithme, l'entraînement du modèle avec les données, le test et le déploiement du modèle, et enfin l'utilisation du modèle pour accomplir des tâches de prédiction automatisée.
Actuellement, il existe trois grandes écoles de pensée en apprentissage automatique, à savoir le connexionnisme, le symbolisme et le behaviorisme, qui imitent respectivement le système nerveux, la pensée et le comportement humain. Parmi eux, le connexionnisme, représenté par les réseaux de neurones, domine actuellement ( également connu sous le nom d'apprentissage profond ). L'architecture des réseaux de neurones comprend une couche d'entrée, une couche de sortie et plusieurs couches cachées. Lorsque le nombre de couches et de neurones ( ainsi que le nombre de paramètres ) sont suffisamment élevés, il est possible d'ajuster des tâches générales complexes. En ajustant continuellement les paramètres des neurones en fonction des données entrantes, les neurones atteindront finalement un état optimal, ce qui explique également l'origine du terme "profondeur" - un nombre suffisant de couches et de neurones.
Les technologies d'apprentissage profond basées sur les réseaux de neurones ont également connu plusieurs itérations et évolutions, depuis les premiers réseaux de neurones, jusqu'aux réseaux de neurones à propagation avant, RNN, CNN, GAN, et finalement le développement des grands modèles modernes comme GPT utilisant la technologie Transformer. La technologie Transformer est une direction d'évolution des réseaux de neurones, ajoutant un convertisseur (Transformer), pour coder les données de divers modes ( tels que l'audio, la vidéo, les images, etc. ) en représentations numériques correspondantes, puis les entrer dans le réseau de neurones, permettant ainsi au réseau de neurones de s'adapter à tout type de données et de réaliser un traitement multimodal.
Le développement de l'IA a connu trois vagues technologiques :
La première vague a eu lieu dans les années 1960, provoquée par des techniques de symbolisme, et a résolu les problèmes de traitement du langage naturel général et de dialogue homme-machine. À la même époque, des systèmes experts ont vu le jour, comme le système expert en chimie DENDRAL développé par la NASA.
La deuxième vague a eu lieu dans les années 1990, avec l'émergence des réseaux bayésiens et de la robotique basée sur le comportement, marquant la naissance du comportementalisme. En 1997, Deep Blue d'IBM a vaincu le champion d'échecs Kasparov, ce qui est considéré comme un jalon pour l'intelligence artificielle.
La troisième vague a commencé en 2006. Le concept d'apprentissage profond a été proposé, utilisant des réseaux de neurones artificiels comme architecture pour l'apprentissage de représentations des données. Par la suite, les algorithmes d'apprentissage profond ont continuellement évolué, passant des RNN, des GAN aux Transformers et à la Stable Diffusion, façonnant cette vague technologique, et marquant le pic du connexionnisme.
Plusieurs événements marquants ont eu lieu pendant cette période :
![新人科普丨AI x Crypto:从零到巅峰])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
Chaîne de valeur de l'apprentissage profond
Les modèles linguistiques de grande taille actuels adoptent principalement des méthodes d'apprentissage profond basées sur des réseaux de neurones. Les grands modèles représentés par GPT ont déclenché une nouvelle vague d'engouement pour l'intelligence artificielle, attirant de nombreux acteurs dans ce domaine, et la demande du marché pour les données et la puissance de calcul a explosé. Cette section explorera la composition de la chaîne industrielle des algorithmes d'apprentissage profond, ainsi que l'état, les relations d'offre et de demande et le développement futur en amont et en aval.
L'entraînement des grands modèles de langage tels que GPT basés sur la technologie Transformer ) LLMs ( se divise principalement en trois étapes :
Pré-entraînement : Entrer une grande quantité de données pour trouver les meilleurs paramètres des neurones. Ce processus nécessite le plus de puissance de calcul et nécessite de nombreuses itérations pour essayer divers paramètres.
Ajustement : utiliser une petite quantité de données de haute qualité pour former, améliorer la qualité de sortie du modèle.
Apprentissage par renforcement : construire un "modèle de récompense" pour évaluer la qualité de la sortie du grand modèle, et itérer automatiquement les paramètres du grand modèle à travers ce modèle. Parfois, une participation humaine à l'évaluation est également nécessaire.
En résumé, le pré-entraînement nécessite une grande quantité de données et consomme le plus de puissance de calcul GPU ; le réglage fin nécessite des données de haute qualité pour améliorer les paramètres ; l'apprentissage par renforcement itère les paramètres à plusieurs reprises à travers un modèle de récompense pour améliorer la qualité de sortie.
Les trois principaux facteurs qui influencent la performance des grands modèles sont : le nombre de paramètres, la quantité et la qualité des données, et la puissance de calcul. Ces trois éléments déterminent ensemble la qualité des résultats et la capacité de généralisation des grands modèles. Supposons que le nombre de paramètres soit p, que la quantité de données soit n) calculée en nombre de Tokens(, on peut estimer la puissance de calcul requise par des règles empiriques, afin de prévoir la puissance de calcul et le temps d'entraînement nécessaires.
La puissance de calcul est généralement exprimée en Flops, représentant une opération flottante. Selon l'expérience pratique, le pré-entraînement d'un grand modèle nécessite environ 6np Flops. Le processus d'inférence pour ), où les données d'entrée attendent la sortie du modèle, nécessite alors 2np Flops.
L'entraînement précoce de l'IA utilisait principalement des puces CPU, qui ont ensuite été progressivement remplacées par des GPU, comme les A100 et H100 de Nvidia. Les GPU surpassent de loin les CPU en termes d'efficacité énergétique, principalement grâce aux modules Tensor Core pour effectuer des calculs en virgule flottante. La capacité de calcul des puces est généralement mesurée en Flops à des précisions FP16/FP32.
Prenons GPT-3 comme exemple, il a 175 milliards de paramètres et un volume de données de 180 milliards de tokens, soit environ 570 Go(. Une préformation nécessite 3,15*10^22 Flops, ce qui équivaut à 584 jours pour une puce Nvidia A100 SXM. Étant donné que le nombre de paramètres de GPT-4 est 10 fois celui de GPT-3 et que le volume de données a également augmenté de 10 fois, il pourrait nécessiter plus de 100 fois la puissance de calcul des puces.
Dans l'entraînement de grands modèles, le stockage des données est également un défi. La mémoire GPU est généralement petite, par exemple, l'A100 a 80 Go, ce qui ne peut pas contenir toutes les données et les paramètres du modèle. Il est donc nécessaire de tenir compte de la bande passante des puces, c'est-à-dire la vitesse de transfert des données entre le disque dur et la mémoire. Lors de l'entraînement collaboratif multi-GPU, le taux de transfert de données entre les puces est également crucial.
![Nouveau guide丨IA x Crypto : de zéro au sommet])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
La chaîne de valeur de l'industrie de l'apprentissage profond comprend principalement les étapes suivantes :
Fournisseurs de GPU matériels : Actuellement, Nvidia est en position de leader absolu. Le milieu académique utilise principalement des GPU grand public ) comme la série RTX (, tandis que l'industrie utilise principalement des puces professionnelles telles que H100, A100, etc. Google a également ses propres puces TPU.
Fournisseurs de services cloud : fournir des capacités de calcul flexibles et des solutions d'entraînement hébergées aux entreprises d'IA disposant de fonds limités. Principalement divisés en trois catégories : fournisseurs de cloud traditionnels ) tels qu'AWS, Google Cloud, Azure (, plateformes de cloud computing AI verticales ) telles que CoreWeave, Lambda (, fournisseurs de services d'inférence ) tels que Together.ai, Fireworks.ai (.
Fournisseurs de données d'entraînement : fournissent une grande quantité de données ou des données de haute qualité pour les grands modèles. Des entreprises possédant une grande quantité de données comme Google, Reddit, etc., sont sous les projecteurs. Il existe également des entreprises spécialisées dans l'annotation de données qui fournissent des données pour des modèles dans des domaines spécifiques.
Fournisseur de base de données : Les tâches d'inférence d'entraînement AI utilisent principalement "base de données vectorielle", pour le stockage et l'indexation efficaces d'énormes données vectorielles de haute dimension. Les principaux acteurs comprennent Chroma, Zilliz, Pinecone, Weaviate, etc.
Équipements périphériques : fournir un support de refroidissement et d'alimentation pour les clusters GPU. Comprend l'approvisionnement en énergie ) comme la géothermie, l'hydrogène, l'énergie nucléaire ( et les systèmes de refroidissement ) comme la technologie de refroidissement liquide (.
Applications : Actuellement, les applications d'IA se concentrent principalement sur des domaines tels que la recherche et les questions-réponses, avec des taux de conservation et d'activité généralement inférieurs à ceux des applications Internet traditionnelles. Les applications se divisent principalement en trois catégories : destinées aux consommateurs professionnels, aux entreprises et aux consommateurs ordinaires.
![Nouveau Guide丨IA x Crypto : De zéro au sommet])https://img-cdn.gateio.im/webp-social/moments-609c5dd6ee0abcec6bf9c118d7741867.webp(
La relation entre les crypto-monnaies et l'IA
La technologie Blockchain repose sur la décentralisation et la désintermédiation. Le Bitcoin a créé un système de transfert de valeur sans confiance, tandis qu'Ethereum a réalisé une plateforme de contrats intelligents décentralisée et sans confiance. Essentiellement, un réseau Blockchain est un réseau de valeur, chaque transaction étant une conversion de valeur basée sur le jeton sous-jacent.
Dans Internet traditionnel, la valeur se reflète dans le prix des actions à travers des indicateurs tels que le P/E. Dans un réseau Blockchain, le jeton natif ) comme ETH( représente la valeur multidimensionnelle du réseau, permettant non seulement de générer des revenus de staking, mais aussi d'agir comme un moyen d'échange de valeur, un moyen de stockage de valeur, et un produit de consommation pour les activités du réseau.
L'économie des jetons ) définit la valeur relative des actifs de règlement de l'écosystème ( jetons natifs ). Bien qu'il soit impossible de fixer un prix séparé pour chaque dimension, le prix des jetons reflète une valeur multidimensionnelle. Une fois que les jetons sont attribués au réseau et mis en circulation, il est possible de réaliser une capture de valeur bien supérieure à celle des actions traditionnelles.
L'attrait de l'économie des jetons réside dans sa capacité à donner de la valeur à toute fonction ou idée. Elle redéfinit et découvre la valeur, ce qui est essentiel pour de nombreux secteurs, y compris l'IA. Dans l'industrie de l'IA, l'émission de jetons peut remodeler la valeur à chaque étape de la chaîne de valeur, incitant davantage de personnes à se concentrer sur des niches spécifiques. Les jetons peuvent également offrir une valeur supplémentaire aux infrastructures, favorisant ainsi la formation du paradigme "protocole lourd, application légère".
La technologie Blockchain, avec ses caractéristiques d'immutabilité et de non-confiance, peut également apporter une valeur réelle à l'industrie de l'IA. Par exemple, il est possible de permettre aux modèles d'utiliser des données tout en protégeant la vie privée des utilisateurs ; il est possible de redistribuer la puissance de calcul GPU inutilisée via un réseau global, redécouvrant ainsi la valeur résiduelle.
Dans l'ensemble, l'économie des tokens aide à remodeler et à découvrir la valeur, tandis que le registre décentralisé peut résoudre les problèmes de confiance et rediriger la valeur à l'échelle mondiale. Cette combinaison offre de nouvelles possibilités à l'industrie de l'IA.
Vue d'ensemble de la chaîne industrielle de l'IA dans le secteur des crypto-monnaies
Côté offre de GPU: Les principaux projets incluent Render, Golem, etc. Render, en tant que projet plus mature, est principalement destiné aux tâches de rendu vidéo qui ne nécessitent pas de grands modèles. Le marché de la puissance de calcul cloud GPU peut non seulement servir à l'entraînement et à l'inférence des modèles d'IA, mais aussi convenir aux tâches de rendu traditionnelles, réduisant ainsi le risque de dépendance à un marché unique.
Bande passante matérielle : Des projets comme Meson Network tentent d'établir un réseau de partage de bande passante mondial. Cependant, le partage de bande passante pourrait être un faux besoin pour l'entraînement de grands modèles, car la latence causée par la localisation géographique peut affecter considérablement l'efficacité de l'entraînement.
Données: Les principaux projets incluent EpiK Protocol, Synesis One, Masa, etc. Par rapport aux entreprises de données traditionnelles, les fournisseurs de données Blockchain ont un avantage en matière de collecte de données, pouvant établir un prix pour les données personnelles et inciter les utilisateurs à contribuer des données par le biais de jetons.
ZKML: Des projets comme Zama, TruthGPT, etc. utilisent la technologie des preuves à divulgation nulle de connaissance pour réaliser des calculs privés et des formations. De plus, certains projets ZK généralistes comme Axiom, Risc Zero méritent également d'être surveillés.
Applications d'IA: Actuellement, il s'agit principalement d'applications blockchain traditionnelles combinées à des capacités d'automatisation et de généralisation. L'Agent AI (, tel que Fetch.AI ), est envisagé comme un pont entre les utilisateurs et diverses applications, et devrait être parmi les premiers à en bénéficier.
Blockchain AI: Comme Tensor,