La capacité de traiter de longs textes devient le "standard" des grandes entreprises de modèles.
Les grands modèles améliorent leur capacité à traiter de longs textes à une vitesse incroyable, passant de 4000 tokens à 400000 tokens. La capacité de traitement des longs textes semble être un nouvel "équipement standard" pour les fournisseurs de grands modèles.
À l'étranger, OpenAI a augmenté la longueur d'entrée contextuelle de GPT-3.5 de 4000 à 16000 tokens grâce à plusieurs mises à jour, tandis que GPT-4 a été porté de 8000 à 32000 tokens. Le principal concurrent d'OpenAI, Anthropic, a quant à lui augmenté la longueur contextuelle à 100000 tokens en une seule fois. LongLLaMA a même étendu la longueur contextuelle à 256000 tokens, voire plus.
Sur le plan national, Kimi Chat, lancé par la startup de modèles de grande taille Mois de l'Obscurité, peut prendre en charge l'entrée de 200 000 caractères chinois, soit environ 400 000 tokens. La technologie LongLoRA, développée conjointement par l'Université Chinoise de Hong Kong et le MIT, peut étendre la longueur de texte du modèle 7B à 100 000 tokens et celle du modèle 70B à 32 000 tokens.
Actuellement, de nombreuses entreprises et institutions de recherche de premier plan, telles qu'OpenAI, Anthropic, Meta et Moonlight, considèrent l'expansion de la longueur du contexte comme une priorité de mise à niveau. Ces entreprises sont également des cibles populaires sur le marché des capitaux. OpenAI a obtenu près de 12 milliards de dollars d'investissements, Anthropic devrait atteindre une valorisation de 30 milliards de dollars, et Moonlight a réalisé près de 2 milliards de financements en seulement six mois.
Les fabricants de grands modèles rivalisent pour conquérir la technologie des longs textes, que signifie une augmentation de la longueur du contexte de 100 fois ?
En surface, cela signifie que le modèle peut accepter des textes plus longs et a une meilleure capacité de lecture. Les 4000 tokens de GPT-3.5 ne permettent d'entrer qu'environ 2000 caractères chinois, tandis que les 400 000 tokens de Kimi Chat peuvent supporter l'entrée de 200 000 caractères chinois, ce qui est suffisant pour lire un roman.
D'un point de vue plus profond, la technologie des longs textes pousse l'application des grands modèles dans des domaines professionnels tels que la finance, la justice et la recherche scientifique. Dans ces domaines, les capacités de résumé de documents longs, de compréhension de lecture et de questions-réponses sont des besoins fondamentaux, mais aussi une direction nécessitant une mise à niveau intelligente.
Cependant, tout comme pour les paramètres du modèle, la longueur du texte n'est pas nécessairement meilleure lorsqu'elle est plus longue. Des études montrent que le soutien d'un modèle à des entrées contextuelles plus longues n'est pas directement équivalent à de meilleures performances. La clé réside dans la manière dont le modèle utilise efficacement le contenu du contexte.
Cependant, les explorations sur la longueur des textes, tant au niveau national qu'international, n'ont pas encore atteint le "point critique". Les grandes entreprises de modèles continuent de faire des percées, 400 000 tokens ne sont peut-être qu'un début.
Pourquoi "rouler" des longs textes?
Le fondateur de la face cachée de la lune, Yang Zhilin, a déclaré que c'est en raison de la limitation de la longueur d'entrée des grands modèles que de nombreuses applications rencontrent des difficultés à se concrétiser. C'est également la raison pour laquelle les grandes entreprises de modèles se concentrent actuellement sur la technologie des textes longs.
Par exemple, dans un scénario de personnage virtuel, en raison d'une capacité de traitement de longs textes insuffisante, le personnage virtuel oubliera des informations importantes. Lors du développement de jeux de type « script kill », une longueur d'entrée insuffisante peut entraîner une réduction des règles et des paramètres, ne permettant pas d'atteindre l'effet escompté. Dans des domaines spécialisés comme le droit ou la banque, l'analyse et la génération de contenu approfondi sont souvent entravées.
Les longs textes joueront également un rôle important dans les applications natives d'Agent et d'IA à l'avenir. Les Agents ont besoin de s'appuyer sur des informations historiques pour planifier et prendre des décisions, tandis que les applications natives d'IA nécessitent un contexte pour maintenir une expérience utilisateur cohérente et personnalisée.
Yang Zhilin croit que, qu'il s'agisse de texte, de voix ou de vidéo, la compression sans perte de données massives peut réaliser un haut degré d'intelligence. La limite des grands modèles est déterminée par la capacité d'une seule étape et le nombre d'étapes d'exécution, où la capacité d'une seule étape est liée au nombre de paramètres, et le nombre d'étapes d'exécution correspond à la longueur du contexte.
En même temps, un texte long peut aider le modèle à juger plus précisément le sens en fournissant plus de contexte et d'informations détaillées, réduisant ainsi l'ambiguïté et améliorant la précision du raisonnement.
La technologie des longs textes peut à la fois résoudre certains problèmes des grands modèles en début de développement, renforcer certaines fonctionnalités, et constitue également une technologie clé pour faire avancer l'application industrielle. Cela marque l'entrée du développement des grands modèles généralisés dans une nouvelle phase, passant de LLM à Long LLM.
Prenons l'exemple de Kimi Chat, récemment lancé par la face cachée de la lune, pour avoir un aperçu des fonctionnalités améliorées des grands modèles de la phase Long LLM :
Extraire, résumer et analyser les informations clés des textes très longs.
Convertir directement le document en code et pouvoir le modifier sur cette base
Réaliser des jeux de rôle, pouvant dialoguer avec des personnalités publiques ou des personnages virtuels.
Cela indique que les robots de conversation évoluent vers une spécialisation, une personnalisation et une profondeur, ce qui pourrait être un nouvel levier pour dynamiser les applications industrielles et la mise en œuvre de super applications.
Yang Zhilin estime que le marché national des grands modèles se divisera en deux camps : toB et toC. Dans le domaine toC, des super applications basées sur des modèles développés en interne apparaîtront.
Cependant, il existe encore beaucoup de possibilités d'optimisation pour les scénarios de dialogue en texte long sur le marché actuel. Par exemple, il n'est pas possible de se connecter pour obtenir les dernières informations, le processus de génération ne peut pas être mis en pause pour modification, et il y a encore des cas où des absurdités apparaissent.
Le dilemme du "triangle impossible" dans un long texte
Dans la technologie des longs textes, il existe un dilemme du "triangle impossible" entre la longueur du texte, l'attention et la puissance de calcul :
Plus le texte est long, plus il est difficile de concentrer suffisamment d'attention et de le digérer complètement.
L'attention est limitée, un court texte ne peut pas déchiffrer complètement des informations complexes.
Traiter de longs textes nécessite une grande puissance de calcul, ce qui augmente les coûts.
La racine de ce dilemme réside dans le fait que les modèles préexistants sont principalement basés sur la structure Transformer. Bien que le mécanisme d'auto-attention le plus important puisse surmonter les limitations de l'ordre d'entrée, la charge de calcul augmente de manière exponentielle avec la longueur du contexte.
Cela constitue le premier ensemble de contradictions dans le "triangle impossibile" : la longueur du texte et l'attention. En même temps, traiter des textes longs nécessite plus de puissance de calcul, ce qui crée un deuxième ensemble de contradictions avec la situation actuelle de la rareté de la puissance de calcul.
Il existe actuellement trois solutions principales :
Utiliser des outils externes pour traiter des textes longs, en les divisant en plusieurs textes courts.
Optimiser le calcul du mécanisme d'attention par soi-même, comme la technologie LongLoRA qui réduit la charge de calcul par le calcul par groupes.
Optimiser le modèle, comme LongLLaMA qui prend en charge des séquences plus longues en ajustant un modèle existant.
Le dilemme du "triangle impossible" des longs textes est peut-être sans solution pour le moment, mais cela clarifie également le chemin d'exploration des fabricants de grands modèles : rechercher un équilibre entre la longueur du texte, l'attention et la puissance de calcul, afin de pouvoir traiter suffisamment d'informations tout en tenant compte des coûts de calcul et d'attention.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
8 J'aime
Récompense
8
5
Partager
Commentaire
0/400
LiquidationWatcher
· 07-15 12:13
Puissance de calcul si chère, Se faire prendre pour des cons serait plus approprié.
Voir l'originalRépondre0
LiquidationAlert
· 07-13 09:58
Regardez qui a la puissance de calcul assez forte.
Voir l'originalRépondre0
RiddleMaster
· 07-12 12:53
Jusqu'à présent, il n'est toujours pas ancré dans la réalité.
Voir l'originalRépondre0
CrossChainBreather
· 07-12 12:36
Ce goulot d'étranglement finira par être surmonté.
Les longs textes deviennent la nouvelle norme pour les grands modèles, les géants nationaux et étrangers rivalisent pour dépasser 400 000 tokens.
La capacité de traiter de longs textes devient le "standard" des grandes entreprises de modèles.
Les grands modèles améliorent leur capacité à traiter de longs textes à une vitesse incroyable, passant de 4000 tokens à 400000 tokens. La capacité de traitement des longs textes semble être un nouvel "équipement standard" pour les fournisseurs de grands modèles.
À l'étranger, OpenAI a augmenté la longueur d'entrée contextuelle de GPT-3.5 de 4000 à 16000 tokens grâce à plusieurs mises à jour, tandis que GPT-4 a été porté de 8000 à 32000 tokens. Le principal concurrent d'OpenAI, Anthropic, a quant à lui augmenté la longueur contextuelle à 100000 tokens en une seule fois. LongLLaMA a même étendu la longueur contextuelle à 256000 tokens, voire plus.
Sur le plan national, Kimi Chat, lancé par la startup de modèles de grande taille Mois de l'Obscurité, peut prendre en charge l'entrée de 200 000 caractères chinois, soit environ 400 000 tokens. La technologie LongLoRA, développée conjointement par l'Université Chinoise de Hong Kong et le MIT, peut étendre la longueur de texte du modèle 7B à 100 000 tokens et celle du modèle 70B à 32 000 tokens.
Actuellement, de nombreuses entreprises et institutions de recherche de premier plan, telles qu'OpenAI, Anthropic, Meta et Moonlight, considèrent l'expansion de la longueur du contexte comme une priorité de mise à niveau. Ces entreprises sont également des cibles populaires sur le marché des capitaux. OpenAI a obtenu près de 12 milliards de dollars d'investissements, Anthropic devrait atteindre une valorisation de 30 milliards de dollars, et Moonlight a réalisé près de 2 milliards de financements en seulement six mois.
Les fabricants de grands modèles rivalisent pour conquérir la technologie des longs textes, que signifie une augmentation de la longueur du contexte de 100 fois ?
En surface, cela signifie que le modèle peut accepter des textes plus longs et a une meilleure capacité de lecture. Les 4000 tokens de GPT-3.5 ne permettent d'entrer qu'environ 2000 caractères chinois, tandis que les 400 000 tokens de Kimi Chat peuvent supporter l'entrée de 200 000 caractères chinois, ce qui est suffisant pour lire un roman.
D'un point de vue plus profond, la technologie des longs textes pousse l'application des grands modèles dans des domaines professionnels tels que la finance, la justice et la recherche scientifique. Dans ces domaines, les capacités de résumé de documents longs, de compréhension de lecture et de questions-réponses sont des besoins fondamentaux, mais aussi une direction nécessitant une mise à niveau intelligente.
Cependant, tout comme pour les paramètres du modèle, la longueur du texte n'est pas nécessairement meilleure lorsqu'elle est plus longue. Des études montrent que le soutien d'un modèle à des entrées contextuelles plus longues n'est pas directement équivalent à de meilleures performances. La clé réside dans la manière dont le modèle utilise efficacement le contenu du contexte.
Cependant, les explorations sur la longueur des textes, tant au niveau national qu'international, n'ont pas encore atteint le "point critique". Les grandes entreprises de modèles continuent de faire des percées, 400 000 tokens ne sont peut-être qu'un début.
Pourquoi "rouler" des longs textes?
Le fondateur de la face cachée de la lune, Yang Zhilin, a déclaré que c'est en raison de la limitation de la longueur d'entrée des grands modèles que de nombreuses applications rencontrent des difficultés à se concrétiser. C'est également la raison pour laquelle les grandes entreprises de modèles se concentrent actuellement sur la technologie des textes longs.
Par exemple, dans un scénario de personnage virtuel, en raison d'une capacité de traitement de longs textes insuffisante, le personnage virtuel oubliera des informations importantes. Lors du développement de jeux de type « script kill », une longueur d'entrée insuffisante peut entraîner une réduction des règles et des paramètres, ne permettant pas d'atteindre l'effet escompté. Dans des domaines spécialisés comme le droit ou la banque, l'analyse et la génération de contenu approfondi sont souvent entravées.
Les longs textes joueront également un rôle important dans les applications natives d'Agent et d'IA à l'avenir. Les Agents ont besoin de s'appuyer sur des informations historiques pour planifier et prendre des décisions, tandis que les applications natives d'IA nécessitent un contexte pour maintenir une expérience utilisateur cohérente et personnalisée.
Yang Zhilin croit que, qu'il s'agisse de texte, de voix ou de vidéo, la compression sans perte de données massives peut réaliser un haut degré d'intelligence. La limite des grands modèles est déterminée par la capacité d'une seule étape et le nombre d'étapes d'exécution, où la capacité d'une seule étape est liée au nombre de paramètres, et le nombre d'étapes d'exécution correspond à la longueur du contexte.
En même temps, un texte long peut aider le modèle à juger plus précisément le sens en fournissant plus de contexte et d'informations détaillées, réduisant ainsi l'ambiguïté et améliorant la précision du raisonnement.
La technologie des longs textes peut à la fois résoudre certains problèmes des grands modèles en début de développement, renforcer certaines fonctionnalités, et constitue également une technologie clé pour faire avancer l'application industrielle. Cela marque l'entrée du développement des grands modèles généralisés dans une nouvelle phase, passant de LLM à Long LLM.
Prenons l'exemple de Kimi Chat, récemment lancé par la face cachée de la lune, pour avoir un aperçu des fonctionnalités améliorées des grands modèles de la phase Long LLM :
Cela indique que les robots de conversation évoluent vers une spécialisation, une personnalisation et une profondeur, ce qui pourrait être un nouvel levier pour dynamiser les applications industrielles et la mise en œuvre de super applications.
Yang Zhilin estime que le marché national des grands modèles se divisera en deux camps : toB et toC. Dans le domaine toC, des super applications basées sur des modèles développés en interne apparaîtront.
Cependant, il existe encore beaucoup de possibilités d'optimisation pour les scénarios de dialogue en texte long sur le marché actuel. Par exemple, il n'est pas possible de se connecter pour obtenir les dernières informations, le processus de génération ne peut pas être mis en pause pour modification, et il y a encore des cas où des absurdités apparaissent.
Le dilemme du "triangle impossible" dans un long texte
Dans la technologie des longs textes, il existe un dilemme du "triangle impossible" entre la longueur du texte, l'attention et la puissance de calcul :
La racine de ce dilemme réside dans le fait que les modèles préexistants sont principalement basés sur la structure Transformer. Bien que le mécanisme d'auto-attention le plus important puisse surmonter les limitations de l'ordre d'entrée, la charge de calcul augmente de manière exponentielle avec la longueur du contexte.
Cela constitue le premier ensemble de contradictions dans le "triangle impossibile" : la longueur du texte et l'attention. En même temps, traiter des textes longs nécessite plus de puissance de calcul, ce qui crée un deuxième ensemble de contradictions avec la situation actuelle de la rareté de la puissance de calcul.
Il existe actuellement trois solutions principales :
Utiliser des outils externes pour traiter des textes longs, en les divisant en plusieurs textes courts.
Optimiser le calcul du mécanisme d'attention par soi-même, comme la technologie LongLoRA qui réduit la charge de calcul par le calcul par groupes.
Optimiser le modèle, comme LongLLaMA qui prend en charge des séquences plus longues en ajustant un modèle existant.
Le dilemme du "triangle impossible" des longs textes est peut-être sans solution pour le moment, mais cela clarifie également le chemin d'exploration des fabricants de grands modèles : rechercher un équilibre entre la longueur du texte, l'attention et la puissance de calcul, afin de pouvoir traiter suffisamment d'informations tout en tenant compte des coûts de calcul et d'attention.