A capacidade de texto longo torna-se um novo "padrão" para empresas de grandes modelos
Os grandes modelos estão a melhorar a sua capacidade de processamento de longos textos a uma velocidade impressionante, expandindo de 4000 tokens para 400000 tokens. A capacidade de processamento de longos textos parece ter-se tornado um novo "standard" para os fornecedores de grandes modelos.
No exterior, a OpenAI, através de várias atualizações, aumentou o comprimento de entrada de contexto do GPT-3.5 de 4 mil para 16 mil tokens, e o GPT-4 de 8 mil para 32 mil tokens. O principal concorrente da OpenAI, a Anthropic, aumentou o comprimento de contexto para 100 mil tokens de uma só vez. O LongLLaMA expandiu ainda mais o comprimento de contexto para 256 mil tokens ou até mais.
No contexto nacional, a Kimi Chat, uma startup de modelos grandes chamada "Lado Escuro da Lua", pode suportar a entrada de 200.000 caracteres chineses, o que equivale a cerca de 400.000 tokens. A tecnologia LongLoRA, desenvolvida em conjunto pela Universidade Chinesa de Hong Kong e pelo MIT, pode expandir o comprimento do texto do modelo de 7B para 100.000 tokens e do modelo de 70B para 32.000 tokens.
Atualmente, várias das principais empresas e instituições de pesquisa de modelos de grande escala, como OpenAI, Anthropic, Meta e a Face Oculta da Lua, estão a focar na expansão do comprimento do contexto como uma prioridade de atualização. Essas empresas também são alvos populares no mercado de capitais. A OpenAI recebeu quase 12 mil milhões de dólares em investimentos, a avaliação da Anthropic pode atingir os 30 mil milhões de dólares e a Face Oculta da Lua completou quase 2 mil milhões de dólares em financiamento em apenas seis meses.
As empresas de grandes modelos competem para dominar a tecnologia de texto longo, o que significa ampliar o comprimento do contexto em 100 vezes?
À primeira vista, isso significa que o modelo pode aceitar textos mais longos e tem uma capacidade de leitura mais forte. Os 4000 tokens do GPT-3.5 só podem aceitar cerca de 2000 caracteres chineses, enquanto os 400.000 tokens do Kimi Chat podem suportar a entrada de 200.000 caracteres chineses, o que é suficiente para ler um romance longo.
De uma perspectiva mais profunda, a tecnologia de textos longos está a impulsionar a implementação de grandes modelos em áreas profissionais como finanças, justiça e investigação científica. Nesses campos, as capacidades de sumarização de documentos longos, compreensão de leitura e questionamento são necessidades básicas, além de serem direções que requerem uma atualização inteligente.
No entanto, assim como os parâmetros do modelo, o comprimento do texto não é necessariamente melhor quanto mais longo for. Estudos mostram que um modelo que suporta entradas de contexto mais longas não é diretamente equivalente a um desempenho melhor. A chave está em como o modelo utiliza efetivamente o conteúdo do contexto.
No entanto, atualmente a exploração do comprimento do texto, tanto nacional como internacionalmente, ainda não atingiu o "ponto crítico". As principais empresas de modelos continuam a fazer avanços, 400 mil tokens podem ser apenas o começo.
Por que "enrolar" textos longos?
O fundador da Dark Side of the Moon, Yang Zhilin, afirmou que a limitação do comprimento de entrada dos grandes modelos é a razão pela qual muitas aplicações enfrentam dificuldades na implementação. Esta é também a razão pela qual as principais empresas de modelos estão atualmente focadas em tecnologia de texto longo.
Por exemplo, em cenários de personagens virtuais, devido à capacidade limitada de textos longos, os personagens virtuais esquecem informações importantes. Ao desenvolver jogos do tipo "script murder", um comprimento de entrada insuficiente pode levar à redução de regras e definições, não alcançando o efeito esperado. Em áreas profissionais como direito e bancos, a análise e geração de conteúdo profundo muitas vezes são frustradas.
Textos longos desempenham um papel importante em aplicações nativas de Agent e AI no futuro. Os Agents precisam confiar em informações históricas para planejar e tomar decisões, enquanto as aplicações nativas de AI precisam de contexto para manter uma experiência do usuário coerente e personalizada.
Yang Zhilin acredita que, seja texto, voz ou vídeo, a compressão sem perdas de grandes volumes de dados pode alcançar um alto grau de inteligência. O limite dos grandes modelos é determinado pela capacidade de um único passo e pelo número de etapas de execução, onde a capacidade de um único passo está relacionada à quantidade de parâmetros e o número de etapas de execução refere-se ao comprimento do contexto.
Ao mesmo tempo, textos longos podem ajudar o modelo a avaliar o significado de forma mais precisa, fornecendo mais contexto e informações detalhadas, reduzindo a ambiguidade e melhorando a precisão da inferência.
A tecnologia de texto longo pode resolver alguns problemas iniciais dos grandes modelos, aprimorar certas funcionalidades e é a tecnologia chave para promover a implementação de aplicações na indústria. Isso marca a entrada do desenvolvimento de grandes modelos gerais em uma nova fase, de LLM para Long LLM.
Tomando como exemplo o Kimi Chat, recentemente lançado pela Face da Lua, podemos ter uma visão das funcionalidades de atualização do grande modelo na fase Long LLM:
Extração, resumo e análise de informações-chave de textos muito longos
Converter diretamente um artigo em código e poder modificá-lo com base nisso
Realizar interpretação de papéis, podendo dialogar com figuras públicas ou personagens virtuais.
Isto indica que os chatbots estão a evoluir para direções mais especializadas, personalizadas e profundas, o que pode ser mais uma alavanca para a aplicação industrial e a implementação de super APPs.
Yang Zhilin acredita que o mercado de grandes modelos na China se dividirá em dois campos: toB e toC. No campo toC, surgirão superaplicações baseadas em modelos desenvolvidos internamente.
No entanto, ainda há muito espaço para otimização em cenários de diálogos longos no mercado atual. Como a falta de suporte para obter informações atualizadas na internet, a incapacidade de pausar e modificar o processo de geração, e a ocorrência ocasional de falas sem sentido.
O dilema do "triângulo impossível" do texto longo
Na tecnologia de texto longo, existe o dilema do "triângulo impossível" entre o comprimento do texto, a atenção e a capacidade computacional:
Quanto mais longo o texto, mais difícil é concentrar plenamente a atenção e digerir completamente.
Atenção limitada, textos curtos não conseguem interpretar informações complexas completamente.
Processar textos longos requer muito poder de computação, aumentando os custos
A raiz deste dilema está no fato de que os modelos grandes existentes são principalmente baseados na estrutura Transformer. Embora o mecanismo de auto-atenção mais importante possa superar as limitações da ordem de entrada, a quantidade de cálculo aumenta exponencialmente com o comprimento do contexto.
Isso constitui o primeiro conjunto de contradições no "triângulo impossível": o comprimento do texto e a atenção. Ao mesmo tempo, lidar com textos longos requer mais poder de computação, o que forma um segundo conjunto de contradições com a atual escassez de poder computacional.
Atualmente, existem três principais soluções:
Usar ferramentas externas para auxiliar no processamento de textos longos, dividindo textos longos em vários textos curtos para processamento.
Otimizar o cálculo do mecanismo de autoatenção, como a tecnologia LongLoRA que reduz a carga computacional através de cálculos em grupo.
Otimizar o modelo, como o LongLLaMA que suporta sequências mais longas através do ajuste fino de modelos existentes.
O dilema do "triângulo impossível" dos textos longos pode estar temporariamente sem solução, mas isso também esclarece o caminho de exploração dos fabricantes de modelos grandes: buscar um equilíbrio entre o comprimento do texto, a atenção e a capacidade de cálculo, sendo capaz de processar informações suficientes, enquanto considera os custos de cálculo e a atenção.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
8 gostos
Recompensa
8
5
Partilhar
Comentar
0/400
LiquidationWatcher
· 07-15 12:13
Poder de computação tão caro, fazer as pessoas de parvas ainda é mais ou menos.
Ver originalResponder0
LiquidationAlert
· 07-13 09:58
Veja quem tem o poder de computação forte.
Ver originalResponder0
RiddleMaster
· 07-12 12:53
Fritar até agora ainda não está ligado à realidade.
Ver originalResponder0
CrossChainBreather
· 07-12 12:36
Este gargalo terá de ser quebrado mais cedo ou mais tarde.
Textos longos tornam-se o novo padrão para grandes modelos, com gigantes nacionais e internacionais a lutar para ultrapassar os 400 mil tokens.
A capacidade de texto longo torna-se um novo "padrão" para empresas de grandes modelos
Os grandes modelos estão a melhorar a sua capacidade de processamento de longos textos a uma velocidade impressionante, expandindo de 4000 tokens para 400000 tokens. A capacidade de processamento de longos textos parece ter-se tornado um novo "standard" para os fornecedores de grandes modelos.
No exterior, a OpenAI, através de várias atualizações, aumentou o comprimento de entrada de contexto do GPT-3.5 de 4 mil para 16 mil tokens, e o GPT-4 de 8 mil para 32 mil tokens. O principal concorrente da OpenAI, a Anthropic, aumentou o comprimento de contexto para 100 mil tokens de uma só vez. O LongLLaMA expandiu ainda mais o comprimento de contexto para 256 mil tokens ou até mais.
No contexto nacional, a Kimi Chat, uma startup de modelos grandes chamada "Lado Escuro da Lua", pode suportar a entrada de 200.000 caracteres chineses, o que equivale a cerca de 400.000 tokens. A tecnologia LongLoRA, desenvolvida em conjunto pela Universidade Chinesa de Hong Kong e pelo MIT, pode expandir o comprimento do texto do modelo de 7B para 100.000 tokens e do modelo de 70B para 32.000 tokens.
Atualmente, várias das principais empresas e instituições de pesquisa de modelos de grande escala, como OpenAI, Anthropic, Meta e a Face Oculta da Lua, estão a focar na expansão do comprimento do contexto como uma prioridade de atualização. Essas empresas também são alvos populares no mercado de capitais. A OpenAI recebeu quase 12 mil milhões de dólares em investimentos, a avaliação da Anthropic pode atingir os 30 mil milhões de dólares e a Face Oculta da Lua completou quase 2 mil milhões de dólares em financiamento em apenas seis meses.
As empresas de grandes modelos competem para dominar a tecnologia de texto longo, o que significa ampliar o comprimento do contexto em 100 vezes?
À primeira vista, isso significa que o modelo pode aceitar textos mais longos e tem uma capacidade de leitura mais forte. Os 4000 tokens do GPT-3.5 só podem aceitar cerca de 2000 caracteres chineses, enquanto os 400.000 tokens do Kimi Chat podem suportar a entrada de 200.000 caracteres chineses, o que é suficiente para ler um romance longo.
De uma perspectiva mais profunda, a tecnologia de textos longos está a impulsionar a implementação de grandes modelos em áreas profissionais como finanças, justiça e investigação científica. Nesses campos, as capacidades de sumarização de documentos longos, compreensão de leitura e questionamento são necessidades básicas, além de serem direções que requerem uma atualização inteligente.
No entanto, assim como os parâmetros do modelo, o comprimento do texto não é necessariamente melhor quanto mais longo for. Estudos mostram que um modelo que suporta entradas de contexto mais longas não é diretamente equivalente a um desempenho melhor. A chave está em como o modelo utiliza efetivamente o conteúdo do contexto.
No entanto, atualmente a exploração do comprimento do texto, tanto nacional como internacionalmente, ainda não atingiu o "ponto crítico". As principais empresas de modelos continuam a fazer avanços, 400 mil tokens podem ser apenas o começo.
Por que "enrolar" textos longos?
O fundador da Dark Side of the Moon, Yang Zhilin, afirmou que a limitação do comprimento de entrada dos grandes modelos é a razão pela qual muitas aplicações enfrentam dificuldades na implementação. Esta é também a razão pela qual as principais empresas de modelos estão atualmente focadas em tecnologia de texto longo.
Por exemplo, em cenários de personagens virtuais, devido à capacidade limitada de textos longos, os personagens virtuais esquecem informações importantes. Ao desenvolver jogos do tipo "script murder", um comprimento de entrada insuficiente pode levar à redução de regras e definições, não alcançando o efeito esperado. Em áreas profissionais como direito e bancos, a análise e geração de conteúdo profundo muitas vezes são frustradas.
Textos longos desempenham um papel importante em aplicações nativas de Agent e AI no futuro. Os Agents precisam confiar em informações históricas para planejar e tomar decisões, enquanto as aplicações nativas de AI precisam de contexto para manter uma experiência do usuário coerente e personalizada.
Yang Zhilin acredita que, seja texto, voz ou vídeo, a compressão sem perdas de grandes volumes de dados pode alcançar um alto grau de inteligência. O limite dos grandes modelos é determinado pela capacidade de um único passo e pelo número de etapas de execução, onde a capacidade de um único passo está relacionada à quantidade de parâmetros e o número de etapas de execução refere-se ao comprimento do contexto.
Ao mesmo tempo, textos longos podem ajudar o modelo a avaliar o significado de forma mais precisa, fornecendo mais contexto e informações detalhadas, reduzindo a ambiguidade e melhorando a precisão da inferência.
A tecnologia de texto longo pode resolver alguns problemas iniciais dos grandes modelos, aprimorar certas funcionalidades e é a tecnologia chave para promover a implementação de aplicações na indústria. Isso marca a entrada do desenvolvimento de grandes modelos gerais em uma nova fase, de LLM para Long LLM.
Tomando como exemplo o Kimi Chat, recentemente lançado pela Face da Lua, podemos ter uma visão das funcionalidades de atualização do grande modelo na fase Long LLM:
Isto indica que os chatbots estão a evoluir para direções mais especializadas, personalizadas e profundas, o que pode ser mais uma alavanca para a aplicação industrial e a implementação de super APPs.
Yang Zhilin acredita que o mercado de grandes modelos na China se dividirá em dois campos: toB e toC. No campo toC, surgirão superaplicações baseadas em modelos desenvolvidos internamente.
No entanto, ainda há muito espaço para otimização em cenários de diálogos longos no mercado atual. Como a falta de suporte para obter informações atualizadas na internet, a incapacidade de pausar e modificar o processo de geração, e a ocorrência ocasional de falas sem sentido.
O dilema do "triângulo impossível" do texto longo
Na tecnologia de texto longo, existe o dilema do "triângulo impossível" entre o comprimento do texto, a atenção e a capacidade computacional:
A raiz deste dilema está no fato de que os modelos grandes existentes são principalmente baseados na estrutura Transformer. Embora o mecanismo de auto-atenção mais importante possa superar as limitações da ordem de entrada, a quantidade de cálculo aumenta exponencialmente com o comprimento do contexto.
Isso constitui o primeiro conjunto de contradições no "triângulo impossível": o comprimento do texto e a atenção. Ao mesmo tempo, lidar com textos longos requer mais poder de computação, o que forma um segundo conjunto de contradições com a atual escassez de poder computacional.
Atualmente, existem três principais soluções:
Usar ferramentas externas para auxiliar no processamento de textos longos, dividindo textos longos em vários textos curtos para processamento.
Otimizar o cálculo do mecanismo de autoatenção, como a tecnologia LongLoRA que reduz a carga computacional através de cálculos em grupo.
Otimizar o modelo, como o LongLLaMA que suporta sequências mais longas através do ajuste fino de modelos existentes.
O dilema do "triângulo impossível" dos textos longos pode estar temporariamente sem solução, mas isso também esclarece o caminho de exploração dos fabricantes de modelos grandes: buscar um equilíbrio entre o comprimento do texto, a atenção e a capacidade de cálculo, sendo capaz de processar informações suficientes, enquanto considera os custos de cálculo e a atenção.