A competição entre grandes modelos de IA esquenta: Gota nas barreiras tecnológicas, desafios comerciais se destacam.

Modelos de IA: Uma revolução provocada por um problema de engenharia

No mês passado, o mundo da IA desencadeou uma "guerra dos animais".

De um lado está a série de modelos Llama lançada pela Meta, que é muito apreciada pelos desenvolvedores devido à sua natureza de código aberto. A empresa japonesa NEC desenvolveu rapidamente uma versão em japonês do ChatGPT com base no artigo e no código do Llama, resolvendo o gargalo técnico do Japão no campo da IA.

O outro lado é um modelo grande chamado Falcon. Em maio deste ano, o Falcon-40B foi lançado, superando o Llama e alcançando o topo do "ranking de modelos de linguagem de código aberto". Esta lista é elaborada pela comunidade de código aberto Hugging Face, que fornece um padrão para avaliar a capacidade dos LLMs. Desde então, Llama e Falcon têm alternado a atualização de suas classificações.

No início de setembro, o Falcon lançou a versão 180B, alcançando novamente o topo da lista. Curiosamente, os desenvolvedores do Falcon não são uma empresa de tecnologia, mas sim o Instituto de Pesquisa em Inovação Tecnológica localizado em Abu Dhabi. Funcionários dos Emirados Árabes Unidos afirmaram que sua participação na competição de IA visa desestabilizar o cenário atual.

Atualmente, o campo da IA entrou numa fase de competição acirrada. Qualquer país ou empresa com um certo nível de capacidade está tentando criar a sua própria versão do ChatGPT. Apenas nos países do Golfo há vários jogadores, a Arábia Saudita recentemente adquiriu mais de 3000 chips H100 para universidades locais, com o objetivo de treinar LLM.

Um investidor exclamou: "Naquela época, subestimei a inovação do modelo de negócios da internet, achando que não havia barreiras. Não esperava que a grande inovação em tecnologia ainda fosse uma batalha de centenas de modelos..."

Por que a tecnologia de ponta, que antes era considerada de alta dificuldade, evoluiu para uma situação de "um país, um modelo"?

Transformer: O motor da revolução da IA

Startups americanas, gigantes tecnológicos chineses e magnatas do petróleo do Oriente Médio estão todos investindo no desenvolvimento de grandes modelos, tudo isso originado por um famoso artigo: "Attention Is All You Need".

Em 2017, oito cientistas do Google divulgaram o algoritmo Transformer neste artigo. Este artigo é atualmente o terceiro mais citado na história da IA, e o surgimento do Transformer desencadeou esta onda de entusiasmo pela IA.

Os atuais grandes modelos, incluindo a série GPT que fez sucesso em todo o mundo, são todos baseados na arquitetura Transformer.

Anteriormente, "ensinar máquinas a ler" sempre foi um problema reconhecido na academia. Diferente do reconhecimento de imagem, a leitura humana combina compreensão de contexto. Redes neurais antigas tinham dificuldade em processar textos longos, frequentemente resultando em problemas como "open water room" sendo traduzido como "开水间".

Em 2014, o cientista da Google, Ilya, utilizou pela primeira vez redes neurais recorrentes (RNN) para processar a linguagem natural, melhorando significativamente o desempenho do Google Tradutor. As RNNs conferem à rede neural a capacidade de entender o contexto através de um "design cíclico".

No entanto, as RNNs apresentam sérias desvantagens: o cálculo sequencial resulta em baixa eficiência e dificuldade em lidar com um grande número de parâmetros. A partir de 2015, os cientistas da Google, incluindo o Shazeel, começaram a desenvolver uma alternativa às RNNs, que acabou por resultar no Transformer.

Em comparação com RNN, o Transformer tem duas grandes inovações: uma é a utilização de codificação de posição para realizar cálculos em paralelo, aumentando significativamente a eficiência do treinamento; a segunda é um aprimoramento adicional na capacidade de compreensão do contexto.

O Transformer resolveu várias questões de uma só vez, tornando-se gradualmente a solução mainstream no campo de NLP. Ele transformou grandes modelos de pesquisa teórica em um problema puramente de engenharia.

Em 2019, a OpenAI desenvolveu o GPT-2 com base no Transformer. Em resposta, o Google lançou rapidamente o Meena, que supera significativamente o GPT-2 em termos de parâmetros e poder computacional, sem inovações nos algoritmos subjacentes. Isso deixou o autor do Transformer, Ashish Vaswani, impressionado com o poder da "acumulação violenta".

Após o surgimento do Transformer, a velocidade de inovação dos algoritmos de base na academia diminuiu. Fatores de engenharia, como engenharia de dados, escala de computação e arquitetura de modelos, tornaram-se cada vez mais cruciais nas competições de IA. Qualquer empresa com um certo nível de competência técnica pode desenvolver grandes modelos.

O especialista em IA Andrew Ng acredita que a IA se tornou uma série de ferramentas tecnológicas gerais, semelhantes à eletricidade e à internet.

Embora a OpenAI continue a ser a líder em LLM, análises da indústria sugerem que a vantagem do GPT-4 vem principalmente de soluções de engenharia. Uma vez que for open source, os concorrentes poderão replicá-lo rapidamente. Espera-se que em breve outras grandes empresas de tecnologia também consigam criar modelos grandes com desempenho equivalente ao do GPT-4.

Fossa frágil

Hoje, a "batalha dos grandes modelos" tornou-se uma realidade. Relatórios mostram que, até julho deste ano, o número de grandes modelos na China alcançou 130, superando os 114 dos Estados Unidos. Diversos mitos e lendas já não são suficientes para as empresas de tecnologia nacionais nomearem seus produtos.

Além da China e dos EUA, muitos países desenvolvidos também alcançaram inicialmente o "um país, um modelo": Japão, Emirados Árabes Unidos, Índia, Coreia do Sul, entre outros, lançaram seus próprios grandes modelos locais. Essa cena parece ter voltado à era da bolha da internet, onde "queimar dinheiro" se tornou o principal meio de competição.

O Transformer transforma grandes modelos em um problema puramente de engenharia; desde que haja mão de obra e recursos, é possível desenvolvê-los. Mas é fácil entrar no mercado, mas se tornar um gigante da era da IA é muito difícil.

O "Animal War" mencionado anteriormente é um caso típico: embora o Falcon supere o Llama em termos de classificação, o impacto sobre a Meta é limitado.

A abertura de resultados de pesquisa pelas empresas não só compartilha os benefícios da tecnologia, mas também espera mobilizar a sabedoria da sociedade. À medida que diferentes setores continuam a usar e melhorar o Llama, a Meta poderá aplicar os resultados em seus próprios produtos.

Para grandes modelos de código aberto, uma comunidade de desenvolvedores ativa é a verdadeira força competitiva.

A Meta estabeleceu uma política de código aberto quando formou o seu laboratório de IA em 2015. Zuckerberg compreende bem a arte de "manter boas relações com o público". Em outubro, a Meta lançou a iniciativa "Incentivo aos Criadores com IA", financiando desenvolvedores que utilizam o Llama 2 para resolver problemas sociais.

Hoje, a série Llama da Meta tornou-se um marco para LLMs de código aberto. Até o início de outubro, 8 dos 10 primeiros na lista da Hugging Face foram desenvolvidos com base no Llama 2, com mais de 1500 LLMs utilizando seu protocolo de código aberto.

Melhorar o desempenho é, sem dúvida, importante, mas atualmente a maioria dos LLM ainda apresenta uma diferença significativa em relação ao GPT-4. Nos mais recentes testes do AgentBench, o GPT-4 alcançou a primeira posição com 4,41 pontos, enquanto o segundo colocado, Claude, obteve apenas 2,77 pontos; os LLMs de código aberto costumam ficar em torno de 1 ponto.

A GPT-4 foi lançada há mais de seis meses, e os concorrentes em todo o mundo ainda têm dificuldade em alcançá-la. Isso se deve à equipe de cientistas de ponta da OpenAI e à experiência acumulada em pesquisa de LLM ao longo do tempo.

É evidente que a capacidade central dos grandes modelos reside na construção de ecossistemas ( código aberto ) ou pura capacidade de raciocínio ( código fechado ), e não na simples acumulação de parâmetros.

Com a comunidade de código aberto ativa, o desempenho de vários LLMs pode convergir, pois todos usam arquiteturas de modelo e conjuntos de dados semelhantes.

Um problema mais evidente é que, além do Midjourney, parece que nenhum outro grande modelo conseguiu ser lucrativo.

Ponto de âncora de valor

Em agosto deste ano, um artigo intitulado "OpenAI pode falir até o final de 2024" gerou atenção. O ponto principal é: a OpenAI está queimando dinheiro muito rapidamente.

O artigo menciona que, desde o desenvolvimento do ChatGPT, as perdas da OpenAI aumentaram rapidamente, com uma perda de cerca de 540 milhões de dólares em 2022, dependendo apenas do investimento da Microsoft.

Isto reflete a dificuldade comum que os fornecedores de grandes modelos enfrentam: um sério desequilíbrio entre custos e receitas.

Os altos custos levam a que os principais beneficiários sejam fabricantes de chips como a Nvidia e a Broadcom.

Estima-se que a Nvidia tenha vendido mais de 300.000 chips de IA H100 no segundo trimestre deste ano, pesando o equivalente a 4,5 aviões Boeing 747. O desempenho da Nvidia disparou 854%, surpreendendo Wall Street. O preço de revenda do H100 já subiu para 40.000 a 50.000 dólares, enquanto o custo é de apenas mais de 3.000 dólares.

O custo de computação tornou-se um obstáculo ao desenvolvimento da indústria. A Sequoia Capital estima que as empresas de tecnologia em todo o mundo gastarão 200 bilhões de dólares anualmente na construção de infraestrutura para grandes modelos, mas a receita anual dos grandes modelos é de no máximo 75 bilhões de dólares, existindo um déficit de pelo menos 125 bilhões de dólares.

Exceto por alguns casos isolados, a maioria das empresas de software ainda não encontrou um modelo de lucro após gastar enormes custos. Mesmo os líderes do setor, como a Microsoft e a Adobe, enfrentam desafios.

O GitHub Copilot, desenvolvido em colaboração entre a Microsoft e a OpenAI, custa 10 dólares por mês, mas a Microsoft acaba pagando 20 dólares, e usuários intensivos chegam a fazer com que a Microsoft perca 80 dólares por mês. O recém-lançado Microsoft 365 Copilot tem um preço de 30 dólares, e as perdas podem ser ainda maiores.

Após o lançamento da ferramenta Adobe Firefly AI, a Adobe rapidamente implementou um sistema de pontos, limitando o uso excessivo pelos usuários que poderia levar a prejuízos para a empresa. Após exceder os pontos alocados mensalmente, a Adobe reduzirá a velocidade do serviço.

A Microsoft e a Adobe já têm cenários de negócios claros e uma grande base de usuários pagantes. Por outro lado, a maioria dos grandes modelos com parâmetros acumulados ainda tem como principal cenário de aplicação o chat.

A ascensão da OpenAI e do ChatGPT desencadeou esta revolução da IA, mas o valor do treinamento de grandes modelos nesta fase atual é duvidoso. Com o aumento da concorrência homogeneizada e o número crescente de modelos de código aberto, o espaço para fornecedores de grandes modelos pode ser ainda mais comprimido.

O sucesso do iPhone 4 não está no processador A4 de 45nm, mas sim na sua capacidade de jogar "Plants vs. Zombies" e "Angry Birds".

GPT7.8%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 2
  • Partilhar
Comentar
0/400
BTCRetirementFundvip
· 7h atrás
Um grupo de ia a lutar é bastante animado.
Ver originalResponder0
LightningSentryvip
· 7h atrás
O zoológico abriu.
Ver originalResponder0
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)