Долгие тексты становятся новой нормой для больших моделей, отечественные и зарубежные гиганты стремятся преодолеть 400000 токенов

robot
Генерация тезисов в процессе

Возможности длинного текста становятся новой "стандартной функцией" компаний с большими моделями

Большие модели стремительно увеличивают свою способность обрабатывать длинные тексты, расширяясь от 4000 токенов до 400000 токенов. Способность обрабатывать длинные тексты, похоже, стала еще одной новой "стандартной функцией" для производителей больших моделей.

За границей OpenAI многократно обновлял GPT-3.5, увеличив длину контекстного ввода с 4000 до 16000 токенов, а GPT-4 — с 8000 до 32000 токенов. Основной конкурент OpenAI, Anthropic, разом увеличил длину контекста до 100000 токенов. LongLLaMA даже расширил длину контекста до 256000 токенов и даже больше.

Внутри страны, стартап в области больших моделей "Темная сторона месяца" представляет Kimi Chat, который поддерживает ввод 200000 китайских иероглифов, что составляет около 400000 токенов. Совместно разработанная китайским университетом Гонконга и MIT технология LongLoRA позволяет увеличить длину текста для модели 7B до 100000 токенов, а для модели 70B до 32000 токенов.

В настоящее время такие ведущие компании и исследовательские учреждения, как OpenAI, Anthropic, Meta и Лунная Тень, делают акцент на расширении длины контекста в качестве ключевого направления модернизации. Эти компании также являются объектами повышенного интереса со стороны капитальных рынков. OpenAI привлекла почти 12 миллиардов долларов инвестиций, оценка Anthropic, вероятно, достигнет 30 миллиардов долларов, а Лунная Тень за короткое время завершила финансирование почти на 2 миллиарда юаней.

Производители больших моделей соревнуются в освоении технологий длинного текста. Что означает увеличение длины контекста в 100 раз?

На первый взгляд, это означает, что модель может вводить более длинные тексты и обладает большей способностью к чтению. 4000 токенов GPT-3.5 могут вводить только около 2000 китайских иероглифов, в то время как 400000 токенов Kimi Chat могут поддерживать ввод 200000 иероглифов, что достаточно для чтения длинного романа.

С глубокой точки зрения, технологии длинных текстов способствуют внедрению больших моделей в профессиональные области, такие как финансы, юстиция и научные исследования. В этих областях способности к суммированию длинных документов, пониманию прочитанного и ответам на вопросы являются основными требованиями и направлением, которое срочно нуждается в интеллектуальном обновлении.

Однако, подобно параметрам модели, длина текста не всегда является критерием качества. Исследования показывают, что возможность модели обрабатывать более длинный контекст не всегда приводит к лучшим результатам. Ключевым моментом является то, как модель эффективно использует содержимое контекста.

Однако в настоящее время исследования длины текста как в стране, так и за границей еще не достигли "критической точки". Крупные модельные компании продолжают пробивать границы, 400 тысяч токенов может быть лишь началом.

Почему нужно "скручивать" длинные тексты?

Основатель "Темной стороны Луны" Ян Чжи Линь заявил, что именно из-за ограниченной длины входных данных больших моделей возникли трудности с внедрением многих приложений. Это также причина, по которой многие компании, занимающиеся моделями, в настоящее время сосредоточены на технологиях длинных текстов.

Например, в сценах с виртуальными персонажами, из-за недостатка способности к работе с длинными текстами, виртуальные персонажи могут забывать важную информацию. При разработке игр в жанре "скриптовый детектив" недостаточная длина ввода может привести к сокращению правил и установок, что не позволяет достичь ожидаемого эффекта. В профессиональных областях, таких как право и банковское дело, глубокий анализ и генерация контента часто сталкиваются с препятствиями.

Длинные тексты также играют важную роль в будущих приложениях Agent и AI. Agent должен полагаться на историческую информацию для планирования и принятия решений, а AI-приложения требуют контекста для поддержания последовательного и персонализированного пользовательского опыта.

Ян Чжи Лин считает, что независимо от того, является ли это текстом, речью или видео, безболезненное сжатие больших объемов данных может достичь высокого уровня интеллекта. Верхний предел больших моделей определяется как однопроцессорной способностью, так и количеством шагов выполнения, где однопроцессорная способность связана с количеством параметров, а количество шагов выполнения соответствует длине контекста.

В то же время длинные тексты могут помочь модели более точно определить семантику, предоставляя больше контекста и деталей, что уменьшает двусмысленность и повышает точность вывода.

Технология длинного текста может решать некоторые проблемы ранних крупных моделей, усиливать определенные функции и является ключевой технологией для дальнейшего продвижения внедрения в промышленность. Это знаменует собой переход развития универсальных крупных моделей от LLM к Long LLM.

На примере Kimi Chat, недавно выпущенного на темной стороне месяца, можно заглянуть в функции обновления больших моделей на этапе Long LLM:

  • Извлечение, обобщение и анализ ключевой информации из сверхдлинных текстов
  • Прямое преобразование статьи в код, с возможностью его модификации на этой основе
  • Реализуйте ролевую игру, позволяющую общаться с публичными персонажами или виртуальными героями.

Это указывает на то, что диалоговые роботы развиваются в направлении специализации, персонализации и углубленности, что, возможно, является еще одним инструментом для стимулирования применения в промышленности и реализации супер-приложений.

Ян Чжилин считает, что рынок крупных моделей в стране будет разделен на два лагеря: toB и toC. В области toC появятся суперприложения на основе собственных моделей.

Однако на текущем рынке все еще есть большой потенциал для оптимизации сценариев долгих текстовых диалогов. Например, отсутствует поддержка подключения к интернету для получения актуальной информации, процесс генерации невозможно приостановить для внесения изменений, а также иногда возникают случаи бреда.

Дилемма "невозможного треугольника" для длинных текстов

В технологии длинного текста существует "неразрешимый треугольник" между длиной текста, вниманием и вычислительной мощностью:

  • Чем длиннее текст, тем труднее сосредоточить внимание и полностью его усвоить.
  • Ограниченное внимание, короткий текст не может полностью интерпретировать сложную информацию
  • Обработка длинных текстов требует больших вычислительных мощностей, увеличивая затраты

Корень этой проблемы заключается в том, что существующие большие модели в основном основаны на структуре Transformer. Хотя наиболее важный механизм самовнимания может преодолеть ограничения последовательности ввода, вычислительная нагрузка возрастает в квадратной зависимости от длины контекста.

Это создает первую группу противоречий в "невозможном треугольнике": длина текста и внимание. В то же время обработка длинных текстов требует больше вычислительной мощности, что создает вторую группу противоречий в условиях нехватки вычислительных ресурсов.

В настоящее время существует три основных решения:

  1. Используйте внешние инструменты для обработки длинных текстов, разбивая их на несколько коротких текстов.

  2. Оптимизация вычислений механизма самовнимания, например, технология LongLoRA снижает объем вычислений за счет групповых расчетов.

  3. Оптимизация модели, например LongLLaMA поддерживает более длинные последовательности за счет дообучения существующей модели.

Долгосрочная проблема "невозможного треугольника" может быть временно неразрешимой, но это также четко определяет путь исследований производителей больших моделей: искать баланс между длиной текста, вниманием и вычислительной мощностью, чтобы обрабатывать достаточное количество информации, а также учитывать вычислительные затраты и внимание.

TOKEN-11.07%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 5
  • Поделиться
комментарий
0/400
LiquidationWatchervip
· 07-15 12:13
Вычислительная мощность так дорога, будут играть для лохов еще как.
Посмотреть ОригиналОтветить0
LiquidationAlertvip
· 07-13 09:58
Смотри, у кого вычислительная мощность достаточно сильная.
Посмотреть ОригиналОтветить0
RiddleMastervip
· 07-12 12:53
На данный момент все еще не приземлился.
Посмотреть ОригиналОтветить0
CrossChainBreathervip
· 07-12 12:36
Этот застой рано или поздно будет преодолен.
Посмотреть ОригиналОтветить0
SilentObservervip
· 07-12 12:32
Трава, играя так масштабно
Посмотреть ОригиналОтветить0
  • Закрепить