ИИ большие модели: революция, вызванная инженерной проблемой
В прошлом месяце в мире ИИ разразилась "битва животных".
С одной стороны, это серия моделей Llama, выпущенная компанией Meta, которая благодаря своей открытой природе получила большую популярность среди разработчиков. Японская компания NEC быстро разработала японскую версию ChatGPT на основе статьи и кода Llama, что решило технологические проблемы Японии в области ИИ.
На другой стороне находится большая модель под названием Falcon. В мае этого года была представлена Falcon-40B, которая сразу же превзошла Llama и заняла первое место в "рейтинге открытых больших языковых моделей". Этот список составлен открытым сообществом Hugging Face и предоставляет стандарт для оценки возможностей LLM. С тех пор Llama и Falcon поочередно обновляют свои позиции в рейтинге.
В начале сентября Falcon выпустил версию 180B, вновь заняв первое место в рейтингах. Интересно, что разработчики Falcon не являются технологической компанией, а представляют собой Исследовательский институт технологических инноваций, расположенный в Абу-Даби. Представители ОАЭ заявили, что их участие в конкурсе по ИИ направлено на разрушение существующего порядка.
Сегодня область ИИ вступила в фазу конкуренции среди множества игроков. Все страны и компании с определенной мощностью пытаются создать свои версии ChatGPT. Только в странах Персидского залива есть несколько игроков, и недавно Саудовская Аравия закупила более 3000 чипов H100 для тренировки LLM для своих университетов.
Инвестор воскликнул: "Когда-то я недооценивал инновации бизнес-моделей интернета, думал, что там нет барьеров. Не ожидал, что стартапы в области硬科技大模型 все равно будут борьбой ста моделей..."
Почему изначально считавшиеся сложными высокие технологии превратились в ситуацию "одна страна - одна модель"?
Трансформатор: Двигатель революции ИИ
Американские стартапы, китайские технологические гиганты и ближневосточные нефтяные магнаты активно занимаются разработкой больших моделей, и всё это началось с одной знаменитой статьи: "Attention Is All You Need".
В 2017 году восемь ученых из Google опубликовали алгоритм Transformer в этой статье. Эта статья в настоящее время является третьей по количеству цитирований в истории ИИ, и появление Transformer вызвало текущую волну интереса к ИИ.
Современные большие модели, включая всемирно известную серию GPT, основаны на технологии Transformer.
Ранее "научить машины читать" было общепризнанной проблемой в академической среде. В отличие от распознавания изображений, при чтении человек учитывает контекст. Ранние нейронные сети с трудом обрабатывали длинные тексты, часто возникали проблемы, например, "开水间" переводилось как "open water room".
В 2014 году ученый Google Илья впервые использовал рекуррентные нейронные сети (RNN) для обработки естественного языка, что значительно повысило производительность Google Translate. RNN наделяет нейронные сети способностью понимать контекст благодаря "рекуррентной архитектуре".
Однако у RNN есть серьезные недостатки: последовательные вычисления приводят к низкой эффективности и затрудняют обработку большого количества параметров. С 2015 года ученые Google, включая Шазела, начали разработку заменителей RNN, в конечном итоге выпустив Transformer.
По сравнению с RNN, Transformer имеет два основных новшества: первое — использование позиционного кодирования для реализации параллельных вычислений, что значительно повышает эффективность обучения; второе — дальнейшее усиление способности понимания контекста.
Transformer решает множество задач и постепенно становится основным решением в области NLP. Он превращает крупные модели из теоретического исследования в чисто инженерную задачу.
В 2019 году OpenAI разработала GPT-2 на основе Transformer. В ответ Google быстро выпустил Meena, которая значительно превзошла GPT-2 по параметрам и вычислительной мощности, но не предложила инноваций в базовых алгоритмах. Это удивило автора Transformer Шазера мощью "насильственного наращивания".
После появления трансформеров скорость инноваций в базовых алгоритмах в академической среде замедлилась. Инженерные факторы, такие как обработка данных, масштаб вычислительных мощностей и архитектура моделей, становятся ключевыми в соревновании по ИИ. Любая компания с определенными техническими возможностями может разработать крупную модель.
Эксперт по ИИ Эндрю Нг считает, что ИИ стал набором универсальных технологических инструментов, аналогичных электричеству и интернету.
Хотя OpenAI по-прежнему является лидером в области LLM, эксперты отрасли считают, что преимущество GPT-4 в основном связано с инженерными решениями. Как только он будет открыт, конкуренты смогут быстро его скопировать. Ожидается, что в ближайшее время другие крупные технологические компании также смогут создать большие модели, сопоставимые по производительности с GPT-4.
Хрупкая защитная стена
Теперь "битва ста моделей" стала реальностью. Отчет показывает, что по состоянию на июль этого года количество крупных моделей в Китае достигло 130, что превышает 114 в США. Различных мифов и легенд недостаточно для именования отечественных технологических компаний.
Помимо Китая и США, многие развитые страны также первоначально реализовали "одна страна - одна модель": Япония, Объединенные Арабские Эмираты, Индия, Южная Корея и другие начали выпускать свои собственные большие модели. Эта сцена напоминает эпоху интернет-пузыря, когда "сжигание денег" стало основным средством конкуренции.
Трансформер превращает большие модели в чисто инженерные задачи, и если есть человеческие и материальные ресурсы, их можно разрабатывать. Однако войти в сферу легко, но стать гигантом эпохи ИИ очень сложно.
Упомянутая ранее "Битва животных" является典型案例: хотя Falcon и занимает более высокое место в рейтинге, его влияние на Meta ограничено.
Открытые научные достижения предприятий не только делятся технологическим благом, но и надеются задействовать общественную мудрость. С учетом того, что различные области продолжают использовать и совершенствовать Llama, Meta может применить результаты в своих собственных продуктах.
Для открытых больших моделей активное сообщество разработчиков является ключевым конкурентным преимуществом.
Meta еще в 2015 году, создавая лабораторию искусственного интеллекта, определила принцип открытого исходного кода. Цукерберг прекрасно понимает, как "налаживать отношения с общественностью". В октябре Meta также запустила акцию "AI-версия поощрения создателей", финансируя разработчиков, использующих Llama 2 для решения социальных проблем.
Сегодня серия Llama от Meta стала ориентиром для открытых LLM. По состоянию на начало октября, 8 из 10 лучших в рейтинге Hugging Face разработаны на основе Llama 2, и более 1500 LLM используют его открытый протокол.
Улучшение производительности, безусловно, важно, но на данный момент большинство LLM все еще значительно отстают от GPT-4. В последнем тесте AgentBench GPT-4 занял первое место с 4.41 балла, второе место занял Claude с 2.77 балла, а открытые LLM обычно находятся около 1 балла.
Прошло более полугода с момента выпуска GPT-4, и коллеги по всему миру все еще не могут его догнать. Это связано с командой ведущих ученых OpenAI и многолетним опытом исследований в области LLM.
Как видно,核心能力大模型 заключается в экосистемном строительстве ( открытого кода ) или чисто выводных способностях ( закрытого кода ), а не в простой сборке параметров.
С активизацией открытого сообщества производительность различных LLM может сближаться, поскольку все используют схожие архитектуры моделей и наборы данных.
Более наглядная проблема заключается в том, что, кроме Midjourney, похоже, ни одна большая модель не смогла добиться прибыли.
Якорь ценности
В августе этого года статья под названием "OpenAI может обанкротиться к концу 2024 года" привлекла внимание. Основная идея заключается в том, что OpenAI тратит деньги слишком быстро.
В статье упоминается, что с момента разработки ChatGPT убытки OpenAI быстро увеличились, в 2022 году убытки составили около 540 миллионов долларов, и им пришлось полагаться на инвестиции Microsoft.
Это отражает общую проблему, с которой сталкиваются поставщики крупных моделей: серьезный дисбаланс между затратами и доходами.
Высокие затраты приводят к тому, что основными бенефициарами в настоящее время являются такие производители чипов, как NVIDIA и Broadcom.
По оценкам, NVIDIA в втором квартале этого года продала более 300 000 чипов AI H100, что эквивалентно весу 4,5 самолета Boeing 747. Прибыль NVIDIA выросла на 854%, шокировав Уолл-Стрит. Вторичная цена на H100 поднялась до 40-50 тысяч долларов, в то время как стоимость составляет чуть более 3000 долларов.
Стоимость вычислительной мощности стала препятствием для развития отрасли. По расчетам Sequoia Capital, мировые технологические компании ежегодно будут тратить 200 миллиардов долларов на строительство инфраструктуры крупных моделей, но годовой доход от крупных моделей составит максимум 75 миллиардов долларов, что создает как минимум 125 миллиардов долларов дефицита.
За исключением некоторых случаев, большинство компаний-разработчиков программного обеспечения не смогли найти прибыльную модель после того, как потратили огромные средства. Даже такие лидеры отрасли, как Microsoft и Adobe, сталкиваются с трудностями.
GitHub Copilot, разработанный в сотрудничестве Microsoft и OpenAI, стоит 10 долларов в месяц, но на самом деле обходится в 20 долларов, а у пользователей с высокой нагрузкой Microsoft может терять даже 80 долларов в месяц. Новый Microsoft 365 Copilot стоит 30 долларов, и убытки могут быть еще больше.
После запуска инструмента AI Firefly компания Adobe быстро внедрила систему баллов, чтобы ограничить чрезмерное использование и предотвратить убытки. После превышения ежемесячной квоты баллов Adobe снизит скорость обслуживания.
У Microsoft и Adobe уже есть четкие бизнес-сценарии и множество платных пользователей. В то время как у большинства моделей с огромным количеством параметров, основное применение все еще заключается в общении.
Появление OpenAI и ChatGPT вызвало эту AI-революцию, но на текущем этапе ценность обучения больших моделей вызывает сомнения. С ростом однородной конкуренции и увеличением числа открытых моделей пространство для простых поставщиков больших моделей может быть дополнительно сжато.
Успех iPhone 4 заключается не в 45-нм процессоре A4, а в том, что он может играть в «Растения против зомби» и «Злые птицы».
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Конкуренция среди больших моделей ИИ накаляется: Падение технических барьеров, острые коммерческие проблемы.
ИИ большие модели: революция, вызванная инженерной проблемой
В прошлом месяце в мире ИИ разразилась "битва животных".
С одной стороны, это серия моделей Llama, выпущенная компанией Meta, которая благодаря своей открытой природе получила большую популярность среди разработчиков. Японская компания NEC быстро разработала японскую версию ChatGPT на основе статьи и кода Llama, что решило технологические проблемы Японии в области ИИ.
На другой стороне находится большая модель под названием Falcon. В мае этого года была представлена Falcon-40B, которая сразу же превзошла Llama и заняла первое место в "рейтинге открытых больших языковых моделей". Этот список составлен открытым сообществом Hugging Face и предоставляет стандарт для оценки возможностей LLM. С тех пор Llama и Falcon поочередно обновляют свои позиции в рейтинге.
В начале сентября Falcon выпустил версию 180B, вновь заняв первое место в рейтингах. Интересно, что разработчики Falcon не являются технологической компанией, а представляют собой Исследовательский институт технологических инноваций, расположенный в Абу-Даби. Представители ОАЭ заявили, что их участие в конкурсе по ИИ направлено на разрушение существующего порядка.
Сегодня область ИИ вступила в фазу конкуренции среди множества игроков. Все страны и компании с определенной мощностью пытаются создать свои версии ChatGPT. Только в странах Персидского залива есть несколько игроков, и недавно Саудовская Аравия закупила более 3000 чипов H100 для тренировки LLM для своих университетов.
Инвестор воскликнул: "Когда-то я недооценивал инновации бизнес-моделей интернета, думал, что там нет барьеров. Не ожидал, что стартапы в области硬科技大模型 все равно будут борьбой ста моделей..."
Почему изначально считавшиеся сложными высокие технологии превратились в ситуацию "одна страна - одна модель"?
Трансформатор: Двигатель революции ИИ
Американские стартапы, китайские технологические гиганты и ближневосточные нефтяные магнаты активно занимаются разработкой больших моделей, и всё это началось с одной знаменитой статьи: "Attention Is All You Need".
В 2017 году восемь ученых из Google опубликовали алгоритм Transformer в этой статье. Эта статья в настоящее время является третьей по количеству цитирований в истории ИИ, и появление Transformer вызвало текущую волну интереса к ИИ.
Современные большие модели, включая всемирно известную серию GPT, основаны на технологии Transformer.
Ранее "научить машины читать" было общепризнанной проблемой в академической среде. В отличие от распознавания изображений, при чтении человек учитывает контекст. Ранние нейронные сети с трудом обрабатывали длинные тексты, часто возникали проблемы, например, "开水间" переводилось как "open water room".
В 2014 году ученый Google Илья впервые использовал рекуррентные нейронные сети (RNN) для обработки естественного языка, что значительно повысило производительность Google Translate. RNN наделяет нейронные сети способностью понимать контекст благодаря "рекуррентной архитектуре".
Однако у RNN есть серьезные недостатки: последовательные вычисления приводят к низкой эффективности и затрудняют обработку большого количества параметров. С 2015 года ученые Google, включая Шазела, начали разработку заменителей RNN, в конечном итоге выпустив Transformer.
По сравнению с RNN, Transformer имеет два основных новшества: первое — использование позиционного кодирования для реализации параллельных вычислений, что значительно повышает эффективность обучения; второе — дальнейшее усиление способности понимания контекста.
Transformer решает множество задач и постепенно становится основным решением в области NLP. Он превращает крупные модели из теоретического исследования в чисто инженерную задачу.
В 2019 году OpenAI разработала GPT-2 на основе Transformer. В ответ Google быстро выпустил Meena, которая значительно превзошла GPT-2 по параметрам и вычислительной мощности, но не предложила инноваций в базовых алгоритмах. Это удивило автора Transformer Шазера мощью "насильственного наращивания".
После появления трансформеров скорость инноваций в базовых алгоритмах в академической среде замедлилась. Инженерные факторы, такие как обработка данных, масштаб вычислительных мощностей и архитектура моделей, становятся ключевыми в соревновании по ИИ. Любая компания с определенными техническими возможностями может разработать крупную модель.
Эксперт по ИИ Эндрю Нг считает, что ИИ стал набором универсальных технологических инструментов, аналогичных электричеству и интернету.
Хотя OpenAI по-прежнему является лидером в области LLM, эксперты отрасли считают, что преимущество GPT-4 в основном связано с инженерными решениями. Как только он будет открыт, конкуренты смогут быстро его скопировать. Ожидается, что в ближайшее время другие крупные технологические компании также смогут создать большие модели, сопоставимые по производительности с GPT-4.
Хрупкая защитная стена
Теперь "битва ста моделей" стала реальностью. Отчет показывает, что по состоянию на июль этого года количество крупных моделей в Китае достигло 130, что превышает 114 в США. Различных мифов и легенд недостаточно для именования отечественных технологических компаний.
Помимо Китая и США, многие развитые страны также первоначально реализовали "одна страна - одна модель": Япония, Объединенные Арабские Эмираты, Индия, Южная Корея и другие начали выпускать свои собственные большие модели. Эта сцена напоминает эпоху интернет-пузыря, когда "сжигание денег" стало основным средством конкуренции.
Трансформер превращает большие модели в чисто инженерные задачи, и если есть человеческие и материальные ресурсы, их можно разрабатывать. Однако войти в сферу легко, но стать гигантом эпохи ИИ очень сложно.
Упомянутая ранее "Битва животных" является典型案例: хотя Falcon и занимает более высокое место в рейтинге, его влияние на Meta ограничено.
Открытые научные достижения предприятий не только делятся технологическим благом, но и надеются задействовать общественную мудрость. С учетом того, что различные области продолжают использовать и совершенствовать Llama, Meta может применить результаты в своих собственных продуктах.
Для открытых больших моделей активное сообщество разработчиков является ключевым конкурентным преимуществом.
Meta еще в 2015 году, создавая лабораторию искусственного интеллекта, определила принцип открытого исходного кода. Цукерберг прекрасно понимает, как "налаживать отношения с общественностью". В октябре Meta также запустила акцию "AI-версия поощрения создателей", финансируя разработчиков, использующих Llama 2 для решения социальных проблем.
Сегодня серия Llama от Meta стала ориентиром для открытых LLM. По состоянию на начало октября, 8 из 10 лучших в рейтинге Hugging Face разработаны на основе Llama 2, и более 1500 LLM используют его открытый протокол.
Улучшение производительности, безусловно, важно, но на данный момент большинство LLM все еще значительно отстают от GPT-4. В последнем тесте AgentBench GPT-4 занял первое место с 4.41 балла, второе место занял Claude с 2.77 балла, а открытые LLM обычно находятся около 1 балла.
Прошло более полугода с момента выпуска GPT-4, и коллеги по всему миру все еще не могут его догнать. Это связано с командой ведущих ученых OpenAI и многолетним опытом исследований в области LLM.
Как видно,核心能力大模型 заключается в экосистемном строительстве ( открытого кода ) или чисто выводных способностях ( закрытого кода ), а не в простой сборке параметров.
С активизацией открытого сообщества производительность различных LLM может сближаться, поскольку все используют схожие архитектуры моделей и наборы данных.
Более наглядная проблема заключается в том, что, кроме Midjourney, похоже, ни одна большая модель не смогла добиться прибыли.
Якорь ценности
В августе этого года статья под названием "OpenAI может обанкротиться к концу 2024 года" привлекла внимание. Основная идея заключается в том, что OpenAI тратит деньги слишком быстро.
В статье упоминается, что с момента разработки ChatGPT убытки OpenAI быстро увеличились, в 2022 году убытки составили около 540 миллионов долларов, и им пришлось полагаться на инвестиции Microsoft.
Это отражает общую проблему, с которой сталкиваются поставщики крупных моделей: серьезный дисбаланс между затратами и доходами.
Высокие затраты приводят к тому, что основными бенефициарами в настоящее время являются такие производители чипов, как NVIDIA и Broadcom.
По оценкам, NVIDIA в втором квартале этого года продала более 300 000 чипов AI H100, что эквивалентно весу 4,5 самолета Boeing 747. Прибыль NVIDIA выросла на 854%, шокировав Уолл-Стрит. Вторичная цена на H100 поднялась до 40-50 тысяч долларов, в то время как стоимость составляет чуть более 3000 долларов.
Стоимость вычислительной мощности стала препятствием для развития отрасли. По расчетам Sequoia Capital, мировые технологические компании ежегодно будут тратить 200 миллиардов долларов на строительство инфраструктуры крупных моделей, но годовой доход от крупных моделей составит максимум 75 миллиардов долларов, что создает как минимум 125 миллиардов долларов дефицита.
За исключением некоторых случаев, большинство компаний-разработчиков программного обеспечения не смогли найти прибыльную модель после того, как потратили огромные средства. Даже такие лидеры отрасли, как Microsoft и Adobe, сталкиваются с трудностями.
GitHub Copilot, разработанный в сотрудничестве Microsoft и OpenAI, стоит 10 долларов в месяц, но на самом деле обходится в 20 долларов, а у пользователей с высокой нагрузкой Microsoft может терять даже 80 долларов в месяц. Новый Microsoft 365 Copilot стоит 30 долларов, и убытки могут быть еще больше.
После запуска инструмента AI Firefly компания Adobe быстро внедрила систему баллов, чтобы ограничить чрезмерное использование и предотвратить убытки. После превышения ежемесячной квоты баллов Adobe снизит скорость обслуживания.
У Microsoft и Adobe уже есть четкие бизнес-сценарии и множество платных пользователей. В то время как у большинства моделей с огромным количеством параметров, основное применение все еще заключается в общении.
Появление OpenAI и ChatGPT вызвало эту AI-революцию, но на текущем этапе ценность обучения больших моделей вызывает сомнения. С ростом однородной конкуренции и увеличением числа открытых моделей пространство для простых поставщиков больших моделей может быть дополнительно сжато.
Успех iPhone 4 заключается не в 45-нм процессоре A4, а в том, что он может играть в «Растения против зомби» и «Злые птицы».