Минулого місяця у світі ШІ розгорнулася "бійка тварин".
Одна сторона - це серія моделей Llama, випущена Meta, яка завдяки своїй відкритій природі користується великим попитом серед розробників. Японська компанія NEC швидко розробила японську версію ChatGPT на основі статті та коду Llama, вирішивши технічні проблеми Японії в галузі ШІ.
Інша сторона – це великий модель під назвою Falcon. У травні цього року Falcon-40B з'явився на світ, перевершивши Llama і зайнявши перше місце в "рейтингу відкритих великих мовних моделей". Цей рейтинг був створений відкритою спільнотою Hugging Face для оцінки можливостей LLM. Після цього Llama та Falcon по черзі оновлювали рейтинги.
На початку вересня Falcon представив версію 180B, знову зайнявши перше місце в рейтингах. Цікаво, що розробники Falcon не є технологічною компанією, а перебувають в Інституті наукових інновацій в Абу-Дабі. Офіційні особи ОАЕ заявили, що їхня участь у змаганні з ШІ має на меті підрив існуючого порядку.
Сьогодні сфера ШІ вступила в етап конкуренції. Усі країни та компанії з певними можливостями намагаються створити власну версію ChatGPT. Лише в країнах Перської затоки є кілька гравців: Саудівська Аравія нещодавно закупила понад 3000 чіпів H100 для навчання LLM для вітчизняних університетів.
Один інвестор зауважив: "Коли я не вірив у інновації бізнес-моделей Інтернету, вважав, що немає бар'єрів. Не очікував, що стартапи у сфері жорстких технологій також ведуть війну моделей..."
Чому те, що спочатку вважалося складною технологією, перетворилося на ситуацію "одна країна - одна модель"?
Transformer: рушій революції ШІ
Американські стартапи, китайські технологічні гіганти та близькосхідні нафтові магнати всі активно займаються розробкою великих моделей, і все це почалося з відомої статті: «Увага — це все, що вам потрібно».
У 2017 році 8 вчених Google опублікували алгоритм Transformer у цій статті. Ця стаття наразі є третьою за кількістю цитувань в історії ШІ, поява Transformer спричинила цю чергову хвилю буму в ШІ.
Сучасні різноманітні великі моделі, включаючи сенсаційні у всьому світі серії GPT, побудовані на основі Transformer.
Раніше "навчити машину читати" залишалося визнаною проблемою в науці. На відміну від розпізнавання зображень, людина під час читання враховує контекст для розуміння. Ранні нейронні мережі важко обробляли довгі тексти, часто виникали проблеми, такі як переклад "开水间" як "open water room".
У 2014 році вчений Google Ілля вперше використав рекурентні нейронні мережі (RNN) для обробки природної мови, що значно підвищило продуктивність Google Translate. RNN надає нейронним мережам здатність розуміти контекст завдяки "циклічному дизайну".
Проте RNN має серйозні недоліки: послідовні обчислення призводять до низької ефективності, важко обробляти велику кількість параметрів. З 2015 року вчені Google на чолі з Шазелем почали розробку альтернатив RNN, в результаті чого був представлений Transformer.
На відміну від RNN, Transformer має дві великі інновації: по-перше, використання позиційного кодування для реалізації паралельних обчислень, що суттєво підвищує ефективність навчання; по-друге, подальше покращення здатності до розуміння контексту.
Transformer в один момент вирішив кілька проблем і поступово став основним рішенням у сфері NLP. Він перетворив великі моделі з теоретичних досліджень на чисто інженерну задачу.
У 2019 році OpenAI на основі Transformer розробив GPT-2. У відповідь Google швидко випустив більш потужний Meena. Meena значно перевершив GPT-2 за параметрами та обчислювальною потужністю, не маючи інновацій в основних алгоритмах. Це вразило автора Transformer Шазела силою "насильницького накопичення".
Після появи Transformer швидкість інновацій у базових алгоритмах у наукових колах сповільнилася. Такі інженерні елементи, як обробка даних, масштаб обчислень і архітектура моделей, дедалі більше стають ключовими у змаганнях у сфері ШІ. Будь-яка компанія з певним технічним потенціалом може розробити великі моделі.
Експерт з штучного інтелекту Енді Нг вважає, що штучний інтелект став серією універсальних технологічних інструментів, подібно до електрики та інтернету.
Хоча OpenAI залишається лідером у галузі LLM, аналітики вважають, що переваги GPT-4 в основному походять від інженерних рішень. Як тільки він стане відкритим, конкуренти зможуть швидко його скопіювати. Очікується, що незабаром інші великі технологічні компанії також зможуть створити великі моделі, які за продуктивністю будуть порівнянні з GPT-4.
Слабкий захист
Сьогодні «битва за великими моделями» стала реальністю. Згідно з доповіддю, станом на липень цього року в Китаї налічується 130 великих моделей, що перевищує 114 в США. Різноманітні міфи та легенди вже недостатні для називання вітчизняними технологічними компаніями.
Окрім Китаю та США, багато розвинених країн також вже досягли "одна країна - одна модель": Японія, ОАЕ, Індія, Південна Корея та інші запустили свої локальні великі моделі. Ця ситуація нагадує епоху інтернет-бульбашки, коли "спалювання грошей" стало основним конкурентним засобом.
Transformer робить з великих моделей чисто інженерну задачу: якщо є людські та матеріальні ресурси, їх можна розробити. Але легко увійти на ринок, проте стати гігантом ери ШІ дуже складно.
У згадуваному вище "Бої тварин" є типовим прикладом: хоча Falcon випереджає Llama за рейтингом, його вплив на Meta є обмеженим.
Компанії відкривають свої наукові досягнення, що є не лише поділом науковими благами, а й сподіванням залучити суспільний розум. Зі зростанням використання та вдосконалення Llama, Meta може впроваджувати ці досягнення у свої продукти.
Для відкритих моделей великих розмірів активна спільнота розробників є основною конкурентною перевагою.
Meta ще в 2015 році визначила принципи відкритого коду, коли створила свою лабораторію штучного інтелекту. Цукерберг прекрасно розуміє, як "побудувати добрі стосунки з громадськістю". У жовтні Meta також запустила програму "AI-версія мотивації для творців", яка фінансує розробників, що використовують Llama 2 для вирішення соціальних проблем.
Сьогодні серія Llama від Meta стала орієнтиром для відкритих LLM. Станом на початок жовтня, 8 з 10 кращих у рейтингу Hugging Face розроблені на базі Llama 2, а LLM, що використовують її відкриту ліцензію, налічують понад 1500.
Покращення продуктивності, безумовно, важливо, але наразі більшість LLM і GPT-4 все ще мають помітні розриви. У останньому тестуванні AgentBench GPT-4 отримав 4,41 бали, зайнявши перше місце, друге місце зайняв Claude з 2,77 бали, а відкриті LLM переважно мають близько 1 бали.
Випуск GPT-4 відбувся більше півроку тому, а конкуренти по всьому світу все ще не можуть наздогнати. Це зумовлено командою провідних вчених OpenAI та тривалим досвідом у дослідженнях LLM.
Очевидно, що ключова спроможність великих моделей полягає в екосистемному будівництві ( відкритий код ) або чисто розумова здатність ( закритий код ), а не в простому накопиченні параметрів.
З активізацією відкритих спільнот продуктивність різних LLM може зрешетуватися, оскільки всі використовують подібні архітектури моделей та набори даних.
Більш наочне питання: крім Midjourney, здається, жодна велика модель ще не змогла отримати прибуток.
Якорі вартості
У серпні цього року стаття "OpenAI може оголосити про банкрутство наприкінці 2024 року" привернула увагу. Основна думка: OpenAI витрачає кошти занадто швидко.
У статті згадується, що з моменту розробки ChatGPT, OpenAI швидко збільшила свої збитки, у 2022 році збитки становили приблизно 540 мільйонів доларів, і компанія змушена була покладатися на інвестиції від Microsoft.
Це відображає загальні труднощі, з якими стикаються постачальники великих моделей: серйозний дисбаланс між витратами та доходами.
Високі витрати призводять до того, що основними вигодонабувачами є такі виробники чіпів, як Nvidia та Broadcom.
За оцінками, NVIDIA у другому кварталі цього року продала понад 300 тисяч чіпів H100 AI, вага яких дорівнює 4,5 літакам Boeing 747. Прибуток NVIDIA зріс на 854%, шокуючи Уолл-стріт. Ціна на б/у H100 вже піднялася до 40-50 тисяч доларів, тоді як собівартість становить лише понад 3000 доларів.
Витрати на обчислювальну потужність стали стримуючим фактором розвитку галузі. Sequoia Capital підрахувала: глобальні технологічні компанії щорічно витратять 200 мільярдів доларів на будівництво інфраструктури для великих моделей, але річний дохід від великих моделей максимум становить 75 мільярдів доларів, що створює щонайменше 125 мільярдів доларів дефіциту.
За винятком кількох випадків, більшість програмних компаній витрачають величезні кошти, але все ще не можуть знайти прибуткову модель. Навіть лідери галузі, такі як Microsoft і Adobe, стикаються з викликами.
GitHub Copilot, розроблений у співпраці Microsoft та OpenAI, коштує 10 доларів на місяць, але насправді обходиться Microsoft у 20 доларів, а у користувачів, які активно ним користуються, навіть у 80 доларів на місяць. Новий Microsoft 365 Copilot коштує 30 доларів, і можливо, що збитки будуть ще більшими.
Після запуску інструменту Firefly AI компанія Adobe швидко ввела систему балів, щоб обмежити надмірне використання користувачами, що призводить до збитків компанії. Після перевищення щомісячного розподілу балів Adobe знижує швидкість обслуговування.
Microsoft та Adobe вже мають чіткі бізнес-сценарії та велику кількість платних користувачів. А більшість моделей з величезною кількістю параметрів все ще найчастіше використовуються для спілкування.
Виникнення OpenAI та ChatGPT спровокувало цю революцію в AI, але на даному етапі цінність навчання великих моделей викликає сумніви. З посиленням однорідної конкуренції та зростанням кількості відкритих моделей простір для постачальників великих моделей може ще більше скоротитися.
Успіх iPhone 4 не в 45-нм процесорі A4, а в тому, що він може грати в «Рослинні війни з зомбі» та «Злі пташки».
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Конкуренція великих AI-моделей загострюється: зниження технологічних бар'єрів, проблеми в бізнесі стають очевидними
Штучний інтелект: революція, викликана інженерними проблемами
Минулого місяця у світі ШІ розгорнулася "бійка тварин".
Одна сторона - це серія моделей Llama, випущена Meta, яка завдяки своїй відкритій природі користується великим попитом серед розробників. Японська компанія NEC швидко розробила японську версію ChatGPT на основі статті та коду Llama, вирішивши технічні проблеми Японії в галузі ШІ.
Інша сторона – це великий модель під назвою Falcon. У травні цього року Falcon-40B з'явився на світ, перевершивши Llama і зайнявши перше місце в "рейтингу відкритих великих мовних моделей". Цей рейтинг був створений відкритою спільнотою Hugging Face для оцінки можливостей LLM. Після цього Llama та Falcon по черзі оновлювали рейтинги.
На початку вересня Falcon представив версію 180B, знову зайнявши перше місце в рейтингах. Цікаво, що розробники Falcon не є технологічною компанією, а перебувають в Інституті наукових інновацій в Абу-Дабі. Офіційні особи ОАЕ заявили, що їхня участь у змаганні з ШІ має на меті підрив існуючого порядку.
Сьогодні сфера ШІ вступила в етап конкуренції. Усі країни та компанії з певними можливостями намагаються створити власну версію ChatGPT. Лише в країнах Перської затоки є кілька гравців: Саудівська Аравія нещодавно закупила понад 3000 чіпів H100 для навчання LLM для вітчизняних університетів.
Один інвестор зауважив: "Коли я не вірив у інновації бізнес-моделей Інтернету, вважав, що немає бар'єрів. Не очікував, що стартапи у сфері жорстких технологій також ведуть війну моделей..."
Чому те, що спочатку вважалося складною технологією, перетворилося на ситуацію "одна країна - одна модель"?
Transformer: рушій революції ШІ
Американські стартапи, китайські технологічні гіганти та близькосхідні нафтові магнати всі активно займаються розробкою великих моделей, і все це почалося з відомої статті: «Увага — це все, що вам потрібно».
У 2017 році 8 вчених Google опублікували алгоритм Transformer у цій статті. Ця стаття наразі є третьою за кількістю цитувань в історії ШІ, поява Transformer спричинила цю чергову хвилю буму в ШІ.
Сучасні різноманітні великі моделі, включаючи сенсаційні у всьому світі серії GPT, побудовані на основі Transformer.
Раніше "навчити машину читати" залишалося визнаною проблемою в науці. На відміну від розпізнавання зображень, людина під час читання враховує контекст для розуміння. Ранні нейронні мережі важко обробляли довгі тексти, часто виникали проблеми, такі як переклад "开水间" як "open water room".
У 2014 році вчений Google Ілля вперше використав рекурентні нейронні мережі (RNN) для обробки природної мови, що значно підвищило продуктивність Google Translate. RNN надає нейронним мережам здатність розуміти контекст завдяки "циклічному дизайну".
Проте RNN має серйозні недоліки: послідовні обчислення призводять до низької ефективності, важко обробляти велику кількість параметрів. З 2015 року вчені Google на чолі з Шазелем почали розробку альтернатив RNN, в результаті чого був представлений Transformer.
На відміну від RNN, Transformer має дві великі інновації: по-перше, використання позиційного кодування для реалізації паралельних обчислень, що суттєво підвищує ефективність навчання; по-друге, подальше покращення здатності до розуміння контексту.
Transformer в один момент вирішив кілька проблем і поступово став основним рішенням у сфері NLP. Він перетворив великі моделі з теоретичних досліджень на чисто інженерну задачу.
У 2019 році OpenAI на основі Transformer розробив GPT-2. У відповідь Google швидко випустив більш потужний Meena. Meena значно перевершив GPT-2 за параметрами та обчислювальною потужністю, не маючи інновацій в основних алгоритмах. Це вразило автора Transformer Шазела силою "насильницького накопичення".
Після появи Transformer швидкість інновацій у базових алгоритмах у наукових колах сповільнилася. Такі інженерні елементи, як обробка даних, масштаб обчислень і архітектура моделей, дедалі більше стають ключовими у змаганнях у сфері ШІ. Будь-яка компанія з певним технічним потенціалом може розробити великі моделі.
Експерт з штучного інтелекту Енді Нг вважає, що штучний інтелект став серією універсальних технологічних інструментів, подібно до електрики та інтернету.
Хоча OpenAI залишається лідером у галузі LLM, аналітики вважають, що переваги GPT-4 в основному походять від інженерних рішень. Як тільки він стане відкритим, конкуренти зможуть швидко його скопіювати. Очікується, що незабаром інші великі технологічні компанії також зможуть створити великі моделі, які за продуктивністю будуть порівнянні з GPT-4.
Слабкий захист
Сьогодні «битва за великими моделями» стала реальністю. Згідно з доповіддю, станом на липень цього року в Китаї налічується 130 великих моделей, що перевищує 114 в США. Різноманітні міфи та легенди вже недостатні для називання вітчизняними технологічними компаніями.
Окрім Китаю та США, багато розвинених країн також вже досягли "одна країна - одна модель": Японія, ОАЕ, Індія, Південна Корея та інші запустили свої локальні великі моделі. Ця ситуація нагадує епоху інтернет-бульбашки, коли "спалювання грошей" стало основним конкурентним засобом.
Transformer робить з великих моделей чисто інженерну задачу: якщо є людські та матеріальні ресурси, їх можна розробити. Але легко увійти на ринок, проте стати гігантом ери ШІ дуже складно.
У згадуваному вище "Бої тварин" є типовим прикладом: хоча Falcon випереджає Llama за рейтингом, його вплив на Meta є обмеженим.
Компанії відкривають свої наукові досягнення, що є не лише поділом науковими благами, а й сподіванням залучити суспільний розум. Зі зростанням використання та вдосконалення Llama, Meta може впроваджувати ці досягнення у свої продукти.
Для відкритих моделей великих розмірів активна спільнота розробників є основною конкурентною перевагою.
Meta ще в 2015 році визначила принципи відкритого коду, коли створила свою лабораторію штучного інтелекту. Цукерберг прекрасно розуміє, як "побудувати добрі стосунки з громадськістю". У жовтні Meta також запустила програму "AI-версія мотивації для творців", яка фінансує розробників, що використовують Llama 2 для вирішення соціальних проблем.
Сьогодні серія Llama від Meta стала орієнтиром для відкритих LLM. Станом на початок жовтня, 8 з 10 кращих у рейтингу Hugging Face розроблені на базі Llama 2, а LLM, що використовують її відкриту ліцензію, налічують понад 1500.
Покращення продуктивності, безумовно, важливо, але наразі більшість LLM і GPT-4 все ще мають помітні розриви. У останньому тестуванні AgentBench GPT-4 отримав 4,41 бали, зайнявши перше місце, друге місце зайняв Claude з 2,77 бали, а відкриті LLM переважно мають близько 1 бали.
Випуск GPT-4 відбувся більше півроку тому, а конкуренти по всьому світу все ще не можуть наздогнати. Це зумовлено командою провідних вчених OpenAI та тривалим досвідом у дослідженнях LLM.
Очевидно, що ключова спроможність великих моделей полягає в екосистемному будівництві ( відкритий код ) або чисто розумова здатність ( закритий код ), а не в простому накопиченні параметрів.
З активізацією відкритих спільнот продуктивність різних LLM може зрешетуватися, оскільки всі використовують подібні архітектури моделей та набори даних.
Більш наочне питання: крім Midjourney, здається, жодна велика модель ще не змогла отримати прибуток.
Якорі вартості
У серпні цього року стаття "OpenAI може оголосити про банкрутство наприкінці 2024 року" привернула увагу. Основна думка: OpenAI витрачає кошти занадто швидко.
У статті згадується, що з моменту розробки ChatGPT, OpenAI швидко збільшила свої збитки, у 2022 році збитки становили приблизно 540 мільйонів доларів, і компанія змушена була покладатися на інвестиції від Microsoft.
Це відображає загальні труднощі, з якими стикаються постачальники великих моделей: серйозний дисбаланс між витратами та доходами.
Високі витрати призводять до того, що основними вигодонабувачами є такі виробники чіпів, як Nvidia та Broadcom.
За оцінками, NVIDIA у другому кварталі цього року продала понад 300 тисяч чіпів H100 AI, вага яких дорівнює 4,5 літакам Boeing 747. Прибуток NVIDIA зріс на 854%, шокуючи Уолл-стріт. Ціна на б/у H100 вже піднялася до 40-50 тисяч доларів, тоді як собівартість становить лише понад 3000 доларів.
Витрати на обчислювальну потужність стали стримуючим фактором розвитку галузі. Sequoia Capital підрахувала: глобальні технологічні компанії щорічно витратять 200 мільярдів доларів на будівництво інфраструктури для великих моделей, але річний дохід від великих моделей максимум становить 75 мільярдів доларів, що створює щонайменше 125 мільярдів доларів дефіциту.
За винятком кількох випадків, більшість програмних компаній витрачають величезні кошти, але все ще не можуть знайти прибуткову модель. Навіть лідери галузі, такі як Microsoft і Adobe, стикаються з викликами.
GitHub Copilot, розроблений у співпраці Microsoft та OpenAI, коштує 10 доларів на місяць, але насправді обходиться Microsoft у 20 доларів, а у користувачів, які активно ним користуються, навіть у 80 доларів на місяць. Новий Microsoft 365 Copilot коштує 30 доларів, і можливо, що збитки будуть ще більшими.
Після запуску інструменту Firefly AI компанія Adobe швидко ввела систему балів, щоб обмежити надмірне використання користувачами, що призводить до збитків компанії. Після перевищення щомісячного розподілу балів Adobe знижує швидкість обслуговування.
Microsoft та Adobe вже мають чіткі бізнес-сценарії та велику кількість платних користувачів. А більшість моделей з величезною кількістю параметрів все ще найчастіше використовуються для спілкування.
Виникнення OpenAI та ChatGPT спровокувало цю революцію в AI, але на даному етапі цінність навчання великих моделей викликає сумніви. З посиленням однорідної конкуренції та зростанням кількості відкритих моделей простір для постачальників великих моделей може ще більше скоротитися.
Успіх iPhone 4 не в 45-нм процесорі A4, а в тому, що він може грати в «Рослинні війни з зомбі» та «Злі пташки».