AI+Web3 співпраця: розблокування нової парадигми даних та Обчислювальної потужності

AI+Web3: Вежа та площа

Основні моменти

  1. Проекти Web3 з концепцією штучного інтелекту стали привабливими для інвесторів на первинному та вторинному ринках.

  2. Можливості Web3 в галузі ШІ проявляються у: використанні розподілених стимулів для координації потенційних постачань у довгому хвості, що стосується даних, зберігання та обчислень; одночасно, створення відкритих моделей та децентралізованого ринку для AI Agent.

  3. Штучний інтелект у галузі Web3 в основному використовується в ланцюговому фінансуванні (криптоплатежі, торгівля, аналіз даних) та для допомоги в розробці.

  4. Корисність AI+Web3 проявляється в їхній взаємодоповнювальності: Web3 має надію протистояти централізації AI, AI має надію допомогти Web3 вийти за межі.

! AI+Web3: Вежі та Плази

Вступ

Протягом останніх двох років розвиток штучного інтелекту прискорюється. Хвиля генеративного штучного інтелекту, спричинена Chatgpt, також викликала величезний резонанс у сфері Web3.

Під впливом концепції ШІ, фінансування крипторинку суттєво зросло. За статистикою, у першій половині 2024 року 64 проекти Web3+AI завершили фінансування, серед яких операційна система на базі штучного інтелекту Zyber365 отримала максимальну суму фінансування в 100 мільйонів доларів на раунді A.

Другорядний ринок став більш процвітаючим, дані криптоагрегатора Coingecko показують, що за короткий рік загальна капіталізація сектора ШІ досягла 48,5 мільярдів доларів, а добовий обсяг торгів наблизився до 8,6 мільярдів доларів. Прогрес у провідних технологіях ШІ приніс суттєві вигоди, після випуску моделі OpenAI Sora для перетворення тексту в відео середня ціна в секторі ШІ зросла на 151%. Ефект ШІ також торкнувся одного з секторів криптовалют, що залучають інвестиції, Meme: перша концепція AI Agent, MemeCoin GOAT, швидко здобула популярність і отримала оцінку в 1,4 мільярда доларів, успішно запустивши хвилю AI Meme.

Дослідження та теми, пов'язані з AI+Web3, також є надзвичайно популярними: від AI+Depin до AI Memecoin, а тепер до AI Agent та AI DAO, швидкість зміни нових наративів ускладнює відстеження емоцій FOMO.

Комбінація термінів AI+Web3, що переповнена гарячими грошима, трендами та майбутніми фантазіями, неминуче сприймається як шлюб, організований капіталом. Нам важко визначити, що насправді приховано під цим розкішним зовнішнім виглядом: чи це арена спекулянтів, чи переддень вибуху нового світанку?

Щоб відповісти на це питання, ключовим є роздуми: чи стане краще з іншою стороною? Чи можна отримати вигоду з її моделі? Ця стаття намагається проаналізувати цю ситуацію, спираючись на досвід попередників: як Web3 може відігравати роль на всіх етапах технологічного стеку AI, і що нове AI може принести для Web3?

Можливості Web3 під AI-стеком

Перед тим, як розгорнути цю тему, нам потрібно зрозуміти технологічний стек великих моделей ШІ:

Великі моделі схожі на людський мозок, на ранніх етапах вони подібні до новонароджених дітей, які потребують спостереження та споживання великої кількості зовнішньої інформації для розуміння світу. Це етап "збору" даних. Оскільки комп'ютери не мають багатосенсорності людини, перед навчанням потрібно "попередньо обробити" необроблену інформацію, щоб перетворити її в формат, зрозумілий комп'ютеру.

Після введення даних ШІ за допомогою "тренування" створює модель, яка має розуміння та здатність до прогнозування, подібно до того, як немовля поступово розуміє і вивчає зовнішній світ. Параметри моделі подібні до мовних здібностей немовляти, які постійно коригуються. Вивчений матеріал поділяється на теми або отримується зворотний зв'язок під час спілкування з людьми, що призводить до етапу "доладжування".

Діти, коли виростають і навчаються говорити, можуть розуміти значення і висловлювати почуття та думки в нових розмовах, подібно до "інференції" в AI великих моделей, які можуть прогнозувати та аналізувати нові мовні та текстові введення. Діти через мовні здібності виражають почуття, описують об'єкти і вирішують проблеми, подібно до того, як AI великі моделі, завершивши навчання, застосовують свої навички у різних специфічних завданнях, таких як класифікація зображень, розпізнавання мови тощо.

AI Агент є більш близьким до наступної форми великої моделі — здатної самостійно виконувати завдання та переслідувати складні цілі, яка не лише має здатність до мислення, але також може запам'ятовувати, планувати та використовувати інструменти для взаємодії зі світом.

Щодо болючих моментів різних стеків AI, Web3 наразі початково сформував багатошарову, взаємопов'язану екосистему, що охоплює всі етапи процесу моделей AI.

! AI+Web3: Вежі та Квадрати

Базовий рівень: Airbnb для обчислювальної потужності та даних

Потужність

Наразі однією з найвищих витрат на ШІ є обчислювальна потужність та енергія, необхідні для навчання моделей і їхнього виведення.

Наприклад, для тренування Meta's LLAMA3 потрібно 16000 NVIDIA H100GPU протягом 30 днів. Ціна одного H100 обсягу 80 ГБ складає 30-40 тисяч доларів, що потребує інвестицій в обчислювальне обладнання (GPU + мережеві чіпи) у розмірі від 400 до 700 мільйонів доларів. Щомісячні витрати на електроенергію складають 1,6 мільярда кіловат-годин, а енергетичні витрати близько 20 мільйонів доларів.

Розвантаження AI обчислювальної потужності також є однією з перших областей перетворення Web3 з AI — DePin (децентралізована мережа фізичної інфраструктури). Сайт даних DePin Ninja перерахував понад 1400 проектів, а серед представників проектів, що діляться GPU обчислювальною потужністю, є io.net, Aethir, Akash, Render Network тощо.

Основна логіка полягає в тому, що платформа дозволяє власникам невикористовуваних ресурсів GPU вносити обчислювальну потужність у децентралізований спосіб без необхідності отримання дозволу, підвищуючи використання невикористаних ресурсів GPU через онлайн-ринок, подібний до Uber або Airbnb, в результаті чого кінцеві користувачі отримують більш ефективні обчислювальні ресурси за нижчою ціною; одночасно механізм стейкінгу забезпечує відповідні санкції для постачальників ресурсів у випадку порушення контролю якості або переривання мережі.

Особливості включають:

  • Збір неактивних ресурсів GPU: постачальниками в основному є незалежні середні та малі дата-центри, оператори крипто-майнінгових ферм тощо, які мають надлишкові обчислювальні ресурси, апаратура для майнінгу з механізмом консенсусу PoS, така як FileCoin та ETH-майнери. Деякі проекти прагнуть запустити обладнання з нижчими бар'єрами входу, наприклад, exolab використовує MacBook, iPhone, iPad та інші локальні пристрої для створення обчислювальної мережі для запуску великих моделей.

  • Ринок довгого хвоста, спрямований на обчислювальну потужність ШІ: a. Технічний бік: децентралізований ринок обчислювальної потужності більше підходить для етапів висновку. Навчання більше залежить від обробки даних за допомогою GPU з надвеликою кількістю кластерів, тоді як висновок має відносно низькі вимоги до продуктивності обчислень GPU, як Aethir, що зосереджується на рендерингу з низькою затримкою та застосуваннях AI для висновків. b. Сторона попиту: малим і середнім споживачам обчислювальних потужностей не потрібно самостійно тренувати свої великі моделі, а лише вибирати оптимізацію та доопрацювання навколо кількох провідних великих моделей, ці ситуації природно підходять для розподілених неактивних обчислювальних ресурсів.

  • Децентралізована власність: Значення технології блокчейн полягає в тому, що власники ресурсів завжди зберігають контроль над ресурсами, можуть гнучко налаштовувати їх відповідно до потреб, а також отримують прибуток.

Дані

Дані є основою ШІ. Без даних обчислення не мають жодної вартості, як іриси на воді. Відношення між даними та моделлю подібне до прислів'я "Сміття на вході, сміття на виході"; обсяг даних та якість введення визначають остаточну якість виходу моделі. Для нинішнього навчання моделей ШІ дані визначають мовні можливості моделі, її здатність до розуміння, навіть світогляд та людяність. Наразі проблеми з потребою в даних для ШІ в основному зосереджені на наступних чотирьох аспектах:

  • Голод даних: Тренування AI моделей залежить від величезних обсягів даних. Відкриті дані показують, що OpenAI тренував GPT-4 з параметрами на рівні трильйонів.

  • Якість даних: з поєднанням штучного інтелекту з різними галузями виникають нові вимоги до якості даних, такі як своєчасність, різноманітність, спеціалізація даних у певних сферах, а також нові джерела даних, такі як емоційний аналіз в соціальних мережах.

  • Проблеми конфіденційності та відповідності: різні країни та компанії поступово усвідомлюють важливість якісних наборів даних і вводять обмеження на їх збір.

  • Високі витрати на обробку даних: велика кількість даних, складний процес обробки. Відкриті дані показують, що понад 30% витрат на дослідження та розробки в AI компаніях йдуть на збір та обробку базових даних.

Наразі рішення web3 проявляються в наступних чотирьох аспектах:

  1. Збір даних: Безкоштовно надані дані з реального світу швидко вичерпуються, витрати AI-компаній на дані зростають щороку. Але ці витрати не повертаються справжнім внесникам даних, платформи повністю користуються створенням вартості від даних, як, наприклад, Reddit, який заробив 203 мільйони доларів, уклавши угоди на ліцензування даних з AI-компаніями.

Дати можливість справжнім користувачам також брати участь у створенні вартості, яку приносить дані, а також отримувати більш приватні та цінні дані від користувачів за допомогою дистрибутивної мережі та механізмів стимулювання з низькими витратами – це бачення Web3.

  • Grass є децентралізованим шаром даних та мережею, де користувачі можуть запускати вузли Grass, вносячи свій вільний пропускний здатність та релейний трафік для захоплення реальних даних з усього Інтернету та отримувати токенні винагороди.

  • Vana впроваджує унікальну концепцію пулу ліквідності даних (DLP), де користувачі можуть завантажувати приватні дані (такі як історія покупок, звички перегляду, активність у соціальних мережах тощо) до певного DLP та гнучко вибирати, чи дозволяти їх використання конкретним третім сторонам.

  • У PublicAI користувачі можуть використовувати #AI或#Web3 як категорійний тег на X і @PublicAI для збору даних.

  1. Передобробка даних: під час обробки даних AI, оскільки зібрані дані зазвичай є шумними і містять помилки, їх необхідно очистити та перетворити в придатний формат перед навчанням моделі, що включає стандартизацію, фільтрацію та обробку відсутніх значень у повторюваних завданнях. Ця стадія є однією з небагатьох ручних етапів в індустрії AI, що призвела до виникнення професії маркерів даних, і з підвищенням вимог моделей до якості даних поріг входу для маркерів даних також підвищується, а це завдання природно підходить для децентралізованих механізмів винагороди Web3.
  • Grass та OpenLayer обидва розглядають можливість включення етапу позначення даних.

  • Synesis提出 концепцію "Train2earn", підкреслюючи якість даних, користувачі можуть отримувати винагороди, надаючи марковані дані, коментарі або інші форми внесків.

  • Проект маркування даних Sapien ігровим способом виконує завдання маркування та дозволяє користувачам ставити бали, щоб заробити більше балів.

  1. Конфіденційність даних та безпека: потрібно чітко розмежувати конфіденційність даних та безпеку як два різні поняття. Конфіденційність даних стосується обробки чутливих даних, тоді як безпека даних захищає інформацію від несанкціонованого доступу, знищення та крадіжки. Таким чином, переваги технологій конфіденційності Web3 та потенційні сценарії їх застосування проявляються в двох аспектах: (1) навчання на чутливих даних; (2) співпраця з даними: кілька власників даних можуть спільно брати участь у навчанні AI, не ділячись при цьому оригінальними даними.

Актуальні технології конфіденційності в Web3 включають:

  • Довірене середовище виконання ( TEE ), наприклад, Super Protocol.

  • Повна гомоморфна криптографія (FHE), наприклад, BasedAI, Fhenix.io або Inco Network.

  • Технологія нульових знань (zk), така як Reclaim Protocol, використовує технологію zkTLS для генерації доказів нульових знань для HTTPS-трафіку, що дозволяє користувачам безпечно імпортувати дані про активність, репутацію та ідентичність з зовнішніх сайтів, не розкриваючи чутливу інформацію.

Проте в даний час ця сфера все ще перебуває на ранній стадії, більшість проектів все ще в процесі дослідження, поточна проблема полягає в тому, що витрати на обчислення занадто високі, наприклад:

  • Фреймворк zkML EZKL потребує близько 80 хвилин для створення доказу моделі 1M-nanoGPT.

  • Згідно з даними Modulus Labs, витрати на zkML перевищують чисті обчислення більш ніж у 1000 разів.

  1. Зберігання даних: отримавши дані, також потрібне місце для зберігання даних на ланцюзі та LLM, створеного з цих даних. Основною проблемою є доступність даних (DA), до оновлення Danksharding в Ethereum її пропускна спроможність становила 0.08MB. Водночас навчання AI-моделей та реальний аналіз зазвичай потребують пропускної спроможності даних від 50 до 100GB за секунду. Така різниця в масштабах робить існуючі рішення на ланцюзі нездатними впоратися з "ресурсомісткими AI-додатками".
  • 0g.AI є представником цієї категорії проектів. Це централізоване рішення для зберігання, розроблене для високих вимог до продуктивності AI, основні характеристики включають: високу продуктивність і масштабованість, за допомогою передових технологій шардінгу (Sharding) та кодування з виправленням помилок (Erasure Coding), підтримує швидке завантаження та скачування великих обсягів даних, швидкість передачі даних близько 5 ГБ за секунду.

Проміжне програмне забезпечення: навчання та висновки моделі

Децентралізований ринок відкритих моделей

Дискусія про те, чи мають AI-моделі бути закритими або відкритими, ніколи не зникала. Колективні інновації, які приносить відкритий код, є безсумнівною перевагою закритих моделей, однак, без жодної моделі отримання прибутку, як відкриті моделі можуть підвищити мотивацію розробників? Це варто обдумати. Засновник Baidu Лі Яньхун у квітні цього року стверджував: "Відкриті моделі дедалі більше відставатимуть."

У цьому контексті Web3 пропонує можливість децентралізованого відкритого ринку моделей, тобто токенізації самих моделей, зберігаючи певний відсоток токенів для команди та направляючи частину майбутніх доходів від моделі на користь тримачів токенів.

  • Протокол Bittensor створює P2P ринок відкритих моделей, що складається з десятків "підмереж", де постачальники ресурсів (обчислення, збір/зберігання даних, фахівці з машинного навчання) змагаються за досягнення цілей конкретного власника підмережі, а підмережі можуть взаємодіяти та навчатися одна від одної, щоб досягти більш потужного інтелекту. Нагороди розподіляються на основі голосування громади і додатково розподіляються залежно від результатів конкуренції.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 7
  • Поділіться
Прокоментувати
0/400
LiquidityNinjavip
· 2год тому
обдурювати людей, як лохів, я просто нерухомість
Переглянути оригіналвідповісти на0
metaverse_hermitvip
· 21год тому
Заробіток, нічого соромитися.
Переглянути оригіналвідповісти на0
OnchainHolmesvip
· 21год тому
А це знову пришестя спекуляцій!
Переглянути оригіналвідповісти на0
RektRecordervip
· 21год тому
Капітал знову відчув аромат невдах.
Переглянути оригіналвідповісти на0
SilentObservervip
· 21год тому
Ця хвиля ai справді потужна
Переглянути оригіналвідповісти на0
GasFeeCrybabyvip
· 21год тому
Коли буде падіння?
Переглянути оригіналвідповісти на0
SchroedingerMinervip
· 21год тому
Блокчейн碎碎念 Видача щасливих майнерів
Переглянути оригіналвідповісти на0
  • Закріпити