Децентралізація AI тренування інновацій: Prime Intellect веде нову парадигму відкритої співпраці

2025-07-20 22:11:59

Еволюція парадигм навчання ШІ: від централізованого контролю до технологічної революції децентралізованої співпраці

У всьому вартісному ланцюгу AI, навчання моделей є найбільш ресурсомістким і має найвищий технологічний поріг, що безпосередньо визначає верхню межу можливостей моделі та фактичний ефект застосування. На відміну від легковагового виклику на етапі інференції, процес навчання вимагає постійних великих обсягів обчислювальної потужності, складних процесів обробки даних та підтримки інтенсивних алгоритмів оптимізації, що є справжньою "важкою промисловістю" в побудові AI-систем. З точки зору архітектурних парадигм, способи навчання можна розділити на чотири категорії: централізоване навчання, розподілене навчання, федеративне навчання та децентралізоване навчання, яке є основною темою цього документа.

Концентраційне навчання є найпоширенішим традиційним способом, що виконується єдиною установою в локальному високопродуктивному кластері, де всі етапи навчання, від апаратного забезпечення, базового програмного забезпечення, системи планування кластерів до всіх компонентів навчальної рамки, координуються єдиною контрольною системою. Така глибока співпраця архітектури забезпечує оптимізацію ефективності спільного використання пам'яті, синхронізації градієнтів та механізмів відмовостійкості, що робить її надзвичайно підходящою для навчання великих моделей, таких як GPT, Gemini, з високою ефективністю та контрольованими ресурсами, але водночас існують проблеми монополії даних, бар'єрів для ресурсів, енергоспоживання та ризику єдиного пункту.

Розподілене навчання є основним способом навчання великих моделей, його суть полягає в розподілі завдань навчання моделі на кілька машин для спільного виконання, щоб подолати обмеження обчислень та зберігання на одній машині. Хоча фізично воно має "дистрибутивні" характеристики, але в цілому все ще контролюється централізованими установами для управління та синхронізації, зазвичай працює в середовищі швидких локальних мереж, за допомогою технології високошвидкісної інтеграції NVLink, основний вузол централізовано координує всі підзавдання. Основні методи включають:

Дані паралельні: кожен вузол навчає різні дані, параметри спільні, потрібно співвіднести ваги моделі
Паралельне моделювання: розміщення різних частин моделі на різних вузлах для досягнення високої масштабованості
Паралельне виконання через конвеєри: поетапне серійне виконання, що підвищує пропускну здатність
Тензорне паралельне виконання: тонке розділення матричних обчислень, підвищення паралельного масштабу

Розподілене навчання – це комбінація "централізованого контролю + розподіленого виконання", що аналогічно тому, як один і той же бос віддалено керує співробітниками з кількох "офісів" для виконання завдання. На сьогодні майже всі основні великі моделі проходять навчання саме таким чином.

Децентралізація тренування представляє собою більш відкритий та стійкий до цензури майбутній шлях. Його основною характеристикою є: кілька недовірених вузлів спільно виконують завдання тренування без центрального координатора, зазвичай шляхом протоколу, що керує розподілом завдань та співпрацею, а також за допомогою механізму крипто заохочення для забезпечення чесності внесків. Основні виклики, з якими стикається ця модель, включають:

Гетерогенність пристроїв і складнощі розподілу: висока складність координації гетерогенних пристроїв, низька ефективність розподілу завдань
Вузьке місце ефективності зв'язку: нестабільність мережевої комунікації, помітне вузьке місце синхронізації градієнтів
Відсутність довіреного виконання: відсутність довіреного середовища виконання ускладнює перевірку того, чи дійсно вузол бере участь у обчисленнях.
Відсутність єдиної координації: немає центрального диспетчера, складний механізм розподілу завдань та відкату у разі помилок

Децентралізація тренування можна розуміти як: група глобальних волонтерів, які кожен вносять свої обчислювальні потужності для спільного тренування моделі, але "справді життєздатне масштабне децентралізоване тренування" все ще є системною інженерною проблемою, що охоплює архітектуру системи, комунікаційний протокол, криптографічну безпеку, економічні механізми, валідацію моделей та багато інших аспектів, але чи можливо "спільно ефективно + стимулювати чесність + отримати правильні результати" поки що перебуває на ранній стадії дослідження прототипів.

Федеративне навчання як перехідна форма між розподіленим та децентралізованим, акцентує увагу на локальному зберіганні даних, централізованій агрегації параметрів моделі, що підходить для сценаріїв, де важлива конфіденційність. Федеративне навчання має інженерну структуру розподіленого навчання та локальні можливості співпраці, одночасно володіючи перевагами розподілених даних децентралізованого навчання, але все ще залежить від надійних координаторів, не маючи повністю відкритих і антикорупційних властивостей. Це можна розглядати як "контрольовану децентралізацію" в умовах конфіденційності, яка є відносно помірною в навчальних завданнях, структурах довіри та механізмах зв'язку, що робить її більш придатною як архітектуру для перехідного впровадження в промисловості.

Панорамна таблиця порівняння парадигм навчання AI

З точки зору парадигми навчання, децентралізоване навчання не підходить для всіх типів завдань. У деяких сценаріях, через складну структуру завдання, надзвичайні вимоги до ресурсів або складність співпраці, воно природно не підходить для ефективного виконання на гетерогенних, бездоверених вузлах. Наприклад, навчання великих моделей часто залежить від великої пам'яті, низької затримки та високої пропускної здатності, що ускладнює їх ефективне розділення та синхронізацію в відкритих мережах; завдання, що підлягають суворим обмеженням конфіденційності даних і суверенітету, обмежені юридичними нормами та етичними рамками, не можуть бути відкрито поділені; а завдання, що не мають основи для співпраці, відчувають брак зовнішньої мотивації для участі. Ці межі разом становлять реалії сучасних обмежень децентралізованого навчання.

Але це не означає, що децентралізоване навчання є хибним твердженням. Насправді, у типах завдань, які мають легку структуру, легко паралелізуються та можуть бути стимульованими, децентралізоване навчання демонструє чіткі перспективи застосування. Сюди входять, але не обмежуються: доопрацювання LoRA, завдання після навчання з вирівнюванням поведінки, навчання та маркування даних через краудсорсинг, навчання малих базових моделей з контрольованими ресурсами, а також сценарії кооперативного навчання з участю Edge-пристроїв. Ці завдання загалом мають високу паралельність, низьку зв'язаність і здатність терпіти гетерогенні обчислювальні потужності, що робить їх дуже підходящими для кооперативного навчання через P2P-мережі, протокол Swarm, розподілені оптимізатори та інші засоби.

Децентралізація тренування класичних проєктів解析

Наразі в передовій області децентралізованого навчання та федеративного навчання представницькими блокчейн-проектами є Prime Intellect, Pluralis.ai, Gensyn, Nous Research та Flock.io. З точки зору технологічної інноваційності та складності інженерного втілення, Prime Intellect, Nous Research та Pluralis.ai запропонували багато оригінальних досліджень у системній архітектурі та алгоритмічному дизайні, що представляє передові напрямки сучасних теоретичних досліджень; тоді як реалізаційні шляхи Gensyn та Flock.io відносно чіткі, вже можна спостерігати початкові інженерні досягнення. У цій статті ми поетапно проаналізуємо основні технології та інженерні архітектури п'яти проектів, а також далі обговоримо їх відмінності та взаємодоповнюючі відносини в децентралізованій AI-навчальній системі.

Prime Intellect: тренувальна траєкторія з підтверджуваним посиленням навчання кооперативних мереж

Prime Intellect прагне створити мережу навчання ШІ, що не потребує довіри, дозволяючи кожному брати участь у навчанні та отримувати надійну винагороду за свої обчислювальні внески. Prime Intellect хоче за допомогою трьох основних модулів PRIME-RL + TOPLOC + SHARDCAST створити систему децентралізованого навчання ШІ з перевіряємістю, відкритістю та повноцінними механізмами заохочення.

Одна, структура стеку протоколу Prime Intellect та цінність ключових модулів

Два, детальний опис ключових механізмів тренування Prime Intellect

PRIME-RL: архітектура завдань асинхронного посиленого навчання з декомпозицією

PRIME-RL є фреймворком моделювання та виконання завдань, розробленим Prime Intellect для Децентралізації навчальних сценаріїв, спеціально створеним для гетерогенних мереж та асинхронної участі. Він використовує підкріплювальне навчання як пріоритетний адаптаційний об'єкт, структурно декомпозуючи процеси навчання, висновків та завантаження ваг, що дозволяє кожному навчальному вузлу незалежно виконувати цикли завдань локально та співпрацювати через стандартизовані інтерфейси з механізмами валідації та агрегації. На відміну від традиційних процесів наглядового навчання, PRIME-RL більше підходить для реалізації гнучкого навчання в середовищі без централізованого управління, що не тільки знижує складність системи, але й закладає основу для підтримки паралельного виконання кількох завдань та еволюції стратегій.

TOPLOC: легкий механізм верифікації поведінки навчання

TOPLOC є основним механізмом перевірки тренувальної здатності, запропонованим Prime Intellect, який використовується для визначення того, чи справді вузол на основі спостережуваних даних завершив ефективне навчання стратегії. На відміну від важких рішень, таких як ZKML, TOPLOC не залежить від повторного обчислення всієї моделі, а завершує верифікацію легковагової структури, аналізуючи локальні узгоджені траєкторії між "послідовністю спостережень ↔ оновленням стратегії". Вперше він перетворює поведінкові траєкторії в процесі навчання на об'єкти, що підлягають перевірці, що є ключовим нововведенням для реалізації бездостовірного розподілу навчальних винагород, і забезпечує життєздатний шлях для створення аудиторських та стимулюючих децентралізованих кооперативних навчальних мереж.

SHARDCAST: асинхронна агрегація ваг і протокол поширення

SHARDCAST є протоколом вагомого розповсюдження та агрегації, розробленим Prime Intellect, оптимізованим для реальних мережевих середовищ з асинхронними, обмеженими смугами пропускання та змінним станом вузлів. Він поєднує механізм розповсюдження gossip з локальною синхронізацією, дозволяючи кільком вузлам безперервно надсилати часткові оновлення в умовах несинхронного стану, забезпечуючи прогресивну конвергенцію ваг та еволюцію кількох версій. У порівнянні з централізованими або синхронними методами AllReduce, SHARDCAST суттєво підвищує масштабованість та відмовостійкість децентралізованого навчання, що є основою для побудови стабільного консенсусу ваг та безперервної ітерації навчання.

OpenDiLoCo: Рідкісний асинхронний комунікаційний фреймворк

OpenDiLoCo є незалежно реалізованою та відкритою рамкою оптимізації зв'язку, створеною командою Prime Intellect на основі концепції DiLoCo, запропонованої DeepMind, яка спеціально розроблена для вирішення таких викликів, як обмежена пропускна здатність, гетерогенність пристроїв та нестабільність вузлів, що часто виникають під час децентралізованого навчання. Його архітектура базується на паралельності даних, шляхом побудови розріджених топологічних структур, таких як кільце, розширювач, малий світ, що уникає високих витрат на зв'язок глобальної синхронізації, та дозволяє виконувати спільне навчання моделей, покладаючись лише на сусідні локальні вузли. Поєднуючи асинхронні оновлення та механізм відновлення після збоїв, OpenDiLoCo дозволяє стабільно брати участь у навчальних завданнях споживчим GPU та крайовим пристроям, значно підвищуючи можливість участі в глобальному кооперативному навчанні, що є однією з ключових комунікаційних інфраструктур для побудови децентралізованої навчальної мережі.

PCCL:Бібліотека координаційного зв'язку

PCCL є легким комунікаційним бібліотекою, розробленою Prime Intellect для децентралізованого середовища тренування AI, яке має на меті вирішення адаптаційних вузьких місць традиційних комунікаційних бібліотек у гетерогенних пристроях та мережах з низькою пропускною здатністю. PCCL підтримує розріджену топологію, стискання градієнтів, синхронізацію з низькою точністю та відновлення з контрольних точок, може працювати на споживчих GPU та нестабільних вузлах, є нижнім компонентом, що підтримує асинхронну комунікаційну здатність протоколу OpenDiLoCo. Він суттєво підвищує толерантність до пропускної здатності тренувальної мережі та сумісність пристроїв, прокладаючи "остання миля" комунікаційної інфраструктури для побудови справді відкритої, без довіри, мережі спільного тренування.

Три, Prime Intellect мотивуюча мережа та розподіл ролей

Prime Intellect побудував бездозвільну, перевірну та економічно стимулюючу тренувальну мережу, що дозволяє кожному брати участь у завданнях і отримувати нагороди на основі реального внеску. Протокол працює на основі трьох основних ролей:

Ініціатор завдання: визначення навчального середовища, початкової моделі, функції винагороди та стандартів валідації
Тренувальний вузол: виконання локального тренування, подання оновлень ваг та спостережних траєкторій
Вузли перевірки: використання механізму TOPLOC для перевірки справжності навчальної поведінки та участі в розрахунку винагороди та агрегації стратегій

Ядро процесу угоди включає публікацію завдань, навчання вузлів, верифікацію траєкторій, агрегування ваг та виплату винагород, що становить інвестиційний замкнутий цикл навколо "реальних навчальних дій".

Чотири, INTELLECT-2: перше виведення перевірної децентралізованої навчальної моделі

Prime Intellect випустила INTELLECT-2 у травні 2025 року, це перша у світі велика модель навчання з підкріпленням, яка була навчена за допомогою асинхронних, що не потребують довіри, децентралізованих вузлів. Обсяг параметрів досягає 32B. Модель INTELLECT-2 була навчена за допомогою співпраці більше 100 гетерогенних вузлів GPU, розташованих на трьох континентах, використовуючи повністю асинхронну архітектуру, тривалість навчання перевищила 400 годин, демонструючи життєздатність і стабільність асинхронної коопераційної мережі. Ця модель є не лише проривом у продуктивності, але й першим системним втіленням парадигми "навчання як консенсус", запропонованої Prime Intellect. INTELLECT-2 інтегрує основні модулі протоколу, такі як PRIME-RL, TOPLOC і SHARDCAST, що знаменує собою перше досягнення відкритості, верифікації та економічного стимулювання в процесі навчання децентралізованої навчальної мережі.

У плані продуктивності, INTELLECT-2 базується на QwQ-32B і проходить спеціальне RL навчання в коді та математиці, що робить його на передовій лінії поточних відкритих RL моделей.

PRIME-4.1%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

11 лайків

Нагородити
11
6
Поділіться

Прокоментувати

0/400

NotSatoshi

· 07-20 22:41

Увійти в систему - це основна потреба