Довгі текстові можливості стали новою "стандартною характеристикою" компаній великих моделей
Великі моделі швидко покращують свою здатність обробляти довгі тексти, розширюючи обсяг з 4000 токенів до 400 000 токенів. Здається, що здатність обробки довгих текстів стала ще однією новою "фішкою" для виробників великих моделей.
З-за кордону OpenAI кілька разів оновив GPT-3.5, збільшивши довжину контекстного вводу з 4000 до 16000 токенів, а GPT-4 - з 8000 до 32000 токенів. Основний конкурент OpenAI, Anthropic, одноразово підвищив довжину контексту до 100000 токенів. LongLLaMA навіть розширив довжину контексту до 256000 токенів або навіть більше.
Внутрішній ринок, стартап у сфері великих моделей "Темна сторона місяця" представив Kimi Chat, який підтримує введення 200 тисяч китайських ієрогліфів, що приблизно дорівнює 400 тисячам токенів. Технологія LongLoRA, розроблена спільно Гонконгським китайським університетом та MIT, може розширити довжину тексту 7B моделі до 100 тисяч токенів, а 70B моделі до 32 тисяч токенів.
На сьогоднішній день багато провідних компаній і дослідницьких установ, таких як OpenAI, Anthropic, Meta, Moonlight, зосереджені на розширенні довжини контексту як ключовій сфері модернізації. Ці компанії також є популярними об'єктами на ринку капіталу. OpenAI отримала інвестиції майже на 12 мільярдів доларів, оцінка Anthropic може досягти 30 мільярдів доларів, а Moonlight за півроку залучила майже 2 мільярди фінансування.
Виробники великих моделей змагаються за вдосконалення технології довгих текстів, що означає розширення довжини контексту в 100 разів?
На перший погляд, це означає, що модель може вводити довші тексти і має вищу здатність читання. 4000 токенів GPT-3.5 можуть вміщати близько 2000 китайських ієрогліфів, тоді як 400000 токенів Kimi Chat можуть підтримувати введення 200000 китайських ієрогліфів, що цілком достатньо для прочитання довгого роману.
З більш глибокої точки зору, технології довгих текстів сприяють впровадженню великих моделей у фінансовій, судовій, науковій та інших професійних сферах. У цих галузях здатності до узагальнення довгих документів, розуміння прочитаного, відповідей на запитання є базовими потребами, а також напрямками, які терміново потребують інтелектуального вдосконалення.
Однак, подібно до параметрів моделі, довжина тексту не є завжди кращою. Дослідження показують, що підтримка моделі для довшого контекстного вводу не завжди призводить до кращих результатів. Ключовим є те, як модель ефективно використовує контент контексту.
Однак наразі дослідження довжини тексту в Україні та за кордоном ще не досягли "критичної точки". Великі компанії з моделювання продовжують робити прориви, 400 тисяч токенів, можливо, лише початок.
Чому потрібно "крутити" довгі тексти?
Засновник "Темної сторони Місяця" Ян Чжілінь зазначив, що саме через обмеження довжини введення великих моделей виникають труднощі з впровадженням багатьох застосунків. Це також причина, чому великі компанії з моделей нині зосереджуються на технологіях довгих текстів.
Наприклад, у сценах з віртуальними персонажами, через недостатню здатність до обробки довгих текстів, віртуальні персонажі можуть забувати важливу інформацію. При розробці ігор жанру "сценарний вбивця", недостатня довжина введення може призвести до скорочення правил і налаштувань, що не дозволяє досягти очікуваного ефекту. У професійних сферах, таких як право та банківська справа, глибокий аналіз та генерація контенту часто зазнають невдачі.
Довгі тексти також відіграють важливу роль у майбутніх застосунках Agent та AI. Agent повинен спиратися на історичну інформацію для планування та прийняття рішень, а AI-застосунки потребують контексту для підтримки узгодженого та персоналізованого користувацького досвіду.
Ян Чжилин вважає, що незалежно від того, чи це текст, голос чи відео, без втрат стиснення величезних обсягів даних може досягти високого рівня інтелекту. Межа великої моделі визначається як одноступеневою здатністю, так і кількістю виконуваних кроків, при цьому одноступенева здатність пов'язана з кількістю параметрів, а кількість виконуваних кроків - це довжина контексту.
Водночас довгі тексти можуть допомогти моделі точніше оцінювати семантику, зменшувати неоднозначність та підвищувати точність висновків, надаючи більше контексту та деталей.
Технологія довгих текстів може як вирішити деякі проблеми ранніх великих моделей, так і посилити певні функції, а також є ключовою технологією для подальшого впровадження галузевих застосувань. Це знаменує собою перехід розвитку універсальних великих моделей з LLM до Long LLM.
На прикладі новопрезентованого Kimi Chat від "Темної сторони місяця" можна заглянути у вдосконалені функції великих моделей на стадії Long LLM.
Виконання витягання, підсумовування та аналізу ключової інформації з наддовгих текстів
Перетворити статтю безпосередньо на код і мати можливість вносити зміни на його основі
Реалізація рольових ігор, можливість спілкуватися з публічними особами або віртуальними персонажами
Це свідчить про те, що діалогові роботи розвиваються в напрямку професіоналізації, персоналізації та поглиблення, що, можливо, є ще однією важелем для впровадження промислових застосувань та супердодатків.
Ян Чжилин вважає, що ринок великих моделей в країні буде поділений на два табори: toB та toC. У сфері toC з'являться супердодатки на основі самостійно розроблених моделей.
Проте, наразі на ринку ще є великий простір для оптимізації в сценаріях довгих текстових діалогів. Наприклад, відсутність підтримки підключення до мережі для отримання останньої інформації, неможливість призупинити процес генерації для редагування, а також іноді виникають випадки безглуздого мовлення.
Дилема "неможливого трикутника" довгого тексту
У технологіях довгих текстів існує "неможливий трикутник": довжина тексту, увага та обчислювальна потужність.
Чим довше текст, тим важче зібрати достатню увагу і повністю його осмислити
Обмежена увага, короткий текст не може повністю розкрити складну інформацію
Обробка довгих текстів потребує великої обчислювальної потужності, що підвищує витрати
Корінь цієї проблеми полягає в тому, що існуючі великі моделі переважно базуються на структурі Transformer. Найважливіший механізм самоувімкнення, хоча і може подолати обмеження порядку введення, але обчислювальні витрати зростають у квадратній залежності від довжини контексту.
Це становить першу групу суперечностей у "неможливому трикутнику": довжина тексту та увага. Водночас обробка довгих текстів вимагає більше обчислювальної потужності, що створює другу групу суперечностей у контексті нестачі обчислювальної потужності.
Наразі є три основні рішення:
Використовуйте зовнішні інструменти для обробки довгих текстів, розділіть довгий текст на кілька коротких для обробки
Оптимізуйте обчислення механізму самостійної уваги, наприклад, технологія LongLoRA знижує обсяги обчислень через групові обчислення.
Оптимізація моделі, наприклад, LongLLaMA підтримує довші послідовності шляхом доопрацювання існуючої моделі.
Дилема "неможливого трикутника" для довгих текстів, можливо, наразі не має рішення, але це також чітко окреслює шлях досліджень виробників великих моделей: шукати баланс між довжиною тексту, увагою та обчислювальними потужностями, щоб можна було обробляти достатньо інформації, одночасно враховуючи обчислення уваги та витрати на обчислювальні потужності.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
8 лайків
Нагородити
8
5
Поділіться
Прокоментувати
0/400
LiquidationWatcher
· 07-15 12:13
Обчислювальна потужність така дорога, обдурювати людей, як лохів, ще більше.
Переглянути оригіналвідповісти на0
LiquidationAlert
· 07-13 09:58
Подивимось, у кого достатня Обчислювальна потужність.
Довгі тексти стають новим стандартом для великих моделей, а вітчизняні та закордонні гіганти змагаються за прорив у 400 тисяч token.
Довгі текстові можливості стали новою "стандартною характеристикою" компаній великих моделей
Великі моделі швидко покращують свою здатність обробляти довгі тексти, розширюючи обсяг з 4000 токенів до 400 000 токенів. Здається, що здатність обробки довгих текстів стала ще однією новою "фішкою" для виробників великих моделей.
З-за кордону OpenAI кілька разів оновив GPT-3.5, збільшивши довжину контекстного вводу з 4000 до 16000 токенів, а GPT-4 - з 8000 до 32000 токенів. Основний конкурент OpenAI, Anthropic, одноразово підвищив довжину контексту до 100000 токенів. LongLLaMA навіть розширив довжину контексту до 256000 токенів або навіть більше.
Внутрішній ринок, стартап у сфері великих моделей "Темна сторона місяця" представив Kimi Chat, який підтримує введення 200 тисяч китайських ієрогліфів, що приблизно дорівнює 400 тисячам токенів. Технологія LongLoRA, розроблена спільно Гонконгським китайським університетом та MIT, може розширити довжину тексту 7B моделі до 100 тисяч токенів, а 70B моделі до 32 тисяч токенів.
На сьогоднішній день багато провідних компаній і дослідницьких установ, таких як OpenAI, Anthropic, Meta, Moonlight, зосереджені на розширенні довжини контексту як ключовій сфері модернізації. Ці компанії також є популярними об'єктами на ринку капіталу. OpenAI отримала інвестиції майже на 12 мільярдів доларів, оцінка Anthropic може досягти 30 мільярдів доларів, а Moonlight за півроку залучила майже 2 мільярди фінансування.
Виробники великих моделей змагаються за вдосконалення технології довгих текстів, що означає розширення довжини контексту в 100 разів?
На перший погляд, це означає, що модель може вводити довші тексти і має вищу здатність читання. 4000 токенів GPT-3.5 можуть вміщати близько 2000 китайських ієрогліфів, тоді як 400000 токенів Kimi Chat можуть підтримувати введення 200000 китайських ієрогліфів, що цілком достатньо для прочитання довгого роману.
З більш глибокої точки зору, технології довгих текстів сприяють впровадженню великих моделей у фінансовій, судовій, науковій та інших професійних сферах. У цих галузях здатності до узагальнення довгих документів, розуміння прочитаного, відповідей на запитання є базовими потребами, а також напрямками, які терміново потребують інтелектуального вдосконалення.
Однак, подібно до параметрів моделі, довжина тексту не є завжди кращою. Дослідження показують, що підтримка моделі для довшого контекстного вводу не завжди призводить до кращих результатів. Ключовим є те, як модель ефективно використовує контент контексту.
Однак наразі дослідження довжини тексту в Україні та за кордоном ще не досягли "критичної точки". Великі компанії з моделювання продовжують робити прориви, 400 тисяч токенів, можливо, лише початок.
Чому потрібно "крутити" довгі тексти?
Засновник "Темної сторони Місяця" Ян Чжілінь зазначив, що саме через обмеження довжини введення великих моделей виникають труднощі з впровадженням багатьох застосунків. Це також причина, чому великі компанії з моделей нині зосереджуються на технологіях довгих текстів.
Наприклад, у сценах з віртуальними персонажами, через недостатню здатність до обробки довгих текстів, віртуальні персонажі можуть забувати важливу інформацію. При розробці ігор жанру "сценарний вбивця", недостатня довжина введення може призвести до скорочення правил і налаштувань, що не дозволяє досягти очікуваного ефекту. У професійних сферах, таких як право та банківська справа, глибокий аналіз та генерація контенту часто зазнають невдачі.
Довгі тексти також відіграють важливу роль у майбутніх застосунках Agent та AI. Agent повинен спиратися на історичну інформацію для планування та прийняття рішень, а AI-застосунки потребують контексту для підтримки узгодженого та персоналізованого користувацького досвіду.
Ян Чжилин вважає, що незалежно від того, чи це текст, голос чи відео, без втрат стиснення величезних обсягів даних може досягти високого рівня інтелекту. Межа великої моделі визначається як одноступеневою здатністю, так і кількістю виконуваних кроків, при цьому одноступенева здатність пов'язана з кількістю параметрів, а кількість виконуваних кроків - це довжина контексту.
Водночас довгі тексти можуть допомогти моделі точніше оцінювати семантику, зменшувати неоднозначність та підвищувати точність висновків, надаючи більше контексту та деталей.
Технологія довгих текстів може як вирішити деякі проблеми ранніх великих моделей, так і посилити певні функції, а також є ключовою технологією для подальшого впровадження галузевих застосувань. Це знаменує собою перехід розвитку універсальних великих моделей з LLM до Long LLM.
На прикладі новопрезентованого Kimi Chat від "Темної сторони місяця" можна заглянути у вдосконалені функції великих моделей на стадії Long LLM.
Це свідчить про те, що діалогові роботи розвиваються в напрямку професіоналізації, персоналізації та поглиблення, що, можливо, є ще однією важелем для впровадження промислових застосувань та супердодатків.
Ян Чжилин вважає, що ринок великих моделей в країні буде поділений на два табори: toB та toC. У сфері toC з'являться супердодатки на основі самостійно розроблених моделей.
Проте, наразі на ринку ще є великий простір для оптимізації в сценаріях довгих текстових діалогів. Наприклад, відсутність підтримки підключення до мережі для отримання останньої інформації, неможливість призупинити процес генерації для редагування, а також іноді виникають випадки безглуздого мовлення.
Дилема "неможливого трикутника" довгого тексту
У технологіях довгих текстів існує "неможливий трикутник": довжина тексту, увага та обчислювальна потужність.
Корінь цієї проблеми полягає в тому, що існуючі великі моделі переважно базуються на структурі Transformer. Найважливіший механізм самоувімкнення, хоча і може подолати обмеження порядку введення, але обчислювальні витрати зростають у квадратній залежності від довжини контексту.
Це становить першу групу суперечностей у "неможливому трикутнику": довжина тексту та увага. Водночас обробка довгих текстів вимагає більше обчислювальної потужності, що створює другу групу суперечностей у контексті нестачі обчислювальної потужності.
Наразі є три основні рішення:
Використовуйте зовнішні інструменти для обробки довгих текстів, розділіть довгий текст на кілька коротких для обробки
Оптимізуйте обчислення механізму самостійної уваги, наприклад, технологія LongLoRA знижує обсяги обчислень через групові обчислення.
Оптимізація моделі, наприклад, LongLLaMA підтримує довші послідовності шляхом доопрацювання існуючої моделі.
Дилема "неможливого трикутника" для довгих текстів, можливо, наразі не має рішення, але це також чітко окреслює шлях досліджень виробників великих моделей: шукати баланс між довжиною тексту, увагою та обчислювальними потужностями, щоб можна було обробляти достатньо інформації, одночасно враховуючи обчислення уваги та витрати на обчислювальні потужності.