Uzun metin yeteneği büyük model şirketlerinin yeni "standartı"
Büyük modeller, uzun metinleri işleme yeteneklerini 4000 token'dan 400.000 token'a çıkararak inanılmaz bir hızla geliştirmektedir. Uzun metin işleme yeteneği, büyük model üreticilerinin bir başka yeni "standart" donanımı haline gelmiş gibi görünmektedir.
Yurt dışında, OpenAI, GPT-3.5'in bağlam giriş uzunluğunu 4 bin token'dan 16 bin token'a, GPT-4'ü ise 8 bin token'dan 32 bin token'a yükseltti. OpenAI'nin ana rakibi Anthropic, bağlam uzunluğunu bir seferde 100 bin token'a çıkardı. LongLLaMA ise bağlam uzunluğunu 256 bin token'a hatta daha fazlasına genişletti.
Yerli tarafta, büyük model girişimi Ay'ın Karanlığı tarafından piyasaya sürülen Kimi Chat, 200.000 Çince karakter girişi desteklemektedir, bu da yaklaşık 400.000 token'a denk gelmektedir. Hong Kong Çince Üniversitesi ve MIT'nin ortak geliştirdiği LongLoRA teknolojisi, 7B modelinin metin uzunluğunu 100.000 token'a, 70B modelini ise 32.000 token'a kadar genişletebilmektedir.
Şu anda, OpenAI, Anthropic, Meta, Ay'ın Karanlık Yüzü gibi birçok üst düzey büyük model şirketi ve araştırma kurumu, bağlam uzunluğunu genişletmeyi bir yükseltme odak noktası olarak belirlemiştir. Bu şirketler, sermaye piyasalarının gözde nesneleri haline gelmiştir. OpenAI, yaklaşık 12 milyar dolar yatırım alırken, Anthropic'in değeri 30 milyar dolara ulaşması beklenmektedir, Ay'ın Karanlık Yüzü ise sadece altı ay içinde yaklaşık 2 milyar yuan finansman sağlamıştır.
Büyük model üreticileri, uzun metin teknolojisini fethetmek için birbirleriyle yarışıyor; bağlam uzunluğunu 100 kat artırmanın anlamı nedir?
Yüzeyde, bu modelin daha uzun metinleri girebileceği ve okuma yeteneğinin daha güçlü olduğu anlamına geliyor. GPT-3.5'in 4000 token'ı yalnızca yaklaşık 2000 Çince karakter girebilirken, Kimi Chat'in 400.000 token'ı 200.000 Çince karakter girmeyi destekleyerek, uzun bir romanı okumak için yeterlidir.
Daha derin bir bakış açısıyla, uzun metin teknolojisi büyük modellerin finans, adalet, araştırma gibi uzmanlık alanlarında uygulanmasını destekliyor. Bu alanlarda, uzun belgelerin özetlenmesi, okuma anlayışı ve soru-cevap gibi yetenekler temel ihtiyaçtır ve akıllı bir şekilde yükseltilmesi gereken bir yön olarak ön plana çıkmaktadır.
Ancak, model parametrelerinde olduğu gibi, metin uzunluğu da her zaman daha uzun olmanın daha iyi olduğu anlamına gelmez. Araştırmalar, modelin daha uzun bağlam girdilerini desteklemesinin doğrudan daha iyi bir sonuçla eşdeğer olmadığını göstermektedir. Anahtar, modelin bağlam içeriğini ne kadar etkili bir şekilde kullanabildiğidir.
Ancak, şu anda yurtiçi ve yurtdışında metin uzunluğu keşifleri henüz "kritik nokta" ya ulaşmadı. Büyük model şirketleri hala sürekli olarak sınırları zorluyor, 400.000 token belki de sadece bir başlangıç.
Neden uzun metinleri "sarmalıyız"?
Ay'ın karanlık yüzü kurucusu Yang Zhilin, büyük model girdi uzunluğunun sınırlı olmasının birçok uygulamanın hayata geçme zorluğunu yarattığını belirtti. Bu da büyük model şirketlerinin şu anda uzun metin teknolojisine odaklanmasının nedenidir.
Örneğin, sanal karakter sahnelerinde, uzun metin yetenekleri yetersiz olduğunda, sanal karakter önemli bilgileri unutabilir. Senaryo tabanlı oyunlar geliştirirken, giriş uzunluğunun yetersiz olması kuralların ve ayarların kısaltılmasına neden olarak beklenen etkiye ulaşamamasına yol açabilir. Hukuk, bankacılık gibi uzmanlık alanlarında derin içerik analizi ve üretimi sık sık engellenir.
Uzun metinler, gelecekteki Ajans ve AI yerel uygulamalarında da önemli bir rol oynamaktadır. Ajans, planlama ve karar verme için geçmiş bilgilere dayanırken, AI yerel uygulamaları da tutarlı ve kişiselleştirilmiş bir kullanıcı deneyimi sağlamak için bağlama ihtiyaç duyar.
Yang Zhilin, metin, ses veya video olsun, büyük veri kümesinin kayıpsız sıkıştırmasının yüksek derecede zeka sağlayabileceğini düşünüyor. Büyük modellerin üst sınırı, tek adım yeteneği ve yürütme adım sayısı tarafından belirlenir; burada tek adım yeteneği parametre miktarıyla ilişkilidir, yürütme adım sayısı ise bağlam uzunluğudur.
Aynı zamanda, uzun metinler daha fazla bağlam ve detay bilgisi sağlayarak modelin anlamı daha doğru bir şekilde değerlendirmesine yardımcı olabilir, belirsizliği azaltır ve çıkarım doğruluğunu artırır.
Uzun metin teknolojisi, büyük modellerin erken dönemlerindeki bazı sorunları çözebilir, belirli işlevleri artırabilir ve ayrıca endüstri uygulamalarının hayata geçirilmesini ilerletmek için anahtar bir teknolojidir. Bu, genel büyük model gelişiminin LLM'den Long LLM'ye yeni bir aşamaya girdiğini göstermektedir.
Ay’ın karanlık yüzü yeni yayımlanan Kimi Chat örneğinde, Long LLM aşaması büyük modelinin yükseltme işlevine bir göz atabiliriz:
Uzun metinlerden anahtar bilgilerin çıkarılması, özetlenmesi ve analizi
Makaleyi doğrudan koda dönüştürmek ve bunun üzerinde değişiklik yapabilmek
Rol yapma gerçekleştirir, kamu figürleri veya sanal karakterlerle diyalog kurabilirsiniz.
Bu, sohbet robotlarının uzmanlaşma, kişiselleştirme ve derinleşme yönünde geliştiğini göstermektedir; bu belki de endüstriyel uygulamaları ve süper uygulamaların hayata geçirilmesini sağlayacak bir başka araçtır.
Yang Zhilin, yerli büyük model pazarının toB ve toC olarak iki cepheye ayrılacağını düşünüyor. toC alanında, kendine ait modeller üzerine inşa edilmiş süper uygulamalar ortaya çıkacak.
Ancak, şu anda piyasada uzun metinli diyalog senaryolarında hala büyük bir iyileştirme alanı var. Örneğin, en son bilgileri almak için çevrimiçi desteklenmemesi, üretim sürecinin durdurulup düzenlenememesi, hala zaman zaman saçmalama durumlarının ortaya çıkması gibi.
Uzun Metinlerin "İmkansız Üçgen" Çelişkisi
Uzun metin teknolojisinde, metin uzunluğu, dikkat ve hesaplama gücü arasında bir "imkansız üçgen" zorluğu bulunmaktadır:
Metin ne kadar uzunsa, dikkat toplamak o kadar zorlaşır, tam olarak sindirmek de güçleşir.
Dikkat sınırlıdır, kısa metin karmaşık bilgileri tam olarak anlamak için yeterli değildir.
Uzun metinlerin işlenmesi büyük miktarda hesap gücü gerektirir, maliyetleri artırır.
Bu sıkıntının kaynağı, mevcut büyük modellerin esasen Transformer yapısına dayanmasıdır. En önemli öz dikkat mekanizması, giriş sırasının kısıtlamalarını aşabilse de, hesaplama yükü bağlam uzunluğuyla birlikte kare oranında artmaktadır.
Bu, "imkansız üçgen" içindeki ilk çelişki grubunu oluşturur: metin uzunluğu ve dikkat. Aynı zamanda, uzun metinleri işlemek daha fazla hesaplama gücü gerektirir ve bu, hesaplama gücünün kıt olduğu mevcut durumla ikinci bir çelişki grubu oluşturur.
Şu anda üç ana çözüm bulunmaktadır:
Uzun metinleri işlemek için harici araçları kullanarak, uzun metni birden fazla kısa metne bölün.
Özelleştirilmiş dikkat mekanizması hesaplamalarını optimize etme, LongLoRA teknolojisi gibi gruplama hesaplamalarıyla hesaplama yükünü azaltma.
Modelleri optimize etme, örneğin LongLLaMA mevcut modelleri ince ayar yaparak daha uzun dizileri destekler.
Uzun metinlerin "imkansız üçgen" zorluğu belki geçici olarak çözülmez, ancak bu, büyük model sağlayıcılarının keşif yolunu netleştiriyor: metin uzunluğu, dikkat ve hesaplama gücü arasında bir denge arayarak yeterli bilgiyi işleyebilmek, aynı zamanda dikkat hesaplaması ve hesaplama gücü maliyetini göz önünde bulundurmak.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
8 Likes
Reward
8
5
Share
Comment
0/400
LiquidationWatcher
· 07-15 12:13
Bilgi İşlem Gücü bu kadar pahalıyken, insanları enayi yerine koymak fena değil.
Uzun metinler büyük modelin yeni standartı haline geldi, yurtiçi ve yurtdışındaki devler 400.000 token aşmak için yarışıyor.
Uzun metin yeteneği büyük model şirketlerinin yeni "standartı"
Büyük modeller, uzun metinleri işleme yeteneklerini 4000 token'dan 400.000 token'a çıkararak inanılmaz bir hızla geliştirmektedir. Uzun metin işleme yeteneği, büyük model üreticilerinin bir başka yeni "standart" donanımı haline gelmiş gibi görünmektedir.
Yurt dışında, OpenAI, GPT-3.5'in bağlam giriş uzunluğunu 4 bin token'dan 16 bin token'a, GPT-4'ü ise 8 bin token'dan 32 bin token'a yükseltti. OpenAI'nin ana rakibi Anthropic, bağlam uzunluğunu bir seferde 100 bin token'a çıkardı. LongLLaMA ise bağlam uzunluğunu 256 bin token'a hatta daha fazlasına genişletti.
Yerli tarafta, büyük model girişimi Ay'ın Karanlığı tarafından piyasaya sürülen Kimi Chat, 200.000 Çince karakter girişi desteklemektedir, bu da yaklaşık 400.000 token'a denk gelmektedir. Hong Kong Çince Üniversitesi ve MIT'nin ortak geliştirdiği LongLoRA teknolojisi, 7B modelinin metin uzunluğunu 100.000 token'a, 70B modelini ise 32.000 token'a kadar genişletebilmektedir.
Şu anda, OpenAI, Anthropic, Meta, Ay'ın Karanlık Yüzü gibi birçok üst düzey büyük model şirketi ve araştırma kurumu, bağlam uzunluğunu genişletmeyi bir yükseltme odak noktası olarak belirlemiştir. Bu şirketler, sermaye piyasalarının gözde nesneleri haline gelmiştir. OpenAI, yaklaşık 12 milyar dolar yatırım alırken, Anthropic'in değeri 30 milyar dolara ulaşması beklenmektedir, Ay'ın Karanlık Yüzü ise sadece altı ay içinde yaklaşık 2 milyar yuan finansman sağlamıştır.
Büyük model üreticileri, uzun metin teknolojisini fethetmek için birbirleriyle yarışıyor; bağlam uzunluğunu 100 kat artırmanın anlamı nedir?
Yüzeyde, bu modelin daha uzun metinleri girebileceği ve okuma yeteneğinin daha güçlü olduğu anlamına geliyor. GPT-3.5'in 4000 token'ı yalnızca yaklaşık 2000 Çince karakter girebilirken, Kimi Chat'in 400.000 token'ı 200.000 Çince karakter girmeyi destekleyerek, uzun bir romanı okumak için yeterlidir.
Daha derin bir bakış açısıyla, uzun metin teknolojisi büyük modellerin finans, adalet, araştırma gibi uzmanlık alanlarında uygulanmasını destekliyor. Bu alanlarda, uzun belgelerin özetlenmesi, okuma anlayışı ve soru-cevap gibi yetenekler temel ihtiyaçtır ve akıllı bir şekilde yükseltilmesi gereken bir yön olarak ön plana çıkmaktadır.
Ancak, model parametrelerinde olduğu gibi, metin uzunluğu da her zaman daha uzun olmanın daha iyi olduğu anlamına gelmez. Araştırmalar, modelin daha uzun bağlam girdilerini desteklemesinin doğrudan daha iyi bir sonuçla eşdeğer olmadığını göstermektedir. Anahtar, modelin bağlam içeriğini ne kadar etkili bir şekilde kullanabildiğidir.
Ancak, şu anda yurtiçi ve yurtdışında metin uzunluğu keşifleri henüz "kritik nokta" ya ulaşmadı. Büyük model şirketleri hala sürekli olarak sınırları zorluyor, 400.000 token belki de sadece bir başlangıç.
Neden uzun metinleri "sarmalıyız"?
Ay'ın karanlık yüzü kurucusu Yang Zhilin, büyük model girdi uzunluğunun sınırlı olmasının birçok uygulamanın hayata geçme zorluğunu yarattığını belirtti. Bu da büyük model şirketlerinin şu anda uzun metin teknolojisine odaklanmasının nedenidir.
Örneğin, sanal karakter sahnelerinde, uzun metin yetenekleri yetersiz olduğunda, sanal karakter önemli bilgileri unutabilir. Senaryo tabanlı oyunlar geliştirirken, giriş uzunluğunun yetersiz olması kuralların ve ayarların kısaltılmasına neden olarak beklenen etkiye ulaşamamasına yol açabilir. Hukuk, bankacılık gibi uzmanlık alanlarında derin içerik analizi ve üretimi sık sık engellenir.
Uzun metinler, gelecekteki Ajans ve AI yerel uygulamalarında da önemli bir rol oynamaktadır. Ajans, planlama ve karar verme için geçmiş bilgilere dayanırken, AI yerel uygulamaları da tutarlı ve kişiselleştirilmiş bir kullanıcı deneyimi sağlamak için bağlama ihtiyaç duyar.
Yang Zhilin, metin, ses veya video olsun, büyük veri kümesinin kayıpsız sıkıştırmasının yüksek derecede zeka sağlayabileceğini düşünüyor. Büyük modellerin üst sınırı, tek adım yeteneği ve yürütme adım sayısı tarafından belirlenir; burada tek adım yeteneği parametre miktarıyla ilişkilidir, yürütme adım sayısı ise bağlam uzunluğudur.
Aynı zamanda, uzun metinler daha fazla bağlam ve detay bilgisi sağlayarak modelin anlamı daha doğru bir şekilde değerlendirmesine yardımcı olabilir, belirsizliği azaltır ve çıkarım doğruluğunu artırır.
Uzun metin teknolojisi, büyük modellerin erken dönemlerindeki bazı sorunları çözebilir, belirli işlevleri artırabilir ve ayrıca endüstri uygulamalarının hayata geçirilmesini ilerletmek için anahtar bir teknolojidir. Bu, genel büyük model gelişiminin LLM'den Long LLM'ye yeni bir aşamaya girdiğini göstermektedir.
Ay’ın karanlık yüzü yeni yayımlanan Kimi Chat örneğinde, Long LLM aşaması büyük modelinin yükseltme işlevine bir göz atabiliriz:
Bu, sohbet robotlarının uzmanlaşma, kişiselleştirme ve derinleşme yönünde geliştiğini göstermektedir; bu belki de endüstriyel uygulamaları ve süper uygulamaların hayata geçirilmesini sağlayacak bir başka araçtır.
Yang Zhilin, yerli büyük model pazarının toB ve toC olarak iki cepheye ayrılacağını düşünüyor. toC alanında, kendine ait modeller üzerine inşa edilmiş süper uygulamalar ortaya çıkacak.
Ancak, şu anda piyasada uzun metinli diyalog senaryolarında hala büyük bir iyileştirme alanı var. Örneğin, en son bilgileri almak için çevrimiçi desteklenmemesi, üretim sürecinin durdurulup düzenlenememesi, hala zaman zaman saçmalama durumlarının ortaya çıkması gibi.
Uzun Metinlerin "İmkansız Üçgen" Çelişkisi
Uzun metin teknolojisinde, metin uzunluğu, dikkat ve hesaplama gücü arasında bir "imkansız üçgen" zorluğu bulunmaktadır:
Bu sıkıntının kaynağı, mevcut büyük modellerin esasen Transformer yapısına dayanmasıdır. En önemli öz dikkat mekanizması, giriş sırasının kısıtlamalarını aşabilse de, hesaplama yükü bağlam uzunluğuyla birlikte kare oranında artmaktadır.
Bu, "imkansız üçgen" içindeki ilk çelişki grubunu oluşturur: metin uzunluğu ve dikkat. Aynı zamanda, uzun metinleri işlemek daha fazla hesaplama gücü gerektirir ve bu, hesaplama gücünün kıt olduğu mevcut durumla ikinci bir çelişki grubu oluşturur.
Şu anda üç ana çözüm bulunmaktadır:
Uzun metinleri işlemek için harici araçları kullanarak, uzun metni birden fazla kısa metne bölün.
Özelleştirilmiş dikkat mekanizması hesaplamalarını optimize etme, LongLoRA teknolojisi gibi gruplama hesaplamalarıyla hesaplama yükünü azaltma.
Modelleri optimize etme, örneğin LongLLaMA mevcut modelleri ince ayar yaparak daha uzun dizileri destekler.
Uzun metinlerin "imkansız üçgen" zorluğu belki geçici olarak çözülmez, ancak bu, büyük model sağlayıcılarının keşif yolunu netleştiriyor: metin uzunluğu, dikkat ve hesaplama gücü arasında bir denge arayarak yeterli bilgiyi işleyebilmek, aynı zamanda dikkat hesaplaması ve hesaplama gücü maliyetini göz önünde bulundurmak.