Kemampuan teks panjang menjadi "standar" baru bagi perusahaan model besar
Model besar sedang meningkatkan kemampuan pemrosesan teks panjangnya dengan kecepatan yang mengejutkan, dari 4000 token menjadi 400.000 token. Kemampuan pemrosesan teks panjang tampaknya telah menjadi "standar" baru bagi produsen model besar.
Di luar negeri, OpenAI telah meningkatkan panjang input konteks GPT-3.5 dari 4 ribu menjadi 16 ribu token melalui beberapa pembaruan, dan GPT-4 dari 8 ribu menjadi 32 ribu token. Pesaing utama OpenAI, Anthropic, telah sekaligus meningkatkan panjang konteks menjadi 100 ribu token. LongLLaMA bahkan telah memperluas panjang konteks menjadi 256 ribu token atau lebih.
Di dalam negeri, perusahaan rintisan model besar, Kimi Chat yang diluncurkan oleh Dark Side of the Moon, dapat mendukung input 200.000 karakter Han, setara dengan sekitar 400.000 token. Teknologi LongLoRA yang dikembangkan bersama oleh Universitas Cina Hong Kong dan MIT dapat memperluas panjang teks model 7B hingga 100.000 token, dan model 70B hingga 32.000 token.
Saat ini, banyak perusahaan model besar terkemuka dan lembaga penelitian seperti OpenAI, Anthropic, Meta, dan Dark Side of the Moon menjadikan perluasan panjang konteks sebagai fokus peningkatan. Perusahaan-perusahaan ini juga merupakan objek populer yang dicari di pasar modal. OpenAI telah mendapatkan investasi hampir 12 miliar USD, valuasi Anthropic diperkirakan mencapai 30 miliar USD, dan Dark Side of the Moon berhasil menyelesaikan pembiayaan hampir 2 miliar RMB hanya dalam waktu enam bulan.
Perusahaan model besar bersaing untuk mengatasi teknologi teks panjang, apa artinya memperluas panjang konteks 100 kali?
Secara permukaan, ini berarti model dapat memasukkan teks yang lebih panjang dan memiliki kemampuan membaca yang lebih baik. 4000 token GPT-3.5 hanya dapat memasukkan sekitar 2000 karakter Han, sedangkan 400.000 token Kimi Chat dapat mendukung masukan 200.000 karakter Han, cukup untuk membaca sebuah novel panjang.
Dari sudut pandang yang lebih dalam, teknologi teks panjang sedang mendorong penerapan model besar di bidang profesional seperti keuangan, peradilan, dan penelitian ilmiah. Di bidang-bidang ini, kemampuan ringkasan dokumen panjang, pemahaman bacaan, dan tanya jawab adalah kebutuhan dasar, serta arah yang mendesak untuk peningkatan kecerdasan.
Namun, mirip dengan parameter model, panjang teks tidak selalu lebih baik. Penelitian menunjukkan bahwa model yang mendukung input konteks yang lebih panjang tidak langsung sama dengan hasil yang lebih baik. Kuncinya adalah bagaimana model dapat memanfaatkan konten konteks dengan efektif.
Namun, saat ini eksplorasi panjang teks di dalam dan luar negeri belum mencapai "titik kritis". Perusahaan model besar masih terus berinovasi, 400 ribu token mungkin hanya merupakan awal.
Mengapa "menggulung" teks panjang?
Pendiri sisi gelap bulan, Yang Zhilin, menyatakan bahwa keterbatasan panjang input model besar adalah penyebab dari banyak kesulitan dalam penerapan. Ini juga menjadi alasan mengapa perusahaan model besar saat ini fokus pada teknologi teks panjang.
Misalnya, dalam skenario karakter virtual, karena kemampuan teks yang panjang kurang, karakter virtual akan melupakan informasi penting. Saat mengembangkan permainan jenis skrip pembunuhan, panjang input yang tidak cukup dapat menyebabkan aturan dan pengaturan dipotong, sehingga tidak mencapai efek yang diharapkan. Dalam bidang profesional seperti hukum dan perbankan, analisis dan generasi konten yang mendalam sering kali terhambat.
Teks panjang juga memainkan peran penting dalam aplikasi agen dan AI yang asli di masa depan. Agen perlu bergantung pada informasi sejarah untuk merencanakan dan mengambil keputusan, aplikasi AI yang asli memerlukan konteks untuk mempertahankan pengalaman pengguna yang koheren dan personal.
Yang Zhilin berpendapat bahwa, baik itu teks, suara, atau video, kompresi tanpa kehilangan untuk data dalam jumlah besar dapat mencapai tingkat kecerdasan yang tinggi. Batas atas model besar ditentukan oleh kemampuan langkah tunggal dan jumlah langkah eksekusi, di mana kemampuan langkah tunggal berkaitan dengan jumlah parameter, dan jumlah langkah eksekusi adalah panjang konteks.
Pada saat yang sama, teks panjang dapat memberikan lebih banyak konteks dan informasi detail, membantu model untuk lebih akurat dalam menilai makna, mengurangi ambiguitas, dan meningkatkan akurasi penalaran.
Teknologi teks panjang tidak hanya dapat menyelesaikan beberapa masalah awal model besar, meningkatkan fungsi tertentu, tetapi juga merupakan teknologi kunci untuk mendorong aplikasi industri ke tahap yang lebih lanjut. Ini menandakan bahwa pengembangan model besar umum telah memasuki tahap baru dari LLM ke Long LLM.
Sebagai contoh Kimi Chat yang baru dirilis oleh sisi gelap bulan, kita dapat melihat peningkatan fungsionalitas model besar tahap Long LLM:
Ekstraksi, ringkasan, dan analisis informasi kunci dari teks yang sangat panjang
Mengubah makalah langsung menjadi kode, dan dapat melakukan modifikasi berdasarkan itu
Mewujudkan peran bermain, dapat berdialog dengan tokoh publik atau karakter virtual
Ini menunjukkan bahwa chatbot sedang berkembang ke arah spesialisasi, personalisasi, dan kedalaman, yang mungkin merupakan alat lain untuk mendorong aplikasi industri dan penerapan super APP.
Yang Zhiling berpendapat bahwa pasar model besar di dalam negeri akan terbagi menjadi dua kubu, yaitu toB dan toC. Di bidang toC, akan muncul aplikasi super yang berbasis pada model yang dikembangkan sendiri.
Namun, saat ini masih ada banyak ruang untuk meningkatkan skenario percakapan teks panjang di pasar. Misalnya, tidak mendukung koneksi internet untuk mendapatkan informasi terbaru, proses pembuatan tidak dapat dijeda untuk diubah, dan masih kadang-kadang muncul situasi omong kosong.
Dilema "trik tidak mungkin" dari teks panjang
Dalam teknologi teks panjang, terdapat dilema "segitiga tak mungkin" antara panjang teks, perhatian, dan kekuatan komputasi:
Semakin panjang teks, semakin sulit untuk menarik perhatian yang cukup, sulit untuk mencerna sepenuhnya.
Perhatian terbatas, teks pendek tidak dapat sepenuhnya mengartikan informasi yang kompleks
Mengolah teks panjang membutuhkan banyak daya komputasi, meningkatkan biaya
Akar dari dilema ini terletak pada model besar yang ada saat ini yang sebagian besar berbasis pada struktur Transformer. Meskipun mekanisme perhatian diri yang paling penting dapat melampaui batasan urutan masukan, beban perhitungannya akan meningkat secara kuadrat seiring dengan panjang konteks.
Ini membentuk kelompok pertama kontradiksi dalam "segitiga ketidakmungkinan": panjang teks dan perhatian. Sementara itu, menangani teks panjang membutuhkan lebih banyak daya komputasi, yang menciptakan kelompok kedua kontradiksi dengan keadaan kelangkaan daya komputasi.
Saat ini ada tiga solusi utama:
Menggunakan alat eksternal untuk membantu memproses teks panjang, membagi teks panjang menjadi beberapa teks pendek untuk diproses.
Mengoptimalkan perhitungan mekanisme perhatian diri, seperti teknologi LongLoRA yang mengurangi beban perhitungan melalui perhitungan kelompok.
Mengoptimalkan model, seperti LongLLaMA yang mendukung urutan lebih panjang melalui penyesuaian model yang ada.
Dilema "segitiga ketidakmungkinan" untuk teks panjang mungkin tidak memiliki solusi sementara, tetapi ini juga menegaskan jalur eksplorasi bagi penyedia model besar: mencari keseimbangan antara panjang dan pendeknya teks, perhatian, dan daya komputasi, sehingga dapat memproses informasi yang cukup sambil memperhatikan perhitungan perhatian dan biaya daya komputasi.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
8 Suka
Hadiah
8
5
Bagikan
Komentar
0/400
LiquidationWatcher
· 07-15 12:13
Daya Komputasi begitu mahal, dianggap bodoh masih lebih baik.
Teks panjang menjadi standar baru model besar, raksasa domestik dan internasional berlomba-lomba untuk menembus 400.000 token.
Kemampuan teks panjang menjadi "standar" baru bagi perusahaan model besar
Model besar sedang meningkatkan kemampuan pemrosesan teks panjangnya dengan kecepatan yang mengejutkan, dari 4000 token menjadi 400.000 token. Kemampuan pemrosesan teks panjang tampaknya telah menjadi "standar" baru bagi produsen model besar.
Di luar negeri, OpenAI telah meningkatkan panjang input konteks GPT-3.5 dari 4 ribu menjadi 16 ribu token melalui beberapa pembaruan, dan GPT-4 dari 8 ribu menjadi 32 ribu token. Pesaing utama OpenAI, Anthropic, telah sekaligus meningkatkan panjang konteks menjadi 100 ribu token. LongLLaMA bahkan telah memperluas panjang konteks menjadi 256 ribu token atau lebih.
Di dalam negeri, perusahaan rintisan model besar, Kimi Chat yang diluncurkan oleh Dark Side of the Moon, dapat mendukung input 200.000 karakter Han, setara dengan sekitar 400.000 token. Teknologi LongLoRA yang dikembangkan bersama oleh Universitas Cina Hong Kong dan MIT dapat memperluas panjang teks model 7B hingga 100.000 token, dan model 70B hingga 32.000 token.
Saat ini, banyak perusahaan model besar terkemuka dan lembaga penelitian seperti OpenAI, Anthropic, Meta, dan Dark Side of the Moon menjadikan perluasan panjang konteks sebagai fokus peningkatan. Perusahaan-perusahaan ini juga merupakan objek populer yang dicari di pasar modal. OpenAI telah mendapatkan investasi hampir 12 miliar USD, valuasi Anthropic diperkirakan mencapai 30 miliar USD, dan Dark Side of the Moon berhasil menyelesaikan pembiayaan hampir 2 miliar RMB hanya dalam waktu enam bulan.
Perusahaan model besar bersaing untuk mengatasi teknologi teks panjang, apa artinya memperluas panjang konteks 100 kali?
Secara permukaan, ini berarti model dapat memasukkan teks yang lebih panjang dan memiliki kemampuan membaca yang lebih baik. 4000 token GPT-3.5 hanya dapat memasukkan sekitar 2000 karakter Han, sedangkan 400.000 token Kimi Chat dapat mendukung masukan 200.000 karakter Han, cukup untuk membaca sebuah novel panjang.
Dari sudut pandang yang lebih dalam, teknologi teks panjang sedang mendorong penerapan model besar di bidang profesional seperti keuangan, peradilan, dan penelitian ilmiah. Di bidang-bidang ini, kemampuan ringkasan dokumen panjang, pemahaman bacaan, dan tanya jawab adalah kebutuhan dasar, serta arah yang mendesak untuk peningkatan kecerdasan.
Namun, mirip dengan parameter model, panjang teks tidak selalu lebih baik. Penelitian menunjukkan bahwa model yang mendukung input konteks yang lebih panjang tidak langsung sama dengan hasil yang lebih baik. Kuncinya adalah bagaimana model dapat memanfaatkan konten konteks dengan efektif.
Namun, saat ini eksplorasi panjang teks di dalam dan luar negeri belum mencapai "titik kritis". Perusahaan model besar masih terus berinovasi, 400 ribu token mungkin hanya merupakan awal.
Mengapa "menggulung" teks panjang?
Pendiri sisi gelap bulan, Yang Zhilin, menyatakan bahwa keterbatasan panjang input model besar adalah penyebab dari banyak kesulitan dalam penerapan. Ini juga menjadi alasan mengapa perusahaan model besar saat ini fokus pada teknologi teks panjang.
Misalnya, dalam skenario karakter virtual, karena kemampuan teks yang panjang kurang, karakter virtual akan melupakan informasi penting. Saat mengembangkan permainan jenis skrip pembunuhan, panjang input yang tidak cukup dapat menyebabkan aturan dan pengaturan dipotong, sehingga tidak mencapai efek yang diharapkan. Dalam bidang profesional seperti hukum dan perbankan, analisis dan generasi konten yang mendalam sering kali terhambat.
Teks panjang juga memainkan peran penting dalam aplikasi agen dan AI yang asli di masa depan. Agen perlu bergantung pada informasi sejarah untuk merencanakan dan mengambil keputusan, aplikasi AI yang asli memerlukan konteks untuk mempertahankan pengalaman pengguna yang koheren dan personal.
Yang Zhilin berpendapat bahwa, baik itu teks, suara, atau video, kompresi tanpa kehilangan untuk data dalam jumlah besar dapat mencapai tingkat kecerdasan yang tinggi. Batas atas model besar ditentukan oleh kemampuan langkah tunggal dan jumlah langkah eksekusi, di mana kemampuan langkah tunggal berkaitan dengan jumlah parameter, dan jumlah langkah eksekusi adalah panjang konteks.
Pada saat yang sama, teks panjang dapat memberikan lebih banyak konteks dan informasi detail, membantu model untuk lebih akurat dalam menilai makna, mengurangi ambiguitas, dan meningkatkan akurasi penalaran.
Teknologi teks panjang tidak hanya dapat menyelesaikan beberapa masalah awal model besar, meningkatkan fungsi tertentu, tetapi juga merupakan teknologi kunci untuk mendorong aplikasi industri ke tahap yang lebih lanjut. Ini menandakan bahwa pengembangan model besar umum telah memasuki tahap baru dari LLM ke Long LLM.
Sebagai contoh Kimi Chat yang baru dirilis oleh sisi gelap bulan, kita dapat melihat peningkatan fungsionalitas model besar tahap Long LLM:
Ini menunjukkan bahwa chatbot sedang berkembang ke arah spesialisasi, personalisasi, dan kedalaman, yang mungkin merupakan alat lain untuk mendorong aplikasi industri dan penerapan super APP.
Yang Zhiling berpendapat bahwa pasar model besar di dalam negeri akan terbagi menjadi dua kubu, yaitu toB dan toC. Di bidang toC, akan muncul aplikasi super yang berbasis pada model yang dikembangkan sendiri.
Namun, saat ini masih ada banyak ruang untuk meningkatkan skenario percakapan teks panjang di pasar. Misalnya, tidak mendukung koneksi internet untuk mendapatkan informasi terbaru, proses pembuatan tidak dapat dijeda untuk diubah, dan masih kadang-kadang muncul situasi omong kosong.
Dilema "trik tidak mungkin" dari teks panjang
Dalam teknologi teks panjang, terdapat dilema "segitiga tak mungkin" antara panjang teks, perhatian, dan kekuatan komputasi:
Akar dari dilema ini terletak pada model besar yang ada saat ini yang sebagian besar berbasis pada struktur Transformer. Meskipun mekanisme perhatian diri yang paling penting dapat melampaui batasan urutan masukan, beban perhitungannya akan meningkat secara kuadrat seiring dengan panjang konteks.
Ini membentuk kelompok pertama kontradiksi dalam "segitiga ketidakmungkinan": panjang teks dan perhatian. Sementara itu, menangani teks panjang membutuhkan lebih banyak daya komputasi, yang menciptakan kelompok kedua kontradiksi dengan keadaan kelangkaan daya komputasi.
Saat ini ada tiga solusi utama:
Menggunakan alat eksternal untuk membantu memproses teks panjang, membagi teks panjang menjadi beberapa teks pendek untuk diproses.
Mengoptimalkan perhitungan mekanisme perhatian diri, seperti teknologi LongLoRA yang mengurangi beban perhitungan melalui perhitungan kelompok.
Mengoptimalkan model, seperti LongLLaMA yang mendukung urutan lebih panjang melalui penyesuaian model yang ada.
Dilema "segitiga ketidakmungkinan" untuk teks panjang mungkin tidak memiliki solusi sementara, tetapi ini juga menegaskan jalur eksplorasi bagi penyedia model besar: mencari keseimbangan antara panjang dan pendeknya teks, perhatian, dan daya komputasi, sehingga dapat memproses informasi yang cukup sambil memperhatikan perhitungan perhatian dan biaya daya komputasi.