Văn bản dài trở thành tiêu chuẩn mới cho mô hình lớn, các ông lớn trong nước và quốc tế cạnh tranh để vượt qua 400.000 token.

robot
Đang tạo bản tóm tắt

Khả năng văn bản dài trở thành "tiêu chuẩn" mới của các công ty mô hình lớn

Mô hình lớn đang nâng cao khả năng xử lý văn bản dài với tốc độ đáng kinh ngạc, từ 4000 token mở rộng lên 400.000 token. Khả năng xử lý văn bản dài dường như đã trở thành một "tiêu chuẩn" mới cho các nhà cung cấp mô hình lớn.

Ở nước ngoài, OpenAI đã nhiều lần nâng cấp độ dài đầu vào ngữ cảnh của GPT-3.5 từ 4.000 lên 16.000 token, GPT-4 từ 8.000 lên 32.000 token. Đối thủ chính của OpenAI là Anthropic đã nâng độ dài ngữ cảnh lên 100.000 token một lần. LongLLaMA thậm chí còn mở rộng độ dài ngữ cảnh lên 256.000 token hoặc hơn.

Trong nước, công ty khởi nghiệp mô hình lớn 月之暗面 đã ra mắt Kimi Chat, hỗ trợ nhập 200.000 ký tự Hán, tương đương khoảng 400.000 token. Công nghệ LongLoRA do Đại học Hồng Kông và MIT hợp tác phát triển có thể mở rộng độ dài văn bản của mô hình 7B lên 100.000 token và mô hình 70B lên 32.000 token.

Hiện tại, nhiều công ty và tổ chức nghiên cứu hàng đầu về mô hình lớn như OpenAI, Anthropic, Meta, và Mặt Trăng Tối Đã chọn mở rộng chiều dài ngữ cảnh làm trọng tâm nâng cấp. Những công ty này cũng là những đối tượng được thị trường vốn ưa chuộng. OpenAI đã nhận được gần 12 tỷ USD đầu tư, giá trị của Anthropic dự kiến sẽ đạt 30 tỷ USD, Mặt Trăng Tối trong vòng nửa năm đã hoàn thành gần 2 tỷ nhân dân tệ huy động vốn.

Các nhà sản xuất mô hình lớn đang cạnh tranh để chinh phục công nghệ văn bản dài, việc mở rộng độ dài ngữ cảnh gấp 100 lần có nghĩa là gì?

Bề ngoài, điều này có nghĩa là mô hình có thể nhập văn bản dài hơn và có khả năng đọc tốt hơn. 4000 token của GPT-3.5 chỉ có thể nhập khoảng 2000 chữ Hán, trong khi 400000 token của Kimi Chat có thể hỗ trợ nhập 200000 chữ Hán, đủ để đọc một tiểu thuyết dài.

Xét từ một góc độ sâu hơn, công nghệ văn bản dài đang thúc đẩy việc ứng dụng các mô hình lớn trong các lĩnh vực chuyên môn như tài chính, tư pháp và nghiên cứu khoa học. Trong những lĩnh vực này, khả năng tóm tắt tài liệu dài, hiểu đọc và trả lời câu hỏi là những nhu cầu cơ bản, đồng thời cũng là hướng cần được nâng cấp thông minh.

Tuy nhiên, tương tự như tham số mô hình, độ dài văn bản không phải lúc nào cũng tốt hơn. Nghiên cứu cho thấy, việc mô hình hỗ trợ đầu vào ngữ cảnh dài hơn không trực tiếp đồng nghĩa với việc hiệu quả hơn. Chìa khóa nằm ở cách mà mô hình sử dụng hiệu quả nội dung ngữ cảnh.

Tuy nhiên, hiện tại việc khám phá độ dài văn bản trong và ngoài nước vẫn chưa đạt đến "điểm tới hạn". Các công ty mô hình lớn vẫn đang không ngừng vượt qua, 400.000 token có thể chỉ là một khởi đầu.

Tại sao phải "cuộn" văn bản dài?

Người sáng lập Dark Side of the Moon, Yang Zhilin, cho biết chính vì độ dài đầu vào của mô hình lớn bị hạn chế mà đã gây ra nhiều khó khăn trong việc triển khai ứng dụng. Đây cũng là lý do mà các công ty mô hình lớn hiện đang tập trung vào công nghệ văn bản dài.

Ví dụ, trong các cảnh nhân vật ảo, do khả năng xử lý văn bản dài hạn chế, nhân vật ảo sẽ quên thông tin quan trọng. Khi phát triển các trò chơi kiểu kịch bản giết người, độ dài đầu vào không đủ sẽ dẫn đến việc các quy tắc và thiết lập bị cắt giảm, không đạt được hiệu quả mong muốn. Trong các lĩnh vực chuyên ngành như pháp luật, ngân hàng, phân tích và tạo nội dung sâu thường gặp khó khăn.

Văn bản dài cũng đóng vai trò quan trọng trong các ứng dụng gốc của Agent và AI trong tương lai. Agent cần dựa vào thông tin lịch sử để lập kế hoạch và ra quyết định, các ứng dụng gốc của AI cần ngữ cảnh để duy trì trải nghiệm người dùng mạch lạc và cá nhân hóa.

Yang Chih-Lin cho rằng, bất kể là văn bản, giọng nói hay video, việc nén dữ liệu khổng lồ mà không mất mát có thể đạt được mức độ thông minh cao. Giới hạn của mô hình lớn được xác định bởi khả năng từng bước và số bước thực hiện, trong đó khả năng từng bước liên quan đến số lượng tham số, số bước thực hiện chính là độ dài ngữ cảnh.

Đồng thời, văn bản dài có thể giúp mô hình đánh giá chính xác hơn về ngữ nghĩa bằng cách cung cấp nhiều ngữ cảnh và thông tin chi tiết hơn, giảm thiểu sự mơ hồ và nâng cao độ chính xác trong suy diễn.

Công nghệ văn bản dài không chỉ có thể giải quyết một số vấn đề ban đầu của mô hình lớn, tăng cường một số chức năng, mà còn là công nghệ then chốt để thúc đẩy ứng dụng công nghiệp. Điều này đánh dấu sự phát triển của mô hình lớn tổng quát bước vào giai đoạn mới từ LLM đến Long LLM.

Lấy Kimi Chat mới được phát hành từ mặt tối của mặt trăng làm ví dụ, có thể nhìn thấy chức năng nâng cấp của mô hình lớn giai đoạn Long LLM:

  • Trích xuất, tóm tắt và phân tích thông tin quan trọng từ văn bản rất dài
  • Chuyển đổi tài liệu thành mã trực tiếp và có thể sửa đổi dựa trên đó
  • Thực hiện vai trò, có thể trò chuyện với nhân vật công chúng hoặc nhân vật ảo

Điều này cho thấy, robot đối thoại đang phát triển theo hướng chuyên môn hóa, cá nhân hóa và sâu sắc, đây có thể là một công cụ mới để kích hoạt ứng dụng công nghiệp và sự hiện diện của siêu APP.

Yang Zhilin cho rằng, thị trường mô hình lớn trong nước sẽ được chia thành hai trại toB và toC. Trong lĩnh vực toC, sẽ xuất hiện các ứng dụng siêu dựa trên mô hình tự nghiên cứu.

Tuy nhiên, hiện tại còn rất nhiều không gian tối ưu cho các tình huống đối thoại dài trên thị trường. Chẳng hạn như không hỗ trợ kết nối mạng để lấy thông tin mới nhất, quá trình tạo không thể tạm dừng để chỉnh sửa, vẫn thỉnh thoảng xuất hiện tình trạng nói nhảm.

Nghịch lý "tam giác không thể" của văn bản dài

Trong công nghệ văn bản dài, có một "tam giác không thể" của độ dài văn bản, sự chú ý và sức mạnh tính toán:

  • Văn bản càng dài, càng khó thu hút sự chú ý đầy đủ, khó có thể tiêu hóa hoàn toàn.
  • Sự chú ý có hạn, văn bản ngắn không thể hiểu đầy đủ thông tin phức tạp.
  • Xử lý văn bản dài cần rất nhiều sức mạnh tính toán, tăng chi phí

Nguồn gốc của tình huống này nằm ở chỗ các mô hình lớn hiện tại chủ yếu dựa trên cấu trúc Transformer. Mặc dù cơ chế tự chú ý quan trọng nhất có thể vượt qua những hạn chế về thứ tự đầu vào, nhưng khối lượng tính toán sẽ tăng theo cấp số bình phương với độ dài ngữ cảnh.

Điều này tạo thành nhóm mâu thuẫn đầu tiên trong "tam giác không thể" là chiều dài văn bản và sự chú ý. Đồng thời, việc xử lý văn bản dài cần nhiều sức mạnh tính toán hơn, điều này lại tạo ra nhóm mâu thuẫn thứ hai với tình trạng thiếu hụt sức mạnh tính toán.

Hiện tại có ba giải pháp chính:

  1. Sử dụng công cụ bên ngoài để hỗ trợ xử lý văn bản dài, chia văn bản dài thành nhiều văn bản ngắn để xử lý.

  2. Tối ưu hóa tính toán cơ chế tự chú ý, như công nghệ LongLoRA giảm khối lượng tính toán thông qua tính toán theo nhóm.

  3. Tối ưu hóa mô hình, chẳng hạn như LongLLaMA hỗ trợ chuỗi dài hơn thông qua việc tinh chỉnh mô hình hiện có.

Nỗi khổ "tam giác bất khả" của văn bản dài có thể tạm thời không có lời giải, nhưng điều này cũng làm rõ con đường khám phá của các nhà sản xuất mô hình lớn: tìm kiếm sự cân bằng giữa độ dài văn bản, sự chú ý và sức mạnh tính toán, vừa có thể xử lý đủ thông tin, vừa có thể xem xét chi phí tính toán và sự chú ý.

TOKEN-8.45%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 5
  • Chia sẻ
Bình luận
0/400
LiquidationWatchervip
· 07-15 12:13
Khả năng tính toán这么贵 Được chơi cho Suckers还差不多
Xem bản gốcTrả lời0
LiquidationAlertvip
· 07-13 09:58
Xem ai có khả năng tính toán đủ mạnh.
Xem bản gốcTrả lời0
RiddleMastervip
· 07-12 12:53
Đến giờ vẫn chưa tiếp cận thực tế.
Xem bản gốcTrả lời0
CrossChainBreathervip
· 07-12 12:36
Cái nút thắt này sớm muộn gì cũng phải được vượt qua.
Xem bản gốcTrả lời0
SilentObservervip
· 07-12 12:32
Cỏ chơi lớn như vậy
Xem bản gốcTrả lời0
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)