Meta giới thiệu DINOv3: Mô hình thị giác tự giám sát nâng cao cho phân tích hình ảnh quy mô lớn, độ chính xác cao

Tóm tắt

DINOv3 là một mô hình thị giác máy tính tự giám sát tiên tiến, với một khung xương đông lạnh duy nhất cung cấp các đặc trưng hình ảnh độ phân giải cao và vượt qua các giải pháp chuyên biệt trong nhiều nhiệm vụ dự đoán dày đã được thiết lập.

Meta Giới thiệu DINOv3: Mô hình Thị giác Tự giám sát nâng cao vượt qua các Giải pháp Chuyên biệt trong các Nhiệm vụ Dự đoán Dày đặc

Phòng nghiên cứu của công ty công nghệ Meta, chuyên phát triển các công nghệ AI và thực tế tăng cường, Meta AI đã giới thiệu DINOv3, một mô hình thị giác máy tính tiên tiến, tổng quát được đào tạo bằng phương pháp học tự giám sát (SSL) để tạo ra các đặc trưng hình ảnh chất lượng cao. Lần đầu tiên, một cấu trúc thị giác đông lạnh duy nhất vượt qua các mô hình chuyên dụng trên nhiều nhiệm vụ dự đoán dày đặc đã được thiết lập, bao gồm phát hiện đối tượng và phân đoạn ngữ nghĩa.

DINOv3 đạt được hiệu suất này thông qua các phương pháp SSL tiên tiến loại bỏ nhu cầu về dữ liệu có nhãn, giảm thời gian đào tạo và yêu cầu tài nguyên đồng thời cho phép mô hình mở rộng lên 1,7 tỷ hình ảnh và 7 tỷ tham số. Phương pháp không cần nhãn này làm cho mô hình phù hợp cho các ứng dụng nơi mà việc chú thích bị hạn chế, tốn kém hoặc không có sẵn. Ví dụ, các backbone của DINOv3 được tiền huấn luyện trên hình ảnh vệ tinh đã thể hiện kết quả mạnh mẽ trên các tác vụ hạ nguồn như ước lượng chiều cao tán cây.

Mô hình này dự kiến sẽ nâng cao các ứng dụng hiện tại và cho phép các ứng dụng mới trong các lĩnh vực như chăm sóc sức khỏe, giám sát môi trường, xe tự hành, bán lẻ và sản xuất, cung cấp độ chính xác và hiệu quả cao hơn trong việc hiểu biết hình ảnh quy mô lớn.

DINOv3 được phát hành với một bộ đầy đủ các backbone mã nguồn mở dưới giấy phép thương mại, bao gồm một backbone tập trung vào vệ tinh được đào tạo trên hình ảnh MAXAR. Một tập hợp các đầu đánh giá hạ nguồn cũng được chia sẻ để cho phép các nhà nghiên cứu tái tạo và mở rộng các kết quả. Các sổ tay mẫu và tài liệu chi tiết được cung cấp để giúp cộng đồng bắt đầu làm việc với DINOv3 ngay lập tức.

DINOv3: Mở Khóa Các Ứng Dụng Tác Động Cao Thông Qua Học Tự Giám Sát

Theo Meta AI, DINOv3 đại diện cho một sự tiến bộ đáng kể trong học tự giám sát (SSL), cho thấy lần đầu tiên rằng các mô hình SSL có thể vượt qua hiệu suất của các mô hình giám sát yếu trên một loạt các nhiệm vụ. Trong khi các phiên bản DINO trước đó đã thiết lập kết quả mạnh mẽ trong các nhiệm vụ dự đoán dày đặc như phân đoạn và ước lượng độ sâu đơn, DINOv3 xây dựng trên nền tảng này và đạt được các mức hiệu suất cao hơn.

DINOv3: Mở Khóa Các Ứng Dụng Tác Động Cao Thông Qua Học Tập Tự Giám Sát

DINOv3 phát triển thuật toán DINO gốc bằng cách loại bỏ nhu cầu đầu vào siêu dữ liệu, sử dụng ít tính toán đào tạo hơn so với các phương pháp trước đó, trong khi vẫn sản xuất các mô hình nền tảng tầm nhìn hiệu suất cao. Những cải tiến trong DINOv3 cho phép đạt được kết quả hàng đầu trong các nhiệm vụ hạ nguồn như phát hiện đối tượng, ngay cả khi trọng số mô hình vẫn được giữ cố định, loại bỏ sự cần thiết phải tinh chỉnh cụ thể cho nhiệm vụ và cho phép ứng dụng linh hoạt và hiệu quả hơn.

Vì phương pháp DINO không gắn liền với bất kỳ loại hình ảnh cụ thể nào, nó có thể được áp dụng trên nhiều lĩnh vực khác nhau nơi việc gán nhãn là tốn kém hoặc không thực tế. Các phiên bản trước đó, như DINOv2, đã tận dụng một lượng lớn dữ liệu không được gán nhãn cho các ứng dụng y tế, bao gồm mô học, nội soi và hình ảnh. Đối với hình ảnh vệ tinh và hình ảnh trên không, nơi khối lượng và độ phức tạp của dữ liệu khiến việc gán nhãn thủ công trở nên không khả thi, DINOv3 cho phép đào tạo một mô hình backbone duy nhất có thể áp dụng cho nhiều nguồn vệ tinh khác nhau, hỗ trợ các trường hợp sử dụng rộng rãi hơn trong giám sát môi trường, quy hoạch đô thị và ứng phó thảm họa.

DINOv3 đang chứng minh tác động thực tiễn. Viện Tài nguyên Thế giới (WRI) sử dụng mô hình để theo dõi nạn phá rừng và hướng dẫn các nỗ lực phục hồi, giúp các nhóm địa phương bảo vệ hệ sinh thái tốt hơn. Bằng cách phân tích hình ảnh vệ tinh để phát hiện mất cây và thay đổi sử dụng đất, DINOv3 cải thiện độ chính xác của việc xác minh tài chính khí hậu, giảm chi phí giao dịch và tăng tốc độ tài trợ cho các dự án nhỏ, địa phương. Trong một trường hợp, việc sử dụng DINOv3 được huấn luyện trên hình ảnh vệ tinh và hình ảnh từ trên không đã giảm sai số trung bình trong việc đo chiều cao tán cây ở một khu vực của Kenya từ 4,1 mét xuống còn 1,2 mét, cho phép WRI mở rộng hỗ trợ cho hàng nghìn nông dân và các sáng kiến bảo tồn một cách hiệu quả hơn.

VSN-4.25%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)