Meta Introduz DINOv3: Modelo de Visão Auto-Supervisionado Avançado para Análise Visual Escalável e de Alta Precisão

Em Resumo

DINOv3 é um modelo de visão computacional auto-supervisionado de última geração, cuja única espinha dorsal congelada fornece características de imagem de alta resolução e supera soluções especializadas em várias tarefas de previsão densa estabelecidas.

Meta Introduz DINOv3: Modelo Avançado de Visão Auto-Supervisionado que Supera Soluções Especializadas em Tarefas de Predição Densa

A divisão de pesquisa da empresa de tecnologia Meta, que desenvolve tecnologias de IA e realidade aumentada, Meta AI apresentou o DINOv3, um modelo de visão computacional de última geração e generalista treinado usando aprendizado auto-supervisionado (SSL) para gerar características visuais de alta qualidade. Pela primeira vez, uma única estrutura de visão congelada supera modelos especializados em múltiplas tarefas de predição densa estabelecidas, incluindo detecção de objetos e segmentação semântica.

O DINOv3 alcança este desempenho através de métodos avançados de SSL que eliminam a necessidade de dados rotulados, reduzindo o tempo de treinamento e os requisitos de recursos, enquanto permite que o modelo escale para 1,7 bilhões de imagens e 7 bilhões de parâmetros. Esta abordagem sem rótulos torna o modelo adequado para aplicações onde as anotações são limitadas, caras ou indisponíveis. Por exemplo, as bases de DINOv3 pré-treinadas em imagens de satélite demonstraram resultados fortes em tarefas posteriores, como a estimativa da altura da copa.

O modelo é esperado para melhorar as aplicações atuais e permitir novas em setores como saúde, monitoramento ambiental, veículos autónomos, retalho e manufatura, oferecendo maior precisão e eficiência na compreensão visual em grande escala.

DINOv3 está sendo lançado com um conjunto completo de backbones de código aberto sob uma licença comercial, incluindo um backbone focado em satélites treinado com imagens da MAXAR. Um subconjunto de cabeçotes de avaliação downstream também está sendo compartilhado para permitir que os pesquisadores reproduzam e ampliem os resultados. Notebooks de amostra e documentação detalhada são fornecidos para ajudar a comunidade a começar a trabalhar com o DINOv3 imediatamente.

DINOv3: Desbloqueando Aplicações de Alto Impacto Através da Aprendizagem Auto-Supervisionada

De acordo com a Meta AI, o DINOv3 representa um avanço notável na aprendizagem auto-supervisionada (SSL), mostrando pela primeira vez que os modelos SSL podem superar o desempenho dos modelos fracos supervisionados em um amplo conjunto de tarefas. Embora versões anteriores do DINO tenham estabelecido resultados fortes em tarefas de predição densa, como segmentação e estimativa de profundidade monocular, o DINOv3 baseia-se nesta fundação e alcança níveis de desempenho ainda mais elevados.

DINOv3: Desbloqueando Aplicações de Alto Impacto Através de Aprendizagem Auto-Supervisionada

O DINOv3 avança o algoritmo DINO original ao eliminar a necessidade de entrada de metadados, utilizando menos computação de treinamento do que abordagens anteriores, enquanto ainda produz modelos de fundação de visão de alto desempenho. As melhorias no DINOv3 possibilitam resultados de ponta em tarefas subsequentes, como a detecção de objetos, mesmo quando os pesos do modelo permanecem congelados, removendo a necessidade de ajuste fino específico para a tarefa e permitindo uma aplicação mais versátil e eficiente.

Porque a metodologia DINO não está vinculada a nenhum tipo de imagem específico, ela pode ser aplicada em diversos domínios onde a rotulagem é cara ou impraticável. Iterações anteriores, como o DINOv2, aproveitaram grandes quantidades de dados não rotulados para aplicações médicas, incluindo histologia, endoscopia e imagem. Para imagens de satélite e aéreas, onde o volume e a complexidade dos dados tornam a rotulagem manual inviável, o DINOv3 permite o treinamento de um único modelo backbone aplicável em várias fontes de satélite, apoiando casos de uso mais amplos em monitoramento ambiental, planejamento urbano e resposta a desastres.

O DINOv3 já está demonstrando um impacto prático. O World Resources Institute (WRI) emprega o modelo para monitorar o desmatamento e orientar os esforços de restauração, permitindo que grupos locais protejam melhor os ecossistemas. Ao analisar imagens de satélite para detectar a perda de árvores e mudanças no uso da terra, o DINOv3 melhora a precisão da verificação de financiamento climático, reduzindo os custos de transação e acelerando o financiamento para pequenos projetos locais. Em um caso, o uso do DINOv3 treinado com imagens de satélite e aéreas reduziu o erro médio na medição da altura da copa das árvores em uma região do Quênia de 4,1 metros para 1,2 metros, permitindo que o WRI escalasse o apoio a milhares de agricultores e iniciativas de conservação de forma mais eficaz.

VSN-5.53%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)