Migliorare l'intelligenza artificiale: come i ricercatori del MIT colmano il divario tra la visione umana e quella artificiale
Di Adam Zewe, Massachusetts Institute of Technology, 9 maggio 2023
I ricercatori del MIT hanno scoperto che addestrare modelli di visione artificiale utilizzando l’addestramento contraddittorio può migliorare la loro rettitudine percettiva, rendendoli più simili all’elaborazione visiva umana. La rettilineità percettiva consente ai modelli di prevedere meglio i movimenti degli oggetti, migliorando potenzialmente la sicurezza dei veicoli autonomi. I modelli addestrati in modo contraddittorio sono più robusti e mantengono una rappresentazione stabile degli oggetti nonostante lievi cambiamenti nelle immagini. I ricercatori mirano a utilizzare le loro scoperte per creare nuovi schemi di formazione e indagare ulteriormente il motivo per cui la formazione contraddittoria aiuta i modelli a imitare la percezione umana.
I ricercatori identificano una proprietà che aiuta i modelli di visione artificiale a imparare a rappresentare il mondo visivo in un modo più stabile e prevedibile.
MITMIT is an acronym for the Massachusetts Institute of Technology. It is a prestigious private research university in Cambridge, Massachusetts that was founded in 1861. It is organized into five Schools: architecture and planning; engineering; humanities, arts, and social sciences; management; and science. MIT's impact includes many scientific breakthroughs and technological advances. Their stated goal is to make a better world through education, research, and innovation." data-gt-translate-attributes="[{"attribute":"data-cmtooltip", "format":"html"}]">I ricercatori del MIT hanno scoperto che l’addestramento contraddittorio migliora la linearità percettiva nei modelli di visione artificiale, rendendoli più simili all’elaborazione visiva umana e consentendo una migliore previsione dei movimenti degli oggetti.
Immagina di sederti su una panchina del parco e guardare qualcuno che passeggia. Mentre la scena può cambiare costantemente mentre la persona cammina, il cervello umano può trasformare quell’informazione visiva dinamica in una rappresentazione più stabile nel tempo. Questa capacità, nota come raddrizzamento percettivo, ci aiuta a prevedere la traiettoria della persona che cammina.
A differenza degli esseri umani, i modelli di visione artificiale in genere non mostrano linearità percettiva, quindi imparano a rappresentare le informazioni visive in modo altamente imprevedibile. Ma se i modelli di apprendimento automatico avessero questa capacità, potrebbero consentire loro di stimare meglio come si muoveranno gli oggetti o le persone.
I ricercatori del MIT hanno scoperto che un metodo di formazione specifico può aiutare i modelli di visione artificiale ad apprendere rappresentazioni percettivamente più dirette, come fanno gli esseri umani. La formazione prevede la presentazione di milioni di esempi a un modello di apprendimento automatico in modo che possa apprendere un compito.
I ricercatori hanno scoperto che addestrare modelli di visione artificiale utilizzando una tecnica chiamata training contraddittorio, che li rende meno reattivi ai piccoli errori aggiunti alle immagini, migliora la linearità percettiva dei modelli.
I ricercatori del MIT hanno scoperto che una specifica tecnica di allenamento può consentire a determinati tipi di modelli di visione artificiale di apprendere rappresentazioni visive più stabili e prevedibili, che sono più simili a quelle che gli esseri umani apprendono utilizzando una proprietà biologica nota come raddrizzamento percettivo. Credito: MIT News con iStock
Il team ha anche scoperto che la rettilineità percettiva è influenzata dal compito a cui si addestra un modello. I modelli addestrati a eseguire compiti astratti, come classificare le immagini, apprendono rappresentazioni percettivamente più dirette rispetto a quelli addestrati a eseguire compiti più dettagliati, come assegnare ogni pixel di un'immagine a una categoria.
Ad esempio, i nodi all'interno del modello hanno attivazioni interne che rappresentano "cane", che consentono al modello di rilevare un cane quando vede una qualsiasi immagine di un cane. Le rappresentazioni percettivamente diritte mantengono una rappresentazione del "cane" più stabile quando ci sono piccoli cambiamenti nell'immagine. Questo li rende più robusti.
Acquisendo una migliore comprensione della linearità percettiva nella visione artificiale, i ricercatori sperano di scoprire intuizioni che potrebbero aiutarli a sviluppare modelli che facciano previsioni più accurate. Ad esempio, questa proprietà potrebbe migliorare la sicurezza dei veicoli autonomi che utilizzano modelli di visione artificiale per prevedere le traiettorie di pedoni, ciclisti e altri veicoli.
After reading a 2019 paper from a team of New York UniversityFounded in 1831, New York University (NYU) is a private research university based in New York City." data-gt-translate-attributes="[{"attribute":"data-cmtooltip", "format":"html"}]"New York University researchers about perceptual straightness in humans, DuTell, Harrington, and their colleagues wondered if that property might be useful in computer vision models, too./p>