I ricercatori identificano le macchine dei treni di proprietà per saperne di più come fanno gli esseri umani

Immagina di sederti su una panchina del parco e guardare qualcuno che passeggia. Mentre la scena può cambiare costantemente mentre la persona cammina, il cervello umano può trasformare quell’informazione visiva dinamica in una rappresentazione più stabile nel tempo. Questa capacità, nota come raddrizzamento percettivo, ci aiuta a prevedere la traiettoria della persona che cammina. A differenza degli esseri umani, i modelli di visione artificiale in genere non mostrano rettilineità percettiva, quindi imparano a rappresentare le informazioni visive in modo altamente imprevedibile. Ma se i modelli di apprendimento automatico avessero questa capacità, potrebbero consentire loro di stimare meglio come si muoveranno oggetti o persone. I ricercatori del MIT hanno scoperto che un metodo di formazione specifico può aiutare i modelli di visione artificiale ad apprendere rappresentazioni percettivamente più dirette, come fanno gli esseri umani. L'addestramento consiste nel mostrare a un modello di apprendimento automatico milioni di esempi in modo che possa apprendere un compito. I ricercatori hanno scoperto che addestrare i modelli di visione artificiale utilizzando una tecnica chiamata training contraddittorio, che li rende meno reattivi ai piccoli errori aggiunti alle immagini, migliora la percezione dei modelli. rettilineità. Il team ha anche scoperto che la rettilineità percettiva è influenzata dal compito a cui si addestra un modello. I modelli addestrati a eseguire compiti astratti, come classificare le immagini, apprendono rappresentazioni percettivamente più dirette rispetto a quelli addestrati a eseguire compiti più dettagliati, come assegnare ogni pixel di un'immagine a una categoria. Ad esempio, i nodi all'interno del modello hanno attivazioni interne che rappresentano "cane", che consentono al modello di rilevare un cane quando vede una qualsiasi immagine di un cane. Le rappresentazioni percettivamente diritte mantengono una rappresentazione del "cane" più stabile quando ci sono piccoli cambiamenti nell'immagine. Ciò li rende più robusti. Acquisendo una migliore comprensione della linearità percettiva nella visione artificiale, i ricercatori sperano di scoprire intuizioni che potrebbero aiutarli a sviluppare modelli che facciano previsioni più accurate. Ad esempio, questa proprietà potrebbe migliorare la sicurezza dei veicoli autonomi che utilizzano modelli di visione artificiale per prevedere le traiettorie di pedoni, ciclisti e altri veicoli. visione, possono darti un'idea del perché certe cose funzionano in un certo modo e anche ispirare idee per migliorare le reti neurali", afferma Vasha DuTell, postdoc del MIT e coautrice di un articolo che esplora la linearità percettiva nella visione artificiale. sull'articolo ci sono l'autrice principale Anne Harrington, una studentessa laureata presso il Dipartimento di Ingegneria Elettrica e Informatica (EECS); Ayush Tewari, un postdoc; Mark Hamilton, uno studente laureato; Simon Stent, responsabile della ricerca presso Woven Planet; Ruth Rosenholtz, ricercatrice principale presso il Dipartimento di Scienze del cervello e cognitive e membro del Laboratorio di Informatica e Intelligenza Artificiale (CSAIL); e l'autore senior William T. Freeman, professore di ingegneria elettrica e informatica Thomas e Gerd Perkins e membro del CSAIL. La ricerca è stata presentata alla Conferenza internazionale sulle rappresentazioni dell'apprendimento. Studiare il raddrizzamentoDopo aver letto un articolo del 2019 di un team di ricercatori della New York University sulla rettilineità percettiva negli esseri umani, DuTell, Harrington e i loro colleghi si sono chiesti se quella proprietà potrebbe essere utile nella visione artificiale modelli. Hanno deciso di determinare se diversi tipi di modelli di visione artificiale raddrizzano le rappresentazioni visive che apprendono. Hanno alimentato ciascun modello con fotogrammi di un video e poi hanno esaminato la rappresentazione nelle diverse fasi del suo processo di apprendimento. Se la rappresentazione del modello cambia in modo prevedibile attraverso i fotogrammi del video, quel modello si sta raddrizzando. Alla fine, la sua rappresentazione di output dovrebbe essere più stabile della rappresentazione di input. "Puoi pensare alla rappresentazione come a una linea, che inizialmente è molto curva. Un modello che si raddrizza può prendere quella linea curva dal video e raddrizzarla attraverso le sue fasi di lavorazione," spiega DuTell. La maggior parte dei modelli testati non si raddrizzavano. Dei pochi che lo hanno fatto, quelli che si sono raddrizzati in modo più efficace sono stati addestrati per compiti di classificazione utilizzando la tecnica nota come addestramento contraddittorio. L'addestramento contraddittorio prevede la modifica sottile delle immagini cambiando leggermente ciascun pixel. Anche se un essere umano non noterebbe la differenza, questi piccoli cambiamenti possono ingannare una macchina e farle classificare erroneamente l'immagine. L'addestramento contraddittorio rende il modello più robusto, quindi non verrà ingannato da queste manipolazioni. Poiché l'addestramento contraddittorio insegna al modello a essere meno reattivo ai lievi cambiamenti nelle immagini, questo lo aiuta ad apprendere una rappresentazione che è più prevedibile nel tempo, spiega Harrington. "Le persone hanno già avuto l'idea che l'addestramento contraddittorio potrebbe aiutarti a rendere il tuo modello più simile a un essere umano, ed è stato interessante vedere questo trasferimento a un'altra proprietà che le persone non avevano mai testato prima," dice. i ricercatori hanno scoperto che i modelli addestrati all’avversario imparano a raddrizzarsi solo quando sono addestrati per compiti ampi, come classificare intere immagini in categorie. I modelli incaricati della segmentazione, ovvero etichettare ogni pixel di un'immagine come una determinata classe, non si raddrizzavano, anche quando venivano addestrati in modo contraddittorio. Classificazione coerente I ricercatori hanno testato questi modelli di classificazione delle immagini mostrando loro dei video. Hanno scoperto che i modelli che apprendevano rappresentazioni percettivamente più dirette tendevano a classificare correttamente gli oggetti nei video in modo più coerente. "Per me, è sorprendente che questi modelli addestrati in modo contraddittorio, che non hanno mai nemmeno visto un video e non sono mai stati addestrati su dati temporali , mostrano ancora un certo grado di raddrizzamento," dice DuTell. I ricercatori non sanno esattamente che cosa, a proposito del processo di addestramento contraddittorio, consente a un modello di visione artificiale di raddrizzarsi, ma i loro risultati suggeriscono che schemi di addestramento più forti fanno sì che i modelli si raddrizzino maggiormente, spiega. Sulla base di questo lavoro, i ricercatori vogliono utilizzare ciò che hanno imparato per creare nuovi schemi di formazione che conferirebbero esplicitamente a un modello questa proprietà. Vogliono anche scavare più a fondo nell'addestramento al contraddittorio per capire perché questo processo aiuta un modello a raddrizzarsi. "Da un punto di vista biologico, l'addestramento al contraddittorio non ha necessariamente senso. Non è così che gli esseri umani comprendono il mondo. Ci sono ancora molte domande a riguardo. perché questo processo di addestramento sembra aiutare i modelli a comportarsi in modo più simile agli esseri umani", afferma Harrington. "Comprendere le rappresentazioni apprese dalle reti neurali profonde è fondamentale per migliorare proprietà come robustezza e generalizzazione", afferma Bill Lotter, assistente professore al Dana-Farber Cancer Institute e la Harvard Medical School, che non fu coinvolta in questa ricerca. "Harrington et al. eseguono una valutazione approfondita di come le rappresentazioni dei modelli di visione artificiale cambiano nel tempo durante l'elaborazione di video naturali, dimostrando che la curvatura di queste traiettorie varia ampiamente a seconda dell'architettura del modello, delle proprietà di addestramento e del compito. Questi risultati possono informare il sviluppo di modelli migliorati e offrono anche approfondimenti sull'elaborazione visiva biologica. percezione umana: la sua resistenza alle varie trasformazioni dell'immagine, naturali o artificiali", spiega Olivier Hénaff, ricercatore presso DeepMind, che non è stato coinvolto in questa ricerca. "Il fatto che anche i modelli di segmentazione della scena addestrati in modo contraddittorio non raddrizzino i loro input solleva domande importanti per il lavoro futuro: gli esseri umani analizzano le scene naturali allo stesso modo dei modelli di visione artificiale? Come rappresentare e prevedere le traiettorie degli oggetti in movimento rimanendo sensibili alla loro dettaglio spaziale? Collegando l'ipotesi del raddrizzamento con altri aspetti del comportamento visivo, l'articolo pone le basi per teorie della percezione più unificate. Science Foundation, il laboratorio di ricerca dell'aeronautica statunitense e l'acceleratore di intelligenza artificiale dell'aeronautica statunitense.

Notizia

I ricercatori identificano le macchine dei treni di proprietà per saperne di più come fanno gli esseri umani