La visione artificiale è un campo di studio multidisciplinare che tenta di aiutare i computer a leggere e comprendere le immagini digitali in modo simile al sistema ottico umano. In generale, include intelligenza computazionale e apprendimento automatico. Si basa sulla comprensione del contesto visivo, non solo sul contenuto scritto o catalogato su un'immagine o un video (come una descrizione di testo creata dall'uomo incorporata nell'immagine o nel video per aiutare a localizzarla in un sistema informatico). La computer vision è stata discussa nelle comunità scientifiche sin dagli anni '1960, ma ha faticato a fare progressi significativi, principalmente perché l'analisi e il contesto dell'immagine sono molto complessi e il sistema ottico umano supera di gran lunga qualsiasi capacità di calcolo.
Recentemente, il deep learning ha permesso ai sistemi informatici di analizzare meglio le immagini mostrando loro immagini. Nel tempo, il computer impara a identificare i dettagli dalle immagini che lo aiuteranno a notare quei dettagli in altre immagini (riconoscimento delle immagini). L'obiettivo generale della visione artificiale è che un computer sia in grado di comprendere i dettagli di un'immagine e interpretarla o spiegarla agli esseri umani. L'apprendimento profondo aiuta questo obiettivo a diventare più realistico, ma la visione artificiale è ancora lontana da dove i ricercatori vorrebbero che fosse.
Due problemi principali con la visione artificiale ne rendono difficile l'implementazione. Il mondo visivo ha intrinsecamente molti cambiamenti e varietà. È anche molto complesso. Sebbene il cervello umano sia progettato per analizzare rapidamente e involontariamente i più piccoli dettagli di un'immagine o di un altro supporto visivo, i computer non lo sono. In secondo luogo, la visione artificiale è generalmente basata sul sistema ottico umano e persino gli scienziati non lo capiscono abbastanza bene da tentare di ricrearlo adeguatamente.