Un descriptor visual descriu les característiques visuals dels continguts disposats en imatges i vídeos. Descriuen característiques elementals com la forma, color, la textura i el moviment, entre d'altres. Com a conseqüència de les noves tecnologies de comunicació i l'ús massiu d'Internet a la societat, la quantitat d'informació audiovisual disponible en format digital està arribant a xifres realment espectaculars. És per aquest motiu que ha estat necessari dissenyar un sistema que ens permeti descriure el contingut de diversos tipus d'informació multimèdia, per poder-los buscar i classificar.
Els encarregats de descriure el contingut són els anomenats descriptors audiovisuals. Aquests tenen un bon coneixement dels objectes i fets presents en un vídeo, imatge o àudio i permeten buscar els continguts d'una manera ràpida i eficient.
Aquest sistema es pot comparar amb els buscadors de contingut textual. És cert que amb un ordinador és relativament senzill trobar text, però en canvi, és molt més complicat trobar parts concretes d'àudio i vídeo. Imaginem algú buscant una escena d'una persona feliç. La felicitat és un sentiment i no és evident la descripció de la seva forma, color i textura a les imatges.
La descripció del contingut audiovisual no és una tasca trivial i és essencial per a la utilització eficaç d'aquest tipus de fitxers. El sistema estandardització per excel·lència que explota els descriptors audiovisuals és el MPEG-7 (Motion Picture Expert Group - 7).