Dades massives[2] (o Big Data[3][4][5][6]) és el nom que reben els conjunts de dades, els procediments i les aplicacions informàtiques, que, pel seu volum, la seva naturalesa diversa i la velocitat a què han de ser processades, ultrapassen la capacitat dels sistemes informàtics habituals. Aquest processament de dades massives s'utilitza per detectar-hi patrons, podent fer així prediccions vàlides per a la presa de decisions.[7]
La disciplina dedicada a les dades massives s'emmarca dins de les tecnologies de la informació i la comunicació. Aquesta disciplina s'ocupa de totes les activitats relacionades amb els sistemes que gestionen grans conjunts de dades. Les dificultats més habituals en aquests casos se centren en la captura, l'emmagatzematge,[8] la cerca, la compartició, l'anàlisi,[9] i la seva visualització.[10] La tendència de manipular ingents quantitats de dades es deu a la necessitat, en molts casos, d'incloure aquesta informació per a la creació d'informes estadístics i models predictius emprats en diversos camps,[11] com per exemple de les anàlisis de negoci, publicitat, les dades de malalties infeccioses, l'espionatge i el seguiment de la població o la lluita contra el crim organitzat.
El límit superior de la capacitat de processament s'ha anat desplaçant al llarg dels anys. D'aquesta forma els límits que estaven fixats el 2008 rondaven l'ordre de petabytes a zettabytes de dades.[12] Els científics amb certa regularitat troben limitacions a causa de la gran quantitat de dades a analitzar en certes àrees, com ara la meteorologia, la genòmica,[13] les complexes simulacions de processos físics,[14] i les investigacions relacionades amb els processos biològics i ambientals.[15] Les limitacions també afecten els motors de cerca a internet, als sistemes financers i a la informàtica de negocis.
El volum del conjunt de dades creix degut, en part, a la introducció d'informació ubiqua procedent dels sensors sense fils i els dispositius mòbils (per exemple les VANETs[16]), del constant creixement dels històrics d'interaccions d'aplicacions (per exemple processos de registre), càmeres digitals (sistemes de teledetecció), micròfons, lectors de ràdio -identificador de freqüència.[17][18] La capacitat tecnològica per capita a nivell mundial d'emmagatzemar dades es multiplica aproximadament per dos cada quaranta mesos des dels anys vuitanta.[19] S'estima que durant el 2012, cada dia es van crear a prop de 2,5 trilions de bytes de dades (de l'anglès quintillion, 2.5 × 1018).[20]