Mae data mawr yn cyfeirio at setiau data sy'n rhy fawr neu'n rhy gymhleth ar gyfer meddalwedd prosesu data traddodiadol. I ddelio â chronfa ddata enfawr, gyda miliynnau o resi a cholofnau ynddi, yna mae angen ateb gwahanol. Mwya'r data, y mwya yw'r gwallau a all godi, ac arafa mae'n prosesu'r wybodaeth.[1]
Mae heriau sy'n wynebu ceidwaid data mawr yn cynnwys casglu data, integreiddio data, storio data, dadansoddi data, chwilio, cloddio, glanhau, rhannu, trosglwyddo, delweddu (visualization), ymholi, diweddaru a gwarchod data. Roedd data mawr yn gysylltiedig yn wreiddiol â thri chysyniad allweddol: cyfaint, amrywiaeth a chyflymder.[2] Ceir cysyniadau eraill, gwirioneddol a briodwyd yn ddiweddarach e.e. faint o sŵn (neu 'wallau') sydd yn y data, a gwerth y data.[3][4]
Ymddangosodd y term ar ffurf ffasiynol, fel buzzword yng nghanol y 2010au, i olygu 'yr holl ddata a gesglir gan y ddynoliaeth'. Fe'i bathwyd gan John Mashey yn 1998.[5][6] Ar lefel fwy technegol, daeth y term i olygu'r dadansoddi rhagfynegol ac ymddygiad defnyddwyr a chwsmeriaid. Sylweddolwyd fod defnydd masnachol i ddata fel hyn, ac y gellid rhagweld yr hyn roedd y cwsmer yn dymuno ei brynnu. Ymhlith y defnydd eraill a wneir o ddata mawr y mae: rhagweld afiechydon a sut y mae heintiau'n ymledu neu casglu holl gofnodion dyddiol yr hinsawdd, meteoroleg, daeargrynfeydd ayb. Ond y defnydd mwayf sinistr o ddata mawr yw gan heddluoedd cudd, ac adrannau 'diogelwch' llywodraethau'r byd, er mwyn iddynt fonitro tuedd (ymweld â gwefannau, siopau ayb), diddordebau gwleidyddol a manylion personol eraill eu dinasyddion.[7][8] Un o'r cwestiynau pwysicaf yma, yw pwy yw perchennog y data personol hwn.
Gwelwyd y twf a'r cynnydd eithriadol yng nghyfaint data mawr ar ddechrau'r 2000au, wrth i ddyfeisiau Rhyngrwyd pethau ddod o fewn gafael dinasyddion y byd. Daeth y ffôn clyfar, y tabled, camerâu, y cerdyn banc a llu o synwyryddion eraill yn bethau rhad, defnyddiol, ffasiynol a ddefnyddiwyd droeon mewn diwrnod, a'r data ohonynt yn cysylltu'n uniongyrchol i ddata mawr adrannau cudd y llywodraethau a chwmniau enfawr fel Google.
Law yn llaw a'r gallu hwn i gasglu data, datblygodd y gallu i'w storio. Yn fras, mae'r wybodaeth a gaiff ei storio yn dyblu bob 40 mis, ers y 1980au. Erbyn 20122 roedd 2.5 exabytes (2.5×1018) o ddata'n cael ei gynhyrchu yn fydeang. Rhagwelodd Adroddiad gan yr IDC bydd y twf hwn yn parhau ac yn cyflymu, ac erbyn 2020 roedd yn rhagweld y byddai cyfaint y data yn 44 zettabytes; erbyn 2025 mae'n rhagweld y bydd yn 163 zettabytes.