Transformer 2017an sortutako ikasketa automatiko sakoneko eredu bat da, nagusiki hizkuntzaren prozesamenduan (HP) erabiltzen dena. Neurona-sare errepikakorrak (RNN) bezala, Transformerrak datu-sekuentzia ordenatuak kudeatzeko diseinatuta daude. Sekuentziak hizkuntza naturaleko esaldiak direnean, hainbat zereginetarako balio dute, hala nola, itzulpen automatikorako eta testuen laburpengintza automatikorako. Hala ere, RNNak ez bezala, Transformerrek sekuentzia osoa ez dute modu ordenatuan prozesatu behar. Beraz, kasuan kasuko datuak hizkuntza naturala badira, Transformerrek derrigorrez ez dute esaldiaren hasiera osorik prozesatu behar esaldiaren amaiera prozesatzen hasi aurretik. Ezaugarri hori dela eta, Transformerrek RNN ereduak baino paralelizatzeko-ahalmen handiagoa ematen du entrenamenduan zehar.[1]
Sortu ziren unetik bertatik Transformerra HPren punta-puntako arkitekturen oinarrizko osagai bilakatu da, kasu askotan, epe laburrerako memoria luzea (LSTM) bezalako neurona-sare errepikatuzko ereduak ordezkatuz. Transformer arkitekturak entrenatze-konputazioetan paralelizazio gehiago erabiltzea errazten duenez, askoz ere datu gehiagorekin egin daiteke entrenamendua. Horrek aurrez entrenatutako sistemak garatzea ahalbidetu du, hala nola, BERT (Bidirectional Encoder Representations from Transformers) eta GPT-2. Horiek kaleratu aurretik hizkuntza orokorreko datu kopuru izugarri handiagoekin entrenatzen dira, eta, ondoren, hizkuntza-zeregin zehatzetara moldatu daitezke.[2][3]