Ezkutuko semantikaren analisia

Ezkutuko semantikaren analisia (LSA) hizkuntzaren prozesamendurako teknika bat da. Dokumentu-multzo baten eta bertan agertzen diren terminoen arteko erlazioa aztertzeko kontzeptu-multzo bat sortzen da dokumentuetan eta terminoetan oinarrituz. Semantikoki oso antzeko diren hitzak antzeko esanahia duten testuetan agertzen direla ontzat ematen du LSAk. Testuetako paragrafoetako terminoen agerpen maiztasunak kalkulatuz termino-dokumentu matrize bat eraikitzen da (errenkada bat termino bakoitzeko eta zutabe bat paragrafo bakoitzeko) eta balio singularretan deskonposatzea (SVD) izeneko teknika matematikoa erabiltzen da terminoen eta dokumentuen adierazpen bektorialen dimentsioa murrizteko. Hitzen (terminoen) antzekotasun semantikoa kalkulatzeko errenkada-bektoreen arteko angeluaren kosinua kalkulatzen da (edo biderketa eskalarra). Kosinu-antzekotasuna 1etik gertu badago hitzak semantikoki antzekoak direla interpretatzen da, 0tik gertu badago, aldiz, semantikoki oso desberdinak direla.[1]

1988an ezkutuko egitura semantikoan oinarritzen den informazio-berreskuratze teknika bat patentatu zuten (AEBetako 4,839,853 patentea, orain iraungia), Scott Deerwester, Susan Dumais, George Furnas, Richard Harshman, Thomas Landauer, Karen Lochbaum eta Lynn Streeter ikerlariek. Teknika Informazioa berreskuratzeko testuinguruan erabiltzen denean Ezkutuko Semantikaren Indexatzea (LSI) [2] izenez ezagutu ohi da.

  1.  doi:10.1002/aris.1440380105..
  2. .

From Wikipedia, the free encyclopedia · View on Wikipedia

Developed by Nelliwinne