Op die gebied van kunsmatige intelligensie (KI), het KI-belyningsnavorsing ten doel om KI-stelsels te stuur na mense se beoogde doelwitte, voorkeure of etiese beginsels. 'n KI-stelsel word as belyn beskou as dit die beoogde doelwitte van die mensdom bevorder. 'n Onbelynde KI-stelsel streef sekere doelwitte na, maar nie al die beoogde menslike doelwitte nie.[1]
Dit kan vir KI-ontwerpers uitdagend wees om 'n KI-stelsel in lyn te bring, want dit kan vir hulle moeilik wees om die volle reeks gewenste en ongewenste gedrag te spesifiseer. Om hierdie problematiek te vermy, gebruik hulle gewoonlik eenvoudiger naby-doelwitte, soos om menslike goedkeuring te verkry. Maar daardie benadering kan skuiwergate skep, nodige beperkings miskyk, of die KI-stelsel beloon omdat dit bloot in lyn lyk.[1][2]
Misbelynde KI-stelsels kan wanfunksioneer of skade veroorsaak. KI-stelsels kan skuiwergate vind wat hulle in staat stel om hul gevolmagtigde-doelwitte doeltreffend te bereik, maar op onbedoelde, soms skadelike maniere (beloning-inbraak).[1][3][4] Hulle kan ook ongewenste instrumentele strategieë ontwikkel, soos om mag of oorlewing na te streef, omdat sulke strategieë hulle help om hul gegewe doelwitte te bereik.[1][5][6] Verder kan hulle ongewenste opkomende doelwitte ontwikkel wat moeilik kan wees om op te spoor voordat die stelsel ontplooi word, wanneer dit nuwe situasies en dataverspreidings in die gesig staar.[7][8]
Toenemend raak hierdie probleme bestaande kommersiële stelsels soos taalmodelle,[9][10][11] robotte,[12] outonome voertuie,[13] en sosiale media-aanbevelingsenjins.[9][6][14] Sommige KI-navorsers argumenteer dat meer bekwame toekomstige stelsels ernstiger geraak sal word aangesien hierdie probleme gedeeltelik voortspruit uit die stelsels wat hoogs bekwaam is.[15][3][2]
Baie vooraanstaande KI-wetenskaplikes, soos Geoffrey Hinton en Stuart Russell, argumenteer dat KI bomenslike vermoëns nader en die menslike beskawing in gevaar kan stel as dit nie in lyn is nie.[16][6]
KI-belyning is 'n subveld van KI-veiligheid, die studie van hoe om veilige KI-stelsels te bou.[17] Ander subvelde van KI-veiligheid sluit in robuustheid, monitering en vermoëbeheer.[18] Navorsingsuitdagings in belyning sluit in die vestiging van komplekse waardes in KI, vermyding van misleidende KI,[19] skaalbare toesig, ouditering en interpretasie van KI-modelle, en voorkoming van ontluikende KI-gedrag soos magsoek.[18] Belyningsnavorsing het verbande met interpreteerbaarheidsnavorsing,[20][21] (teenstandige) robuustheid,[17] anomalie-opsporing, gekalibreerde onsekerheid,[20] formele verifikasie,[22] voorkeurleer,[23][24][25] veiligheid -kritiese ingenieurswese,[26] spelteorie,[27] algoritmiese regverdigheid,[17][28] en die sosiale wetenskappe.[29]
↑ 9,09,1Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sydney; Bernstein, Michael S.; Bohg, Jeannette; Bosselut, Antoine; Brunskill, Emma; Brynjolfsson, Erik (12 Julie 2022). "On the Opportunities and Risks of Foundation Models". Stanford CRFM. arXiv:2108.07258.
↑Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini et al. (2022). "Training language models to follow instructions with human feedback". [cs.CL].
↑Zaremba, Wojciech; Brockman, Greg; OpenAI (10 Augustus 2021). "OpenAI Codex". OpenAI. Geargiveer vanaf die oorspronklike op 3 Februarie 2023. Besoek op 23 Julie 2022.