Қысқа жауап: Жасанды интеллект тар, нақты анықталған тапсырмаларда өте дәл бола алады, бірақ «дәлдік» - бұл әмбебап сенім арта алатын жалғыз баға емес. Ол тек тапсырма, деректер және метрика операциялық жағдайға сәйкес келгенде ғана жарамды; кірістер ауытқып кеткенде немесе тапсырмалар ашық болғанда, қателіктер мен сенімді галлюцинациялар артады.
Негізгі қорытындылар:
Тапсырмаға сәйкестік : «Дұрыс» және «бұрыс» дегендерді тексеруге болатындай етіп, тапсырманы дәл анықтаңыз.
Метрикалық таңдау : Бағалау көрсеткіштерін дәстүрге немесе ыңғайлылыққа емес, нақты салдарға сәйкестендіріңіз.
Шындықты тексеру : Өкілдік, шулы деректерді және таратылмаған стресс-тестілерді пайдаланыңыз.
Калибрлеу : Сенімділіктің, әсіресе табалдырықтар үшін дұрыстыққа сәйкес келетінін өлшеңіз.
Өмірлік циклді бақылау : пайдаланушылар, деректер және орталар уақыт өте келе өзгерген сайын үздіксіз қайта бағалау.
Осыдан кейін оқуға болатын мақалалар:
🔗 Жасанды интеллектті кезең-кезеңімен қалай үйренуге болады
Жаңадан бастаушыларға арналған жасанды интеллектті сенімді түрде үйренуді бастауға арналған жол картасы.
🔗 Жасанды интеллект деректердегі ауытқуларды қалай анықтайды
Жасанды интеллект ерекше үлгілерді автоматты түрде анықтау үшін қолданатын әдістерді түсіндіреді.
🔗 Неліктен жасанды интеллект қоғамға зиянды болуы мүмкін
Бейтараптық, жұмысқа әсер ету және құпиялылық мәселелері сияқты тәуекелдерді қамтиды.
🔗 Жасанды интеллект деректер жиынтығы дегеніміз не және ол неліктен маңызды
Деректер жиынтығын және олардың жасанды интеллект модельдерін қалай оқытатынын және бағалайтынын анықтайды.
1) Сонымен... Жасанды интеллект қаншалықты дәл? 🧠✅
өте бола алады - әсіресе «дұрыс жауап» бірмәнді және оңай бағаланатын кезде.
Бірақ ашық тапсырмаларда (әсіресе генеративті жасанды интеллектте ) «дәлдік» тез өзгереді, себебі:
-
бірнеше қолайлы жауаптар болуы мүмкін
-
нәтиже еркін болуы мүмкін, бірақ фактілерге негізделмеген
-
модель қатаң дәлдікке емес, «пайдалылық» вибрацияларына бейімделген болуы мүмкін
-
әлем өзгереді, ал жүйелер шындықтан артта қалуы мүмкін
Пайдалы ойша модель: дәлдік – сізде «бар» қасиет емес. Бұл – белгілі бір тапсырма үшін, белгілі бір ортада, белгілі бір өлшеу қондырғысымен «табылатын» қасиет . Сондықтан байыпты басшылық бағалауды бір реттік есеп тақтасы емес, өмірлік цикл әрекеті ретінде қарастырады. [1]

2) Дәлдік бір нәрсе емес - бұл тұтас бір түрлі отбасы 👨👩👧👦📏
Адамдар «дәлдік» дегенде, олар осылардың кез келгенін айтып отыруы мүмкін (және олар көбінесе байқамай, бірден екеуін
-
Дұрыстығы : дұрыс белгі/жауап берді ме?
-
Дәлдік пен еске түсіру : жалған дабылдардың алдын алды ма, әлде бәрін анықтады ма?
-
Калибрлеу : «Мен 90% сенімдімін» деген кезде, ол шынымен де шамамен 90% жағдайда дұрыс па? [3]
-
Беріктік : енгізулер аздап өзгерген кезде (шу, жаңа сөз тіркестері, жаңа дереккөздер, жаңа демографиялық көрсеткіштер) ол әлі де жұмыс істей ме?
-
Сенімділік : күтілетін жағдайларда тұрақты түрде әрекет ете ме?
-
Шындық/фактілік (генеративті жасанды интеллект): ол сенімді түрде ойдан шығара ма (галлюцинация жасай ма)? [2]
Міне, сондықтан да сенімге бағытталған құрылымдар «дәлдікті» жеке кейіпкердің өлшемі ретінде қарастырмайды. Олар жарамдылық, сенімділік, қауіпсіздік, ашықтық, беріктік, әділдік және тағы басқалар жиынтық ретінде айтады - себебі сіз біреуін «оңтайландырып», екіншісін кездейсоқ бұза аласыз. [1]
3) «Жасанды интеллект қаншалықты дәл?» өлшеудің жақсы нұсқасын не құрайды? 🧪🔍
Міне, «жақсы нұсқа» тізімі (адамдар өткізіп жібереді... кейін өкінеді):
✅ Тапсырманың анық анықтамасы (яғни, оны тексеруге болатындай етіп жасаңыз)
-
«Қорытындылау» түсініксіз.
-
«5 тармақпен қорытындылаңыз, дереккөзден 3 нақты санды қосыңыз және дәйексөздер ойлап таппаңыз» деген қағиданы тексеруге болады.
✅ Тест деректерінің репрезентативтілігі (яғни, оңай режимде бағалауды тоқтату)
Егер тест жинағыңыз тым таза болса, дәлдік жалған болып көрінеді. Нақты пайдаланушылар қателіктер, таңқаларлық шеткі регистрлер және «Мен мұны телефоныма түнгі сағат 2-де жаздым» деген энергияны әкеледі.
✅ Тәуекелге сәйкес келетін көрсеткіш
Мемді дұрыс емес жіктеу медициналық ескертуді дұрыс емес жіктеумен бірдей емес. Сіз көрсеткіштерді дәстүрге негіздеп таңдамайсыз - оларды салдарына негіздеп таңдайсыз. [1]
✅ Таратудан тыс тестілеу (яғни: «шындық пайда болған кезде не болады?»)
Ерекше сөз тіркестерін, түсініксіз енгізулерді, қарсыласушылық шақыруларды, жаңа санаттар мен жаңа уақыт кезеңдерін қолданып көріңіз. Бұл маңызды, себебі таратуды ауыстыру - өндірістегі модельдердің бетпе-бет келуінің классикалық тәсілі. [4]
✅ Үздіксіз бағалау (яғни: дәлдік «орнат және ұмыт» функциясы емес)
Жүйелер өзгереді. Пайдаланушылар өзгереді. Деректер өзгереді. Сіздің «тамаша» моделіңіз тыныш нашарлайды - егер сіз оны үздіксіз өлшемесеңіз. [1]
Сіз танитын шағын нақты әлем үлгісі: топтар көбінесе жоғары «демо дәлдікпен» жеткізеді, содан кейін олардың нақты сәтсіздік режимі емес , «сенімді түрде, ауқымды түрде берілген дұрыс емес жауаптар» екенін анықтайды. Бұл тек модель мәселесі емес, бағалау дизайны мәселесі.
4) Жасанды интеллект әдетте өте дәл болады (және неге) 📈🛠️
Жасанды интеллект келесі мәселелер туындаған кезде жарқырайды:
-
тар
-
жақсы таңбаланған
-
уақыт өте келе тұрақты
-
оқытудың таралуына ұқсас
-
автоматты түрде ұпай жинау оңай
Мысалдар:
-
Спамды сүзу
-
Біркелкі орналасуларда құжаттарды алу
-
Көптеген кері байланыс сигналдары бар рейтинг/ұсыныс циклдары
-
Бақыланатын ортадағы көптеген көру қабілетін жіктеу тапсырмалары
Осы жеңістердің көпшілігінің артындағы жалықтыратын супердержава: айқын шындық + көптеген өзекті мысалдар . Сәнді емес - өте тиімді.
5) Жасанды интеллект дәлдігі жиі бұзылатын жерлер 😬🧯
Бұл адамдардың сүйектерінде сезінетін бөлігі.
Генеративті жасанды интеллекттегі галлюцинациялар 🗣️🌪️
дер сенімді, бірақ фактілік емес жасай алады - және оның «сенімді» бөлігі оның қауіпті болуының дәл себебі. Сондықтан жасанды интеллект тәуекелдерін басқару вибрацияға негізделген демонстрацияларға қарағанда жерге қосуға, құжаттауға және өлшеуге
Тарату ауысымы 🧳➡️🏠
Бір ортада оқытылған модель басқа ортада сүрінуі мүмкін: басқа пайдаланушы тілі, басқа өнім каталогы, басқа аймақтық нормалар, басқа уақыт кезеңі. WILDS сияқты эталондар негізінен: «тарату ішіндегі өнімділік нақты әлемдегі өнімділікті күрт асыра бағалауы мүмкін» деп айқайлау үшін бар. [4]
Сенімді болжам жасауға мүмкіндік беретін ынталандырулар 🏆🤥
Кейбір жүйелер кездейсоқ «тек білген кезде ғана жауап беру» әрекетінің орнына «әрқашан жауап беру» әрекетін марапаттайды. Сондықтан жүйелер болудан гөрі дұрыс айтуды . Сондықтан бағалауға тек шикі жауап беру коэффициентін ғана емес, қалыс қалу/белгісіздік әрекетін де қосу керек. [2]
Нақты әлемдегі оқиғалар және операциялық сәтсіздіктер 🚨
Тіпті мықты модель де жүйе ретінде сәтсіздікке ұшырауы мүмкін: нашар іздеу, ескірген деректер, бұзылған қоршаулар немесе модельді қауіпсіздік тексерулері арқылы тыныш бағыттайтын жұмыс процесі. Заманауи нұсқаулық дәлдікті тек модельдің бағасы емес, жүйенің сенімділігінің
6) Бағаланбаған супер күш: калибрлеу (яғни «білмейтініңді білу») 🎚️🧠
Екі модельдің «дәлдігі» бірдей болғанның өзінде, біреуі әлдеқайда қауіпсіз болуы мүмкін, себебі:
-
белгісіздікті тиісті түрде білдіреді
-
тым сенімді қате жауаптардан аулақ болады
-
шындыққа сәйкес келетін ықтималдықтарды береді
Калибрлеу тек академиялық емес - бұл сенімділікті іс жүзінде қолдануға болатын . Қазіргі заманғы нейрондық желілердегі классикалық жаңалық - сенімділік ұпайы нақты калибрленбесе немесе өлшенбесе, оның шынайы дұрыстығымен сәйкес
Егер сіздің құбырыңыз «0,9-дан жоғары автоматты түрде бекіту» сияқты шекті мәндерді пайдаланса, калибрлеу «автоматтандыру» мен «автоматтандырылған хаос» арасындағы айырмашылық болып табылады
7) Әртүрлі жасанды интеллект түрлері үшін жасанды интеллект дәлдігі қалай бағаланады 🧩📚
Классикалық болжау модельдері үшін (жіктеу/регрессия) 📊
Жалпы көрсеткіштер:
-
Дәлдік, дәлдік, еске түсіру, F1
-
ROC-AUC / PR-AUC (көбінесе теңгерімсіз мәселелер үшін жақсырақ)
-
Калибрлеуді тексеру (сенімділік қисықтары, күтілетін калибрлеу қателіктері стиліндегі ойлау) [3]
Тіл модельдері мен көмекшілері үшін 💬
Бағалау көп өлшемді болады:
-
дұрыстығы (тапсырманың шындық шарты болған кезде)
-
нұсқаулықты орындау
-
қауіпсіздік және бас тарту мінез-құлқы (жақсы бас тартулар таңқаларлықтай қиын)
-
фактілерді негіздеу / дәйексөз келтіру тәртібі (пайдалану жағдайыңыз қажет болған кезде)
-
сұраулар мен пайдаланушы стильдеріндегі беріктік
«Тұтас» бағалау ойлауының үлкен үлестерінің бірі - мәселені нақты көрсету: сізге бірнеше сценарий бойынша бірнеше көрсеткіштер қажет, себебі ымыраға келу нақты. [5]
LLM негізінде құрылған жүйелер үшін (жұмыс ағындары, агенттер, іздеу) 🧰
Енді сіз бүкіл құбырды бағалап жатырсыз:
-
іздеу сапасы (дұрыс ақпаратты алды ма?)
-
құрал логикасы (ол процесті орындады ма?)
-
шығыс сапасы (дұрыс және пайдалы ма?)
-
қоршаулар (қауіпті мінез-құлықтан аулақ болды ма?)
-
мониторинг (табиғатта сәтсіздіктерді байқадыңыз ба?) [1]
Кез келген жердегі әлсіз буын, тіпті базалық модель жақсы болса да, бүкіл жүйені «дәл емес» етіп көрсетуі мүмкін.
8) Салыстыру кестесі: «Жасанды интеллект қаншалықты дәл?» бағалаудың практикалық тәсілдері 🧾⚖️
| Құрал / тәсіл | Ең жақсысы | Шығындар атмосферасы | Неліктен жұмыс істейді |
|---|---|---|---|
| Қолдану жағдайындағы сынақ жиынтықтары | LLM қолданбалары + арнайы табыс критерийлері | Еркін | Сіз кездейсоқ көшбасшылар тақтасын емес, жұмыс процесін тексересіз |
| Көпметрикалық, сценарийді қамту | Модельдерді жауапкершілікпен салыстыру | Еркін | Сіз бір ғана сиқырлы сан емес, мүмкіндік «профилін» аласыз. [5] |
| Өмірлік цикл тәуекелі + бағалау ойлау тәсілі | Қатаңдықты қажет ететін жоғары тәуекелді жүйелер | Еркін | Сізді үздіксіз анықтауға, өлшеуге, басқаруға және бақылауға итермелейді. [1] |
| Калибрлеу тексерулері | Сенiмдiлiк шектерiн қолданатын кез келген жүйе | Еркін | «90% сенімді» дегеннің бірдеңені білдіретінін тексереді. [3] |
| Адамдардың пікірлерін тексеру комиссиялары | Қауіпсіздік, үн, нюанс, «бұл зиянды сезіле ме?» | $$ | Адамдар автоматтандырылған көрсеткіштер жіберіп алған контекст пен зиянды түсінеді. |
| Оқиғаларды бақылау + кері байланыс циклдары | Нақты әлемдегі сәтсіздіктерден сабақ алу | Еркін | Шындықтың түбіртектері бар - және өндірістік деректер сізге пікірлерге қарағанда тезірек үйретеді. [1] |
Құпияны форматтау: «Free-ish» мұнда көп жұмыс істейді, себебі нақты шығын көбінесе лицензиялар емес, адам-сағат болып табылады 😅
9) Жасанды интеллектті қалай дәлірек етуге болады (практикалық рычагтар) 🔧✨
Жақсырақ деректер және жақсырақ тестілер 📦🧪
-
Жиек регистрлерін жаю
-
Сирек кездесетін, бірақ маңызды сценарийлерді теңестіріңіз
-
Нақты пайдаланушының ауырсынуын білдіретін «алтын жиынтықты» сақтаңыз (және оны үнемі жаңартып отырыңыз)
Нақты тапсырмаларды негіздеу 📚🔍
Егер сізге нақты сенімділік қажет болса, сенімді құжаттарға сүйеніп, соларға негізделген жауап беретін жүйелерді пайдаланыңыз. Жасанды интеллект тәуекелдеріне арналған көптеген нұсқаулықтар модельдің «мінез-құлқын сақтайды» деп үміттенудің орнына, ойдан шығарылған мазмұнды азайтатын құжаттамаға, шығу тегіне және бағалау параметрлеріне
Күшті бағалау циклдары 🔁
-
Әрбір маңызды өзгеріс үшін evals функциясын іске қосыңыз
-
Регрессияларды бақылаңыз
-
Ерекше сұраулар мен зиянды енгізулерге арналған стресс-тест
Калибрленген мінез-құлықты ынталандырыңыз 🙏
-
«Білмеймін» дегенді тым қатты жазаламаңыз
-
Тек жауап беру көрсеткішін ғана емес, қалыс қалу сапасын да бағалаңыз
-
өлшейтін және растайтын нәрсе ретінде қарастырыңыз , көңіл-күйде қабылдайтын нәрсе ретінде емес [3]
10) Ішкі түйсікті тез тексеру: жасанды интеллекттің дәлдігіне қашан сену керек? 🧭🤔
Оған келесі жағдайларда көбірек сеніңіз:
-
тапсырма тар және қайталанатын
-
шығыстарды автоматты түрде тексеруге болады
-
жүйе бақыланады және жаңартылады
-
сенімділік калибрленген және ол бас тарта алады [3]
Оған аз сеніңіз, егер:
-
тәуекелдер жоғары және салдары нақты
-
сұрақ ашық («маған бәрін айтып берші...») 😵💫
-
жерге қосу, тексеру қадамы, адам шолуы жоқ
-
жүйе әдепкі бойынша сенімді жұмыс істейді [2]
Сәл қате метафора: жоғары тәуекелді шешімдер қабылдау үшін тексерілмеген жасанды интеллектке сүйену күн астында тұрған сушиді жеумен бірдей... бұл жақсы болуы мүмкін, бірақ асқазаныңыз сіз тіркелмеген құмар ойынға беріліп жатыр.
11) Қорытынды жазбалар және қысқаша мазмұндама 🧃✅
Сонымен, жасанды интеллект қаншалықты дәл?
Жасанды интеллект өте дәл болуы мүмкін - бірақ тек анықталған тапсырмаға, өлшеу әдісіне және ол орналастырылған ортаға қатысты . Ал генеративті жасанды интеллект үшін «дәлдік» көбінесе бір ұпайға емес, сенімді жүйе дизайнына : жерге қосуға, калибрлеуге, қамтуға, бақылауға және шынайы бағалауға байланысты. [1][2][5]
Қысқаша қорытынды 🎯
-
«Дәлдік» бір ғана ұпай емес - ол дұрыстық, калибрлеу, беріктік, сенімділік және (генеративтік жасанды интеллект үшін) шыншылдық. [1][2][3]
-
Эталондар көмектеседі, бірақ пайдалану жағдайын бағалау сізді адал етеді. [5]
-
Егер сізге фактілік сенімділік қажет болса, негіздеу + тексеру қадамдарын қосыңыз + қалыс қалуды бағалаңыз. [2]
-
Өмірлік циклді бағалау - бұл ересектерге арналған тәсіл... тіпті ол көшбасшылар тақтасының скриншотынан онша қызықты болмаса да. [1]
Жиі қойылатын сұрақтар
Тәжірибелік орналастырудағы жасанды интеллект дәлдігі
Тапсырма тар, жақсы анықталған және анықтай алатын нақты шындыққа байланысты болған кезде жасанды интеллект өте дәл бола алады. Өндірістік пайдалануда «дәлдік» сіздің бағалау деректеріңіз пайдаланушылардың шулы енгізулерін және жүйеңіздің далада кездесетін жағдайларын көрсететініне байланысты. Тапсырмалар ашық бола бастаған сайын (мысалы, чатботтар), жерге қосу, тексеру және бақылауды қоспасаңыз, қателіктер мен сенімді галлюцинациялар жиі кездеседі.
Неліктен «дәлдік» - бұл сіз сене алатын жалғыз көрсеткіш емес
Адамдар «дәлдік» сөзін әртүрлі мағынада қолданады: дұрыстық, дәлдік пен еске түсіру, калибрлеу, беріктік және сенімділік. Модель таза сынақ жиынында керемет көрінуі мүмкін, содан кейін сөз тіркестері өзгергенде, деректер ауытқығанда немесе тәуекелдер өзгергенде қателесуі мүмкін. Сенімге бағытталған бағалау бір санды әмбебап шешім ретінде қарастырудың орнына бірнеше метрика мен сценарийлерді пайдаланады.
Белгілі бір тапсырма үшін жасанды интеллект дәлдігін өлшеудің ең жақсы тәсілі
Тапсырманы «дұрыс» және «бұрыс» дегендер анық емес, тексерілетіндей етіп анықтаудан бастаңыз. Нақты пайдаланушылар мен шеткі жағдайларды көрсететін репрезентативті, шулы тест деректерін пайдаланыңыз. Әсіресе теңгерімсіз немесе жоғары тәуекелді шешімдер үшін салдарға сәйкес келетін көрсеткіштерді таңдаңыз. Содан кейін таратудан тыс стресс-тестілерді қосыңыз және ортаңыз дамыған сайын уақыт өте келе қайта бағалаңыз.
Пішіннің дәлдігі мен еске түсіру дәлдігінің іс жүзінде қалай қолданылуы
Дәлдік және қайта шақыру әртүрлі ақаулық шығындарын салыстырады: дәлдік жалған дабылдарды болдырмауға баса назар аударады, ал қайта шақыру бәрін анықтауға баса назар аударады. Егер сіз спамды сүзіп жатсаңыз, бірнеше қателіктер қолайлы болуы мүмкін, бірақ жалған оң нәтижелер пайдаланушылардың көңілін қалдыруы мүмкін. Басқа жағдайларда сирек кездесетін, бірақ маңызды жағдайларды жіберіп алу қосымша белгілерден гөрі маңыздырақ. Дұрыс тепе-теңдік жұмыс процесіндегі «дұрыс емес» шығындарға байланысты.
Калибрлеу дегеніміз не және ол дәлдік үшін неге маңызды
Калибрлеу модельдің сенімділігінің шындыққа сәйкес келетінін тексереді - «90% сенімді» деген кезде, ол шамамен 90% жағдайда дұрыс па? Бұл автоматты бекіту сияқты шекті мәндерді 0,9-дан жоғары орнатқан кезде маңызды. Екі модельдің дәлдігі ұқсас болуы мүмкін, бірақ жақсы калибрленгені қауіпсіз, себебі ол тым сенімді қате жауаптарды азайтады және ақылды түрде қалыс қалу мінез-құлқын қолдайды.
Генеративті жасанды интеллект дәлдігі және галлюцинациялардың пайда болу себептері
Генеративтік жасанды интеллект фактілерге негізделмеген кезде де еркін, сенімді мәтін жасай алады. Дәлдікті анықтау қиындай түседі, себебі көптеген сұрақтар бірнеше қолайлы жауаптарға мүмкіндік береді және модельдерді қатаң дәлдікке емес, «пайдалылыққа» оңтайландыруға болады. Нәтижелер жоғары сенімділікпен келген кезде галлюцинациялар әсіресе қауіпті болады. Фактілік пайдалану жағдайларында сенімді құжаттарға және тексеру қадамдарына сүйену жалған мазмұнды азайтуға көмектеседі.
Тарату ығысуы және таратудан тыс кірістерді тексеру
Әлем өзгерген кезде дистрибуция ішіндегі эталондар өнімділікті асыра бағалауы мүмкін. Жүйенің қай жерде күйрейтінін көру үшін ерекше сөз тіркестерімен, қателіктермен, түсініксіз енгізулермен, жаңа уақыт кезеңдерімен және жаңа санаттармен тексеріңіз. WILDS сияқты эталондар осы идеяның негізінде жасалған: деректер ауысқан кезде өнімділік күрт төмендеуі мүмкін. Стресс-тестілеуді бағалаудың негізгі бөлігі ретінде қарастырыңыз, жақсы нәрсе емес.
Уақыт өте келе жасанды интеллект жүйесін дәлірек ету
Шеткі жағдайларды кеңейту, сирек кездесетін, бірақ маңызды сценарийлерді теңестіру және нақты пайдаланушының қиындықтарын көрсететін «алтын жиынтықты» сақтау арқылы деректер мен тесттерді жақсартыңыз. Нақты тапсырмалар үшін модельдің жұмыс істейтініне үміттенудің орнына негіздеу мен тексеруді қосыңыз. Әрбір маңызды өзгерісті бағалауды жүргізіңіз, регрессияларды бақылаңыз және өндірісте дрейфті бақылаңыз. Сондай-ақ, «білмеймін» деген сенімді болжамға айналмас үшін қалыс қалуды бағалаңыз.
Сілтемелер
[1] NIST AI RMF 1.0 (NIST AI 100-1): Өмірлік циклдің барлық кезеңінде жасанды интеллект тәуекелдерін анықтау, бағалау және басқарудың практикалық негізі. толығырақ оқу
[2] NIST генеративті жасанды интеллект профилі (NIST AI 600-1): жасанды интеллект RMF-ке қосымша профиль, генеративті жасанды интеллект жүйелеріне тән тәуекел факторларына бағытталған. толығырақ оқу
[3] Гуо және т.б. (2017) - Заманауи нейрондық желілерді калибрлеу: Заманауи нейрондық желілерді қалай дұрыс калибрлеуге болатынын және калибрлеуді қалай жақсартуға болатынын көрсететін негізгі мақала. толығырақ оқу
[4] Ко және т.б. (2021) - WILDS эталоны: Нақты әлемдегі үлестірім өзгерістері кезінде модельдің өнімділігін тексеруге арналған эталондық жиынтық. толығырақ оқу
[5] Лян және т.б. (2023) - HELM (Тіл модельдерін тұтастай бағалау): Нақты келісімдерді анықтау үшін сценарийлер мен көрсеткіштер бойынша тілдік модельдерді бағалауға арналған негіз. толығырақ оқу