Жасанды интеллекттің дәлдігін қалай түсінуге болады?

Жасанды интеллекттің дәлдігін түсіну үшін тапсырманы нақты анықтау маңызды, себебі дәлдік тапсырманың қаншалықты жақсы көрсетілгеніне және жасанды интеллекттің жұмыс істеу жағдайларына байланысты өзгеруі мүмкін. Дұрыстық, дәлдік, еске түсіру және калибрлеу сияқты көрсеткіштерді бағалау жасанды интеллекттің қаншалықты жақсы жұмыс істейтіні туралы түсінік береді.

Неліктен мен жасанды интеллект үшін бір ғана дәлдік ұпайына сене алмаймын?

Дәлдік бір ғана көрсеткіш емес; ол дұрыстық, сенімділік және беріктік сияқты әртүрлі элементтерді қамтиды. Модель таза деректер жиынтығында жақсы жұмыс істеуі мүмкін, бірақ кірістер әртүрлі болатын нақты әлемдегі сценарийлерде сәтсіздікке ұшырауы мүмкін, бұл өнімділікті бағалау үшін бір ғана балл жеткіліксіз етеді.

Калибрлеу жасанды интеллект дәлдігі тұрғысынан нені білдіреді?

Калибрлеу модельдің сенімділік деңгейінің оның нақты өнімділігіне сәйкес келетініне көз жеткізу процесін білдіреді. Мысалы, егер жасанды интеллект алгоритмі жауапқа 90% сенімдімін деп мәлімдесе, калибрлеу оның 90% жағдайда шынымен дұрыс екенін тексереді. Бұл тым сенімді дұрыс емес нәтижелер қаупін азайтуға көмектеседі.

Уақыт өте келе жасанды интеллект жүйесінің дәлдігін қалай жақсартуға болады?

Уақыт өте келе жасанды интеллекттің дәлдігін арттыру үшін деректер сапасы мен тестілеу әдістерін үнемі бағалап отырыңыз, шеткі жағдайларды кеңейтіңіз және нақты пайдаланушы сценарийлері үшін «алтын жиынтықты» сақтаңыз. Өзгермелі ортада үнемі мониторинг және стресс-тестілеу жүйені тиімді бейімдеу үшін де өте маңызды.

Жасанды интеллекттің дәлдігін бағалау кезінде қандай жиі кездесетін қателіктер бар?

Жиі кездесетін қателіктерге нақты деректерді көрсетпейтін таза сынақ жиынтықтарына шамадан тыс тәуелділік, әртүрлі енгізулерді модельдейтін таратылмаған тестілеуді елемеу және қолданбаңыздағы жалған оң немесе теріс нәтижелердің салдарын ескермей, тек шикі дәлдікке назар аудару жатады.

Генеративті жасанды интеллект дәлдікті қабылдауға қалай әсер етуі мүмкін?

Генеративтік жасанды интеллект еркін көрінетін, бірақ шындыққа сәйкес келмейтін нәтижелерді шығара алады, бұл «галлюцинациялар» деп аталатын мәселелерге әкеледі. Генеративтік жасанды интеллекттің дәлдігі бірнеше қолайлы жауаптардың болуына байланысты күрделірек, бұл жауаптарды сенімді дереккөздерге негіздеуді қажет етеді.

Неліктен үздіксіз бағалау жасанды интеллекттің дәлдігі үшін маңызды?

Үздіксіз бағалау өте маңызды, себебі жасанды интеллект жүйелері пайдаланушы мінез-құлқының, деректерді енгізудің және қоршаған орта талаптарының өзгеруіне байланысты уақыт өте келе ауытқуы мүмкін. Үнемі бақылау өнімділіктің кез келген төмендеуін анықтауға және шешуге мүмкіндік береді, бұл жүйенің сенімділігіне сенімділікті сақтайды.

Жасанды интеллект қаншалықты дәл?

Қысқа жауап: Жасанды интеллект тар, нақты анықталған тапсырмаларда өте дәл бола алады, бірақ «дәлдік» - бұл әмбебап сенім арта алатын жалғыз баға емес. Ол тек тапсырма, деректер және метрика операциялық жағдайға сәйкес келгенде ғана жарамды; кірістер ауытқып кеткенде немесе тапсырмалар ашық болғанда, қателіктер мен сенімді галлюцинациялар артады.

Негізгі қорытындылар:

Тапсырмаға сәйкестік: «Дұрыс» және «бұрыс» дегендерді тексеруге болатындай етіп, тапсырманы дәл анықтаңыз.

Метрикалық таңдау: Бағалау көрсеткіштерін дәстүрге немесе ыңғайлылыққа емес, нақты салдарға сәйкестендіріңіз.

Шындықты тексеру: Өкілдік, шулы деректерді және таратылмаған стресс-тестілерді пайдаланыңыз.

Калибрлеу: Сенімділіктің, әсіресе табалдырықтар үшін дұрыстыққа сәйкес келетінін өлшеңіз.

Өмірлік циклді бақылау: пайдаланушылар, деректер және орталар уақыт өте келе өзгерген сайын үздіксіз қайта бағалау.

Осыдан кейін оқуға болатын мақалалар:

🔗 Жасанды интеллектті кезең-кезеңімен қалай үйренуге болады
Жаңадан бастаушыларға арналған жасанды интеллектті сенімді түрде үйренуді бастауға арналған жол картасы.

🔗 Жасанды интеллект деректердегі ауытқуларды қалай анықтайды
Жасанды интеллект ерекше үлгілерді автоматты түрде анықтау үшін қолданатын әдістерді түсіндіреді.

🔗 Неліктен жасанды интеллект қоғамға зиянды болуы мүмкін
Бейтараптық, жұмысқа әсер ету және құпиялылық мәселелері сияқты тәуекелдерді қамтиды.

🔗 Жасанды интеллект деректер жиынтығы дегеніміз не және ол неліктен маңызды
Деректер жиынтығын және олардың жасанды интеллект модельдерін қалай оқытатынын және бағалайтынын анықтайды.

1) Сонымен... Жасанды интеллект қаншалықты дәл?🧠✅

бола алады өте - әсіресе «дұрыс жауап» бірмәнді және оңай бағаланатын кезде.

Бірақ ашық тапсырмаларда (әсіресе генеративті жасанды интеллектте ) «дәлдік» тез өзгереді, себебі:

болуы мүмкін бірнеше қолайлы жауаптар
нәтиже еркін болуы мүмкін, бірақ фактілерге негізделмеген
модель қатаң дәлдікке емес, «пайдалылық» вибрацияларына бейімделген болуы мүмкін
әлем өзгереді, ал жүйелер шындықтан артта қалуы мүмкін

Пайдалы ойша модель: дәлдік – сізде «бар» қасиет емес. Бұл – белгілі бір тапсырма үшін, белгілі бір ортада, белгілі бір өлшеу қондырғысымен «табылатын» қасиет. Сондықтан байыпты басшылық бағалауды бір реттік есеп тақтасы емес, өмірлік цикл әрекеті ретінде қарастырады. [1]

2) Дәлдік бір нәрсе емес - бұл тұтас бір түрлі отбасы 👨👩👧👦📏

Адамдар «дәлдік» дегенде, олар осылардың кез келгенін айтып отыруы мүмкін (және олар көбінесе бірден екеуін байқамай,

Дұрыстығы: дұрыс белгі/жауап берді ме?
Дәлдік пен еске түсіру: жалған дабылдардың алдын алды ма, әлде бәрін анықтады ма?
Калибрлеу: «Мен 90% сенімдімін» деген кезде, ол шынымен де шамамен 90% жағдайда дұрыс па? [3]
Беріктік: енгізулер аздап өзгерген кезде (шу, жаңа сөз тіркестері, жаңа дереккөздер, жаңа демографиялық көрсеткіштер) ол әлі де жұмыс істей ме?
Сенімділік: күтілетін жағдайларда тұрақты түрде әрекет ете ме?
Шындық/фактілік (генеративті жасанды интеллект): ол сенімді түрде ойдан шығара ма (галлюцинация жасай ма)? [2]

Міне, сондықтан да сенімге бағытталған құрылымдар «дәлдікті» жеке кейіпкердің өлшемі ретінде қарастырмайды. Олар жарамдылық, сенімділік, қауіпсіздік, ашықтық, беріктік, әділдік және тағы басқалар жиынтық ретінде айтады - себебі сіз біреуін «оңтайландырып», екіншісін кездейсоқ бұза аласыз. [1]

3) «Жасанды интеллект қаншалықты дәл?» өлшеудің жақсы нұсқасын не құрайды? 🧪🔍

Міне, «жақсы нұсқа» тізімі (адамдар өткізіп жібереді... кейін өкінеді):

✅ Тапсырманың анық анықтамасы (яғни, оны тексеруге болатындай етіп жасаңыз)

«Қорытындылау» түсініксіз.
«5 тармақпен қорытындылаңыз, дереккөзден 3 нақты санды қосыңыз және дәйексөздер ойлап таппаңыз» деген қағиданы тексеруге болады.

✅ Тест деректерінің репрезентативтілігі (яғни, оңай режимде бағалауды тоқтату)

Егер тест жинағыңыз тым таза болса, дәлдік жалған болып көрінеді. Нақты пайдаланушылар қателіктер, таңқаларлық шеткі регистрлер және «Мен мұны телефоныма түнгі сағат 2-де жаздым» деген энергияны әкеледі.

✅ Тәуекелге сәйкес келетін көрсеткіш

Мемді дұрыс емес жіктеу медициналық ескертуді дұрыс емес жіктеумен бірдей емес. Сіз көрсеткіштерді дәстүрге негіздеп таңдамайсыз - оларды салдарына негіздеп таңдайсыз. [1]

✅ Таратудан тыс тестілеу (яғни: «шындық пайда болған кезде не болады?»)

Ерекше сөз тіркестерін, түсініксіз енгізулерді, қарсыласушылық шақыруларды, жаңа санаттар мен жаңа уақыт кезеңдерін қолданып көріңіз. Бұл маңызды, себебі таратуды ауыстыру - өндірістегі модельдердің бетпе-бет келуінің классикалық тәсілі. [4]

✅ Үздіксіз бағалау (яғни: дәлдік «орнат және ұмыт» функциясы емес)

Жүйелер өзгереді. Пайдаланушылар өзгереді. Деректер өзгереді. Сіздің «тамаша» моделіңіз тыныш нашарлайды - егер сіз оны үздіксіз өлшемесеңіз. [1]

Сіз танитын шағын нақты әлем үлгісі: топтар көбінесе жоғары «демо дәлдікпен» жеткізеді, содан кейін олардың нақты сәтсіздік режимі емес , «сенімді түрде, ауқымды түрде берілген дұрыс емес жауаптар» екенін анықтайды. Бұл тек модель мәселесі емес, бағалау дизайны мәселесі.

4) Жасанды интеллект әдетте өте дәл болады (және неге) 📈🛠️

Жасанды интеллект келесі мәселелер туындаған кезде жарқырайды:

тар
жақсы таңбаланған
уақыт өте келе тұрақты
оқытудың таралуына ұқсас
автоматты түрде ұпай жинау оңай

Мысалдар:

Спамды сүзу
Біркелкі орналасуларда құжаттарды алу
Көптеген кері байланыс сигналдары бар рейтинг/ұсыныс циклдары
Бақыланатын ортадағы көптеген көру қабілетін жіктеу тапсырмалары

Осы жеңістердің көпшілігінің артындағы жалықтыратын супердержава: айқын шындық + көптеген өзекті мысалдар. Сәнді емес - өте тиімді.

5) Жасанды интеллект дәлдігі жиі бұзылатын жерлер 😬🧯

Бұл адамдардың сүйектерінде сезінетін бөлігі.

Генеративті жасанды интеллекттегі галлюцинациялар 🗣️🌪️

жасай алады дер сенімді, бірақ фактілік емес - және оның «сенімді» бөлігі оның қауіпті болуының дәл себебі. Сондықтан жасанды интеллект тәуекелдерін басқару жерге қосуға, құжаттауға және өлшеуге вибрацияға негізделген демонстрацияларға қарағанда

Тарату ауысымы 🧳➡️🏠

Бір ортада оқытылған модель басқа ортада сүрінуі мүмкін: басқа пайдаланушы тілі, басқа өнім каталогы, басқа аймақтық нормалар, басқа уақыт кезеңі. WILDS сияқты эталондар негізінен: «тарату ішіндегі өнімділік нақты әлемдегі өнімділікті күрт асыра бағалауы мүмкін» деп айқайлау үшін бар. [4]

Сенімді болжам жасауға мүмкіндік беретін ынталандырулар 🏆🤥

Кейбір жүйелер кездейсоқ «тек білген кезде ғана жауап беру» әрекетінің орнына «әрқашан жауап беру» әрекетін марапаттайды. Сондықтан жүйелер айтуды гөрі дұрыс болудан . Сондықтан бағалауға тек шикі жауап беру коэффициентін ғана емес, қалыс қалу/белгісіздік әрекетін де қосу керек. [2]

Нақты әлемдегі оқиғалар және операциялық сәтсіздіктер 🚨

Тіпті мықты модель де жүйе ретінде сәтсіздікке ұшырауы мүмкін: нашар іздеу, ескірген деректер, бұзылған қоршаулар немесе модельді қауіпсіздік тексерулері арқылы тыныш бағыттайтын жұмыс процесі. Заманауи нұсқаулық дәлдікті жүйенің сенімділігініңтек модельдің бағасы емес,

6) Бағаланбаған супер күш: калибрлеу (яғни «білмейтініңді білу») 🎚️🧠

Екі модельдің «дәлдігі» бірдей болғанның өзінде, біреуі әлдеқайда қауіпсіз болуы мүмкін, себебі:

белгісіздікті тиісті түрде білдіреді
тым сенімді қате жауаптардан аулақ болады
шындыққа сәйкес келетін ықтималдықтарды береді

Калибрлеу тек академиялық емес - бұл сенімділікті іс жүзінде қолдануға болатын. Қазіргі заманғы нейрондық желілердегі классикалық жаңалық - сенімділік ұпайы сәйкес нақты калибрленбесе немесе өлшенбесе, оның шынайы дұрыстығымен

Егер сіздің құбырыңыз «0,9-дан жоғары автоматты түрде бекіту» сияқты шекті мәндерді пайдаланса, калибрлеу «автоматтандыру» мен «автоматтандырылған хаос» арасындағы айырмашылық болып табылады

7) Әртүрлі жасанды интеллект түрлері үшін жасанды интеллект дәлдігі қалай бағаланады 🧩📚

Классикалық болжау модельдері үшін (жіктеу/регрессия) 📊

Жалпы көрсеткіштер:

Дәлдік, дәлдік, еске түсіру, F1
ROC-AUC / PR-AUC (көбінесе теңгерімсіз мәселелер үшін жақсырақ)
Калибрлеуді тексеру (сенімділік қисықтары, күтілетін калибрлеу қателіктері стиліндегі ойлау) [3]

Тіл модельдері мен көмекшілері үшін 💬

Бағалау көп өлшемді болады:

дұрыстығы (тапсырманың шындық шарты болған кезде)
нұсқаулықты орындау
қауіпсіздік және бас тарту мінез-құлқы (жақсы бас тартулар таңқаларлықтай қиын)
фактілерді негіздеу / дәйексөз келтіру тәртібі (пайдалану жағдайыңыз қажет болған кезде)
сұраулар мен пайдаланушы стильдеріндегі беріктік

«Тұтас» бағалау ойлауының үлкен үлестерінің бірі - мәселені нақты көрсету: бірнеше сценарий бойынша бірнеше көрсеткіштер қажет, себебі ымыраға келу нақты. [5]

LLM негізінде құрылған жүйелер үшін (жұмыс ағындары, агенттер, іздеу) 🧰

Енді сіз бүкіл құбырды бағалап жатырсыз:

іздеу сапасы (дұрыс ақпаратты алды ма?)
құрал логикасы (ол процесті орындады ма?)
шығыс сапасы (дұрыс және пайдалы ма?)
қоршаулар (қауіпті мінез-құлықтан аулақ болды ма?)
мониторинг (табиғатта сәтсіздіктерді байқадыңыз ба?) [1]

Кез келген жердегі әлсіз буын, тіпті базалық модель жақсы болса да, бүкіл жүйені «дәл емес» етіп көрсетуі мүмкін.

8) Салыстыру кестесі: «Жасанды интеллект қаншалықты дәл?» бағалаудың практикалық тәсілдері 🧾⚖️

Құрал / тәсіл	Ең жақсысы	Шығындар атмосферасы	Неліктен жұмыс істейді
Қолдану жағдайындағы сынақ жиынтықтары	LLM қолданбалары + арнайы табыс критерийлері	Еркін	Сіз тексересіз кездейсоқ көшбасшылар тақтасын емес, жұмыс процесін
Көпметрикалық, сценарийді қамту	Модельдерді жауапкершілікпен салыстыру	Еркін	Сіз бір ғана сиқырлы сан емес, мүмкіндік «профилін» аласыз. [5]
Өмірлік цикл тәуекелі + бағалау ойлау тәсілі	Қатаңдықты қажет ететін жоғары тәуекелді жүйелер	Еркін	Сізді үздіксіз анықтауға, өлшеуге, басқаруға және бақылауға итермелейді. [1]
Калибрлеу тексерулері	Сенiмдiлiк шектерiн қолданатын кез келген жүйе	Еркін	«90% сенімді» дегеннің бірдеңені білдіретінін тексереді. [3]
Адамдардың пікірлерін тексеру комиссиялары	Қауіпсіздік, үн, нюанс, «бұл зиянды сезіле ме?»	$$	Адамдар автоматтандырылған көрсеткіштер жіберіп алған контекст пен зиянды түсінеді.
Оқиғаларды бақылау + кері байланыс циклдары	Нақты әлемдегі сәтсіздіктерден сабақ алу	Еркін	Шындықтың түбіртектері бар - және өндірістік деректер сізге пікірлерге қарағанда тезірек үйретеді. [1]

Құпияны форматтау: «Free-ish» мұнда көп жұмыс істейді, себебі нақты шығын көбінесе лицензиялар емес, адам-сағат болып табылады 😅

9) Жасанды интеллектті қалай дәлірек етуге болады (практикалық рычагтар) 🔧✨

Жақсырақ деректер және жақсырақ тестілер 📦🧪

Жиек регистрлерін жаю
Сирек кездесетін, бірақ маңызды сценарийлерді теңестіріңіз
Нақты пайдаланушының ауырсынуын білдіретін «алтын жиынтықты» сақтаңыз (және оны үнемі жаңартып отырыңыз)

Нақты тапсырмаларды негіздеу 📚🔍

Егер сізге нақты сенімділік қажет болса, сенімді құжаттарға сүйеніп, соларға негізделген жауап беретін жүйелерді пайдаланыңыз. Жасанды интеллект тәуекелдеріне арналған көптеген нұсқаулықтар ойдан шығарылған мазмұнды азайтатын құжаттамаға, шығу тегіне және бағалау параметрлеріне модельдің «мінез-құлқын сақтайды» деп үміттенудің орнына,

Күшті бағалау циклдары 🔁

Әрбір маңызды өзгеріс үшін evals функциясын іске қосыңыз
Регрессияларды бақылаңыз
Ерекше сұраулар мен зиянды енгізулерге арналған стресс-тест

Калибрленген мінез-құлықты ынталандырыңыз 🙏

«Білмеймін» дегенді тым қатты жазаламаңыз
Тек жауап беру көрсеткішін ғана емес, қалыс қалу сапасын да бағалаңыз
нәрсе ретінде қарастырыңыз өлшейтін және растайтын, көңіл-күйде қабылдайтын нәрсе ретінде емес [3]

10) Ішкі түйсікті тез тексеру: жасанды интеллекттің дәлдігіне қашан сену керек? 🧭🤔

Оған келесі жағдайларда көбірек сеніңіз:

тапсырма тар және қайталанатын
шығыстарды автоматты түрде тексеруге болады
жүйе бақыланады және жаңартылады
сенімділік калибрленген және ол бас тарта алады [3]

Оған аз сеніңіз, егер:

тәуекелдер жоғары және салдары нақты
сұрақ ашық («маған бәрін айтып берші...») 😵💫
жерге қосу, тексеру қадамы, адам шолуы жоқ
жүйе әдепкі бойынша сенімді жұмыс істейді [2]

Сәл қате метафора: жоғары тәуекелді шешімдер қабылдау үшін тексерілмеген жасанды интеллектке сүйену күн астында тұрған сушиді жеумен бірдей... бұл жақсы болуы мүмкін, бірақ асқазаныңыз сіз тіркелмеген құмар ойынға беріліп жатыр.

11) Қорытынды жазбалар және қысқаша мазмұндама 🧃✅

Сонымен, жасанды интеллект қаншалықты дәл?
Жасанды интеллект өте дәл болуы мүмкін - бірақ тек анықталған тапсырмаға, өлшеу әдісіне және ол орналастырылған ортаға қатысты. Ал генеративті жасанды интеллект үшін «дәлдік» көбінесе бір ұпайға емес, сенімді жүйе дизайнына: жерге қосуға, калибрлеуге, қамтуға, бақылауға және шынайы бағалауға байланысты. [1][2][5]

Қысқаша қорытынды 🎯

«Дәлдік» бір ғана ұпай емес - ол дұрыстық, калибрлеу, беріктік, сенімділік және (генеративтік жасанды интеллект үшін) шыншылдық. [1][2][3]
Эталондар көмектеседі, бірақ пайдалану жағдайын бағалау сізді адал етеді. [5]
Егер сізге фактілік сенімділік қажет болса, негіздеу + тексеру қадамдарын қосыңыз + қалыс қалуды бағалаңыз. [2]
Өмірлік циклді бағалау - бұл ересектерге арналған тәсіл... тіпті ол көшбасшылар тақтасының скриншотынан онша қызықты болмаса да. [1]

Нақты әлемдегі мысал: жасанды интеллект қолдау-сұрыптау көмекшісін өлшеу

Сценарий

Кішкентай SaaS компаниясы кіріс қолдау билеттерін төрт кезекке сұрыптау үшін жасанды интеллектті пайдаланғысы келетінін елестетіп көріңіз:

Есеп айырысу

Жүйеге кіру мәселелері

Қате туралы есептер

Функция сұраулары

Компания . жасанды интеллектке тұтынушыларға тікелей жауап беруге мүмкіндік бермейді. Оның міндеті тар: билетті оқу, дұрыс кезекті таңдау, сенімділік ұпайын беру және кез келген белгісіз нәрсені адами шолу үшін белгілеу

Бұл дәлдік мәселесін тексеруді әлдеқайда жеңілдетеді. «Дұрыс» кезек айқын, адам қателіктерді қарап шыға алады және топ жасанды интеллекттің тек пайдалы болып көрінудің орнына көмектесіп жатқанын өлшей алады.

Көмекшіге не қажет

Мұны дұрыс тексеру үшін команда мыналарды дайындайды:

100 нақты немесе шынайы қолдау билетінен тұратын белгіленген сынақ жиынтығы

Әр билет үшін адам шолушысы келіскен дұрыс кезек

Әрбір кезекте не бар екенін түсіндіретін қысқаша саясат

Сенiмдiлiк төмен болған кезде көмекшiнiң «адамдық тексеру қажет» деп айтуы тиiс ереже

Қарапайым бақылау парағы: билет идентификаторы, жасанды интеллект кезегі, адам кезегі, сенімділік ұпайы, шолу нәтижесі және кеткен уақыт

Мысал нұсқаулығы

Сіз қолдау көрсету бойынша сұрыптау көмекшісіз. Тұтынушы хабарламасын оқып, оны бір кезекке тағайындаңыз: төлем, кіру мәселелері, қате туралы есептер, мүмкіндіктерді сұрау немесе адами шолуды қажет етеді.

Шот-фактуралар, қайтарымдар, төлемдердің сәтсіз аяқталуы, жоспар өзгерістері және жазылым сұрақтары үшін төлемдерді пайдаланыңыз.

Құпия сөзді қалпына келтіру, тіркелгіге кіру, екі факторлы аутентификация, бұғатталған тіркелгілер немесе электрондық поштаны тексеру мәселелері үшін кіру мәселелерін пайдаланыңыз.

Өнім құжаттамасына сәйкес келмейтін бұзылған мүмкіндіктер, қате туралы хабарлар, жоқ деректер, апаттар немесе әрекеттер үшін қате туралы есептерді пайдаланыңыз.

Тұтынушы жаңа мүмкіндікті, интеграцияны, параметрді немесе жұмыс процесін жақсартуды сұраған кезде мүмкіндік сұрауларын пайдаланыңыз.

Егер хабарлама түсініксіз болса, бірнеше мәселе болса немесе қауіпсіздікке немесе құпиялылыққа әсер етуі мүмкін болса, «Адамдық шолу қажет» опциясын таңдаңыз.

Қайтару: кезек, 0-ден 100-ге дейінгі сенімділік, бір сөйлемнен тұратын себеп және адам оны тексеруі керек пе.

Оны қалай тексеруге болады

Өндірістегі жүйеге сенбес бұрын, шағын «алтын жиынтықтан» бастаңыз.

Мысалы:

20 төлем билеті

20 тіркелу билеті

20 қате туралы есеп

20 функцияға сұраныс

20 шатасқан немесе түсініксіз билет

Содан кейін көмекшіні барлық 100 билетте іске қосып, оның таңдалған кезегін адам бекіткен кезекпен салыстырыңыз.

Пайдалы тексерулерге мыналар жатады:

Жалпы дәлдік: дұрыс кезекке қанша билет кетті?

Кезек бойынша дәлдік: жасанды интеллект «Есеп айырысу» деп айтқанда, ол қаншалықты жиі есеп айырысады?

Кезек бойынша еске түсіру: қанша нақты төлем билеті ұсталды?

Эскалация сапасы: шатасқан билеттерді адами шолуға дұрыс жіберді ме?

Калибрлеу: 90% немесе одан жоғары сенімділік айтылғанда, көп жағдайда дұрыс болды ма?

Нәтиже

Көрнекі нәтиже: осы жұмыс процесін пайдаланбас бұрын және кейін 100 үлгі билетті уақыт бойынша есептеуге негізделген.

Көмекшіні пайдаланбас бұрын, қолдау көрсету маманы әр билетті қолмен оқуға және бағыттауға шамамен 2 минут 30 секунд . 100 билет үшін бұл шамамен 250 минут сұрыптау жұмысына тең болды.

Көмекшіні пайдаланғаннан кейін, қолдау көрсетуші тек жасанды интеллекттің кезек таңдауын қарап, сенімділігі төмен жағдайларды тексерді. Қарау уақыты әр билет үшін шамамен 55 секундқанемесе 92 минутқа 100 билет үшін

шамамен 158 минут үнемдеуге 100 билеткенемесе сұрыптау уақытын шамамен 63%-ға қысқартуға мүмкіндік береді.

Ойдан шығарылған 100 билеттік тест жинағының дәлдігі келесідей болды:

Жалпы кезек дәлдігі: 87/100 билет дұрыс

Сенімділігі жоғары билеттер 85%-дан жоғары: 61 билет

Жоғары сенімді билеттердегі дәлдік: 58/61 дұрыс

Билеттерді адам шолуына жіберілді: 18 билет

Анық емес билеттер дұрыс көрсетілген: 15/20

Маңызды бөлшек тек 87% дәлдікте ғана емес. Қауіпсіз нәтиже - көмекші сенімді болған кезде дәлірек және көптеген түсініксіз жағдайларды болжаудың орнына адамға жеткізді. Бұл пайдалы автоматтандыру мен сенімді мағынасыздықтың айырмашылығы.

Не дұрыс болмауы мүмкін

Ең көп таралған қателік - тек таза үлгілерді тексеру. Нақты билеттер шатасып кетеді. Тұтынушы: «Маған екі рет ақы төленді, енді кіре алмаймын», - деп жазуы мүмкін. Бұл төлем, кіру мәселелері немесе компанияның процесіне байланысты адами тексеруді қажет етуі мүмкін.

Басқа тәуекелдерге мыналар жатады:

Өнімге сәйкес келмейтін ескі билеттерді пайдалану

Қолдау нұсқаулығында жоқ саясат ережелерін жасанды интеллектке ойлап табуға мүмкіндік беру

Калибрлеуді тексермей, сенімділік ұпайларын сенімді деп санау

Тек жалпы дәлдікті өлшеу және бір кезектегі нашар өнімділікті жіберіп алу

«Адамдардың тексеруін қажет етеді» деп қатаң жазалау соншалықты, тіпті көмекші болжам жасай бастайды

Жақсы сынақ дұрыс эскалацияны марапаттауы керек. Көптеген бизнес жұмыс процестері үшін «мен сенімді емеспін» деген сөз сәтсіздік емес. Бұл қауіпсіздік мүмкіндігі.

Практикалық қорытынды

«Жасанды интеллект қаншалықты дәл?» деген сұраққа жауап берудің ең жақсы жолы - оны абстрактілі түрде сұрауды тоқтату. Бір тапсырманы таңдаңыз, шағын тест жинағын жасаңыз, не дұрыс деп саналатынын анықтаңыз, қателерді санат бойынша өлшеңіз және ЖСА жұмысты адамға қашан қайтару керектігін білетінін тексеріңіз. Бұл сізге тек жылтыратылған эталондық балл емес, жақсартуға болатын нақты дәлдік санын береді.

Жиі қойылатын сұрақтар

Тәжірибелік орналастырудағы жасанды интеллект дәлдігі

Тапсырма тар, жақсы анықталған және анықтай алатын нақты шындыққа байланысты болған кезде жасанды интеллект өте дәл бола алады. Өндірістік пайдалануда «дәлдік» сіздің бағалау деректеріңіз пайдаланушылардың шулы енгізулерін және жүйеңіздің далада кездесетін жағдайларын көрсететініне байланысты. Тапсырмалар ашық бола бастаған сайын (мысалы, чатботтар), жерге қосу, тексеру және бақылауды қоспасаңыз, қателіктер мен сенімді галлюцинациялар жиі кездеседі.

Неліктен «дәлдік» - бұл сіз сене алатын жалғыз көрсеткіш емес

Адамдар «дәлдік» сөзін әртүрлі мағынада қолданады: дұрыстық, дәлдік пен еске түсіру, калибрлеу, беріктік және сенімділік. Модель таза сынақ жиынында керемет көрінуі мүмкін, содан кейін сөз тіркестері өзгергенде, деректер ауытқығанда немесе тәуекелдер өзгергенде қателесуі мүмкін. Сенімге бағытталған бағалау бір санды әмбебап шешім ретінде қарастырудың орнына бірнеше метрика мен сценарийлерді пайдаланады.

Белгілі бір тапсырма үшін жасанды интеллект дәлдігін өлшеудің ең жақсы тәсілі

Тапсырманы «дұрыс» және «бұрыс» дегендер анық емес, тексерілетіндей етіп анықтаудан бастаңыз. Нақты пайдаланушылар мен шеткі жағдайларды көрсететін репрезентативті, шулы тест деректерін пайдаланыңыз. Әсіресе теңгерімсіз немесе жоғары тәуекелді шешімдер үшін салдарға сәйкес келетін көрсеткіштерді таңдаңыз. Содан кейін таратудан тыс стресс-тестілерді қосыңыз және ортаңыз дамыған сайын уақыт өте келе қайта бағалаңыз.

Пішіннің дәлдігі мен еске түсіру дәлдігінің іс жүзінде қалай қолданылуы

Дәлдік және қайта шақыру әртүрлі ақаулық шығындарын салыстырады: дәлдік жалған дабылдарды болдырмауға баса назар аударады, ал қайта шақыру бәрін анықтауға баса назар аударады. Егер сіз спамды сүзіп жатсаңыз, бірнеше қателіктер қолайлы болуы мүмкін, бірақ жалған оң нәтижелер пайдаланушылардың көңілін қалдыруы мүмкін. Басқа жағдайларда сирек кездесетін, бірақ маңызды жағдайларды жіберіп алу қосымша белгілерден гөрі маңыздырақ. Дұрыс тепе-теңдік жұмыс процесіндегі «дұрыс емес» шығындарға байланысты.

Калибрлеу дегеніміз не және ол дәлдік үшін неге маңызды

Калибрлеу модельдің сенімділігінің шындыққа сәйкес келетінін тексереді - «90% сенімді» деген кезде, ол шамамен 90% жағдайда дұрыс па? Бұл автоматты бекіту сияқты шекті мәндерді 0,9-дан жоғары орнатқан кезде маңызды. Екі модельдің дәлдігі ұқсас болуы мүмкін, бірақ жақсы калибрленгені қауіпсіз, себебі ол тым сенімді қате жауаптарды азайтады және ақылды түрде қалыс қалу мінез-құлқын қолдайды.

Генеративті жасанды интеллект дәлдігі және галлюцинациялардың пайда болу себептері

Генеративтік жасанды интеллект фактілерге негізделмеген кезде де еркін, сенімді мәтін жасай алады. Дәлдікті анықтау қиындай түседі, себебі көптеген сұрақтар бірнеше қолайлы жауаптарға мүмкіндік береді және модельдерді қатаң дәлдікке емес, «пайдалылыққа» оңтайландыруға болады. Нәтижелер жоғары сенімділікпен келген кезде галлюцинациялар әсіресе қауіпті болады. Фактілік пайдалану жағдайларында сенімді құжаттарға және тексеру қадамдарына сүйену жалған мазмұнды азайтуға көмектеседі.

Тарату ығысуы және таратудан тыс кірістерді тексеру

Әлем өзгерген кезде дистрибуция ішіндегі эталондар өнімділікті асыра бағалауы мүмкін. Жүйенің қай жерде күйрейтінін көру үшін ерекше сөз тіркестерімен, қателіктермен, түсініксіз енгізулермен, жаңа уақыт кезеңдерімен және жаңа санаттармен тексеріңіз. WILDS сияқты эталондар осы идеяның негізінде жасалған: деректер ауысқан кезде өнімділік күрт төмендеуі мүмкін. Стресс-тестілеуді бағалаудың негізгі бөлігі ретінде қарастырыңыз, жақсы нәрсе емес.

Уақыт өте келе жасанды интеллект жүйесін дәлірек ету

Шеткі жағдайларды кеңейту, сирек кездесетін, бірақ маңызды сценарийлерді теңестіру және нақты пайдаланушының қиындықтарын көрсететін «алтын жиынтықты» сақтау арқылы деректер мен тесттерді жақсартыңыз. Нақты тапсырмалар үшін модельдің жұмыс істейтініне үміттенудің орнына негіздеу мен тексеруді қосыңыз. Әрбір маңызды өзгерісті бағалауды жүргізіңіз, регрессияларды бақылаңыз және өндірісте дрейфті бақылаңыз. Сондай-ақ, «білмеймін» деген сенімді болжамға айналмас үшін қалыс қалуды бағалаңыз.

Сілтемелер

[1] NIST AI RMF 1.0 (NIST AI 100-1): Өмірлік циклдің барлық кезеңінде жасанды интеллект тәуекелдерін анықтау, бағалау және басқарудың практикалық негізі. толығырақ оқу
[2] NIST генеративті жасанды интеллект профилі (NIST AI 600-1): жасанды интеллект RMF-ке қосымша профиль, генеративті жасанды интеллект жүйелеріне тән тәуекел факторларына бағытталған. толығырақ оқу
[3] Гуо және т.б. (2017) - Заманауи нейрондық желілерді калибрлеу: Заманауи нейрондық желілерді қалай дұрыс калибрлеуге болатынын және калибрлеуді қалай жақсартуға болатынын көрсететін негізгі мақала. толығырақ оқу
[4] Ко және т.б. (2021) - WILDS эталоны: Нақты әлемдегі үлестірім өзгерістері кезінде модельдің өнімділігін тексеруге арналған эталондық жиынтық. толығырақ оқу
[5] Лян және т.б. (2023) - HELM (Тіл модельдерін тұтастай бағалау): Нақты келісімдерді анықтау үшін сценарийлер мен көрсеткіштер бойынша тілдік модельдерді бағалауға арналған негіз. толығырақ оқу

Ресми AI көмекші дүкенінен ең соңғы AI-ді табыңыз

Біз туралы

Блогқа оралу

Қосымша жиі қойылатын сұрақтар

Жасанды интеллекттің дәлдігін қалай түсінуге болады?

Жасанды интеллекттің дәлдігін түсіну үшін тапсырманы нақты анықтау маңызды, себебі дәлдік тапсырманың қаншалықты жақсы көрсетілгеніне және жасанды интеллекттің жұмыс істеу жағдайларына байланысты өзгеруі мүмкін. Дұрыстық, дәлдік, еске түсіру және калибрлеу сияқты көрсеткіштерді бағалау жасанды интеллекттің қаншалықты жақсы жұмыс істейтіні туралы түсінік береді.
Неліктен мен жасанды интеллект үшін бір ғана дәлдік ұпайына сене алмаймын?

Дәлдік бір ғана көрсеткіш емес; ол дұрыстық, сенімділік және беріктік сияқты әртүрлі элементтерді қамтиды. Модель таза деректер жиынтығында жақсы жұмыс істеуі мүмкін, бірақ кірістер әртүрлі болатын нақты әлемдегі сценарийлерде сәтсіздікке ұшырауы мүмкін, бұл өнімділікті бағалау үшін бір ғана балл жеткіліксіз етеді.
Калибрлеу жасанды интеллект дәлдігі тұрғысынан нені білдіреді?

Калибрлеу модельдің сенімділік деңгейінің оның нақты өнімділігіне сәйкес келетініне көз жеткізу процесін білдіреді. Мысалы, егер жасанды интеллект алгоритмі жауапқа 90% сенімдімін деп мәлімдесе, калибрлеу оның 90% жағдайда шынымен дұрыс екенін тексереді. Бұл тым сенімді дұрыс емес нәтижелер қаупін азайтуға көмектеседі.
Уақыт өте келе жасанды интеллект жүйесінің дәлдігін қалай жақсартуға болады?

Уақыт өте келе жасанды интеллекттің дәлдігін арттыру үшін деректер сапасы мен тестілеу әдістерін үнемі бағалап отырыңыз, шеткі жағдайларды кеңейтіңіз және нақты пайдаланушы сценарийлері үшін «алтын жиынтықты» сақтаңыз. Өзгермелі ортада үнемі мониторинг және стресс-тестілеу жүйені тиімді бейімдеу үшін де өте маңызды.
Жасанды интеллекттің дәлдігін бағалау кезінде қандай жиі кездесетін қателіктер бар?

Жиі кездесетін қателіктерге нақты деректерді көрсетпейтін таза сынақ жиынтықтарына шамадан тыс тәуелділік, әртүрлі енгізулерді модельдейтін таратылмаған тестілеуді елемеу және қолданбаңыздағы жалған оң немесе теріс нәтижелердің салдарын ескермей, тек шикі дәлдікке назар аудару жатады.
Генеративті жасанды интеллект дәлдікті қабылдауға қалай әсер етуі мүмкін?

Генеративтік жасанды интеллект еркін көрінетін, бірақ шындыққа сәйкес келмейтін нәтижелерді шығара алады, бұл «галлюцинациялар» деп аталатын мәселелерге әкеледі. Генеративтік жасанды интеллекттің дәлдігі бірнеше қолайлы жауаптардың болуына байланысты күрделірек, бұл жауаптарды сенімді дереккөздерге негіздеуді қажет етеді.
Неліктен үздіксіз бағалау жасанды интеллекттің дәлдігі үшін маңызды?

Үздіксіз бағалау өте маңызды, себебі жасанды интеллект жүйелері пайдаланушы мінез-құлқының, деректерді енгізудің және қоршаған орта талаптарының өзгеруіне байланысты уақыт өте келе ауытқуы мүмкін. Үнемі бақылау өнімділіктің кез келген төмендеуін анықтауға және шешуге мүмкіндік береді, бұл жүйенің сенімділігіне сенімділікті сақтайды.