AI өнімділігін қалай өлшеуге болады?

Егер сіз ноутбукта көздің жауын алатын, бірақ өндірісте сүрініп қалған модельді жеткізген болсаңыз, сіз құпияны білесіз: жасанды интеллект өнімділігін қалай өлшеуге болатыны сиқырлы метрика емес. Бұл нақты әлемдегі мақсаттарға байланысты тексерулер жүйесі. Дәлдік сүйкімді. Сенімділік, қауіпсіздік және бизнеске әсері жақсырақ.

Осыдан кейін оқуға болатын мақалалар:

🔗 AI-мен қалай сөйлесуге болады
Үнемі жақсы нәтижелерге қол жеткізу үшін жасанды интеллектпен тиімді байланыс орнатуға арналған нұсқаулық.

🔗 AI не шақырады
Сұраулардың жасанды интеллект жауаптары мен шығыс сапасын қалай қалыптастыратынын түсіндіреді.

🔗 AI деректерін таңбалау дегеніміз не
Оқыту модельдеріне арналған деректерге дәл белгілерді тағайындауға шолу.

🔗 AI этикасы дегеніміз не
Жауапты жасанды интеллектті әзірлеу мен орналастыруды басқаратын этикалық қағидаттарға кіріспе.

Жақсы жасанды интеллект өнімділігін не қамтамасыз етеді? ✅

Қысқаша айтқанда: жақсы жасанды интеллект өнімділігі жүйеңіздің пайдалы, сенімді және шатасқан, өзгермелі жағдайларда қайталанатын екенін білдіреді. Нақтырақ айтқанда:

Тапсырма сапасы - дұрыс себептермен дұрыс жауаптар алынады.
Калибрлеу - сенімділік ұпайлары шындыққа сәйкес келеді, сондықтан сіз ақылды әрекет жасай аласыз.
Беріктігі - ол дрейфте, шеткі қаптамаларда және қарсылас түктерде төзімді.
Қауіпсіздік және әділдік - зиянды, бейтарап немесе бағынбайтын мінез-құлықтан аулақ болады.
Тиімділік - бұл ауқымды жұмыс істеу үшін жеткілікті жылдам, жеткілікті арзан және тұрақты.
Бизнеске әсер ету - бұл сіз үшін маңызды KPI-ді іс жүзінде жылжытады.

Егер сіз көрсеткіштер мен тәуекелдерді сәйкестендіру үшін ресми сілтеме нүктесін алғыңыз келсе, NIST AI тәуекелдерді басқару құрылымы сенімді жүйені бағалау үшін сенімді негіз болып табылады. [1]

Жасанды интеллект өнімділігін өлшеудің жоғары деңгейлі рецепті 🍳

Үш қабатта ойланыңыз :

Тапсырма көрсеткіштері - тапсырма түріне сәйкестік: жіктеу, регрессия, рейтинг, генерация, бақылау және т.б.
Жүйелік көрсеткіштер - кідіріс, өткізу қабілеті, қоңырау құны, істен шығу көрсеткіштері, дрейф дабылдары, жұмыс уақытындағы SLA.
Нәтиже көрсеткіштері - сіз шынымен қалайтын бизнес және пайдаланушы нәтижелері: конверсия, ұстап тұру, қауіпсіздік оқиғалары, қолмен шолу жүктемесі, билет көлемі.

Керемет өлшеу жоспары үшеуін де әдейі араластырады. Әйтпесе, сіз ұшыру алаңынан ешқашан шықпайтын зымыран аласыз.

Мәселе түрі бойынша негізгі көрсеткіштер - және қайсысын қашан қолдану керек 🎯

1) Жіктеу

Дәлдік, еске түсіру, F1 - бірінші күннің үштігі. F1 - дәлдік пен еске түсірудің гармоникалық орташа мәні; кластар теңгерімсіз болғанда немесе шығындар асимметриялы болғанда пайдалы. [2]
ROC-AUC - жіктеуіштердің шекті-агностикалық рейтингісі; оң нәтижелер сирек болған кезде, PR-AUC-ті . [2]
Теңгерімді дәлдік - сыныптар бойынша еске түсірудің орташа мәні; бұрмаланған белгілер үшін ыңғайлы. [2]

Қателіктерді бақылау: дәлдіктің өзі теңгерімсіздікке әкеліп соқтыруы мүмкін. Егер пайдаланушылардың 99%-ы заңды болса, ақымақ, әрқашан заңды модель 99% балл жинап, түскі асқа дейін алаяқтық тобыңызды сәтсіздікке ұшыратады.

2) Регрессия

Адам оқи алатын қате үшін MAE үлкен қателіктерді жазалағыңыз келгенде RMSE R² . Содан кейін ақылға қонымды үлестірімдерді және қалдық графиктерді тексеріңіз. [2]
(Мүдделі тараптар қатені шынымен сезінуі үшін доменге ыңғайлы бірліктерді пайдаланыңыз.)

3) Рейтинг, іздеу, ұсыныстар

nDCG - позиция мен бағаланған өзектілікке мән береді; іздеу сапасы үшін стандарт.
MRR - бірінші тиісті элементтің қаншалықты тез пайда болатынына назар аударады («бір жақсы жауапты табу» тапсырмалары үшін өте қолайлы).
(Іске асыру сілтемелері мен жұмыс істеген мысалдар негізгі метрикалық кітапханаларда бар.) [2]

4) Мәтінді құру және қорытындылау

BLEU және ROUGE - классикалық қабаттасу көрсеткіштері; бастапқы сызықтар ретінде пайдалы.
Кірістірілген көрсеткіштер (мысалы, BERTScore ) көбінесе адамның пікірімен жақсырақ өзара байланысты; әрқашан стиль, адалдық және қауіпсіздік үшін адамның бағалауларымен жұптастырыңыз. [4]

5) Сұрақ-жауап

Дәл сәйкестік және токен деңгейіндегі F1 экстракциялық сапаны қамтамасыз ету үшін жиі кездеседі; егер жауаптар дереккөздерді көрсетуі керек болса, негіздеуді (жауапты қолдау тексерулері).

Калибрлеу, сенімділік және Brier линзасы 🎚️

Сенiмдiлiк ұпайлары көптеген жүйелердiң тыныш орналасқан жерi болып табылады. Операторлар шектi мәндердi, адамдарға жолды немесе баға тәуекелiн орната алатындай етіп, шындықты көрсететін ықтималдықтар қажет.

Калибрлеу қисықтары - болжамды ықтималдықты эмпирикалық жиілікпен салыстырыңыз.
Brier ұпайы - ықтималдық дәлдігі үшін дұрыс ұпай ережесі; төмен болған сайын жақсы. Бұл әсіресе тек рейтингке емес, ықтималдықтың сапасына

Далалық ескертпе: F1 сәл «нашарлау», бірақ әлдеқайда жақсы калибрлеу айтарлықтай жақсарта алады - себебі адамдар ақырында ұпайларға сене алады.

Қауіпсіздік, бейтараптық және әділдік - маңызды нәрсені өлшеңіз 🛡️⚖️

Жүйе жалпы алғанда дәл болуы мүмкін және нақты топтарға зиян келтіруі мүмкін. Топтастырылған көрсеткіштер мен әділдік критерийлерін бақылаңыз:

Демографиялық паритет - топтар бойынша тең оң көрсеткіштер.
Тең мүмкіндіктер / Тең мүмкіндіктер - топтар бойынша қателік деңгейлерінің немесе шынайы оң көрсеткіштердің теңдігі; бұларды бір реттік пас беру-сәтсіздік мөрлері ретінде емес, ымыраға келулерді анықтау және басқару үшін пайдаланыңыз. [5]

Тәжірибелік кеңес: негізгі көрсеткіштерді негізгі атрибуттар бойынша бөлетін басқару тақталарынан бастаңыз, содан кейін саясатыңыз талап еткендей нақты әділдік көрсеткіштерін қосыңыз. Бұл күрделі болып көрінеді, бірақ ол кездейсоқ оқиғадан арзанырақ.

LLM және RAG - шынымен жұмыс істейтін өлшеу бойынша нұсқаулық 📚🔍

Генеративтік жүйелерді өлшеу... күрделі. Мынаны орындаңыз:

нәтижелерді анықтаңыз : дұрыстық, пайдалылық, зиянсыздық, стильді ұстану, брендке қатысты тону, дәйексөзге негізделгендік, бас тарту сапасы.
Негізгі бағалауларды сенімді фреймворктармен (мысалы, стегіңіздегі бағалау құралдарымен) автоматтандырыңыз және оларды деректер жиынтықтарыңызбен нұсқаланған күйде сақтаңыз.
Ақыл-ойды сақтау үшін семантикалық метрикаларды (енгізуге негізделген) және қабаттасу метрикаларын (BLEU/ROUGE) қосыңыз
аспаптың жерге тұйықталуы : қалпына келтіру жиілігі, контекст дәлдігі/еске түсіру, жауап-қолдау қабаттасуы.
Келісім бойынша адами шолу - бағалаушының сәйкестігін өлшеңіз (мысалы, Коэннің κ немесе Флейсстің κ), сонда сіздің белгілеріңіз дірілдемейді.

Бонус: кідіріс пайыздарын тіркеңіз және әрбір тапсырманың құнын есептеңіз немесе токен жасаңыз. Келесі сейсенбіде келетін поэтикалық жауапты ешкім ұнатпайды.

Салыстыру кестесі - жасанды интеллект өнімділігін өлшеуге көмектесетін құралдар 🛠️📊

(Иә, бұл әдейі аздап ретсіз - нақты ноталар ретсіз.)

Құрал	Ең үздік аудитория	Бағасы	Неліктен жұмыс істейді - тез қабылдау
scikit-learn көрсеткіштері	Машина жасау мамандары	Тегін	Жіктеу, регрессия, рейтинг үшін канондық іске асырулар; тесттерге оңай қосуға болады. [2]
MLflow бағалау / GenAI	Деректер ғалымдары, MLOp	Тегін + ақылы	Орталықтандырылған жүгірулер, автоматтандырылған көрсеткіштер, LLM төрешілері, арнайы ұпай жинаушылар; артефактілерді таза тіркейді.
Әлбетте	Басқару тақталарын жылдам алғысы келетін командалар	OSS + бұлттық	100-ден астам көрсеткіштер, дрейф және сапа туралы есептер, бақылау ілмектері - қиындық тудыратын жағымды визуалды мүмкіндіктер.
Салмақтар мен бейімділіктер	Тәжірибелік күш-жігері бар ұйымдар	Еркін деңгей	Қатар салыстырулар, бағалау деректер жиынтығы, бағалаушылар; кестелер мен іздері ұқыпты.
ЛэнгСмит	LLM қолданбасын құрастырушылар	Ақылы	Әрбір қадамды бақылаңыз, адами шолуды ереже немесе LLM бағалаушыларымен араластырыңыз; RAG үшін тамаша.
TruLens	Ашық бастапқы кодты LLM бағалау әуесқойлары	OSS	Кері байланыс функциялары уыттылықты, негізділікті, өзектілікті бағалауға; кез келген жерге интеграциялауға мүмкіндік береді.
Үлкен үміттер	Деректер сапасы бірінші орында тұрған ұйымдар	OSS	Деректер бойынша күтулерді формальды етіңіз - себебі нашар деректер кез келген көрсеткішті бұзады.
Терең тексерулер	Машина жасау үшін тестілеу және CI/CD	OSS + бұлттық	Батареяларға деректердің ауытқуын, модель мәселелерін және мониторингті тексеру кіреді; жақсы қоршаулар.

Бағалар өзгереді - құжаттарды тексеріңіз. Иә, сіз бұларды құрал полициясы келмей-ақ араластыра аласыз.

Шектеулер, шығындар және шешім қабылдау қисықтары - құпия тұздық 🧪

Таңқаларлық, бірақ шындық: ROC-AUC бірдей екі модельдің сіздің шекті мәніңіз бен шығындар коэффициенттеріңізге .

Жылдам құрастырылатын парақ:

Жалған оң және жалған теріс нәтиженің құнын ақшамен немесе уақытпен анықтаңыз.
Шекті мәндерді сканерлеп, 1 мың шешімге шаққандағы күтілетін шығынды есептеңіз.
Күтілетін ең төменгі шығын таңдап , оны бақылаумен бекітіңіз.

Оң мәндер сирек болған кезде PR қисықтарын, жалпы пішін үшін ROC қисықтарын және шешімдер ықтималдықтарға негізделген кезде калибрлеу қисықтарын пайдаланыңыз. [2][3]

Мини-кейс: қарапайым F1, бірақ тамаша калибрлеу мүмкіндігі бар қолдау билеті бойынша триаж моделі, калибрленген ұпай диапазондарына байланысты операциялар қатаң шекті деңгейден көп деңгейлі маршруттауға (мысалы, «автоматты түрде шешу», «адамдық шолу», «кеңейту») ауысқаннан кейін қолмен қайта бағыттауды кеседі.

Онлайн бақылау, дрейф және ескерту 🚨

Офлайн бағалаулар соңы емес, бастамасы болып табылады. Өндірісте:

Кіріс дрейфін , шығыс дрейфін және өнімділіктің төмендеуін сегмент бойынша бақылаңыз
Қоршауларды тексеруді орнатыңыз - галлюцинацияның максималды деңгейі, уыттылық шегі, әділдік дельталары.
p95 кідірісі, күту уақыты және сұраныстың құны үшін Canary басқару тақталарын қосыңыз
Мұны жеделдету үшін арнайы жасалған кітапханаларды пайдаланыңыз; олар дрейфті, сапаны және бақылаудың қарапайым нұсқаларын ұсынады.

Кішкентай ақаулы метафора: моделіңізді ашытқы ашытқысы ретінде елестетіңіз - сіз бір рет пісіріп, кетіп қалмайсыз; сіз тамақтандырасыз, бақылайсыз, иіскейсіз және кейде қайта бастайсыз.

Күйіп қалмайтын адами бағалау 🍪

Адамдар нәтижелерді бағалаған кезде, процесс сіз ойлағаннан да маңыздырақ болады.

Өту, шекара және сәтсіздік мысалдарымен нақты рубрикалар жазыңыз
Мүмкіндігінше кездейсоқ және жасырын үлгілерді таңдаңыз.
Бағалаушылар арасындағы келісімді өлшеңіз (мысалы, екі бағалаушы үшін Коэннің κ, бірнеше бағалаушы үшін Флейсстің κ) және келісім бұзылған жағдайда рубрикаларды жаңартыңыз.

Бұл сіздің адами белгілеріңіздің көңіл-күйге немесе кофеге тәуелді болуына жол бермейді.

Терең зерттеу: RAG-тағы LLM-дер үшін жасанды интеллект өнімділігін қалай өлшеуге болады

Алынған ақпарат сапасы - recall@k, precision@k, nDCG; алтын фактілерін қамту. [2]
Жауаптың адалдығы - дәйексөз келтіріп, растау тексерулері, негізділік ұпайлары, қарсыласушылық тексерулер.
Пайдаланушының қанағаттануы - бас бармақ, тапсырманы орындау, ұсынылған жобалардан өңдеу қашықтығы.
Қауіпсіздік - уыттылық, PII ағып кетуі, саясатқа сәйкестік.
Құны және кідіріс - токендер, кэш хиттері, p95 және p99 кідірістері.

Бұларды іскерлік әрекеттермен байланыстырыңыз: егер сенімділік белгілі бір деңгейден төмен түссе, қатаң режимге немесе адамдық тексеруге автоматты түрде бағыттаңыз.

Бүгін бастауға арналған қарапайым ойын кітабы 🪄

Жұмысты анықтаңыз - бір сөйлем жазыңыз: жасанды интеллект не істеуі керек және кім үшін.
2–3 тапсырма метрикасын таңдаңыз - калибрлеуді және кем дегенде бір әділдік бөлігін қосыңыз. [2][3][5]
Шекті мәндерді құн бойынша анықтаңыз - болжамаңыз.
Өндірістік қоспаны көрсететін 100-500 белгіленген мысалдан тұратын шағын бағалау жиынтығын жасаңыз
Бағалауларыңызды автоматтандырыңыз - бағалауды/мониторингті CI-ге қосыңыз, сондықтан әрбір өзгеріс бірдей тексерулерді жүргізеді.
Өнімдегі монитор - дрейф, кідіріс, шығын, оқиға белгілері.
Ай сайынғыдай шолу - ешкім пайдаланбайтын кесу көрсеткіштері; нақты сұрақтарға жауап беретін көрсеткіштерді қосыңыз.
Шешімдерді құжаттау – сіздің командаңыз шынымен оқитын нақты ұпайлар кестесі.

Иә, бұл тура мағынасында солай. Және ол жұмыс істейді.

Жиі кездесетін қателіктер және олардан қалай құтылуға болады 🕳️🐇

Бір ғана метрикаға шамадан тыс сәйкестендіру шешім контекстіне сәйкес келетін метрика себетін пайдаланыңыз
Калибрлеуді елемеу - калибрлеусіз сенімділік - бұл тек мақтаншақтық. [3]
Сегменттеу жоқ - әрқашан пайдаланушы топтары, география, құрылғы, тіл бойынша бөліңіз. [5]
Анықталмаған шығындар - егер сіз баға қателерін анықтамасаңыз, сіз дұрыс емес шекті таңдайсыз.
Адами бағалау ауытқуы - келісімді өлшеу, рубрикаларды жаңарту, шолушыларды қайта оқыту.
Қауіпсіздік құралдары қажет емес - әділдікті, уыттылықты және саясатты тексеруді кейін емес, қазір қосыңыз. [1][5]

Сіз келген сөз тіркесі: жасанды интеллект өнімділігін қалай өлшеуге болады - тым ұзақ, мен оқымадым 🧾

Анық нәтижелерден бастаңыз , содан кейін тапсырмаларды , жүйені және бизнес көрсеткіштерін біріктіріңіз. [1]
Жұмыс үшін дұрыс көрсеткіштерді пайдаланыңыз - жіктеу үшін F1 және ROC-AUC; рейтинг үшін nDCG/MRR; буын үшін қабаттасу + семантикалық көрсеткіштер (адамдармен жұптастырылған). [2][4]
Ықтималдықтарды калибрлеңіз шекті мәндерді таңдау үшін қателіктеріңізді бағалаңыз
Топтық бөліктермен әділдікті қосыңыз
Қорқынышсыз қайталау үшін бағалаулар мен мониторингті автоматтандырыңыз

Сіз мұның қалай екенін білесіз - маңыздысын өлшеңіз, әйтпесе маңызды емес нәрсені жақсартасыз.

Сілтемелер

[1] NIST. Жасанды интеллект тәуекелдерін басқару құрылымы (ЖИ RMF). толығырақ оқу
[2] scikit-learn. Модельді бағалау: болжамдардың сапасын сандық бағалау (Пайдаланушы нұсқаулығы). толығырақ оқу
[3] scikit-learn. Ықтималдықты калибрлеу (калибрлеу қисықтары, Бриер ұпайы). толығырақ оқу
[4] Папинени және т.б. (2002). BLEU: машиналық аударманы автоматты түрде бағалау әдісі. ACL. толығырақ оқу
[5] Хардт, Прайс, Сребро (2016). Бақылаудағы оқытудағы мүмкіндіктер теңдігі. NeurIPS. толығырақ оқу

Ресми AI көмекші дүкенінен ең соңғы AI-ді табыңыз

Біз туралы

Блогқа оралу

Ел/аймақ