Егер сіз ноутбукта көздің жауын алатын, бірақ өндірісте сүрініп қалған модельді жеткізген болсаңыз, сіз құпияны білесіз: жасанды интеллект өнімділігін қалай өлшеуге болатыны сиқырлы метрика емес. Бұл нақты әлемдегі мақсаттарға байланысты тексерулер жүйесі. Дәлдік сүйкімді. Сенімділік, қауіпсіздік және бизнеске әсері жақсырақ.
Осыдан кейін оқуға болатын мақалалар:
🔗 AI-мен қалай сөйлесуге болады
Үнемі жақсы нәтижелерге қол жеткізу үшін жасанды интеллектпен тиімді байланыс орнатуға арналған нұсқаулық.
🔗 AI не шақырады
Сұраулардың жасанды интеллект жауаптары мен шығыс сапасын қалай қалыптастыратынын түсіндіреді.
🔗 AI деректерін таңбалау дегеніміз не
Оқыту модельдеріне арналған деректерге дәл белгілерді тағайындауға шолу.
🔗 AI этикасы дегеніміз не
Жауапты жасанды интеллектті әзірлеу мен орналастыруды басқаратын этикалық қағидаттарға кіріспе.
Жақсы жасанды интеллект өнімділігін не қамтамасыз етеді? ✅
Қысқаша айтқанда: жақсы жасанды интеллект өнімділігі жүйеңіздің пайдалы, сенімді және шатасқан, өзгермелі жағдайларда қайталанатын екенін білдіреді. Нақтырақ айтқанда:
-
Тапсырма сапасы - дұрыс себептермен дұрыс жауаптар алынады.
-
Калибрлеу - сенімділік ұпайлары шындыққа сәйкес келеді, сондықтан сіз ақылды әрекет жасай аласыз.
-
Беріктігі - ол дрейфте, шеткі қаптамаларда және қарсылас түктерде төзімді.
-
Қауіпсіздік және әділдік - зиянды, бейтарап немесе бағынбайтын мінез-құлықтан аулақ болады.
-
Тиімділік - бұл ауқымды жұмыс істеу үшін жеткілікті жылдам, жеткілікті арзан және тұрақты.
-
Бизнеске әсер ету - бұл сіз үшін маңызды KPI-ді іс жүзінде жылжытады.
Егер сіз көрсеткіштер мен тәуекелдерді сәйкестендіру үшін ресми сілтеме нүктесін алғыңыз келсе, NIST AI тәуекелдерді басқару құрылымы сенімді жүйені бағалау үшін сенімді негіз болып табылады. [1]

Жасанды интеллект өнімділігін өлшеудің жоғары деңгейлі рецепті 🍳
ойланыңыз Үш қабатта:
-
Тапсырма көрсеткіштері - тапсырма түріне сәйкестік: жіктеу, регрессия, рейтинг, генерация, бақылау және т.б.
-
Жүйелік көрсеткіштер - кідіріс, өткізу қабілеті, қоңырау құны, істен шығу көрсеткіштері, дрейф дабылдары, жұмыс уақытындағы SLA.
-
Нәтиже көрсеткіштері - сіз шынымен қалайтын бизнес және пайдаланушы нәтижелері: конверсия, ұстап тұру, қауіпсіздік оқиғалары, қолмен шолу жүктемесі, билет көлемі.
Керемет өлшеу жоспары үшеуін де әдейі араластырады. Әйтпесе, сіз ұшыру алаңынан ешқашан шықпайтын зымыран аласыз.
Мәселе түрі бойынша негізгі көрсеткіштер - және қайсысын қашан қолдану керек 🎯
1) Жіктеу
-
Дәлдік, еске түсіру, F1 - бірінші күннің үштігі. F1 - дәлдік пен еске түсірудің гармоникалық орташа мәні; кластар теңгерімсіз болғанда немесе шығындар асимметриялы болғанда пайдалы. [2]
-
ROC-AUC - жіктеуіштердің шекті-агностикалық рейтингісі; оң нәтижелер сирек болған кезде, PR-AUC-ті. [2]
-
Теңгерімді дәлдік - сыныптар бойынша еске түсірудің орташа мәні; бұрмаланған белгілер үшін ыңғайлы. [2]
Қателіктерді бақылау: дәлдіктің өзі теңгерімсіздікке әкеліп соқтыруы мүмкін. Егер пайдаланушылардың 99%-ы заңды болса, ақымақ, әрқашан заңды модель 99% балл жинап, түскі асқа дейін алаяқтық тобыңызды сәтсіздікке ұшыратады.
2) Регрессия
-
MAE Адам оқи алатын қате үшін RMSE үлкен қателіктерді жазалағыңыз келгенде R² . Содан кейін ақылға қонымды үлестірімдерді және қалдық графиктерді тексеріңіз. [2]
(Мүдделі тараптар қатені шынымен сезінуі үшін доменге ыңғайлы бірліктерді пайдаланыңыз.)
3) Рейтинг, іздеу, ұсыныстар
-
nDCG - позиция мен бағаланған өзектілікке мән береді; іздеу сапасы үшін стандарт.
-
MRR - бірінші тиісті элементтің қаншалықты тез пайда болатынына назар аударады («бір жақсы жауапты табу» тапсырмалары үшін өте қолайлы).
(Іске асыру сілтемелері мен жұмыс істеген мысалдар негізгі метрикалық кітапханаларда бар.) [2]
4) Мәтінді құру және қорытындылау
-
BLEU және ROUGE - классикалық қабаттасу көрсеткіштері; бастапқы сызықтар ретінде пайдалы.
-
Кірістірілген көрсеткіштер (мысалы, BERTScore) көбінесе адамның пікірімен жақсырақ өзара байланысты; әрқашан стиль, адалдық және қауіпсіздік үшін адамның бағалауларымен жұптастырыңыз. [4]
5) Сұрақ-жауап
-
Дәл сәйкестік және токен деңгейіндегі F1 экстракциялық сапаны қамтамасыз ету үшін жиі кездеседі; егер жауаптар дереккөздерді көрсетуі керек болса, негіздеуді (жауапты қолдау тексерулері).
Калибрлеу, сенімділік және Brier линзасы 🎚️
Сенiмдiлiк ұпайлары көптеген жүйелердiң тыныш орналасқан жерi болып табылады. Операторлар шектi мәндердi, адамдарға жолды немесе баға тәуекелiн орната алатындай етіп, шындықты көрсететін ықтималдықтар қажет.
-
Калибрлеу қисықтары - болжамды ықтималдықты эмпирикалық жиілікпен салыстырыңыз.
-
Brier ұпайы - ықтималдық дәлдігі үшін дұрыс ұпай ережесі; төмен болған сайын жақсы. Бұл әсіресе сапасына тек рейтингке емес, ықтималдықтың
Далалық ескертпе: F1 сәл «нашарлау», бірақ әлдеқайда жақсы калибрлеу айтарлықтай жақсарта алады - себебі адамдар ақырында ұпайларға сене алады.
Қауіпсіздік, бейтараптық және әділдік - маңызды нәрсені өлшеңіз 🛡️⚖️
Жүйе жалпы алғанда дәл болуы мүмкін және нақты топтарға зиян келтіруі мүмкін. Топтастырылған көрсеткіштер мен әділдік критерийлерін бақылаңыз:
-
Демографиялық паритет - топтар бойынша тең оң көрсеткіштер.
-
Тең мүмкіндіктер / Тең мүмкіндіктер - топтар бойынша қателік деңгейлерінің немесе шынайы оң көрсеткіштердің теңдігі; бұларды бір реттік пас беру-сәтсіздік мөрлері ретінде емес, ымыраға келулерді анықтау және басқару үшін пайдаланыңыз. [5]
Тәжірибелік кеңес: негізгі көрсеткіштерді негізгі атрибуттар бойынша бөлетін басқару тақталарынан бастаңыз, содан кейін саясатыңыз талап еткендей нақты әділдік көрсеткіштерін қосыңыз. Бұл күрделі болып көрінеді, бірақ ол кездейсоқ оқиғадан арзанырақ.
LLM және RAG - шынымен жұмыс істейтін өлшеу бойынша нұсқаулық 📚🔍
Генеративтік жүйелерді өлшеу... күрделі. Мынаны орындаңыз:
-
нәтижелерді анықтаңыз : дұрыстық, пайдалылық, зиянсыздық, стильді ұстану, брендке қатысты тону, дәйексөзге негізделгендік, бас тарту сапасы.
-
Негізгі бағалауларды сенімді фреймворктармен (мысалы, стегіңіздегі бағалау құралдарымен) автоматтандырыңыз және оларды деректер жиынтықтарыңызбен нұсқаланған күйде сақтаңыз.
-
қосыңыз Ақыл-ойды сақтау үшін семантикалық метрикаларды (енгізуге негізделген) және қабаттасу метрикаларын (BLEU/ROUGE)
-
аспаптың жерге тұйықталуы : қалпына келтіру жиілігі, контекст дәлдігі/еске түсіру, жауап-қолдау қабаттасуы.
-
Келісім бойынша адами шолу - бағалаушының сәйкестігін өлшеңіз (мысалы, Коэннің κ немесе Флейсстің κ), сонда сіздің белгілеріңіз дірілдемейді.
Бонус: кідіріс пайыздарын тіркеңіз және әрбір тапсырманың құнын есептеңіз немесе токен жасаңыз. Келесі сейсенбіде келетін поэтикалық жауапты ешкім ұнатпайды.
Салыстыру кестесі - жасанды интеллект өнімділігін өлшеуге көмектесетін құралдар 🛠️📊
(Иә, бұл әдейі аздап ретсіз - нақты ноталар ретсіз.)
| Құрал | Ең үздік аудитория | Бағасы | Неліктен жұмыс істейді - тез қабылдау |
|---|---|---|---|
| scikit-learn көрсеткіштері | Машина жасау мамандары | Тегін | Жіктеу, регрессия, рейтинг үшін канондық іске асырулар; тесттерге оңай қосуға болады. [2] |
| MLflow бағалау / GenAI | Деректер ғалымдары, MLOp | Тегін + ақылы | Орталықтандырылған жүгірулер, автоматтандырылған көрсеткіштер, LLM төрешілері, арнайы ұпай жинаушылар; артефактілерді таза тіркейді. |
| Әлбетте | Басқару тақталарын жылдам алғысы келетін командалар | OSS + бұлттық | 100-ден астам көрсеткіштер, дрейф және сапа туралы есептер, бақылау ілмектері - қиындық тудыратын жағымды визуалды мүмкіндіктер. |
| Салмақтар мен бейімділіктер | Тәжірибелік күш-жігері бар ұйымдар | Еркін деңгей | Қатар салыстырулар, бағалау деректер жиынтығы, бағалаушылар; кестелер мен іздері ұқыпты. |
| ЛэнгСмит | LLM қолданбасын құрастырушылар | Ақылы | Әрбір қадамды бақылаңыз, адами шолуды ереже немесе LLM бағалаушыларымен араластырыңыз; RAG үшін тамаша. |
| TruLens | Ашық бастапқы кодты LLM бағалау әуесқойлары | OSS | Кері байланыс функциялары уыттылықты, негізділікті, өзектілікті бағалауға; кез келген жерге интеграциялауға мүмкіндік береді. |
| Үлкен үміттер | Деректер сапасы бірінші орында тұрған ұйымдар | OSS | Деректер бойынша күтулерді формальды етіңіз - себебі нашар деректер кез келген көрсеткішті бұзады. |
| Терең тексерулер | Машина жасау үшін тестілеу және CI/CD | OSS + бұлттық | Батареяларға деректердің ауытқуын, модель мәселелерін және мониторингті тексеру кіреді; жақсы қоршаулар. |
Бағалар өзгереді - құжаттарды тексеріңіз. Иә, сіз бұларды құрал полициясы келмей-ақ араластыра аласыз.
Шектеулер, шығындар және шешім қабылдау қисықтары - құпия тұздық 🧪
Таңқаларлық, бірақ шындық: ROC-AUC бірдей екі модельдің сіздің шекті мәніңіз бен шығындар коэффициенттеріңізге.
Жылдам құрастырылатын парақ:
-
Жалған оң және жалған теріс нәтиженің құнын ақшамен немесе уақытпен анықтаңыз.
-
Шекті мәндерді сканерлеп, 1 мың шешімге шаққандағы күтілетін шығынды есептеңіз.
-
таңдап Күтілетін ең төменгі шығын , оны бақылаумен бекітіңіз.
Оң мәндер сирек болған кезде PR қисықтарын, жалпы пішін үшін ROC қисықтарын және шешімдер ықтималдықтарға негізделген кезде калибрлеу қисықтарын пайдаланыңыз. [2][3]
Мини-кейс: қарапайым F1, бірақ тамаша калибрлеу мүмкіндігі бар қолдау билеті бойынша триаж моделі, калибрленген ұпай диапазондарына байланысты операциялар қатаң шекті деңгейден көп деңгейлі маршруттауға (мысалы, «автоматты түрде шешу», «адамдық шолу», «кеңейту») ауысқаннан кейін қолмен қайта бағыттауды кеседі.
Онлайн бақылау, дрейф және ескерту 🚨
Офлайн бағалаулар соңы емес, бастамасы болып табылады. Өндірісте:
-
бақылаңыз Кіріс дрейфін, шығыс дрейфінжәне өнімділіктің төмендеуін сегмент бойынша
-
Қоршауларды тексеруді орнатыңыз - галлюцинацияның максималды деңгейі, уыттылық шегі, әділдік дельталары.
-
қосыңыз Canary басқару тақталарын p95 кідірісі, күту уақыты және сұраныстың құны үшін
-
Мұны жеделдету үшін арнайы жасалған кітапханаларды пайдаланыңыз; олар дрейфті, сапаны және бақылаудың қарапайым нұсқаларын ұсынады.
Кішкентай ақаулы метафора: моделіңізді ашытқы ашытқысы ретінде елестетіңіз - сіз бір рет пісіріп, кетіп қалмайсыз; сіз тамақтандырасыз, бақылайсыз, иіскейсіз және кейде қайта бастайсыз.
Күйіп қалмайтын адами бағалау 🍪
Адамдар нәтижелерді бағалаған кезде, процесс сіз ойлағаннан да маңыздырақ болады.
-
жазыңыз нақты рубрикалар Өту, шекара және сәтсіздік мысалдарымен
-
Мүмкіндігінше кездейсоқ және жасырын үлгілерді таңдаңыз.
-
өлшеңіз Бағалаушылар арасындағы келісімді (мысалы, екі бағалаушы үшін Коэннің κ, бірнеше бағалаушы үшін Флейсстің κ) және келісім бұзылған жағдайда рубрикаларды жаңартыңыз.
Бұл сіздің адами белгілеріңіздің көңіл-күйге немесе кофеге тәуелді болуына жол бермейді.
Терең зерттеу: жасанды интеллект өнімділігін қалай өлшеуге болады RAG-тағы LLM-дер үшін
-
Алынған ақпарат сапасы - recall@k, precision@k, nDCG; алтын фактілерін қамту. [2]
-
Жауаптың адалдығы - дәйексөз келтіріп, растау тексерулері, негізділік ұпайлары, қарсыласушылық тексерулер.
-
Пайдаланушының қанағаттануы - бас бармақ, тапсырманы орындау, ұсынылған жобалардан өңдеу қашықтығы.
-
Қауіпсіздік - уыттылық, PII ағып кетуі, саясатқа сәйкестік.
-
Құны және кідіріс - токендер, кэш хиттері, p95 және p99 кідірістері.
Бұларды іскерлік әрекеттермен байланыстырыңыз: егер сенімділік белгілі бір деңгейден төмен түссе, қатаң режимге немесе адамдық тексеруге автоматты түрде бағыттаңыз.
Бүгін бастауға арналған қарапайым ойын кітабы 🪄
-
Жұмысты анықтаңыз - бір сөйлем жазыңыз: жасанды интеллект не істеуі керек және кім үшін.
-
2–3 тапсырма метрикасын таңдаңыз - калибрлеуді және кем дегенде бір әділдік бөлігін қосыңыз. [2][3][5]
-
Шекті мәндерді құн бойынша анықтаңыз - болжамаңыз.
-
шағын бағалау жиынтығын жасаңыз Өндірістік қоспаны көрсететін 100-500 белгіленген мысалдан тұратын
-
Бағалауларыңызды автоматтандырыңыз - бағалауды/мониторингті CI-ге қосыңыз, сондықтан әрбір өзгеріс бірдей тексерулерді жүргізеді.
-
Өнімдегі монитор - дрейф, кідіріс, шығын, оқиға белгілері.
-
Ай сайынғыдай шолу - ешкім пайдаланбайтын кесу көрсеткіштері; нақты сұрақтарға жауап беретін көрсеткіштерді қосыңыз.
-
Шешімдерді құжаттау – сіздің командаңыз шынымен оқитын нақты ұпайлар кестесі.
Иә, бұл тура мағынасында солай. Және ол жұмыс істейді.
Жиі кездесетін қателіктер және олардан қалай құтылуға болады 🕳️🐇
-
Бір ғана метрикаға шамадан тыс сәйкестендіру пайдаланыңыз метрика себетін шешім контекстіне сәйкес келетін
-
Калибрлеуді елемеу - калибрлеусіз сенімділік - бұл тек мақтаншақтық. [3]
-
Сегменттеу жоқ - әрқашан пайдаланушы топтары, география, құрылғы, тіл бойынша бөліңіз. [5]
-
Анықталмаған шығындар - егер сіз баға қателерін анықтамасаңыз, сіз дұрыс емес шекті таңдайсыз.
-
Адами бағалау ауытқуы - келісімді өлшеу, рубрикаларды жаңарту, шолушыларды қайта оқыту.
-
Қауіпсіздік құралдары қажет емес - әділдікті, уыттылықты және саясатты тексеруді кейін емес, қазір қосыңыз. [1][5]
Сіз келген сөз тіркесі: жасанды интеллект өнімділігін қалай өлшеуге болады - тым ұзақ, мен оқымадым 🧾
-
бастаңыз Анық нәтижелерден, содан кейін тапсырмаларды, жүйеніжәне бизнес көрсеткіштерін біріктіріңіз. [1]
-
пайдаланыңыз Жұмыс үшін дұрыс көрсеткіштерді - жіктеу үшін F1 және ROC-AUC; рейтинг үшін nDCG/MRR; буын үшін қабаттасу + семантикалық көрсеткіштер (адамдармен жұптастырылған). [2][4]
-
калибрлеңіз Ықтималдықтарды қателіктеріңізді бағалаңыз шекті мәндерді таңдау үшін
-
қосыңыз әділдікті Топтық бөліктермен
-
бағалаулар мен мониторингті автоматтандырыңыз Қорқынышсыз қайталау үшін
Сіз мұның қалай екенін білесіз - маңыздысын өлшеңіз, әйтпесе маңызды емес нәрсені жақсартасыз.
Сілтемелер
[1] NIST. Жасанды интеллект тәуекелдерін басқару құрылымы (ЖИ RMF). толығырақ оқу
[2] scikit-learn. Модельді бағалау: болжамдардың сапасын сандық бағалау (Пайдаланушы нұсқаулығы). толығырақ оқу
[3] scikit-learn. Ықтималдықты калибрлеу (калибрлеу қисықтары, Бриер ұпайы). толығырақ оқу
[4] Папинени және т.б. (2002). BLEU: машиналық аударманы автоматты түрде бағалау әдісі. ACL. толығырақ оқу
[5] Хардт, Прайс, Сребро (2016). Бақылаудағы оқытудағы мүмкіндіктер теңдігі. NeurIPS. толығырақ оқу