Жасанды интеллект аномалияларды қалай анықтайды?

Аномалияны анықтау - деректер операцияларының тыныш кейіпкері - заттар өртенбес бұрын сыбырлайтын түтін дабылы.

Қарапайым тілмен айтқанда: жасанды интеллект «қалыпты» дегеннің қалай көрінетінін біледі, жаңа оқиғаларға аномалия ұпайын , содан кейін шекті мәнге . Деректеріңіз маусымдық, ретсіз, ауытқып кететін және кейде сізге өтірік айтатын кезде «қалыпты» дегенді қалай анықтайтыныңызда мәселе бар. [1]

Осыдан кейін оқуға болатын мақалалар:

🔗 Неліктен жасанды интеллект қоғамға зиянды болуы мүмкін?
Жасанды интеллекттің кеңінен қолданылуының этикалық, экономикалық және әлеуметтік қауіптерін қарастырады.

🔗 Жасанды интеллект жүйелері іс жүзінде қанша су пайдаланады
Деректер орталығының салқындатуын, оқыту талаптарын және қоршаған ортаға судың әсерін түсіндіреді.

🔗 Жасанды интеллект деректер жиынтығы дегеніміз не және ол неліктен маңызды?
Деректер жиынтығын, таңбалауды, дереккөздерді және олардың модель өнімділігіндегі рөлін анықтайды.

🔗 Жасанды интеллект күрделі деректерден трендтерді қалай болжайды?
Үлгіні тануды, машиналық оқыту модельдерін және нақты әлемдегі болжамды қолдануды қамтиды.

«Жасанды интеллект аномалияларды қалай анықтайды?»

Жақсы жауап алгоритмдерді тізімдеуден де көп нәрсені қамтуы керек. Онда механика және оларды нақты, жетілмеген деректерге қолданған кездегі көрінісі түсіндірілуі керек. Ең жақсы түсіндірмелер:

Негізгі ингредиенттерді көрсетіңіз: ерекшеліктер , бастапқы көрсеткіштер , ұпайлар және шектік мәндер . [1]
Практикалық отбасыларды салыстырыңыз: қашықтық, тығыздық, бір класты, оқшаулану, ықтималдық, қайта құру. [1]
Уақыт қатарларының ерекшеліктерін қарастырыңыз: «қалыпты» күннің уақытына, апта күніне, шығарылымдарға және мерекелерге байланысты. [1]
Бағалауды нақты шектеу ретінде қарастырыңыз: жалған дабылдар тек тітіркендіргіш емес, олар сенімді оятады. [4]
Түсіндіруді + адамның циклдегі қатысуын қосыңыз, себебі «бұл таңқаларлық» негізгі себеп емес. [5]

Негізгі механика: бастапқы көрсеткіштер, ұпайлар, шектер 🧠

Көптеген аномалия жүйелері – қиялға жақын ба, жоқ па – үш қозғалмалы бөлікке бөлінеді:

1) Өкілдік (яғни: модель не көреді )

Шикі сигналдар сирек жағдайда жеткілікті болады. Сіз не мүмкіндіктерді (айналым статистикасы, қатынастар, кідірістер, маусымдық дельталарды) жасайсыз, не (енгізулер, ішкі кеңістіктер, реконструкциялар) үйренесіз

2) Ұпай жинау (яғни: бұл қаншалықты «таңқаларлық»?)

Жалпы ұпай жинау идеяларына мыналар жатады:

Қашықтыққа негізделген : көршілерден алыс = күдікті. [1]
Тығыздыққа негізделген : жергілікті тығыздықтың төмендігі = күдікті (LOF - кейінгі бала). [1]
Бір таптық шекаралар : «қалыпты» үйреніңіз, сыртқа шығатын нәрсені белгілеңіз. [1]
Ықтималдық : сәйкес модель жағдайында ықтималдығы төмен = күдікті. [1]
Қайта құру қателігі : егер қалыпты режимде оқытылған модель оны қайта құра алмаса, ол, бәлкім, өшірілген. [1]

3) Табалдырық (яғни: қоңырауды қашан соғу керек)

Шекті мәндер бекітілген, квантильге негізделген, сегмент бойынша немесе шығындарға сезімтал болуы мүмкін - бірақ оларды діріл емес, дабыл бюджеттері мен кейінгі шығындарға сәйкес калибрлеу

Бір өте практикалық деталь: scikit-learn-ның ауытқу/жаңалық детекторлары шикі ұпайларды , содан кейін шекті мәнді (көбінесе ластану стиліндегі болжам арқылы басқарылады). [2]

Кейінірек ауырсынудың алдын алатын жылдам анықтамалар 🧯

Сізді кішігірім қателіктерден құтқаратын екі айырмашылық:

Аутсайдерлерді анықтау : сіздің жаттығу деректеріңізде ауытқулар болуы мүмкін; алгоритм кез келген жағдайда «тығыз қалыпты аймақты» модельдеуге тырысады.
Жаңалықты анықтау жаңа бақылаулардың үйренген қалыпты үлгіге сәйкес келетінін бағалайсыз

бір класты жіктеу ретінде қарастырылады - қалыпты модельдеу, себебі қалыптан тыс мысалдар сирек немесе анықталмаған. [1]

Жасанды интеллект аномалияларының ақаулары

Сіз шынымен пайдаланатын бақылаусыз жұмыс аттары 🧰

Белгілер сирек кезде (бұл негізінен әрқашан болады), нақты құбырларда келесі құралдар пайда болады:

Оқшаулау орманы : көптеген кестелік жағдайларда күшті әдепкі, іс жүзінде кеңінен қолданылады және scikit-learn-де жүзеге асырылады. [2]
Бір класты SVM : тиімді болуы мүмкін, бірақ баптау мен болжамдарға сезімтал; scikit-learn мұқият гиперпараметрді баптау қажеттілігін анық көрсетеді. [2]
Жергілікті ауытқу коэффициенті (LOF) : классикалық тығыздыққа негізделген бағалау; «қалыпты» мән таза дақ болмаған кезде өте жақсы. [1]

Практикалық түрде командалар апта сайын қайта жаңартады: LOF жаттығу жиынында ауытқуларды анықтауды және жаңа деректердегі жаңалықты анықтауды жүзеге асыруға байланысты әртүрлі әрекет етеді - scikit-learn тіпті көрінбейтін ұпайларды қауіпсіз жинау үшін novelty=True

Деректер бұрмаланған кезде де жұмыс істейтін сенімді базалық жүйе 🪓

Егер сіз «бізді ұмытып кетпейтін нәрсе керек» режимінде болсаңыз, сенімді статистика бағаланбайды.

Өзгертілген z-бағасы медиана мен MAD (медиана абсолютті ауытқуы) пайдаланады 3,5- тен жоғары абсолютті мәнде жиі қолданылатын «ықтимал ауытқу» ережесі атап өтіледі . [3]

Бұл әрбір аномалия мәселесін шешпейді - бірақ көбінесе бұл қорғаныстың бірінші желісі болып табылады, әсіресе шулы көрсеткіштер мен ерте кезеңдегі мониторинг үшін. [3]

Уақыт қатарының шындығы: «Қалыпты» қашан болатынына байланысты ⏱️📈

Уақыт қатарларының аномалиялары күрделі, себебі контекст маңызды: түскі уақытта күрт секіру күтілуі мүмкін; таңғы сағат 3-те дәл осындай күрт секіру бір нәрсенің өртеніп жатқанын білдіруі мүмкін. Сондықтан көптеген практикалық жүйелер уақытты ескеретін мүмкіндіктерді (кідірістер, маусымдық дельталар, айналмалы терезелер) пайдаланып қалыптылықты модельдейді және күтілетін үлгіге қатысты ауытқуларды есептейді. [1]

Егер сіз тек бір ережені есте сақтасаңыз: трафиктің жартысын «ауытқу» деп жарияламас бұрын, бастапқы деңгейіңізді (сағат/күн/аймақ/қызмет деңгейі) сегменттеңіз

Бағалау: Сирек кездесетін оқиғалар тұзағы 🧪

Аномалияны анықтау көбінесе «шөп үйіндісіндегі ине» болып табылады, бұл бағалауды таңқаларлық етеді:

Оң мәндер сирек болған кезде ROC қисықтары алдамшы түрде жақсы көрінуі мүмкін.
Дәлдікпен еске түсіру көріністері көбінесе теңгерімсіз параметрлер үшін ақпараттық болып табылады, себебі олар оң кластағы өнімділікке бағытталған. [4]
дабыл бюджеті қажет : адамдар ашуды тоқтатпай сағатына қанша дабыл сұрыптай алады? [4]

Айналмалы терезелер арқылы кері тестілеу классикалық сәтсіздік режимін анықтауға көмектеседі: «ол өткен айдағы дистрибуцияда тамаша жұмыс істейді». [1]

Түсіндіру және түпкі себеп: жұмысыңызды көрсетіңіз 🪄

Түсіндірместен ескерту жасау жұмбақ ашықхат алумен бірдей. Пайдалы, бірақ көңілсіз.

аномалия ұпайына ең көп үлес қосқан ерекшеліктерді көрсету немесе «бұл қалыпты көрінуі үшін нені өзгерту керек?» стиліндегі түсініктемелерді беру арқылы көмектесе алады Түсіндіруге болатын машиналық оқыту кітабы кең таралған әдістерге (SHAP стиліндегі атрибуцияларды қоса алғанда) және олардың шектеулеріне арналған сенімді, маңызды нұсқаулық болып табылады. [5]

Мақсат тек мүдделі тараптардың жайлылығы ғана емес - бұл жылдам сұрыптау және қайталанатын оқиғаларды азайту.

Орналастыру, дрейф және кері байланыс циклдары 🚀

Модельдер сырғанақтарда емес, құбырларда тұрады.

«Өндірістің алғашқы айы» туралы жиі кездесетін оқиға: детектор көбінесе орналастыруды, топтық тапсырмаларды және жетіспейтін деректерді белгілейді... бұл әлі де пайдалы , себебі ол сізді «деректер сапасының инциденттерін» «бизнес ауытқуларынан» бөлуге мәжбүр етеді.

Іс жүзінде:

Мінез-құлық өзгерген сайын дрейфті бақылап
Неліктен беттелгенін қайталау үшін журнал ұпайларының енгізілімдері + модель нұсқасы
Уақыт өте келе шектерді және сегменттерді реттеу үшін адами кері байланысты (пайдалы және шулы ескертулер) жазып алыңыз

Қауіпсіздік бұрышы: IDS және мінез-құлық аналитикасы 🛡️

Қауіпсіздік топтары көбінесе аномалия идеяларын ережеге негізделген анықтаумен араластырады: «қалыпты хост мінез-құлқының» бастапқы көрсеткіштері, сондай-ақ белгілі жаман үлгілерге арналған қолтаңбалар мен саясаттар. NIST-тің SP 800-94 (Соңғы) басып кіруді анықтау және алдын алу жүйесінің мәселелері үшін кеңінен келтірілген құрылым болып қала береді; онда сонымен қатар 2012 жылғы «1-нұсқаулық» жобасы ешқашан түпкілікті болмай, кейінірек алынып тасталғаны атап өтіледі. [3]

Аудармасы: көмекші жерде ML қолданыңыз, бірақ жалықтыратын ережелерді тастамаңыз - олар жұмыс істейтіндіктен жалықтырады.

Салыстыру кестесі: Танымал әдістерге шолу 📊

Құрал / Әдіс	Ең жақсысы	Неліктен ол жұмыс істейді (іс жүзінде)
Берік / өзгертілген z-ұпайлары	Қарапайым көрсеткіштер, жылдам бастапқы көрсеткіштер	«Жеткілікті жақсы» және жалған дабылдар аз болған кездегі күшті алғашқы өту. [3]
Оқшауланған орман	Кестелік, аралас мүмкіндіктер	Әдепкі бойынша нақты іске асыру және іс жүзінде кеңінен қолданылады. [2]
Бір класты SVM	Ықшам «қалыпты» аймақтар	Шекараға негізделген жаңалықты анықтау; баптау өте маңызды. [2]
Жергілікті ауытқу факторы	Көпқырлы қалыптылар	Тығыздықтың көршілермен салыстырғандағы контрасты жергілікті ерекшеліктерді анықтайды. [1]
Қайта құру қатесі (мысалы, автокодер стилінде)	Жоғары өлшемді өрнектер	Қалыпты режимде жаттығу; үлкен қайта құру қателіктері ауытқуларды көрсетуі мүмкін. [1]

Алдау коды: сенімді бастапқы сызықтардан + зеріктіретін бақылаусыз әдістен бастаңыз, содан кейін жалдау ақысын төлейтін жерлерде ғана күрделілікті қосыңыз.

Шағын оқулық: Нөлден ескертулерге дейін 🧭

«Ерекше» ұғымын операциялық тұрғыдан анықтаңыз (кідіріс, алаяқтық тәуекелі, CPU шығыны, қор тәуекелі).
Бастапқы деңгейден бастаңыз (сенімді статистика немесе сегменттелген шектік мәндер). [3]
Алғашқы өту ретінде бір бақылаусыз үлгіні таңдаңыз
Шекті мәндерді ескерту бюджетімен белгілеңіз және оң нәтижелер сирек кездесетінін PR стиліндегі ойлаумен бағалаңыз. [4]
Әрбір ескертуді қайталауға және түзетуге болатындай етіп түсіндірмелер мен журналдарды қосыңыз
Кері тексеру, жеткізу, үйрену, қайта калибрлеу - ауытқу қалыпты жағдай. [1]

Уақыт белгілері скотчпен және үмітпен бірге сақталмаған жағдайда, мұны бір аптада жасай аласыз... 😅

Қорытынды ескертулер - Тым ұзақ, оқымадым🧾

Жасанды интеллект ауытқуларды «қалыпты» дегеннің практикалық көрінісін үйрену, ауытқуларды бағалау және шекті мәннен асып түсетін нәрсені белгілеу арқылы анықтайды. Ең жақсы жүйелер жарқырау арқылы емес, калибрлеу : сегменттелген базалық сызықтар, ескерту бюджеттері, түсіндірілетін шығыстар және шулы дабылдарды сенімді сигналға айналдыратын кері байланыс циклі. [1]

Сілтемелер

Пиментель және т.б. (2014) - Жаңалықты анықтауға шолу (PDF, Оксфорд университеті) толығырақ оқу
scikit-learn құжаттамасы - Жаңалық пен ерекшеліктерді анықтау толығырақ оқу
NIST/SEMATECH электрондық анықтамалығы - Ауытқуларды анықтау толығырақ және NIST CSRC - SP 800-94 (Соңғы): Бұзылуды анықтау және алдын алу жүйелеріне (IDPS) арналған нұсқаулық толығырақ оқыңыз
Сайто және Ремсмейер (2015) - (PLOS ONE) екілік классификаторларды бағалау кезінде дәлдікті еске түсіру графигі ROC графигіне қарағанда ақпараттық болып табылады толығырақ оқу
Молнар - Түсіндірілетін машиналық оқыту (веб-кітап) толығырақ оқу

Ресми AI көмекші дүкенінен ең соңғы AI-ді табыңыз

Біз туралы

Блогқа оралу

Ел/аймақ