AI алдын ала өңдеу дегеніміз не?

AI алдын ала өңдеу дегеніміз не?

Қысқа жауап: Жасанды интеллектті алдын ала өңдеу - бұл шикі, жоғары дисперсиялық деректерді тазалау, кодтау, масштабтау, токендеу және кескін түрлендірулерін қоса алғанда, тұрақты модельдік кірістерге айналдыратын қайталанатын қадамдар жиынтығы. Бұл маңызды, себебі егер оқыту кірістері мен өндірістік кірістер әртүрлі болса, модельдер үнсіз істен шығуы мүмкін. Егер қадам параметрлерді «үйренсе», ағып кетуден аулақ болу үшін оны тек оқыту деректеріне сәйкестендіріңіз.

Жасанды интеллектті алдын ала өңдеу - бұл модель одан нақты сабақ ала алатындай етіп, оқыту немесе қорытынды жасау алдында (кейде оқыту кезінде) шикі деректермен жасайтын барлық нәрсе. Тек «тазалау» ғана емес. Бұл деректерді тазалау, пішіндеу, масштабтау, кодтау, кеңейту және кейінірек сіздің моделіңізді тыныштықпен бұзбайтын тұрақты көрініске орау. [1]

Негізгі қорытындылар:

Анықтама : Алдын ала өңдеу шикі кестелерді, мәтінді, суреттерді және журналдарды модельге дайын мүмкіндіктерге түрлендіреді.

Тұрақтылық : Сәйкессіздіктердің алдын алу үшін жаттығу және қорытынды жасау кезінде бірдей түрлендірулерді қолданыңыз.

Ағып кету : Масштабтаушыларды, энкодерлерді және токенизаторларды тек жаттығу деректеріне сәйкестендіріңіз.

Қайталанымдылық : Арнайы дәптер ұяшықтарының тізбегі емес, тексерілетін статистикасы бар құбырларды құрыңыз.

Өндірісті бақылау : Енгізілетін деректер өнімділікті біртіндеп төмендетпеуі үшін ауытқулар мен өзгерістерді бақылаңыз.

Осыдан кейін оқуға болатын мақалалар:

🔗 Нақты әлемдегі өнімділік үшін жасанды интеллект модельдерін қалай тексеруге болады
Дәлдікті, сенімділікті және ауытқуды тез бағалаудың практикалық әдістері.

🔗 Мәтінді дыбысқа түрлендіру жасанды интеллект болып табылады ма және ол қалай жұмыс істейді?
TTS негіздерін, негізгі қолданыстарын және бүгінгі таңдағы кең таралған шектеулерді түсіндіреді.

🔗 Бүгінде жасанды интеллект курсив жазуын дәл оқи ала ма?
Тануға қатысты қиындықтарды, ең жақсы құралдарды және дәлдік бойынша кеңестерді қамтиды.

🔗 Жалпы тапсырмалар бойынша жасанды интеллект қаншалықты дәл
Дәлдік факторларын, эталондарды және нақты әлемдегі сенімділікті бөлшектейді.


Жасанды интеллекттің алдын ала өңдеуі (және ол не емес) 🤝

Жасанды интеллектті алдын ала өңдеу - бұл шикі деректерді (кестелер, мәтін, суреттер, журналдар) модельге дайын мүмкіндіктерге айналдыру. Егер шикі деректер шатасқан гараж болса, алдын ала өңдеу дегеніміз - қораптарды белгілеу, сынған қоқысты лақтыру және жарақатсыз жүріп өту үшін заттарды қабаттастыру.

Бұл модельдің өзі емес. Бұл модельді мүмкін ететін нәрсе:

  • санаттарды санға айналдыру (бірлік сан, реттік сан және т.б.) [1]

  • үлкен сандық диапазондарды ақылға қонымды диапазондарға масштабтау (стандарттау, мин-макс және т.б.) [1]

  • мәтінді енгізу идентификаторларына (және әдетте назар аударатын маскаға) токендеу [3]

  • суреттердің өлшемін өзгерту/қию және детерминирленген және кездейсоқ түрлендірулерді тиісті түрде қолдану [4]

  • қайталанатын құбырларды құру, осылайша оқыту және «шынайы өмір» кірістері нәзік жолдармен алшақтамайды [2]

Бір шағын практикалық ескерту: «алдын ала өңдеу» модель кірісті көргенге дейін үнемі болатын кез келген нәрсені . Кейбір топтар мұны «ерекшеліктерді жобалау» және «деректерді тазалау» деп бөледі, бірақ нақты өмірде бұл сызықтар бұлыңғыр.

 

Жасанды интеллектті алдын ала өңдеу

Неліктен жасанды интеллектті алдын ала өңдеу адамдар мойындағаннан да маңыздырақ 😬

Модель – ойды оқу құралы емес, үлгіні сәйкестендіру құралы. Егер сіздің енгізулеріңіз сәйкес келмесе, модель сәйкес келмейтін ережелерді үйренеді. Бұл философиялық емес, бұл сөзбе-сөз мағынада.

Алдын ала өңдеу сізге көмектеседі:

  • оқытудың тұрақтылығын жақсартыңыз (әсіресе масштабтау/кодтау кезінде). [1]

  • Шалғайдағы шындықты модель жалпылай алатындай етіп көрсету арқылы шуды азайтыңыз

  • үнсіз ақаулық режимдерінің алдын алыңыз (тексеру кезінде «таңғажайып» көрінетін және өндірісте бетперделер). [2]

  • Аптаның әр күнінде қайталанатын түрлендірулер дәптердегі спагеттиден асып түсетіндіктен, итерацияны жылдамдатыңыз

Сонымен қатар, «үлгі өнімділігінің» көп бөлігі осыдан туындайды. Мысалы... таңқаларлықтай көп. Кейде бұл әділетсіз болып көрінеді, бірақ бұл шындық 🙃


Жақсы жасанды интеллект алдын ала өңдеу құбырын не жасайды ✅

Алдын ала өңдеудің «жақсы нұсқасы» әдетте келесі қасиеттерге ие:

  • Қайталанатын : бірдей кіріс → бірдей шығыс (әдейі көбейту болмаса, жұмбақ кездейсоқтық жоқ).

  • Оқыту кезіндегі тұрақтылық : жаттығу кезінде не істесеңіз де, қорытынды уақытында бірдей қолданылады (бірдей сәйкестендірілген параметрлер, бірдей санат карталары, бірдей токенизатор конфигурациясы және т.б.). [2]

  • Ағып кетуден қауіпсіз : бағалау/сынақ кезінде ешқандай сәйкестік қадамына әсер етпейді. (Бұл тұзақ туралы кейінірек толығырақ айтамыз.) [2]

  • Бақыланатын : сіз не өзгергенін (мүмкіндік статистикасы, жоқтықтар, санат саны) тексере аласыз, сондықтан отладка вибрацияға негізделген инженерия емес.

final_v7_really_final_ok деп аталатын дәптер ұяшықтарының үйіндісі болса ... сіз оның қалай екенін білесіз. Ол жұмыс істемейінше жұмыс істейді 😬


Жасанды интеллектті алдын ала өңдеудің негізгі құрылыс блоктары 🧱

Алдын ала өңдеуді құбырға біріктіретін құрылыс блоктарының жиынтығы ретінде қарастырыңыз.

1) Тазалау және тексеру 🧼

Әдеттегі тапсырмалар:

  • қайталанатындарды алып тастаңыз

  • жетіспейтін мәндерді өңдеу (жоқ мәндерді алып тастау, қосу немесе жоқ мәндерді айқын көрсету)

  • түрлерін, бірліктерін және диапазондарын орындау

  • дұрыс емес енгізулерді анықтау

  • мәтін форматтарын стандарттау (бос орын, корпус ережелері, Unicode ерекшеліктері)

Бұл бөлік сәнді емес, бірақ өте ақымақ қателіктердің алдын алады. Мен мұны сүйіспеншілікпен айтамын.

2) Санаттық деректерді кодтау 🔤

«red» немесе «premium_user» сияқты шикі жолдарды тікелей пайдалана алмайды .

Жалпы тәсілдер:

  • Бір реттік кодтау (санат → екілік бағандар) [1]

  • Реттік кодтау (санат → бүтін сан идентификаторы) [1]

Ең бастысы, қай энкодерді таңдағаныңызда емес, картаға түсіру тұрақты болып, оқыту мен қорытынды жасау арасында «пішінін өзгертпейді». Осылайша, сіз офлайн режимде жақсы көрінетін және онлайн режимінде елестердің әсерінде болатын модельге ие боласыз. [2]

3) Функцияларды масштабтау және қалыпқа келтіру 📏

Функциялар мүлдем басқа диапазондарда жұмыс істеген кезде масштабтау маңызды.

Екі классикалық шығарма:

  • Стандарттау : орташа мәнді алып тастап, бірлік дисперсиясына масштабтау [1]

  • Мин-макс масштабтау : әрбір функцияны көрсетілген диапазонға масштабтау [1]

Тіпті «көбінесе жұмыс істейді» модельдерін пайдаланған кезде де, масштабтау құбырларды ойлауды жеңілдетеді және кездейсоқ сынуды қиындатады.

4) Функциялық инженерия (яғни пайдалы алдау) 🧪

Міне, осы жерде сіз жақсы сигналдар жасау арқылы модельдің жұмысын жеңілдетесіз:

  • қатынастар (шертулер / көрсетілімдер)

  • айналмалы терезелер (соңғы N күн)

  • саны (әр пайдаланушыға шаққандағы оқиғалар)

  • қалың құйрықты үлестірімдер үшін логарифмдік түрлендірулер

Мұнда өнер бар. Кейде сіз мақала жазасыз, мақтанасыз... бірақ ол ештеңе етпейді. Немесе одан да жаманы, бұл ауыртады. Бұл қалыпты жағдай. Мақалаларға эмоционалды түрде тәуелді болмаңыз - олар сізді жақсы көрмейді 😅

5) Деректерді дұрыс бөлу ✂️

Бұл айқын естіледі, бірақ олай емес:

  • iid деректері үшін кездейсоқ бөлулер

  • уақыт қатарлары үшін уақытқа негізделген бөлулер

  • нысандар қайталанған кезде топтастырылған бөлінулер (пайдаланушылар, құрылғылар, пациенттер)

Ең бастысы: деректерден үйренетін алдын ала өңдеуді орнатпас бұрын бөлу . Егер сіздің алдын ала өңдеу қадамыңыз параметрлерді (мысалы, құралдар, сөздіктер, санат карталары) «үйренсе», ол оларды тек оқытудан үйренуі керек. [2]


Деректер түрі бойынша жасанды интеллект алдын ала өңдеу: кестелік, мәтіндік, суреттер 🎛️

Алдын ала өңдеу модельге не беретініңізге байланысты пішінді өзгертеді.

Кестелік деректер (электрондық кестелер, журналдар, дерекқорлар) 📊

Жалпы қадамдар:

  • құндылықтың жоғалу стратегиясы

  • категориялық кодтау [1]

  • сандық бағандарды масштабтау [1]

  • ауытқуларды өңдеу (домен ережелері көп жағдайда «кездейсоқ қиып алудан» асып түседі)

  • туынды мүмкіндіктер (агрегациялар, кідірістер, айналым статистикасы)

Тәжірибелік кеңес: баған топтарын нақты анықтаңыз (сандық және категориялық және идентификаторлар). Болашақта өзіңіз сізге алғыс айтатын боласыз.

Мәтіндік деректер (NLP) 📝

Мәтінді алдын ала өңдеу көбінесе мыналарды қамтиды:

  • токенизацияны токендерге/ішкі сөздерге айналдыру

  • кіріс идентификаторларына түрлендіру

  • толтыру/қию

  • топтастыруға арналған назар аударатын маскаларды жасау

Ауырсынуды азайтатын шағын ереже: трансформаторға негізделген орнатулар үшін модельдің күтілетін токенизатор параметрлерін орындаңыз және себебіңіз болмаса, фристайл жасамаңыз. Фристайл - бұл сіздің «жаттығулар жасайды, бірақ бұл таңқаларлық» деген пікірге келуіңіздің себебі

Суреттер (компьютерлік көру) 🖼️

Әдеттегі алдын ала өңдеу:

  • өлшемін өзгерту / біркелкі пішіндерге дейін қию

  • бағалауға арналған детерминистік түрлендірулер

  • Оқуды кеңейту үшін кездейсоқ түрлендірулер (мысалы, кездейсоқ кесу) [4]

Адамдар байқамайтын бір деталь: «кездейсоқ түрлендірулер» жай ғана әсер қалдырмайды - олар шақырылған сайын параметрлерді сөзбе-сөз іріктейді. Әртүрлілікті оқыту үшін тамаша, кездейсоқтықты өшіруді ұмытып кетсеңіз, бағалау үшін өте жаман. [4]


Барлығы түсетін тұзақ: деректердің ағып кетуі 🕳️🐍

Ағып кету - бағалау деректерінен алынған ақпараттың оқытуға енуі - көбінесе алдын ала өңдеу арқылы. Бұл сіздің моделіңізді валидация кезінде сиқырлы етіп көрсетуі мүмкін, содан кейін сізді нақты әлемде көңіліңізден шығаруы мүмкін.

Жалпы ағып кету үлгілері:

  • Толық деректер жиынтығының статистикасын пайдаланып масштабтау (тек оқытудың орнына) [2]

  • бірге пойыз+сынақ арқылы құрылыс санаттарының карталары [2]

  • сынақ жинағын «көретін» кез келген fit() немесе fit_transform()

Жалпы ереже (қарапайым, қатал, тиімді):

  • дұрыс кез келген нәрсе тек жаттығу кезінде ғана жарамды болуы керек.

  • Содан кейін сіз сол орнатылған трансформаторды пайдаланып валидацияны/тестті түрлендіресіз

Ал егер сіз «қаншалықты жаман болуы мүмкін?» деген сұрақты алғыңыз келсе, scikit-learn-ның өз құжаттарында ағып кетудің мысалы көрсетілген, мұнда дұрыс емес алдын ала өңдеу реті кездейсоқ нысандарда 0,76 0,5- төмендейді. Міне, сенімді түрде дұрыс емес ағып кету осылай көрінуі мүмкін. [2]


Алдын ала өңдеуді өндіріске хаоссыз енгізу 🏗️

Көптеген модельдер өндірісте сәтсіздікке ұшырайды, себебі модель «нашар» емес, кіріс шындығы өзгереді немесе сіздің құбырыңыз өзгереді.

Өндірістік алдын ала өңдеу әдетте мыналарды қамтиды:

  • Сақталған артефактілер (кодер карталары, масштабтау параметрлері, токенизатор конфигурациясы), сондықтан қорытынды дәл сол үйренген түрлендірулерді пайдаланады [2]

  • Қатаң енгізу келісімшарттары (күтілетін бағандар/түрлер/диапазондар)

  • Өндірістік деректер кететіндіктен ауытқулар мен дрейфтерді бақылау [5]

Егер сізге нақты анықтамалар қажет болса: Google-дың Vertex AI Model Monitoring бағдарламасы оқытуға қызмет көрсетудегі ауытқуды (өндірістік үлестірім оқытудан ауытқиды) және қорытынды дрейфін (өндірістік үлестірім уақыт өте келе өзгереді) ажыратады және санаттық және сандық ерекшеліктерді бақылауды қолдайды. [5]

Өйткені тосынсыйлар қымбат. Ал көңілді емес.


Салыстыру кестесі: жалпы алдын ала өңдеу + бақылау құралдары (және олар кімге арналған) 🧰

Құрал / кітапхана Ең жақсысы Бағасы Неліктен бұл жұмыс істейді (және аздап шыншылдық)
scikit-learn алдын ала өңдеуі Кестелік ML құбырлары Тегін Тұрақты кодтаушылар + масштабтаушылар (OneHotEncoder, StandardScaler және т.б.) және болжамды мінез-құлық [1]
Құшақтасу бет токенизаторлары NLP кіріс дайындығы Тегін Енгізу идентификаторларын + назар аудару маскаларын іске қосулар/модельдер бойынша біркелкі түрде шығарады [3]
torchvision трансформациялары Көруді өзгерту + күшейту Тегін Детерминирленген және кездейсоқ түрлендірулерді бір құбырда араластырудың таза тәсілі [4]
Vertex AI моделін бақылау Өнімдегі дрейф/қисықтықты анықтау Ақылы (бұлттық) Мониторлар ауытқу/жылжу мүмкіндігін ұсынады және шекті мәндерден асып кеткен кезде ескертеді [5]

(Иә, кестеде әлі де пікірлер бар. Бірақ кем дегенде шынайы пікірлер 😅)


Сіз шынымен пайдалана алатын практикалық алдын ала өңдеу тізімі 📌

Жаттығу алдында

  • Енгізу схемасын анықтаңыз (түрлері, бірліктері, рұқсат етілген диапазондар)

  • Жетіспейтін мәндер мен қайталанатын мәндерді тексеру

  • Деректерді дұрыс бөлу (кездейсоқ / уақытқа негізделген / топтастырылған)

  • Тек жаттығу кезінде ғана сәйкестікті алдын ала өңдеу ( fit / fit_transform жаттығуда қалады) [2]

  • Алдын ала өңдеу артефактілерін сақтаңыз, сонда қорытынды оларды қайта пайдалана алады [2]

Жаттығу кезінде

  • Кездейсоқ күшейтуді тек тиісті жағдайларда ғана қолданыңыз (әдетте тек жаттығуға арналған бөліктер) [4]

  • Бағалауды алдын ала өңдеуді детерминирлеуді сақтаңыз [4]

  • Модель өзгерістері сияқты алдын ала өңдеу өзгерістерін бақылаңыз (өйткені олар солай)

Орналастыру алдында

  • Қорытындының бірдей алдын ала өңдеу жолын және артефактілерді пайдаланатынына көз жеткізіңіз [2]

  • Дрейф/қисық мониторингін орнату (тіпті негізгі функциялардың таралуын тексеру де көп нәрсеге көмектеседі) [5]


Терең үңілу: алдын ала өңдеудегі жиі кездесетін қателіктер (және оларды қалай болдырмауға болады) 🧯

1-қателік: «Мен бәрін тез арада қалыпқа келтіремін» 😵

Егер сіз масштабтау параметрлерін толық деректер жиынында есептесеңіз, бағалау ақпараты ағып жатыр. Қалғанын түрлендіріңіз. [2]

2-қателік: санаттар хаосқа ауып барады 🧩

Егер санаттарды картаға түсіру жаттығу мен қорытынды арасында ауысса, сіздің моделіңіз әлемді үнсіз қате түсінуі мүмкін. Сақталған артефактілер арқылы карталарды түзетіңіз. [2]

3-қателік: кездейсоқ көбейтудің бағалауға жасырын кіруі 🎲

Кездейсоқ түрлендірулер жаттығуда керемет, бірақ өнімділікті өлшеуге тырысқан кезде олар «жасырын» болмауы керек. (Кездейсоқ кездейсоқтық дегенді білдіреді.) [4]


Қорытынды ескертулер 🧠✨

Жасанды интеллектті алдын ала өңдеу – бұл ретсіз шындықты тұрақты модельдік кірістерге айналдырудың тәртіпті өнері. Ол тазалауды, кодтауды, масштабтауды, токенизацияны, кескіндерді түрлендіруді және ең бастысы, қайталанатын құбырлар мен артефактілерді қамтиды.

  • Алдын ала өңдеуді кездейсоқ емес, әдейі жасаңыз. [2]

  • Алдымен бөліңіз, тек жаттығу кезінде ғана түрлендірулерді жасаңыз, ағып кетуден аулақ болыңыз. [2]

  • Модальдылыққа сәйкес алдын ала өңдеуді пайдаланыңыз (мәтін үшін токенайзерлер, суреттер үшін түрлендірулер). [3][4]

  • Модельіңіз біртіндеп мағынасыздыққа айналмауы үшін өндірістің ауытқуын/дрейфін бақылаңыз. [5]

Егер сіз қиындыққа тап болсаңыз, өзіңізден былай деп сұраңыз:
«Егер мен оны ертең жаңа деректерде іске қоссам, бұл алдын ала өңдеу қадамы әлі де мағыналы бола ма?»
Егер жауап «мм... мүмкін?» болса, бұл сіздің кілтіңіз 😬


Жиі қойылатын сұрақтар

Қарапайым тілмен айтқанда, жасанды интеллектті алдын ала өңдеу дегеніміз не?

Жасанды интеллектті алдын ала өңдеу - бұл шулы, жоғары дисперсиялық шикі деректерді модель үйрене алатын тұрақты кірістерге айналдыратын қайталанатын қадамдар жиынтығы. Оған тазалау, валидация, санаттарды кодтау, сандық мәндерді масштабтау, мәтінді токендеу және кескін түрлендірулерін қолдану кіруі мүмкін. Мақсат - оқыту мен өндірістік қорытындылардың «бірдей» кірісті көруін қамтамасыз ету, сондықтан модель кейінірек болжанбайтын мінез-құлыққа ауыспайды.

Неліктен жасанды интеллектті алдын ала өңдеу өндірісте соншалықты маңызды?

Алдын ала өңдеу маңызды, себебі модельдер кіріс көрінісіне сезімтал. Егер оқыту деректері өндірістік деректерден басқаша масштабталса, кодталса, токенделсе немесе түрлендірілсе, оффлайн режимінде жақсы көрінетін, бірақ онлайн режимінде тыныш істен шығатын оқыту/қызмет көрсету сәйкессіздігінің сәтсіздіктеріне ұшырауыңыз мүмкін. Күшті алдын ала өңдеу құбырлары шуды азайтады, оқу тұрақтылығын жақсартады және итерацияны жылдамдатады, себебі сіз ноутбук спагеттиін шешпейсіз.

Алдын ала өңдеу кезінде деректердің ағып кетуін қалай болдырмауға болады?

Қарапайым ереже жұмыс істейді: сәйкестік қадамы бар кез келген нәрсе тек жаттығу деректеріне сәйкес келуі керек. Бұған орташа мәндер, санат карталары немесе сөздіктер сияқты параметрлерді үйренетін масштабтаушылар, кодтаушылар және токенизаторлар кіреді. Алдымен сіз бөлесіз, жаттығу бөліміне сәйкестендіресіз, содан кейін сәйкестендіру трансформаторын пайдаланып валидацияны/тестті түрлендіресіз. Ағып кету валидацияны «сиқырлы» түрде жақсы етіп көрсетіп, содан кейін өндірістік пайдалануда құлдырауы мүмкін.

Кестелік деректерді алдын ала өңдеудің ең көп таралған қадамдары қандай?

Кестелік деректер үшін әдеттегі құбыржол тазалауды және валидацияны (түрлері, диапазондары, жетіспейтін мәндері), санаттық кодтауды (бір реттік немесе реттік) және сандық масштабтауды (стандарттау немесе мин-макс) қамтиды. Көптеген құбыржолдар қатынастар, жылжымалы терезелер немесе санақ сияқты доменге негізделген мүмкіндіктер инженериясын қосады. Түрлендірулеріңіз тұрақты болып қалуы үшін баған топтарын нақты анықтау (сандық және санаттық және идентификаторлар) практикалық әдет болып табылады.

Мәтіндік модельдер үшін алдын ала өңдеу қалай жұмыс істейді?

Мәтінді алдын ала өңдеу әдетте токенизацияны токендерге/ішкі сөздерге айналдыруды, оларды кіріс идентификаторларына түрлендіруді және топтастыру үшін толтыруды/қиюды өңдеуді білдіреді. Көптеген трансформатор жұмыс процестері идентификаторлармен қатар назар аудару маскасын жасайды. Жалпы тәсіл - импровизацияның орнына модельдің күтілетін токенизатор конфигурациясын пайдалану, себебі токенизатор параметрлеріндегі шағын айырмашылықтар «ол үйретеді, бірақ күтпеген әрекет етеді» нәтижелеріне әкелуі мүмкін.

Машиналық оқыту үшін кескіндерді алдын ала өңдеудің айырмашылығы неде?

Кескінді алдын ала өңдеу әдетте пішіндердің біркелкі болуын және пиксельдерді өңдеуді қамтамасыз етеді: өлшемін өзгерту/қию, қалыпқа келтіру және детерминирленген және кездейсоқ түрлендірулер арасындағы айқын бөліну. Бағалау үшін түрлендірулер детерминирленген болуы керек, сондықтан метрикалар салыстырмалы болуы керек. Оқыту үшін кездейсоқ ұлғайту (кездейсоқ кесінділер сияқты) беріктікті жақсарта алады, бірақ кездейсоқтық бағалау кезінде кездейсоқ қалдырылмай, әдейі оқыту бөліміне енгізілуі керек.

Алдын ала өңдеу құбырын сынғыш емес, «жақсы» ететін не?

Жақсы жасанды интеллект алдын ала өңдеу құбыры қайталанатын, ағып кетуден қауіпсіз және бақыланатын. Қайталанатын дегеніміз, кездейсоқтық әдейі күшейтілмесе, бірдей кіріс бірдей шығысты шығарады дегенді білдіреді. Ағып кетуден қауіпсіз дегеніміз, сәйкес қадамдар ешқашан валидацияға/тестілеуге тиіп кетпейді дегенді білдіреді. Бақыланатын дегеніміз, сіз жоғалған, санат саны және мүмкіндіктердің таралуы сияқты статистиканы тексере аласыз, сондықтан жөндеу ішкі сезімге емес, дәлелдерге негізделген. Құбырлар әрқашан арнайы ноутбук тізбектерін басып озады.

Оқыту мен қорытындыны алдын ала өңдеудің үйлесімділігін қалай сақтаймын?

Ең бастысы - қорытынды жасау уақытында дәл сол үйренген артефактілерді қайта пайдалану: масштабтау параметрлері, кодтаушының бейнеленуі және токенизатор конфигурациялары. Сондай-ақ, өндірістік деректер жарамсыз пішіндерге үнсіз ауысып кетпеуі үшін кіріс келісімшарты (күтілетін бағандар, түрлер және диапазондар) қажет. Тұрақтылық тек «бірдей қадамдарды орындау» емес - бұл «бірдей сәйкестендірілген параметрлер мен бейнеленулермен бірдей қадамдарды орындау»

Уақыт өте келе дрейф және ауытқу сияқты алдын ала өңдеу мәселелерін қалай бақылауға болады?

Тіпті берік құбыр желісі болғанның өзінде өндірістік деректер өзгереді. Жалпы тәсіл - мүмкіндіктердің таралуындағы өзгерістерді бақылау және оқытуға қызмет көрсетудегі ауытқулар (өндіріс оқытудан ауытқу) және қорытынды ауытқуы (уақыт өте келе өндірістің өзгеруі) туралы ескерту. Бақылау жеңіл (негізгі тарату тексерулері) немесе басқарылуы мүмкін (Vertex AI Model Monitoring сияқты). Мақсат - кіріс ауытқуларын ерте анықтау - олар модельдің өнімділігін баяу бұзғанға дейін.

Сілтемелер

[1] scikit-learn API:
sklearn.preprocessing (кодерлер, масштабтаушылар, нормалау) [2] scikit-learn: Жалпы қателіктер - Деректердің ағып кетуі және оны қалай болдырмау керек
[3] Құшақтасу бет трансформаторлары құжаттары: Токенизаторлар (енгізу идентификаторлары, назар аудару маскалары)
[4] PyTorch Torchvision құжаттары: Түрлендірулер (өлшемін өзгерту/қалыпқа келтіру + кездейсоқ түрлендірулер)
[5] Google Cloud Vertex AI құжаттары: Модельді бақылауға шолу (функцияның қисаюы және дрейфі)

Ресми AI көмекші дүкенінен ең соңғы AI-ді табыңыз

Біз туралы

Блогқа оралу