Жасанды интеллект қалай үйренеді?

«Жасанды интеллект қалай үйренеді?»атты нұсқаулықта негізгі идеялар қарапайым тілде баяндалады - мысалдармен, шағын айналып өтулермен және әлі де көмектесетін бірнеше жетілмеген метафоралармен. Бастайық. 🙂

Осыдан кейін оқуға болатын мақалалар:

🔗 Болжамды жасанды интеллект дегеніміз не
Болжамдық модельдер тарихи және нақты уақыттағы деректерді пайдалана отырып, нәтижелерді қалай болжайды.

🔗 Жасанды интеллект қандай салаларға әсер етеді
Автоматтандыру, аналитика және агенттер арқылы өзгертілген секторлар.

🔗 GPT нені білдіреді
GPT аббревиатурасы мен шығу тегі туралы нақты түсініктеме.

🔗 AI дағдылары дегеніміз не
AI жүйелерін құру, орналастыру және басқару үшін негізгі құзыреттер.

Сонымен, ол мұны қалай жасайды? ✅

Адамдар AI қалай үйренеді деп сұрағанда . , олар әдетте мынаны білдіреді: модельдер жай ғана сәнді математикалық ойыншықтардың орнына қалай пайдалы болады. Жауап - рецепт:

Анық мақсат - «жақсы» дегеннің нені білдіретінін анықтайтын шығын функциясы. [1]
Сапалы деректер - әртүрлі, таза және өзекті. Саны көмектеседі; әртүрлілік көбірек көмектеседі. [1]
Тұрақты оңтайландыру - жартастан құлап кетпеу үшін трюктермен градиенттен түсу. [1], [2]
Жалпылау – оқу жинағы ғана емес, жаңа деректер бойынша табыс. [1]
Кері байланыс циклдері – бағалау, қателерді талдау және қайталау. [2], [3]
Қауіпсіздік және сенімділік - қоршаулар, сынақтар және құжаттама, сондықтан хаос болмайды. [4]

Қолжетімді негіздер үшін классикалық терең оқыту мәтіні, көрнекі курс жазбалары және практикалық апаттық курс сізді белгілерге батырмай, маңызды нәрселерді қамтиды. [1]–[3]

AI қалай үйренеді? Ағылшын тілінде қысқаша жауап ✍️

Жасанды интеллект моделі кездейсоқ параметр мәндерінен басталады. Ол болжам жасайды. Сіз бұл болжамды шығынмен бағалайсыз . Содан кейін градиенттерді пайдаланып шығынды азайту үшін сол параметрлерді түртесіз . Модель жақсаруын тоқтатқанша (немесе тағамдарыңыз таусылғанша) бұл циклды көптеген мысалдарда қайталаңыз. Бұл бір деммен жаттығу циклі. [1], [2]

Сәл көбірек дәлдікті қаласаңыз, төмендегі градиенттің түсуі және кері таралу бөлімдерін қараңыз. Жылдам, сіңімді фон үшін қысқаша лекциялар мен зертханалар кеңінен қол жетімді. [2], [3]

Негіздер: деректер, мақсаттар, оңтайландыру 🧩

Деректер: Кірістер (x) және мақсаттар (y). Деректер неғұрлым кең және таза болса, жалпылау мүмкіндігі соғұрлым жоғары болады. Деректерді жинау керемет емес, бірақ ол ең бастысы. [1]
Модель: (\theta) параметрлері бар (f_\theta(x)) функциясы. Нейрондық желілер – күрделі тәсілдермен – Lego кірпіштерімен – біріктірілетін, бірақ жұмсақтау қарапайым бірліктердің стектері. [1]
Мақсат: қатені өлшейтін шығын (L(f_\theta(x), y)). Мысалдар: орташа квадраттық қате (регрессия) және кросс-энтропия (классификация). [1]
Оңтайландыру: Параметрлерді жаңарту үшін (стохастикалық) градиенттің төмендеуін пайдаланыңыз: (\theta \leftarrow \theta - \eta \nabla_\theta L). Оқу жылдамдығы (\eta): тым үлкен және сіз айналасыз; тым кішкентай және сіз мәңгі ұйықтайсыз. [2]

Жоғалту функцияларына және оңтайландыруға таза кіріспе үшін жаттығу трюктері мен тұзақтары туралы классикалық ескертпелер тамаша скрипт болып табылады. [2]

Бақыланатын оқыту: белгіленген мысалдардан үйреніңіз 🎯

Идея: Енгізілген және дұрыс жауаптың үлгі жұптарын көрсетіңіз. Модель салыстыруды үйренеді (x \rightarrow y).

Жалпы тапсырмалар: кескінді жіктеу, көңіл-күйді талдау, кестелік болжау, сөйлеуді тану.
Типтік шығындар: жіктеу үшін кросс-энтропия, регрессия үшін орташа квадраттық қате. [1]
Қиындықтар: жапсырма шуы, сыныптың теңгерімсіздігі, деректердің ағып кетуі.
Түзетулер: стратификацияланған іріктеу, сенімді жоғалтулар, реттеу және әртүрлі деректерді жинау. [1], [2]

Онжылдық көрсеткіштер мен өндірістік тәжірибеге сүйене отырып, бақыланатын оқыту жұмыс күші болып қала береді, өйткені нәтижелер болжамды және көрсеткіштер қарапайым. [1], [3]

Бақылаусыз және өзін-өзі қадағалайтын оқыту: деректер құрылымын үйрену 🔍

жапсырмасыз үйренеді.

Кластерлеу: ұқсас нүктелерді топтастыру — k-means қарапайым және таңқаларлықтай пайдалы.
Өлшемділікті азайту: деректерді маңызды бағыттарға дейін сығымдау — PCA шлюз құралы болып табылады.
Тығыздық/генеративті модельдеу: деректерді таратудың өзін үйреніңіз. [1]

Өзін-өзі қадағалайтын заманауи қозғалтқыш: модельдер таңбаланбаған деректер мұхиттарында алдын ала жаттығуға және кейінірек дәл реттеуге мүмкіндік беретін жеке бақылауды жасайды (маскирленген болжау, контрастты оқыту). [1]

Оқытуды күшейту: орындау және кері байланыс алу арқылы үйреніңіз 🕹️

Агент ортамен әрекеттеседі , сыйақы алады және ұзақ мерзімді сыйақыны барынша арттыратын саясатты үйренеді .

Негізгі бөліктер: мемлекет, әрекет, марапат, саясат, құндылық функциясы.
Алгоритмдер: Q-оқыту, саясат градиенттері, актер-сыншы.
Барлау және пайдалану: жаңа нәрселерді қолданып көріңіз немесе жұмыс істейтінін қайта пайдаланыңыз.
Несие тағайындау: қандай әрекет қандай нәтижеге әкелді?

Адамның кері байланысы марапаттар шатастырылған кезде жаттығуды бағыттай алады — рейтинг немесе қалаулар тамаша марапатты қолмен кодтаусыз мінез-құлықты қалыптастыруға көмектеседі. [5]

Терең үйрену, тірек және градиентті түсіру - соғып тұрған жүрек 🫀

Нейрондық желілер қарапайым функциялардың композициялары болып табылады. Үйрену үшін олар кері таралуға:

Алға өту: кірістерден болжамды есептеу.
Жоғалту: болжамдар мен мақсаттар арасындағы қатені өлшеңіз.
Кері өту: әрбір параметр бойынша жоғалту градиенттерін есептеу үшін тізбек ережесін қолданыңыз.
Жаңарту: оңтайландырушы арқылы параметрлерді градиентке қарсы жылжытыңыз.

Импульс, RMSProp және Adam сияқты нұсқалар жаттығуды аз темпераментті етеді. Сабақты тастап кету, салмақты азайтужәне ерте тоқтату үлгілерді есте сақтаудың орнына жалпылауға көмектеседі. [1], [2]

Трансформаторлар және назар: неге заманауи модельдер өзін ақылды сезінеді 🧠✨

Трансформаторлар тіл мен көрудегі көптеген қайталанатын орнатуларды ауыстырды. Негізгі трюк - өзіне назар аудару, ол контекстке байланысты модельге оның енгізуінің әртүрлі бөліктерін өлшеуге мүмкіндік береді. Позициялық кодтаулар тәртіпті өңдейді және көп басты назар үлгіге бір уақытта әртүрлі қатынастарға назар аударуға мүмкіндік береді. Масштабтау - алуан түрлі деректер, көбірек параметрлер, ұзағырақ оқыту - көбінесе кірісті азайтуға және шығындарды арттыруға көмектеседі. [1], [2]

Жалпылау, шамадан тыс фитинг және биас-варианс биі 🩰

Модель жаттығулар жиынтығын жеңе алады және әлі де шынайы әлемде құлдырай алады.

Шамадан тыс қондыру: шуды есте сақтайды. Жаттығу қатесі төмендеді, сынақ қатесі жоғары.
Жеткізу: тым қарапайым; сигнал жіберіп алады.
Қателік пен дисперсияның ымыраға келуі: күрделілік қателікті азайтады, бірақ дисперсияны арттыруы мүмкін.

Жақсырақ қалай жалпылау керек:

Әртүрлі деректер – әртүрлі көздер, домендер және шеткі жағдайлар.
Регуляризация - оқудан шығу, салмақтың төмендеуі, деректерді көбейту.
Тиісті валидация - таза сынақ жинақтары, шағын деректер үшін кросс-валидация.
Мониторинг дрейф – деректердің таралуы уақыт өте келе өзгереді.

Тәуекелді ескеретін тәжірибе оларды өмірлік цикл әрекеттері – басқару, карталау, өлшеу және басқару – бір реттік тексеру тізімдері емес ретінде құрастырады. [4]

Маңызды көрсеткіштер: біз оқудың болғанын қалай білеміз 📈

Жіктеу: дәлдік, дәлдік, еске түсіру, F1, ROC AUC. Теңгерімсіз деректер дәлдік-еске түсіру қисықтарын талап етеді. [3]
Регрессия: MSE, MAE, (R^2). [1]
Рейтинг/іздеу: MAP, NDCG, recall@K. [1]
Генеративті модельдер: таңқаларлық (тіл), BLEU/ROUGE/CIDEr (мәтін), CLIP негізіндегі ұпайлар (көп модальды) және маңызды адамдық бағалаулар. [1], [3]

Пайдаланушы әсеріне сәйкес келетін көрсеткіштерді таңдаңыз. Жалған позитивтер нақты құны болса, дәлдіктегі кішкене соққы маңызды болмауы мүмкін. [3]

Нақты әлемдегі оқу жұмыс процесі: қарапайым сызба 🛠️

Мәселені шешу - кірістерді, шығыстарды, шектеулерді және сәттілік критерийлерін анықтаңыз.
Мәліметтер құбыры – жинау, таңбалау, тазалау, бөлу, көбейту.
Базалық – қарапайым бастау; сызықтық немесе ағаш базалық сызықтар таңқаларлық бәсекеге қабілетті.
Модельдеу - бірнеше отбасын қолданып көріңіз: градиентті күшейтілген ағаштар (кестелік), CNN (суреттер), трансформаторлар (мәтін).
Тренинг - кесте, оқыту жылдамдығы стратегиялары, бақылау нүктелері, қажет болған жағдайда аралас дәлдік.
Бағалау – абляциялар және қателерді талдау. Орташа емес, қателіктерге қараңыз.
Орналастыру – шығару құбыры, мониторинг, журнал жүргізу, кері жоспар.
Итерация - жақсырақ деректер, дәл реттеу немесе архитектуралық түзетулер.

Шағын жағдай: электрондық пошта жіктеушісі жобасы қарапайым сызықтық базалық сызықтан басталып, алдын ала дайындалған трансформаторды жетілдірді. Ең үлкен жеңіс модельде емес, таңбалау рубрикасын қатайту және аз көрсетілген «шеткі» санаттарды қосу болды. Олар қамтылғаннан кейін, F1 валидациясы ақыры нақты әлемдегі өнімділікті бақылады. (Сіздің болашақтағы өзіңіз: өте ризамын.)

Деректер сапасы, таңбалау және өзіңізге өтірік айтпаудың нәзік өнері 🧼

Ішінде қоқыс, өкініш. Таңбалау бойынша нұсқаулар дәйекті, өлшенетін және қаралған болуы керек. Аннотатор аралық келісім маңызды.

Мысалдар, бұрыштық жағдайлар және галстуктар бар айдарларды жазыңыз.
Қайталанатын және жақын көшірмелердің деректер жиынын тексеру.
Шығу фактісін қадағалаңыз - әрбір мысал қайдан алынған және неліктен енгізілген.
Деректерді қамтуды жай ғана қарапайым эталонмен емес, нақты пайдаланушы сценарийлерімен өлшеңіз.

Олар сіз іс жүзінде іске асыра алатын кеңірек кепілдік және басқару құрылымдарына жақсы сәйкес келеді. [4]

Оқыту, дәл реттеу және адаптерлерді тасымалдау - ауыр жүкті қайта пайдаланыңыз ♻️

Алдын ала дайындалған модельдер жалпы көріністерді меңгереді; дәл реттеу оларды аз деректермен тапсырмаңызға бейімдейді.

Ерекшеліктерді шығару: омыртқаны мұздату, кішкентай басын жаттықтыру.
Толық дәл реттеу: максималды сыйымдылық үшін барлық параметрлерді жаңартыңыз.
Параметрлерді тиімді пайдаланатын әдістер: адаптерлер, LoRA стиліндегі төмен деңгейлі жаңартулар - есептеу қиын болған кезде жақсы.
Доменді бейімдеу: ендірілгендерді домендер бойынша теңестіру; шағын өзгерістер, үлкен табыстар. [1], [2]

Бұл қайта пайдалану үлгісі, сондықтан заманауи жобалар батырлық бюджеттерсіз жылдам қозғала алады.

Қауіпсіздік, сенімділік және туралау – қосымша емес биттер 🧯

Оқу тек дәлдікке байланысты емес. Сондай-ақ сізге берік, әділ және мақсатты пайдалануға сәйкес келетін үлгілер қажет.

Қарсыластардың беріктігі: кішігірім толқулар модельдерді алдауы мүмкін.
Біржақтылық және әділдік: жалпы орташа көрсеткіштерді ғана емес, ішкі топтардың өнімділігін өлшеңіз.
Түсіндіру мүмкіндігі : мүмкіндікті атрибуциялау және зерттеу себебін түсінуге көмектеседі .
Циклдегі адам: анық емес немесе жоғары әсер ететін шешімдерге арналған эскалация жолдары. [4], [5]

Артықшылыққа негізделген оқыту - бұл мақсаттар анық емес кезде адам пікірін қосудың прагматикалық тәсілі. [5]

Бір минут ішінде жиі қойылатын сұрақтар - жылдам өрт ⚡

Сонымен, шынымен, AI қалай үйренеді? Параметрлерді жақсырақ болжамға бағыттайтын градиенттермен жоғалтуға қарсы итеративті оңтайландыру арқылы. [1], [2]
Көбірек деректер әрқашан көмектеседі ме? Әдетте, төмендеу қайтарылғанша. Әртүрлілік жиі шикізат көлемін жеңеді. [1]
Жапсырмалар лас болса ше? Шуға төзімді әдістерді, жақсырақ айдарларды пайдаланыңыз және өздігінен қадағаланатын алдын ала дайындықты қарастырыңыз. [1]
Неліктен трансформаторлар басым? Зейін жақсы таралады және ұзақ мерзімді тәуелділіктерді түсіреді; құрал-саймандары жетілген. [1], [2]
Оқуды аяқтағанымды қалай білемін? Валидацияның жоғалуы тұрақты болып, көрсеткіштер тұрақтанады және жаңа деректер күтілгендей жұмыс істейді, содан кейін ауытқуды бақылайды. [3], [4]

Салыстыру кестесі - бүгінде шын мәнінде қолдануға болатын құралдар 🧰

Әдейі аздап қызық. Бағалар негізгі кітапханаларға арналған - ауқымды оқытудың инфра шығындары бар екені анық.

Құрал	Ең жақсысы	Бағасы	Неліктен жақсы жұмыс істейді
PyTorch	Зерттеушілер, құрылысшылар	Тегін - ашық src	Динамикалық графиктер, күшті экожүйе, тамаша оқулықтар.
TensorFlow	Өндірістік бригадалар	Тегін - ашық src	Жетілген қызмет көрсету, ұялы телефонға арналған TF Lite; үлкен қауымдастық.
scikit-learn	Кестелік мәліметтер, негізгі көрсеткіштер	Тегін	Таза API, қайталанатын жылдам, тамаша құжаттар.
Керас	Жылдам прототиптер	Тегін	TF бойынша жоғары деңгейлі API, оқылатын қабаттар.
JAX	Күшті пайдаланушылар, зерттеу	Тегін	Автовекторизация, XLA жылдамдығы, талғампаз математикалық діріл.
Құшақтасқан бет трансформерлері	NLP, көру, аудио	Тегін	Алдын ала дайындалған модельдер, қарапайым дәлдік, тамаша хабтар.
Найзағай	Тренинг жұмыс үрдістері	Еркін ядро	Құрылымы, журналы, көп GPU-батареялары кіреді.
XGBoost	Кестелік бәсекелестік	Тегін	Күшті базалық көрсеткіштер, көбінесе құрылымдық деректерде жеңеді.
Салмақтар мен бейімділіктер	Экспериментті қадағалау	Еркін деңгей	Қайталану, жүгірулерді салыстыру, жылдам оқу циклдері.

Бастау үшін беделді құжаттар: PyTorch, TensorFlow және ұқыпты scikit-learn пайдаланушы нұсқаулығы. (Біреуін таңдаңыз, кішкентай нәрсе жасаңыз, қайталаңыз.)

Терең сүңгу: нақты уақытты үнемдейтін практикалық кеңестер 🧭

Оқу жылдамдығы кестелері: косинустың ыдырауы немесе бір цикл жаттығуды тұрақтандыруы мүмкін.
Партия көлемі: үлкенірек болған сайын жақсы бола бермейді - тек өткізу қабілетіне ғана емес, валидация көрсеткіштеріне де назар аударыңыз.
Weight init: заманауи әдепкі параметрлер жақсы; жаттығулар тоқтап қалса, инициализацияны қайта қараңыз немесе бастапқы қабаттарды қалыпқа келтіріңіз.
Қалыпқа келтіру: топтама нормасы немесе қабат нормасы оңтайландыруды күрт тегістей алады.
Деректерді ұлғайту: кескіндер үшін айналдыру/кесу/түс дірілдеу; мәтін үшін бүркеніш/таңбалауыш араластыру.
Қатені талдау: қателерді бір бөлікке дейінгі регистр бойынша топтау барлығын төмен сүйреп апаруы мүмкін.
Repro: тұқымдарды орнату, гиперпарамдарды тіркеу, бақылау нүктелерін сақтау. Болашақта сіз риза боласыз, мен уәде беремін. [2], [3]

Күмән туындаған кезде, негіздерді қайталаңыз. Негіздер компас болып қалады. [1], [2]

Іске жарайтын кішкентай метафора 🪴

Модельді үйрету өсімдікті біртүрлі саптамамен суарумен бірдей. Тым көп суды толтыратын шалшық. Тым төмен құрғақшылық. Жақсы деректерден алынған күн сәулесі және таза мақсаттардан алынған қоректік заттармен дұрыс каденс, және сіз өсу аласыз. Иә, сәл ірімшік, бірақ ол жабысады.

AI қалай үйренеді? Барлығын біріктіру 🧾

Модель кездейсоқ басталады. Градиент негізіндегі жаңартулар арқылы жоғалтуды басшылыққа ала отырып, ол өз параметрлерін деректердегі үлгілермен туралайды. Болжауды жеңілдететін өкілдіктер пайда болады. Бағалау оқудың кездейсоқ емес, шынайы екенін көрсетеді. Қауіпсіздік үшін қоршаулары бар итерация демонстрацияны сенімді жүйеге айналдырады. Бұл бүкіл тарих, бірінші көрінгеннен аз жұмбақ дірілмен. [1]–[4]

Қорытынды ескерту - тым ұзақ, оқымадым 🎁

AI қалай үйренеді? Көптеген мысалдар бойынша градиенттермен жоғалтуды азайту арқылы. [1], [2]
Жақсы деректер, нақты мақсаттар және тұрақты оңтайландыру оқуды тұрақты етеді. [1]–[3]
Жалпылау есте сақтауды жеңеді - әрқашан. [1]
Қауіпсіздік, бағалау және итерация ақылды идеяларды сенімді өнімге айналдырады. [3], [4]
Экзотикалық архитектураларды іздемес бұрын, қарапайым бастаңыз, жақсы өлшеңіз және деректерді түзету арқылы жақсартыңыз. [2], [3]

Сілтемелер

Goodfellow, Bengio, Courville - Deep Learning (тегін онлайн мәтін). Сілтеме
Stanford CS231n - Көрнекі тануға арналған конволюциялық нейрондық желілер (курс жазбалары мен тапсырмалары). Сілтеме
Google - Machine Learning Crash Course: жіктеу көрсеткіштері (дәлдік, дәлдік, еске түсіру, ROC/AUC). Сілтеме
NIST - AI тәуекелдерді басқару құрылымы (AI RMF 1.0). Сілтеме
OpenAI - Адамның қалауларынан үйрену (артықшылыққа негізделген оқытуға шолу). Сілтеме

Ресми AI көмекші дүкенінен ең соңғы AI-ді табыңыз

Біз туралы

Блогқа оралу