Жасанды интеллект модельдерін қалай тиімді оңтайландыруды бастауға болады?

Табыс критерийлерін анықтаудан және кідіріс немесе шығын сияқты 1-2 негізгі көрсеткішті таңдаудан бастаңыз. Өзгерістер енгізбес бұрын нақты жұмыс жүктемелерін профильдеу арқылы бастапқы өнімділігіңізді өлшеңіз.

Жасанды интеллект модельдерін оңтайландыру кезінде қандай жиі кездесетін қателіктерден аулақ болу керек?

Жиі кездесетін қателіктерге өлшеусіз оңтайландыру, бірыңғай эталонды қуып жету, жадты пайдалануды елемеу және тым ерте сандық бағалау жатады. Ықтимал мәселелерді басқару үшін кері қайтару жоспарын жасаңыз.

Неліктен кідіріс пен өткізу қабілетін өлшеу маңызды?

Кідіріс пен өткізу қабілетін өлшеу нақты жұмыс жүктемесі жағдайында модельдің жұмысын түсінуге көмектеседі, бұл сізге кедергілер мен жақсартуға болатын салаларды анықтауға мүмкіндік береді.

Модельді шығару жылдамдығын жақсарту үшін қандай әдістерді қолдануға болады?

Операциялық тиімділік үшін аралас дәлдікті оқыту, ядроны оңтайландыру, пакеттеу және PyTorch torch.compile, ONNX Runtime немесе TensorRT сияқты арнайы құралдарды пайдалану сияқты әдістерді қарастырыңыз.

Кванттау модельдің жұмысына қалай әсер етеді?

Кванттау әдетте жадты пайдалануды азайтады және қорытынды жасауды жылдамдатады. Дегенмен, бұл сапаның жоғалуына әкелуі мүмкін, әсіресе төмен биттік опциялармен. Кванттаудан кейін модельді нақты сынақ жиынында бағалау өте маңызды.

Оңтайландыру кезінде сапаны сақтау үшін қандай стратегияларды қолдана аламын?

Сынақ үшін алтын нұсқауларды пайдалану, қолайлы сапа ауытқуы үшін регрессия шегін орнату және модельдің мінез-құлқындағы өзгерістерді бақылау үшін адами тексерулер жүргізу сияқты сапалы қорғаныс қоршауларын енгізіңіз.

Қызмет көрсету және қорытынды жасауды оңтайландыру пайдаланушы тәжірибесіне қалай әсер етеді?

Тиімді пакеттеу және кэштеу сияқты қызмет көрсетуді оңтайландырулар өткізу қабілеттілігін айтарлықтай арттырып, кідірістің қабылдануын азайта отырып, жасанды интеллект моделімен пайдаланушы тәжірибесін тікелей жақсарта алады.

Модельді кесуді немесе дистилляцияны қашан қарастыруым керек?

Сапасын сақтау үшін қайта оқыту кезінде маңызды емес параметрлерді алып тастау үшін моделіңізді кесіңіз. Тұрақтылықты сақтай отырып, үлкенірек модельді имитациялайтын кішірек модель жасағыңыз келсе, айдау әдісін қолданған жөн.

Жасанды интеллект модельдерін қалай оңтайландыруға болады

Қысқа жауап: Жасанды интеллект модельдерін оңтайландыру үшін бір негізгі шектеуді (кідіріс, құны, жады, сапа, тұрақтылық немесе өткізу қабілеті) таңдаңыз, содан кейін ештеңені өзгертпес бұрын сенімді бастапқы сызықты алыңыз. Алдымен құбырдағы кедергілерді алып тастаңыз, содан кейін аралас дәлдік пен пакеттеу сияқты төмен тәуекелділіктерді қолданыңыз; егер сапа сақталса, компилятор/орындалу уақытындағы құралдарға өтіңіз және тек содан кейін қажет болған жағдайда кванттау немесе дистилляция арқылы модель өлшемін азайтыңыз.

Негізгі қорытындылар:

Шектеу: Бір немесе екі мақсатты көрсеткішті таңдаңыз; оңтайландыру - бұл тегін жеңістер емес, ымыраға келу ландшафты.

Өлшеу: p50/p95/p99, өткізу қабілеті, пайдалану және жад шыңдары бар нақты жұмыс жүктемелерінің профилін жасаңыз.

Құбыр желісі: Модельге тимес бұрын токенизацияны, деректерді жүктеушілерді, алдын ала өңдеуді және топтастыруды түзетіңіз.

Қызмет көрсету: Кэштеуді, әдейі топтастыруды, параллельді баптауды пайдаланыңыз және соңғы кідіріске мұқият назар аударыңыз.

Қорғаныс қоршаулары: Әрбір өнімділік өзгерісінен кейін алтын нұсқауларды, тапсырма көрсеткіштерін және аралық тексерулерді орындаңыз.

Инфографикадағы жасанды интеллект модельдерін қалай оңтайландыруға болады

🔗 Жасанды интеллект модельдерін қалай тиімді бағалауға болады
Модельдерді әділ және сенімді түрде бағалаудың негізгі критерийлері мен қадамдары.

🔗 Нақты көрсеткіштермен жасанды интеллект өнімділігін қалай өлшеуге болады
Салыстыру үшін эталондарды, кідірістерді, шығындарды және сапа сигналдарын пайдаланыңыз.

🔗 Өндіріске дейін жасанды интеллект модельдерін қалай тексеруге болады.
Практикалық тестілеу жұмыс процесі: деректерді бөлу, стресс жағдайлары және мониторинг.

🔗 Контент жасау үшін жасанды интеллектті қалай пайдалануға болады
Құрылымдалған тапсырмалар мен итерация арқылы идеяларды жобаға тезірек айналдырыңыз.

1) «Оңтайландыру» іс жүзінде нені білдіреді (өйткені оны әркім әртүрлі қолданады) 🧠

Адамдар «Жасанды интеллект моделін оңтайландыру» дегенде, олар мынаны білдіруі мүмкін:

Жылдамырақ етіңіз (кідіріс азырақ)
Оны арзандатыңыз (GPU сағаттарын азайтыңыз, бұлт шығындарын азайтыңыз)
Оны кішірейту (жад көлемін, жиекті орналастыру)
Дәлірек ету (сапаны жақсарту, галлюцинацияны азайту)
Оны тұрақтырақ етіңіз (аз дисперсия, өндірістегі ақаулар аз)
Қызмет көрсетуді жеңілдету (өткізу қабілеті, топтамалау, болжамды өнімділік)

Міне, аздап тітіркендіргіш шындық: мұның бәрін бірден барынша арттыру мүмкін емес. Оңтайландыру шарды қысумен бірдей - бір жағын ішке қарай итерсеңіз, екінші жағы шығып кетеді. Әрқашан емес, бірақ көбінесе ымыраға келуді жоспарлауыңыз керек.

Сондықтан, ештеңеге қол тигізбес бұрын, негізгі шектеуіңізді таңдаңыз :

Егер сіз пайдаланушыларға тікелей эфирде қызмет көрсетсеңіз, сіз p95 кідірісіне (AWS CloudWatch пайыздық көрсеткіштері) және құйрық өнімділігіне (“құйрық кідірісі” ең жақсы тәжірибесі) мән бересіз 📉
Егер сіз жаттығып жатсаңыз, уақыт пен сапаны пайдалану сізге маңызды 🔥
Егер сіз құрылғыларға орналастырып жатсаңыз, сіз жедел жад пен қуатқа 🔋

2) Жасанды интеллект моделін оңтайландырудың жақсы нұсқасы қандай көрінеді ✅

Оңтайландырудың жақсы нұсқасы тек «кванттауды қолданып, дұға ету» емес. Бұл жүйе. Ең жақсы орнатуларда әдетте мыналар болады:

Сенетін негізгі сызық
Егер сіз ағымдағы нәтижелеріңізді қайталай алмасаңыз, ештеңені жақсартқаныңызды білмейсіз. Қарапайым... бірақ адамдар оны өткізіп жібереді. Содан кейін олар спираль түрінде өзгереді.
деген анық мақсатты метрика
бұлыңғыр. «Бірдей сапа көрсеткішімен p95 кідірісін 900 мс-тан 300 мс-қа дейін азайту» - нақты мақсат.
Сапаға арналған қоршаулар
Әрбір өнімділіктегі жеңіс үнсіз сапаның кері кетуіне қауіп төндіреді. Сізге тесттер, бағалаулар немесе кем дегенде ақыл-ойды тексеру жиынтығы қажет.
Аппараттық құралды тану
Бір графикалық процессордағы «жылдам» модель екіншісінде жұмыс істей алады. Процессорлар өзіндік ерекше хаос түрі болып табылады.
Итерациялық өзгерістер, үлкен жарылыс қайта жазу емес.
Бір уақытта бес нәрсені өзгерткенде және өнімділік жақсарғанда, неге екенін білмейсіз. Бұл... мазасыздық тудырады.

Оңтайландыру гитараны баптау сияқты сезілуі керек - кішкене түзетулер енгізіңіз, мұқият тыңдаңыз, қайталаңыз 🎸. Егер пышақтарды жонглёрлықпен ойнағандай сезілсе, бірдеңе дұрыс емес.

3) Салыстыру кестесі: Жасанды интеллект модельдерін оңтайландырудың танымал нұсқалары 📊

Төменде кең таралған оңтайландыру құралдарының/тәсілдерінің қысқаша және аздап ретсіз салыстырмалы кестесі берілген. Жоқ, бұл мүлдем «әділ» емес - нақты өмір де ондай емес.

Құрал / Опция	Аудитория	Бағасы	Неліктен жұмыс істейді
PyTorch `torch.compile` (PyTorch құжаттары)	PyTorch адамдары	Тегін	Графикті түсіру + компиляторлық әдістер шығындарды азайта алады... кейде бұл сиқырлы ✨
ONNX орындау уақыты (ONNX орындау уақыты құжаттары)	Орналастыру топтары	Еркін	Күшті қорытынды оңтайландырулары, кең қолдау, стандартталған қызмет көрсету үшін жақсы
TensorRT (NVIDIA TensorRT құжаттары)	NVIDIA орналастыруы	Ақылы көңіл-күйлер (көбінесе жиынтықта)	Агрессивті ядро біріктіруі + дәл өңдеу, шертілгенде өте жылдам
DeepSpeed (Zero құжаттары)	Жаттығу топтары	Тегін	Жад + өнімділікті оңтайландыру (ZeRO және т.б.). Реактивті қозғалтқыш сияқты сезілуі мүмкін
FSDP (PyTorch) (PyTorch FSDP құжаттары)	Жаттығу топтары	Тегін	Параметрлерді/градиенттерді бөлшектеу үлкен модельдерді онша қорқынышты етпейді
бит-байттарды кванттау (бит-байттар)	LLM шеберлері	Тегін	Төмен биттік салмақтар, жадты үнемдеу - сапа байланысты, бірақ пх 😬
Дистилляция (Хинтон және т.б., 2015)	Өнім топтары	«Уақыт құны»	Кішігірім студенттік модель мінез-құлықты мұра етеді, әдетте ұзақ мерзімді перспективада ең жақсы инвестициялық кірістілік
Кесу (PyTorch кесу бойынша нұсқаулық)	Зерттеу + өнім	Тегін	Өлі салмақты кетіреді. Қайта даярлаумен бірге қолданғанда жақсырақ әсер етеді
Flash Attention / балқытылған ядролар (FlashAttention қағазы)	Өнімділік саласындағы нердтер	Тегін	Зейін қою жылдам, есте сақтау қабілеті жақсарады. Трансформерлер үшін нағыз жеңіс
Triton Inference Server (динамикалық пакеттеу)	Операциялар/инфрақұрылым	Тегін	Өндіріс қызметі, партиямен жеткізу, көп модельді құбырлар - кәсіпорынға тән сезім тудырады

Пішімдеудегі ерекшеліктерді мойындау: «Бағасы» ретсіз, себебі ашық бастапқы код сізге апта соңындағы қателерді түзетуге кететін шығын әкелуі мүмкін, бұл... баға. 😵💫

4) Өлшеуден бастаңыз: Өзіңіздің шынайы бейнеңізді көрсетіңіз 🔍

Егер сіз осы нұсқаулықтан тек бір ғана нәрсені жасасаңыз, мынаны орындаңыз: дұрыс өлшеңіз.

Менің жеке сынақтарымда ең үлкен «оңтайландыру жетістіктері» ұятқа қалдыратын қарапайым нәрсені ашудан туындады, мысалы:

GPU-ны аш ететін деректер жүктеушісі
CPU алдын ала өңдеудегі кедергі
ядроның іске қосылуына әкелетін шағын партия өлшемдері
баяу токенизация (токенизаторлар тыныш зұлым кейіпкерлер бола алады)
жад фрагментациясы (PyTorch CUDA жад бөлгішінің жазбалары)
бір қабатты басым есептеу

Нені өлшеу керек (ең аз жиынтық)

Кідіріс (p50, p95, p99) (кідіріс пайыздарындағы SRE)
Өткізу қабілеті (токендер/сек, сұраныстар/сек)
GPU пайдалану (есептеу + жад)
VRAM/RAM шыңдары
1 мың токеннің құны (немесе болжам бойынша)

Практикалық профильдеу ойлау тәсілі

Сізді қызықтыратын бір сценарийді сипаттаңыз (ойыншық туралы ұсыныс емес).
Барлығын кішкентай «мінсіз күнделікке» жазып алыңыз.
Иә, бұл жалықтырады... бірақ кейінірек газлайтингпен айналысудан сақтайды.

(Егер сізге нақты құрал қажет болса: PyTorch Profiler (torch.profiler docs) және Nsight Systems (NVIDIA Nsight Systems) әдеттегідей күдіктілер болып табылады.)

5) Деректер + Оқытуды оңтайландыру: Тыныш супердержава 📦🚀

Адамдар модель архитектурасына мән беріп, құбыр желісін ұмытып кетеді. Сонымен қатар, құбыр желісі графикалық процессордың жартысын тыныш күйдіреді.

Тез көрінетін оңай жеңістер

Аралас дәлдікті пайдаланыңыз (тұрақты жерде FP16/BF16) (PyTorch AMP / torch.amp)
Әдетте жылдамырақ, көбінесе жақсы - бірақ сандық ерекшеліктерге назар аударыңыз.
Топтама мөлшері шектеулі болған кезде градиенттік жинақтау ( 🤗 Жеделдету нұсқаулығы ) Жадты бұзбай оңтайландыруды тұрақты ұстайды.
Градиенттік бақылау нүктесі (torch.utils.checkpoint)
Сауда-саттық жад үшін есептеледі - үлкенірек контексттерді мүмкін етеді.
Тиімді токенизация (🤗 Токенизаторлар)
Токенизация ауқымды мәселеге айналуы мүмкін. Бұл сәнді емес; маңызды.
Деректерді жүктеушіні баптау.
Қосымша жұмысшылар, бекітілген жад, алдын ала жүктеу - көрінбейтін, бірақ тиімді 😴➡️💪 (PyTorch өнімділігін баптау нұсқаулығы)

Параметрлерді тиімді дәл баптау

Егер сіз үлкен модельдерді жетілдіріп жатсаңыз, PEFT әдістері (мысалы, LoRA стиліндегі адаптерлер) таңқаларлықтай күшті болып қала отырып, оқыту құнын айтарлықтай төмендете алады (🤗 Трансформерлерге арналған PEFT нұсқаулығы, LoRA мақаласы). Бұл «неге біз мұны ертерек жасамадық?» деген сәттердің бірі.

6) Сәулет деңгейіндегі оңтайландыру: Модельдің дұрыс өлшемі 🧩

Кейде оңтайландырудың ең жақсы жолы - жұмыс үшін тым үлкен модельді пайдалануды тоқтату. Білемін, бұл қорлау 😄.

Бірнеше негізгі ақпаратқа қоңырау шалыңыз:

Сізге толыққанды жалпы барлау вибрациясы немесе маман қажет пе, соны шешіңіз.
Контекстік терезені үлкенірек емес, қажетінше үлкен етіп сақтаңыз.
Қолдағы жұмысқа дайындалған модельді пайдаланыңыз (жіктеу жұмыстарына арналған жіктеу модельдері және т.б.).

Дұрыс өлшемді таңдаудың практикалық стратегиялары

Көптеген сұраныстар үшін кішірек негізгі базаға ауысыңыз. Содан кейін «қиын сұраныстарды» үлкенірек модельге бағыттаңыз.
Екі сатылы орнатуды пайдаланыңыз.
Модель жобаларын жылдам жасайды, модельді күштірек тексереді немесе өңдейді.
Бұл талғампаз, бірақ тітіркендіргіш, бірақ тиімді досыңызбен жазумен бірдей.
Шығыс ұзақтығын қысқарту
Шығыс токендері ақша мен уақытты қажет етеді. Егер сіздің моделіңіз ретсіз жұмыс істесе, сіз ретсіз жұмыс үшін төлейсіз.

Мен командалардың қысқа нәтижелерді мәжбүрлеу арқылы шығындарды айтарлықтай қысқартқанын көрдім. Бұл ұсақ-түйек болып көрінеді. Бұл жұмыс істейді.

7) Компилятор + Графикті оңтайландыру: жылдамдық қайдан келеді 🏎️

Бұл «компьютерді ақылды компьютерлік жұмыстармен айналысуға мәжбүрлеу» қабаты.

Жалпы әдістер:

Операторды біріктіру (ядроларды біріктіру) (NVIDIA TensorRT “қабат біріктіруі”)
Тұрақты бүктеу (алдын ала есептеудің бекітілген мәндері) (ONNX Runtime графигін оңтайландыру)
Ядро таңдауы аппараттық құралдарға бапталған
Python шығындарын азайту үшін графикті түсіру ( torch.compile шолуы )

Қарапайым тілмен айтқанда: сіздің моделіңіз математикалық тұрғыдан жылдам, бірақ операциялық тұрғыдан баяу болуы мүмкін. Компиляторлар оның кейбірін түзетеді.

Практикалық ескертпелер (яғни тыртықтар)

Бұл оңтайландырулар модель пішінінің өзгерістеріне сезімтал болуы мүмкін.
Кейбір модельдер жылдамдықты айтарлықтай арттырады, ал кейбіреулері әрең қозғалады.
Кейде жылдамдықты арттыратын және жұмбақ жәндікке кезігесің - гремлин көшіп келгендей 🧌

Дегенмен, ол жұмыс істеген кезде, бұл ең таза жеңістердің бірі.

8) Сандау, кесу, айдау: жыламай кішірейту (тым көп) 🪓📉

Бұл адамдар қалайтын бөлім... себебі бұл еркін өнер көрсету сияқты естіледі. Мүмкін, бірақ сіз оны хирургиялық операция сияқты қабылдауыңыз керек.

Кванттау (төменгі дәлдіктегі салмақтар/белсендірулер)

Есеп шығару жылдамдығы мен есте сақтау қабілеті үшін өте қолайлы
Тәуекел: сапасы төмендейді, әсіресе шеткі корпустарда
Ең жақсы тәжірибе: вибрацияда емес, нақты тест жинағында бағалау

Сіз еститін жиі кездесетін дәмдер:

INT8 (көбінесе қатты) (TensorRT квантталған түрлері)
INT4 / төмен битті (үлкен үнемдеу, сапа қаупі артады) (биттер мен байттар k-бит кванттауы)
Аралас сан (бәрі бірдей дәлдікті қажет етпейді)

Кесу (параметрлерді жою)

«Маңызды емес» салмақтарды немесе құрылымдарды жояды (PyTorch кесу бойынша нұсқаулық)
Әдетте сапаны қалпына келтіру үшін қайта даярлау қажет
Мұқият жасалған кезде адамдар ойлағаннан да жақсы жұмыс істейді..

Дистилляция (студент мұғалімнен үйренеді)

Бұл менің жеке сүйікті ұзақ мерзімді рычагым. Дистилляция ұқсас әрекет ететін кішірек модельді жасай алады және ол көбінесе экстремалды кванттаудан гөрі тұрақтырақ болады (Нейрондық желідегі білімді дистилляциялау).

Жетілмеген метафора: айдау күрделі сорпаны сүзгіден өткізіп, одан кішірек сорпа алумен бірдей. Сорпа осылай жұмыс істемейді, бірақ сіз түсінесіз 🍲.

9) Қызмет көрсету және қорытынды жасау: Нағыз шайқас аймағы 🧯

Сіз модельді «оңтайландыра» аласыз, бірақ оған әлі де нашар қызмет көрсете аласыз. Қызмет көрсету - кідіріс пен шығындардың нақты болатын жері.

Қызмет көрсету маңызды жеңістер

Топтамалау
Өткізу қабілетін жақсартады. Бірақ егер сіз оны шамадан тыс жасасаңыз, кідірісті арттырады. Теңгеріңіз. (Triton динамикалық топтамалауы)
Кэштеу
Қайталанатын контексттер үшін шақыру кэшін және KV-кэшті қайта пайдалану өте үлкен болуы мүмкін. (KV кэшінің түсіндірмесі)
Ағынды шығыс
Пайдаланушылар жалпы уақыт ұқсас болса да, оның жылдамырақ екенін сезеді. Қабылдау маңызды 🙂.
Токен бойынша үстеме шығындарды азайту
Кейбір стектерде әр токен үшін қосымша жұмыс жасалады. Үстеме шығындарды азайтыңыз, сонда сіз үлкен ұтыс аласыз.

Артқы жағының кідірісіне назар аударыңыз

Орташа мәніңіз керемет көрінуі мүмкін, ал p99 көрсеткішіңіз апатқа ұшырайды. Өкінішке орай, пайдаланушылар соңғы нүктеде тұрады. («Кейінгі кідіріс» және орташа мәндер неге өтірік айтады)

10) Аппараттық құралдарды ескере отырып оңтайландыру: Модельді машинамен сәйкестендіріңіз 🧰🖥️

Аппараттық құралдарды білмей оңтайландыру шиналарды тексермей жарыс көлігін баптаумен бірдей. Әрине, сіз мұны істей аласыз, бірақ бұл аздап ақымақтық.

GPU ескеретін жайттар

Жад өткізу қабілеті көбінесе шикі есептеу емес, шектеуші фактор болып табылады
Үлкен партия өлшемдері көмектеспейінше көмектесе алады
Ядроның бірігуі және зейінді оңтайландыру трансформаторлар үшін өте маңызды (FlashAttention: IO-хабардар дәл зейін)

CPU ескеретін жайттар

Жіптерді бөлу, векторлау және жадтың орналасуы өте маңызды
Токенизацияның үстеме шығындары басым болуы мүмкін (🤗 «Жылдам» токенизаторлар)
Сізге GPU-ға қарағанда басқа кванттау стратегиялары қажет болуы мүмкін

Шеткі/мобильді мәселелер

Жадтың ізі бірінші кезектегі басымдыққа айналады
Кідірістің өзгеруі маңызды, себебі құрылғылар... көңіл-күйді өзгертеді
Кішігірім, мамандандырылған модельдер көбінесе үлкен жалпы модельдерден асып түседі

11) Сапалы қоршаулар: Өзіңізді жәндікке «оңтайландырмаңыз» 🧪

Әрбір жылдамдықтағы жеңіс сапаны тексерумен бірге жүруі керек. Әйтпесе, сіз тойлайсыз, жібересіз, содан кейін «неге көмекші кенеттен қарақшы сияқты сөйлейді?» деген сияқты хабарлама аласыз 🏴☠️

Прагматикалық қоршаулар:

Алтын шақырулар (әрқашан тексеретін шақырулардың бекітілген жиынтығы)
Тапсырма көрсеткіштері (дәлдік, F1, BLEU, сәйкес келетін кез келген нәрсе)
Адамдардың нүктелік тексерулері (иә, шынымен де)
Регрессия шектері («X%-дан артық төмендеуге рұқсат етілмейді»)

Сондай-ақ, ақаулық режимдерін бақылаңыз:

пішімдеу дрейфі
бас тарту мінез-құлқының өзгеруі
галлюцинация жиілігі
жауап ұзақтығының инфляциясы

Оңтайландыру мінез-құлықты таңқаларлықтай өзгерте алады. Ерекше. Тітіркендіргіш. Болжамды түрде, кейін ойлағанда.

12) Тексеру тізімі: Жасанды интеллект модельдерін қадам бойынша қалай оңтайландыруға болады ✅🤖

Егер сіз жасанды интеллект модельдерін қалай оңтайландыруға болатыны туралы нақты әрекеттер тәртібін алғыңыз келсе , міне, адамдардың ақыл-ойын сақтауға көмектесетін жұмыс процесі:

Табысты анықтаңыз
1-2 негізгі көрсеткішті таңдаңыз (кідіріс, құны, өткізу қабілеті, сапа).
бастапқы профилін өлшеңіз
, p50/p95 жазбасын, жадты, шығынды өлшеңіз. (PyTorch Profiler)
Құбыр желісіндегі кедергілерді түзету.
Деректерді жүктеу, токендеу, алдын ала өңдеу, топтастыру.
Төмен тәуекелді есептеу жеңістерін қолданыңыз
Аралас дәлдік, ядроны оңтайландыру, жақсырақ пакеттеу.
Компиляторды/орындау уақытын оңтайландыруды қолданып көріңіз:
Графикті түсіру, орындау уақытын анықтау, операторларды біріктіру. (torch.compile оқулығы, ONNX орындау уақыты құжаттары)
Модель құнын азайтыңыз.
Мұқият сандық бағалау жүргізіңіз, мүмкін болса айдаңыз, қажет болса кесіңіз.
Баптау қызметі
Кэштеу, параллельдік, жүктемені тексеру, артқы кідіріс түзетулері.
Сапаны тексеру
Регрессиялық сынақтарды орындап, нәтижелерді қатар салыстырыңыз.
Қайталау
Шағын өзгерістер, анық жазбалар, қайталау. Көрінбейтін - тиімді.

Иә, бұл әлі де «Тырналарды қалай басуды тоқтатуға болады» сияқты сезілсе де, «Жасанды интеллект модельдерін қалай оңтайландыруға болады » тақырыбы. Сол сияқты

13) Жиі кездесетін қателіктер (біз сияқты қайталамау үшін) 🙃

Өлшеуден бұрын оңтайландыру
Уақытыңызды босқа өткізесіз. Сосын дұрыс емес нәрсені сенімді түрде оңтайландырасыз...
Бірыңғай эталонды қудалау.
Эталондар жіберіп алу арқылы жалған болып шығады. Сіздің жұмыс жүктемеңіз - шындық.
Жадты елемеу
Жад мәселелері баяулауға, істен шығуға және дірілдеуге әкеледі. (PyTorch бағдарламасында CUDA жадын пайдалануды түсіну)
Тым ерте шамадан тыс кванттау
Төмен биттік кванттар таңғажайып болуы мүмкін, бірақ алдымен қауіпсіз қадамдардан бастаңыз.
Қайтару жоспары жоқ
Егер сіз тез қайтара алмасаңыз, әрбір орналастыру стресс тудырады. Стресс қателерді тудырады.

Қорытынды жазбалар: Оңтайландырудың адами тәсілі 😌⚡

Жасанды интеллект модельдерін қалай оңтайландыруға болады - бұл бір ғана хак емес. Бұл көп деңгейлі процесс: өлшеу, құбырды жөндеу, компиляторлар мен жұмыс уақытын пайдалану, қызмет көрсетуді реттеу, содан кейін қажет болса, кванттау немесе дистилляция арқылы модельді кішірейту. Мұны біртіндеп жасаңыз, сапалы қорғаныс қоршауларын сақтаңыз және «жылдамырақ сезіледі» дегенге метрика ретінде сенбеңіз (сезімдеріңіз керемет, сезімдеріңіз профиль жасаушы емес).

Егер сіз ең қысқа нәтиже алғыңыз келсе:

Алдымен өлшеңіз 🔍
Келесіде құбырды оңтайландырыңыз 🧵
Содан кейін модельді оңтайландырыңыз 🧠
Содан кейін қызмет көрсетуді оңтайландырыңыз 🏗️
Сапасын үнемі тексеріп отырыңыз✅

Егер бұл көмектессе, өзіңізге еске салыңыз: мақсат «мінсіз модель» емес. Мақсат - түнде ұйықтай алатындай жылдам, қолжетімді және сенімді модель... көп түнде 😴.

Нақты мысал: қолдау билетінің қорытындысын оңтайландыру 🎟️⚡

Сценарий

Адам агенті жауап бермес бұрын келіп түскен қолдау билеттерін қорытындылау үшін жасанды интеллект моделін пайдаланатын шағын SaaS командасын елестетіп көріңіз. Модель жұмыс істейді, бірақ ол баяу: агенттер қорытындыларды тым ұзақ күтеді, ал компания қорытынды үшін күткеннен көп төлейді.

Мақсат - модельді барлық мүмкін жолмен «жақсарту» емес. Команда бір негізгі шектеуді таңдайды: қорытынды сапасын қолайлы күйде сақтай отырып, p95 кідірісін азайту.

Олардың мақсаты айқын:

p95 кідірісін шамамен 2,4 секундтан 1,2 секундқа дейін азайтыңыз, 50 билеттік сынақ жинағында бір ғана күрделі қорытынды қатесінен артық болмаңыз.

Жұмыс процесі не үшін қажет

Мұны практикалық тұрғыдан жүзеге асыру үшін команда мыналарды жинайды:

Қысқа, орташа және ретсіз билеттерден тұратын 50 билеттен тұратын алтын сынақ жиынтығы

Күтілетін қысқаша мазмұндау стилі: 3 тармақ, ойдан шығарылған фактілер жоқ, айқын болса, шұғылдықты қосыңыз

Негізгі көрсеткіштер: p50, p95, p99 кідірісі, жасалған токендер, бір билет құны және қателер саны

Қарапайым адами шолу тізімі

Модель журналдарына, токен сандарына және топтама/параллельдік параметрлеріне қол жеткізу

Сапасы төмендеген жағдайда кері қайтару мүмкіндігі

Маңыздысы: олар кванттаудан бастамайды. Біріншіден, олар құбырдың уақытты босқа өткізіп жатқанын тексереді.

Мысал нұсқаулығы

Әрбір қолдау билеті үшін тұтынушының мәселесін дәл үш тармақпен қорытындылаңыз.

Қосу:

негізгі мәселе
аталған кез келген өнім аймағы
егер көрсетілген болса, шұғылдық немесе бизнеске әсер ету

Жетіспейтін мәліметтерді ойлап таппаңыз. Егер тұтынушы жеткілікті ақпарат бермесе, «көрсетілмеген» деп айтыңыз.

Қысқаша мазмұнын 80 сөзден аспайтындай етіп жазыңыз.

Оны қалай тексеруге болады

Ескі және жаңа орнату арқылы бірдей 50 билетті іске қосыңыз.

Әрбір іске қосу үшін мынаны жазыңыз:

p50, p95 және p99 кідірісі

Орташа шығыс токендері

1000 билеттің құны

Ойдан шығарылған мәліметтері бар қысқаша мазмұндамалар саны

Адам қайта жазуды қажет ететін қысқаша мазмұндар саны

Содан кейін бірнеше ыңғайсыз жағдайларды тексеріңіз:

Үш бөлек саны бар билет

Өте ашулы тұтынушы хабарламасы

Ешқандай егжей-тегжейі жоқ түсініксіз билет

Жапсырылған журналдардан тұратын билет

Тұтынушы өз шотын жою туралы айтқан талон

Бұл оңтайландыру модельді жылдамдатады, бірақ онша мұқият емес ететін жиі кездесетін қатені анықтайды.

Нәтиже

Үш оңтайландырудан бұрын және кейін 50 үлгі билеттің уақытын есептеуге негізделген көрнекі нәтиже:

Бастапқы деңгей:

p95 кідірісі: 2,4 секунд

p99 кідірісі: 3,1 секунд

Орташа шығыс ұзындығы: 142 сөз

Адам қайта жазады: 50-ден 11 балл

Ойдан шығарылған бөлшектердегі елеулі қателіктер: 50-ден 3-і

Оңтайландырудан кейін:

p95 кідірісі: 1,1 секунд

p99 кідірісі: 1,6 секунд

Орташа шығыс ұзындығы: 61 сөз

Адам қайта жазады: 50-ден 5 балл

Ойлап табылған бөлшектердегі елеулі қателіктер: 50-ден 1-і

Не өзгерді:

Команда мәтін ұзындығын 80 сөзбен шектеді

Олар басымдығы төмен билеттерді 8 адамнан тұратын топтарға бөлді

Олар қайталанатын өнім саясаты контекстін кэштеді

Олар сапаны растағаннан кейін аралас дәлдікті қосты

Олар кванттауды кейінге қалдырды, себебі кідіріс мақсатына қазірдің өзінде қол жеткізілді

Бұл мысалда да шығындар төмендеді, себебі модель аз токендерді жасады. Егер ескі жүйе әр билетке шамамен 142 сөз, ал жаңа жүйе шамамен 61 сөз шығарса, шығыс ұзындығы шамамен 57%-ға қысқарды. Бұл команда журналдардан тікелей тексере алатын көрсеткіш.

Не дұрыс болмауы мүмкін

Ең азғыратын қателік - жылдамдықты оңтайландыру. Ақшаны қайтару уәдесін ойлап табатын жылдам қорытынды жақсарту емес.

Басқа оңай қателіктер:

Тек таза билеттерді тексеру

p99 кідірісін елемеу

Шығыс ұзындығын салыстыруды ұмытып кету

Топтама және модель параметрлерін бір уақытта өзгерту

Құйрық кідірісінің орнына орташа кідіріс қолданылуда

Тексеру тізімінсіз «сапа өзгеріссіз қалды» деп мәлімдеу

Қауіпсіз шолу ережесі қарапайым: егер 50 қорытындының 2-ден көбі маңызды мәліметтерді ойлап тапса, кері қайтарып, зерттеңіз.

Практикалық қорытынды

Тәжірибеде сенімді жасанды интеллект моделін оңтайландыру осылай көрінеді: бір шектеуді таңдаңыз, ағымдағы жүйені өлшеңіз, алдымен қалдықтарды алып тастаңыз, тәуекелі төмен өзгерістерді қолданыңыз, содан кейін сапаны қарапайым, бірақ құнды сынақтармен тексеріңіз. Жеңіс тек жылдамырақ модельде ғана емес. Бұл сіз әлі де сене алатын жылдамырақ модель.

Жиі қойылатын сұрақтар

Жасанды интеллект моделін оңтайландыру іс жүзінде нені білдіреді

«Оңтайландыру» әдетте бір негізгі шектеуді жақсартуды білдіреді: кідіріс, құны, жад ізі, дәлдігі, тұрақтылығы немесе қызмет көрсету өнімділігі. Қиын бөлігі - ымыраға келу - бір саланы итермелеу екіншісіне зиян келтіруі мүмкін. Практикалық тәсіл - айқын мақсатты таңдау (мысалы, p95 кідірісі немесе уақыттың сапаға дейін) және оған қарай оңтайландыру. Мақсатсыз «жақсарту» оңай, бірақ бәрібір жоғалту мүмкін.

Сапасына зиян келтірмей, жасанды интеллект модельдерін қалай оңтайландыруға болады

Әрбір жылдамдықтың немесе құнның өзгеруін ықтимал үнсіз регрессия ретінде қарастырыңыз. Алтын нұсқаулар, тапсырма көрсеткіштері және жылдам адами тексерулер сияқты қорғаныс қоршауларын пайдаланыңыз. Сапаның қолайлы ауытқуы үшін нақты шекті белгілеп, нәтижелерді қатар салыстырыңыз. Бұл жеткізілімнен кейін «жылдамырақ» деген пікірдің «неге өндірісте кенеттен таңқаларлық болып кетті?» дегенге айналуына жол бермейді.

Оңтайландыруды бастамас бұрын нені өлшеу керек

Кідіріс пайыздарынан (p50, p95, p99), өткізу қабілетінен (токендер/сек немесе сұраныстар/сек), графикалық процессорды пайдаланудан және ең жоғары VRAM/RAM мәндерінен бастаңыз. Егер шығын шектеу болса, әрбір болжамға немесе 1 мың токенге шаққандағы шығынды бақылаңыз. Ойыншық нұсқау емес, сіз ұсынатын нақты сценарийді көрсетіңіз. Кішкентай «мінсіз күнделік» жүргізу қателіктерді болжаудан және қайталаудан аулақ болуға көмектеседі.

Жаттығу өнімділігі үшін жылдам, аз тәуекелді жеңістер

Аралас дәлдік (FP16/BF16) көбінесе ең жылдам бірінші рычаг болып табылады, бірақ сандық ерекшеліктерге назар аударыңыз. Егер партия мөлшері шектеулі болса, градиент жинақталуы жадты бұзбай оңтайландыруды тұрақтандыра алады. Градиенттік бақылау пункті жадтың азаюына қосымша есептеулерді алмастырады, бұл үлкен контексттерді іске қосады. Токенизация мен деректерді жүктеушіні баптауды елемеңіз - олар GPU-ны тыныш аш қалдыра алады.

torch.compile, ONNX Runtime немесе TensorRT қашан пайдаланылады

Бұл құралдар операциялық шығындарды қамтиды: графиктерді түсіру, ядроларды біріктіру және жұмыс уақытындағы графиктерді оңтайландыру. Олар таза қорытынды жылдамдығын қамтамасыз ете алады, бірақ нәтижелер модельдің пішіні мен аппараттық құралына байланысты өзгереді. Кейбір орнатулар сиқыр сияқты сезіледі; басқалары әрең қозғалады. Пішін өзгерістеріне және кейде «гремин» қателеріне сезімталдықты күтіңіз - нақты жұмыс жүктемеңізде бұрын және кейін өлшеңіз.

Кванттаудың пайдасы бар ма және тым алысқа барудан қалай аулақ болуға болады

Кванттау жадты қысқартып, қорытынды жасауды жеделдетуі мүмкін, әсіресе INT8 кезінде, бірақ сапа шеткі жағдайларда төмендеуі мүмкін. Төмен биттік опциялар (INT4/k-bit сияқты) жоғары тәуекелмен үлкен үнемдеуге әкеледі. Ең қауіпсіз әдет - нақты сынақ жиынтығында бағалау және нәтижелерді салыстыру, ішкі сезімді емес. Алдымен қауіпсіз қадамдардан бастаңыз, содан кейін қажет болған жағдайда ғана төмен дәлдікке өтіңіз.

Модель өлшемін кішірейту үшін кесу мен айдау арасындағы айырмашылық

Кесу «өлі салмақ» параметрлерін жояды және көбінесе сапаны қалпына келтіру үшін қайта оқытуды қажет етеді, әсіресе агрессивті түрде жасалған кезде. Дистилляция кішігірім оқушы моделін үлкен мұғалімнің мінез-құлқын еліктеуге үйретеді және бұл экстремалды кванттаудан гөрі ұзақ мерзімді ROI-дің күштірек болуы мүмкін. Егер сіз ұқсас әрекет ететін және тұрақты болып қалатын кішігірім модельді қаласаңыз, дистилляция көбінесе таза жол болып табылады.

Қызмет көрсетуді жақсарту арқылы болжам құны мен кідірісті қалай азайтуға болады

Оңтайландыру нақты болатын жерде қызмет көрсету байқалады: топтастыру өткізу қабілеттілігін арттырады, бірақ шамадан тыс орындалса, кідіріске әсер етуі мүмкін, сондықтан оны мұқият реттеңіз. Кэштеу (жедел кэштеу және KV-кэшті қайта пайдалану) контексттер қайталанған кезде үлкен болуы мүмкін. Ағынды шығыс жалпы уақыт ұқсас болса да, қабылданған жылдамдықты жақсартады. Сондай-ақ, стекте токен бойынша үстеме шығындарды іздеңіз - токенге шамалы жұмыс тез жиналады.

Неліктен AI модельдерін оңтайландыру кезінде құйрықтың кідірісі соншалықты маңызды

Орташа мәндер керемет көрінуі мүмкін, ал p99 апатқа ұшырайды, ал пайдаланушылар көбінесе артқы жағында өмір сүреді. Артқы жағындағы кідіріс көбінесе дірілден туындайды: жадтың фрагментациясы, процессорды алдын ала өңдеудің күрт артуы, токенизацияның баяулауы немесе нашар пакеттеу әрекеті. Сондықтан нұсқаулықта пайыздар мен нақты жұмыс жүктемелеріне баса назар аударылады. Егер сіз тек p50-ді оңтайландырсаңыз, сіз әлі де «кездейсоқ баяу сезілетін» тәжірибені жібере аласыз

Сілтемелер

Amazon Web Services (AWS) - AWS CloudWatch пайыздық көрсеткіштері (статистикалық анықтамалар) - docs.aws.amazon.com
Google - The Tail at Scale (құйрық кідірісінің ең жақсы тәжірибесі) - sre.google
Google - Қызмет көрсету деңгейінің мақсаттары (SRE кітабы) - кідіріс пайыздары - sre.google
PyTorch - torch.compile - docs.pytorch.org
PyTorch - FullyShardedDataParallel (FSDP) - docs.pytorch.org
PyTorch - PyTorch Profiler - docs.pytorch.org
PyTorch - CUDA семантикасы: жадты басқару (CUDA жад бөлгішінің жазбалары) - docs.pytorch.org
PyTorch - Автоматты аралас дәлдік (torch.amp / AMP) - docs.pytorch.org
PyTorch - torch.utils.checkpoint - docs.pytorch.org
PyTorch - Өнімділікті баптау бойынша нұсқаулық - docs.pytorch.org
PyTorch - Ағаш кесу бойынша нұсқаулық - docs.pytorch.org
PyTorch - PyTorch бағдарламасында CUDA жадын пайдалануды түсіну - docs.pytorch.org
PyTorch - torch.compile оқулығы / шолу - docs.pytorch.org
ONNX орындау уақыты - ONNX орындау уақыты құжаттамасы - onnxruntime.ai
NVIDIA - TensorRT құжаттамасы - docs.nvidia.com
NVIDIA - TensorRT квантталған түрлері - docs.nvidia.com
NVIDIA - Nsight жүйелері - developer.nvidia.com
NVIDIA - Triton Inference Server - динамикалық пакеттеу - docs.nvidia.com
DeepSpeed - ZeRO 3-кезең құжаттамасы - deepspeed.readthedocs.io
bitsandbytes (bitsandbytes-foundation) - bitsandbytes - github.com
Құшақтасу беті - Жылдамдату: Градиенттік жинақтау бойынша нұсқаулық - huggingface.co
Құшақтасқан бет - Токенизаторлар құжаттамасы - huggingface.co
Құшақтасқан бет - Трансформерлер: PEFT нұсқаулығы - huggingface.co
Құшақтасқан бет - Трансформерс: KV кэшінің түсіндірмесі - huggingface.co
Құшақтасатын бет - Трансформерлер: «Жылдам» токенайзерлер (токенайзер кластары) - huggingface.co
arXiv - Нейрондық желідегі білімді іріктеу (Хинтон және т.б., 2015) - arxiv.org
arXiv - LoRA: Үлкен тілдік модельдердің төмен рангілі бейімделуі - arxiv.org
arXiv - FlashAttention: IO-Awareness көмегімен жылдам және есте сақтауды тиімді дәл назар аудару - arxiv.org

Ресми AI көмекші дүкенінен ең соңғы AI-ді табыңыз

Біз туралы

Блогқа оралу