Көптеген адамдар «жасанды интеллект» дегенді естігенде, олар нейрондық желілерді, сәнді алгоритмдерді немесе мүмкін, сәл ерекше гуманоидты роботтарды елестетеді. Сирек кездесетін нәрсе мынау: жасанды интеллект сақтау орнын есептеу сияқты ашкөздікпен жейді . Және кез келген сақтау нысанын сақтау орны фонда тыныш отырмайды, оларға қажетті деректерді модельдеу сияқты көрінбейтін, бірақ өте маңызды жұмысты атқарады.
Нысандарды сақтаудың жасанды интеллект үшін неліктен маңызды екенін, оның сақтау жүйелерінің «ескі күзетінен» қалай ерекшеленетінін және оның масштабталу мен өнімділіктің негізгі тетіктерінің біріне айналуының себебін қарастырайық.
Осыдан кейін оқуға болатын мақалалар:
🔗 Бизнес үшін ауқымды генеративті жасанды интеллектті пайдалану үшін қандай технологиялар болуы керек
Генеративтік жасанды интеллектті тиімді масштабтау үшін бизнеске қажетті негізгі технологиялар.
🔗 Қарастыру керек жасанды интеллект құралдарына арналған деректерді басқару
Жасанды интеллект өнімділігін оңтайландыру үшін деректерді өңдеудің ең жақсы тәжірибелері.
🔗 Жасанды интеллекттің бизнес стратегиясына әсері
Жасанды интеллект бизнес стратегиялары мен ұзақ мерзімді шешім қабылдауға қалай әсер етеді.
Жасанды интеллект үшін нысандарды сақтаудың маңыздылығын не анықтайды? 🌟
Негізгі идея: нысанды сақтау қалталармен немесе қатаң блок орналасуларымен байланысты емес. Ол деректерді әрқайсысы метадеректермен белгіленген «нысандарға» бөледі. Бұл метадеректер жүйелік деңгейдегі заттар (өлшем, уақыт белгілері, сақтау класы) және пайдаланушы анықтаған key:value тегтері [1] болуы мүмкін. Оны сізге оның не екенін, қалай жасалғанын және сіздің құбырыңызда қай жерде орналасқанын көрсететін жабысқақ жазбалар жиынтығы бар әрбір файл сияқты елестетіңіз.
Жасанды интеллект командалары үшін бұл икемділік ойын ережесін өзгертеді:
-
Мигреньсіз масштабтау - Деректер көлдері петабайттарға дейін созылады, ал нысандарды сақтау орны оны оңай өңдейді. Олар шексіз өсу және көп AZ беріктігі үшін жасалған (Amazon S3 әдепкі бойынша «11 тоғыздық» және аймақаралық репликация туралы мақтанады) [2].
-
Метадеректерге байлық - Жылдам іздеулер, таза сүзгілер және ақылды құбырлар, себебі әрбір нысанмен бірге контекст жүреді [1].
-
Бұлтқа негізделген - Деректер HTTP(S) арқылы келеді, бұл дегеніміз, сіз тартуларды параллельдей аласыз және таратылған оқытуды ызыңдай бере аласыз.
-
Тұрақтылық сіңіп қалған - Бірнеше күн бойы жаттыққан кезде, 12-ші эпизодтың бұзылуына қауіп төндіре алмайсыз. Нысанды сақтау жоспар бойынша бұған жол бермейді [2].
Бұл түпсіз рюкзак: іші шашылып жатқан шығар, бірақ қолыңды созғанда бәрі қалпына келеді.
Жасанды интеллект нысандарын сақтау үшін жылдам салыстыру кестесі 🗂️
| Құрал / Қызмет | (Көрермендер үшін) ең жақсысы | Баға диапазоны | Неліктен жұмыс істейді (Жиектердегі ескертпелер) |
|---|---|---|---|
| Amazon S3 | Кәсіпорындар + Бұлтты бірінші кезектегі командалар | Қолдану кезінде төлеу | Өте берік, аймақтық тұрғыдан төзімді [2] |
| Google бұлттық сақтау орны | Деректер ғалымдары және машиналық оқыту әзірлеушілері | Икемді деңгейлер | Күшті ML интеграциялары, толығымен бұлтқа негізделген |
| Azure Blob сақтау орны | Microsoft-қа негізделген дүкендер | Көп деңгейлі (ыстық/суық) | Azure деректері + машиналық оқыту құралдарымен үздіксіз жұмыс істейді |
| МинИО | Ашық бастапқы кодты / өзіңіз жасайтын параметрлер | Тегін/өзін-өзі басқарушы | S3 үйлесімді, жеңіл, кез келген жерге орналастыруға болады 🚀 |
| Васаби ыстық бұлты | Шығынға сезімтал ұйымдар | Тұрақты мөлшерлеме төмен $ | Шығу немесе API сұрау ақысы жоқ (әрбір саясат үшін) [3] |
| IBM бұлттық нысандарды сақтау орны | Ірі кәсіпорындар | Әртүрлі | Кәсіпорынның күшті қауіпсіздік нұсқалары бар жетілген стек |
Бағаны әрқашан нақты өмірде пайдалануыңызға, әсіресе шығысқа, сұраныс көлеміне және сақтау класының қоспасына сәйкес тексеріп отырыңыз.
Неліктен жасанды интеллект бойынша оқыту объектілерді сақтауды жақсы көреді 🧠
Оқыту «бір уыс файл» емес. Бұл параллель түрде бұзылған миллиондаған жазбалар. Иерархиялық файлдық жүйелер ауыр параллельділікке тап болады. Нысандарды сақтау тегіс атаулар кеңістігі мен таза API-лермен одан алшақтайды. Әрбір нысанның бірегей кілті бар; жұмысшылар параллель түрде таратылады және жүктеледі. Бөлшектелген деректер жиынтықтары + параллель енгізу/шығару = GPU күтудің орнына бос емес.
Траншеялардан кеңес: ыстық бөліктерді есептеу кластерінің жанында (сол аймақ немесе аймақ) сақтаңыз және SSD-де белсенді түрде кэштеңіз. Егер сізге GPU-ға тікелей дерлік берілістер қажет болса, NVIDIA GPUDirect Storage назар аударуға тұрарлық - ол CPU-ның секіру буферлерін азайтады, кідірісті азайтады және өткізу қабілеттілігін тікелей үдеткіштерге дейін арттырады [4].
Метадеректер: Бағаланбаған супердержава 🪄
Нысанды сақтау мүмкіндігінің айқын емес жерлері осында. Жүктеу кезінде сіз арнайы метадеректерді (мысалы, x-amz-meta-… ). Мысалы, Vision деректер жиынтығы суреттерді lighting=low немесе blur=high шикі файлдарды қайта сканерлемей сүзуге, теңестіруге немесе стратификациялауға мүмкіндік береді [1].
нұсқалау бар . Көптеген нысан қоймалары қайталанатын эксперименттер немесе кері қайтаруды қажет ететін басқару саясаты үшін нысанның бірнеше нұсқасын қатар сақтайды [5].
Объект және блок және файл сақтау ⚔️
-
Блокты сақтау : транзакциялық дерекқорлар үшін тамаша - жылдам және дәл - бірақ петабайт масштабындағы құрылымдалмаған деректер үшін тым қымбат.
-
Файлдарды сақтау : таныс, POSIX үшін ыңғайлы, бірақ каталогтар үлкен параллель жүктемелер кезінде тұншығып қалады.
-
Объектілерді сақтау : Масштабтау, параллелизм және метадеректерге негізделген қолжетімділік үшін нөлден бастап жасалған [1].
Егер сізге ебедейсіз метафора қажет болса: блоктық сақтау орны – файл шкафы, файлдарды сақтау орны – жұмыс үстеліндегі қалта, ал нысандарды сақтау орны – оны пайдалануға болатын жабысқақ жазбалары бар түпсіз шұңқыр.
Гибридті жасанды интеллект жұмыс ағындары 🔀
Бұл әрқашан тек бұлтқа ғана қатысты емес. Жалпы микс келесідей көрінеді:
-
Сезімтал немесе реттелетін деректерге арналған жергілікті нысандарды сақтау
-
Жұмыс жүктемелері, эксперименттер немесе бірлесіп жұмыс істеу үшін бұлттық нысан сақтау орны
Бұл тепе-теңдік шығындарға, сәйкестікке және ептілікке әсер етеді. Мен командалардың уақытша GPU кластерін жандандыру үшін терабайттарды S3 шелегіне түнде төгіп тастайтынын көрдім, содан кейін спринт аяқталған кезде бәрін ядролық қарумен жойды. Қиын бюджеттер үшін Wasabi-дің тұрақты жылдамдық/шығыссыз моделі [3] өмірді болжауды жеңілдетеді.
Ешкім мақтанбайтын бөлігі 😅
Шындықты тексеру: бұл мінсіз емес.
-
Кідіріс - Есептеу мен сақтауды тым алыс қойсаңыз, GPU-ларыңыз жұмыс істейді. GDS көмектеседі, бірақ архитектура әлі де маңызды [4].
-
Шығындардың күтпеген жағдайлары - шығу және API сұраулары бойынша төлемдер адамдарға жасырын түрде түседі. Кейбір провайдерлер олардан бас тартады (Wasabi жасайды; басқалары жасамайды) [3].
-
Метадеректердегі хаос ауқымды - Тегтер мен нұсқалардағы «шындықты» кім анықтайды? Сізге келісімшарттар, саясат және басқару күші қажет болады [5].
Нысандарды сақтау - инфрақұрылымдық сантехника: өте маңызды, бірақ сәнді емес.
Қайда бара жатыр 🚀
-
SQL тәрізді сұрау қабаттары арқылы деректерді автоматты түрде белгілейтін және ашатын ақылды, жасанды интеллектке негізделген сақтау орны
-
GPU-лар енгізу/шығарудан бас тартпауы үшін аппараттық интеграцияны тығыздату
-
Ашық, болжамды баға белгілеу (жеңілдетілген модельдер, шығу алымдарынан босатылған) [3].
Адамдар есептеуді жасанды интеллекттің болашағы деп атайды. Бірақ шын мәнінде? Мәселе деректерді модельдерге бюджетті шашпай тез енгізуде . Сондықтан нысандарды сақтаудың рөлі тек артып келеді.
Қорытынды 📝
Нысандарды сақтау көзге түсерліктей емес, бірақ негізгі. Масштабталатын, метадеректерді ескеретін және икемді сақтау орны болмаса, үлкен модельдерді оқыту сандалдар киіп марафон жүгірумен бірдей сезіледі.
Иә, графикалық процессорлар да, фреймворктер де маңызды. Бірақ егер сіз жасанды интеллектке шындап кіріссеңіз, деректеріңіздің қайда орналасқанын елемеңіз . Нысанды сақтау бүкіл операцияны тыныш ұстап тұруы мүмкін.
Сілтемелер
[1] AWS S3 – Нысан метадеректері - жүйелік және арнайы метадеректер
https://docs.aws.amazon.com/AmazonS3/latest/userguide/UsingMetadata.html
[2] AWS S3 – Сақтау кластары - беріктік («11 тоғыз») + серпімділік
https://aws.amazon.com/s3/storage-classes/
[3] Wasabi Hot Cloud – Бағасы - тұрақты баға, шығу/API төлемдері жоқ
https://wasabi.com/pricing
[4] NVIDIA GPUDirect сақтау орны – Құжаттар - GPU-ға DMA жолдары
https://docs.nvidia.com/gpudirect-storage/
[5] AWS S3 – Нұсқалау - басқару/қайта жасау үшін бірнеше нұсқа
https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html