Көптеген адамдар «жасанды интеллект» дегенді естігенде, олар нейрондық желілерді, сәнді алгоритмдерді немесе сәл таңқаларлық гуманоидты роботтарды елестетеді. Алдын ала сирек айтылатын нәрсе мынада: AI есептеулер сияқты жадты жейді . Кез келген сақтау нысанының қоймасы ғана емес, фондық режимде тыныш отырады, модельдерге қажетті деректерді берудің әсем, бірақ өте маңызды жұмысын орындайды.
Нысандарды сақтауды AI үшін не соншалықты маңызды ететінін, оның сақтау жүйелерінің «ескі қорғанысынан» қалай ерекшеленетінін және неліктен ол ауқымдылық пен өнімділіктің негізгі тетіктерінің бірі болатынын талдап көрейік.
Осы мақаладан кейін оқығыңыз келетін мақалалар:
🔗 Бизнеске кең ауқымды генеративті AI пайдалану үшін қандай технологиялар болуы керек
Негізгі технологиялар бизнеске генеративті AI-ны тиімді масштабтау үшін қажет.
🔗 Қарау керек AI құралдары үшін деректерді басқару
AI өнімділігін оңтайландыру үшін деректерді өңдеудің ең жақсы тәжірибелері.
🔗 Жасанды интеллекттің бизнес стратегиясына әсері
AI бизнес стратегияларына және ұзақ мерзімді шешімдер қабылдауға қалай әсер етеді.
AI үшін Object Storage белгісін не жасайды? 🌟
Үлкен идея: нысанды сақтау қалталармен немесе қатаң блок макеттерімен алаңдамайды. Ол деректерді әрқайсысы метадеректермен белгіленетін «нысандарға» бөледі. Бұл метадеректер жүйе деңгейіндегі заттар (өлшем, уақыт белгілері, сақтау класы) және пайдаланушы анықтайтын кілт: мән тегтері болуы мүмкін [1]. Мұны оның не екенін, қалай жасалғанын және сіздің құбырыңызға қай жерде сәйкес келетінін көрсететін жабысқақ жазбалар дестесін алып жүретін әрбір файл сияқты елестетіп көріңіз.
AI командалары үшін бұл икемділік ойынды өзгертеді:
-
Мигренсіз масштабтау - Деректер көлдері петабайттарға дейін созылады және нысандар қоймалары оны оңай өңдейді. Олар шексіз дерлік өсу мен көп АЗ-ға төзімділікке арналған (Amazon S3 әдепкі бойынша «11 тоғыз» және аймақаралық репликация туралы мақтанады) [2].
-
Метадеректер байлығы - контекст әрбір нысанмен бірге жүретіндіктен жылдамырақ іздеулер, тазартылған сүзгілер және смарт құбырлар.
-
Бұлтқа негізделген - Деректер HTTP(S) арқылы келеді, яғни сіз тартуларды параллельдеуге және таратылған жаттығуларды шуылдата беруге болады.
-
Тұрақтылық пісіп-жетілді - Күндер бойы жаттығып жатқанда, бұзылған сынықтарды өлтіретін дәуірге қауіп төндіре алмайсыз 12. Нысанды сақтау дизайны бойынша мұны болдырмайды [2].
Негізінен бұл түбі жоқ рюкзак: іші лас болуы мүмкін, бірақ оған қол жеткізген кезде барлығын алуға болады.
AI нысандарын сақтауға арналған жылдам салыстыру кестесі 🗂️
| Құрал / Қызмет | Ең жақсы (аудитория) | Баға диапазоны | Неліктен ол жұмыс істейді (Жекедегі ескертпелер) |
|---|---|---|---|
| Amazon S3 | Кәсіпорындар + Cloud-бірінші командалар | Қалағаныңызша төлеңіз | Өте берік, аймақтық төзімді [2] |
| Google Cloud Storage | Деректер ғалымдары және ML әзірлеушілері | Икемді деңгейлер | Күшті ML интеграциялары, толығымен бұлтқа негізделген |
| Azure Blob сақтау орны | Microsoft ауыр дүкендері | Деңгейлі (ыстық/суық) | Azure деректері + ML құралдарымен біркелкі |
| МинИО | Ашық коды / DIY орнатулары | Тегін/өзіндік хост | S3-үйлесімді, жеңіл, кез келген жерде қолдануға болады 🚀 |
| Васаби ыстық бұлты | Шығынға сезімтал ұйымдар | Төмен ставка $ | Шығу немесе API сұрау ақысы жоқ (әр саясат үшін) [3] |
| IBM Cloud Object Storage | Ірі кәсіпорындар | Әртүрлі | Күшті кәсіпорын қауіпсіздігі опциялары бар жетілген стек |
Әрқашан ақылға қонымды бағаны нақты әлемдегі пайдалануыңызға, әсіресе шығуға, сұрау көлеміне және сақтау класының қоспасына қатысты тексеріңіз.
Неліктен AI тренингі объектілерді сақтауды жақсы көреді?
Жаттығу «бірнеше файл» емес. Бұл параллельді түрде жойылған миллиондаған миллиондаған рекордтар. Иерархиялық файлдық жүйелер ауыр параллельділік жағдайында бұғатталады. тегіс аттар кеңістігі және таза API интерфейстері бар бүйірлік қадамдар Әрбір нысанның бірегей кілті болады; жұмысшылар параллельді түрде желдетіп, әкеледі. Бөлінген деректер жиындары + параллель енгізу/шығару = GPU күтудің орнына бос емес болады.
Траншеялардан кеңес: ыстық үзінділерді есептеу кластерінің жанында (бір аймақ немесе аймақ) сақтаңыз және SSD дискісінде агрессивті кэште сақтаңыз. Егер сізге графикалық процессорларға тікелей тікелей беру қажет болса, NVIDIA GPUDirect қоймасын қарап шығуға тұрарлық – ол процессордың серпілу буферлерін қысқартады, кідірістерді қысқартады және жеделдеткіштерге өткізу қабілеттілігін тікелей арттырады [4].
Метадеректер: бағаланбаған супер держава 🪄
Мұнда нысанды сақтау анық емес жолдармен жарқырайды. теңшелетін метадеректерді тіркей аласыз (мысалы, S3 үшін x-amz-meta-… Мысалы, көру деректер жинағы кескіндерді жарықтандыру=төмен немесе бұлыңғыр=жоғары . өңделмеген файлдарды қайта сканерлеусіз сүзуге, теңестіруге немесе стратификациялауға мүмкіндік береді [1].
нұсқалар бар . Көптеген нысандар қоймалары қайталанатын эксперименттер немесе кері қайтаруды қажет ететін басқару саясаттары үшін объектінің бірнеше нұсқасын қатар қояды [5].
Объект пен блокқа қарсы файлды сақтау ⚔️
-
Блокты сақтау : транзакциялық дерекқорлар үшін тамаша - жылдам және дәл, бірақ петабайт масштабындағы құрылымдалмаған деректер үшін тым қымбат.
-
Файл қоймасы : таныс, POSIX-талас, бірақ каталогтар жаппай параллель жүктемелер кезінде тұншығып қалады.
-
Нысанды сақтау : масштабтау, параллелизм және метадеректерге негізделген қол жеткізу үшін басынан бастап жасалған [1].
Егер сіз ебедейсіз метафораны алғыңыз келсе: блоктық сақтау - бұл файлдар шкафы, файлдарды сақтау - жұмыс үстелі қалтасы және нысанды сақтау ... оны қолдануға болатын жабысқақ жазбалары бар түпсіз шұңқыр.
Гибридті AI жұмыс процестері 🔀
Бұл әрқашан бұлтқа ғана қатысты емес. Жалпы қоспа келесідей көрінеді:
-
Сезімтал немесе реттелетін деректерге арналған жергілікті нысанды сақтау
-
Кепті жұмыс жүктемелеріне, эксперименттерге немесе бірлесіп жұмыс істеуге арналған бұлттық нысанды сақтау
Бұл теңгерім шығындарға, сәйкестікке және ептілікке әсер етеді. Мен командалардың уақытша GPU кластерін жарықтандыру үшін бір түнде терабайттарды S3 шелекіне төгіп тастағанын көрдім, содан кейін спринт аяқталған кезде бәрін жойды. Қатты бюджеттер үшін Васабидің біркелкі мөлшерлемесі/шығусыз моделі [3] өмірді болжауды жеңілдетеді.
Ешкім мақтанбайтын бөлім😅
Шындықты тексеру: бұл мінсіз емес.
-
Кідіріс - есептеу мен жадты бір-бірінен тым алшақ қойыңыз және графикалық процессорларыңыз тексеріп шығады. GDS көмектеседі, бірақ архитектура әлі де маңызды [4].
-
Шығындар тосынсыйлары - шығу және API сұрау төлемдері адамдарға жасырын түседі. Кейбір провайдерлер олардан бас тартады (Васаби жасайды, басқалары жоқ) [3].
-
Масштабтағы метадеректер хаосы - тегтер мен нұсқалардағы «шындықты» кім анықтайды? Сізге келісім-шарттар, саясаттар және кейбір басқару бұлшықеттері қажет болады [5].
Объектіні сақтау - бұл инфрақұрылымдық сантехника: маңызды, бірақ керемет емес.
Қайда барады 🚀
-
SQL-тәрізді сұрау қабаттары арқылы деректерді автоматты түрде белгілейтін және ашатын ақылдырақ, AI-ді білетін сақтау орны
-
Жабдықты жақынырақ біріктіру (DMA жолдары, NIC түсірулері), сондықтан графикалық процессорлар енгізу/шығару қажет емес [4].
-
Транспарентті, болжамды баға белгілеу (жеңілдетілген үлгілер, шығу ақысынан бас тартылған) [3].
Адамдар есептеулер туралы AI болашағы ретінде айтады. Бірақ шынайы ма? Төменгі мәселе - бюджетті шығынсыз модельдерге деректерді жылдам беру . Сондықтан нысанды сақтау рөлі тек өседі.
Қорытынды 📝
Нысандарды сақтау өте керемет емес, бірақ ол негізді. Масштабталатын, метадеректерді ескеретін, икемді жадсыз, үлкен үлгілерді үйрету сандалда марафонға жүгіргендей болады.
Иә, GPU маңызды, фреймдер маңызды. Бірақ егер сіз AI туралы байсалды болсаңыз, деректеріңіздің қайда орналасқанын елемеңіз . Мүмкіндігінше, нысанды сақтау бүкіл операцияны тыныш ұстайды.
Анықтамалар
[1] AWS S3 – Нысан метадеректері - жүйе және реттелетін метадеректер
https://docs.aws.amazon.com/AmazonS3/latest/userguide/UsingMetadata.html
[2] AWS S3 – Сақтау сыныптары - беріктік («11 тоғыз») + төзімділік
https://aws.amazon.com/s3/storage-classes/
[3] Wasabi ыстық бұлты – Бағасы - біркелкі мөлшерлеме, шығу/API алымдары жоқ
https://wasabi.com/pricing
[4] NVIDIA GPUDirect сақтау орны – Құжаттар – GPU-ға DMA жолдары
https://docs.nvidia.com/gpudirect-storage/
[5] AWS S3 – Нұсқа жасау – басқару/қайта өндіру үшін бірнеше нұсқалар
https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html