Жасанды интеллект деректер инженерлерінің рөліне қалай әсер етеді?

Жасанды интеллект SQL жобаларын жасау және құжаттау сияқты қайталанатын тапсырмаларды автоматтандыру арқылы деректер инженериясының рөлдерін өзгертуге дайын. Дегенмен, деректер келісімшарттарын анықтау және деректер сапасын басқару сияқты жоғары меншік міндеттері әлі де адами біліктілікті қажет етеді.

Жасанды интеллекттің дамуымен деректер инженерлері ескіріп қала ма?

Кейбір тапсырмалар автоматтандырылуы мүмкін болса да, деректер инженерлерінің рөлі жоғалып кетпей, дамып келеді. Инженерлер жүйелік дизайнға, есеп берушілікке және басқаруға көбірек көңіл бөледі, бұл оларды жасанды интеллект негізгі тапсырмаларды жеңілдетуге көмектесетіндіктен құнды етеді.

Неліктен деректер инженериясында жасанды интеллектпен адами бақылау әлі де маңызды?

Деректерді жобалау көбінесе екіұшты бизнес логикасын және нәтижелерге жауапкершілікті талап ететіндіктен, адами бақылау өте маңызды. Жасанды интеллект шешімдерді әзірлеуге көмектесе алады, бірақ деректерді басқару мен сәйкестіктің күрделілігін толық басқара алмайды.

Жасанды интеллект құралдары жетілген сайын деректер инженерлері үшін қандай дағдылар маңызды болады?

Негізгі дағдыларға жүйелік дизайн, деректер сапасын жобалау, деректер келісімшарттарын анықтау және тиімді коммуникация кіреді. Бұл салалар жасанды интеллект күнделікті тапсырмаларды орындайтындықтан, сенімділік пен сәйкестікті қамтамасыз ету үшін өте маңызды.

Жасанды интеллект деректер инженерлері мен басқа командалар арасындағы ынтымақтастықты қалай жақсарта алады?

Жасанды интеллект техникалық нәтижелерді оңтайландыра алады, бұл деректер инженерлеріне өнім, қауіпсіздік және қаржы топтарымен тиімдірек ынтымақтастық орнатуға мүмкіндік береді. Бұл өзгеріс деректер инженерлеріне тек кодтауға емес, сапа стандарттары мен күтілетін нәтижелерді талқылауға назар аударуға мүмкіндік береді.

Деректер инженериясында жасанды интеллект қандай қиындықтарға тап болады?

Жасанды интеллект бизнес логикасындағы екіұшты анықтамаларды өңдеуде және күрделі қарым-қатынастарды басқаруда қиындықтарға тап болады. Оның сыни ойлауды жүзеге асыра алмауы немесе анықтамаларды келіссөздер жүргізе алмауы адами инженерлердің ажырамас бөлігі болып қала беретінін білдіреді.

Деректер инженерлері GitHub Copilot сияқты жасанды интеллект құралдарын қалай пайдалануы керек?

Деректер инженерлері валидация және басқару үшін берік конвенцияларды сақтай отырып, жұмыстарын жақсарту үшін жасанды интеллект құралдарын жоба ретінде пайдалануы керек. Бұған нәтижелердің сапа стандарттарына сәйкес келуін және ұйымдық саясатқа сәйкес келуін қамтамасыз ету кіреді.

Жасанды интеллект деректер инженерлерін алмастыра ала ма?

Қысқа жауап: Жасанды интеллект деректер инженерлерін толығымен алмастырмайды; ол SQL жобасын жасау, құбыр құрылысын салу, тестілеу және құжаттама сияқты қайталанатын жұмыстарды автоматтандырады. Егер сіздің рөліңіз негізінен аз меншікті, билетке негізделген жұмыс болса, ол көбірек ашық болады; егер сізде сенімділік, анықтамалар, басқару және оқиғаларға жауап беру болса, жасанды интеллект сізді негізінен жылдамдатады.

Негізгі қорытындылар:

Меншік: Тек кодты тез жасау үшін емес, нәтижелер үшін жауапкершілікті басымдыққа алыңыз.

Сапасы: Құбырлардың сенімді болып қалуы үшін құрылыс сынақтары, бақылау және келісімшарттар.

Басқару: Құпиялылықты, кіруді бақылауды, сақтауды және аудитті адамдарға тиесілі іздерді сақтаңыз.

Дұрыс пайдаланбауға қарсы тұру: Жасанды интеллект нәтижелерін жобалар ретінде қарастырыңыз; сенімді қателіктерге жол бермеу үшін оларды қарап шығыңыз.

Рөлді ауыстыру: Берік жүйелерді жобалауға көбірек уақыт жұмсап, шаблонды теруге аз уақыт жұмсаңыз.

Жасанды интеллект деректер инженерлерін алмастыра ма? Инфографика

Егер сіз деректер топтарымен бес минуттан астам уақыт өткізген болсаңыз, сіз кездесу барысында кейде сыбырлап, кейде сюжеттік бұрылыс сияқты айтылатын қайырманы естіген боларсыз: жасанды интеллект деректер инженерлерін алмастыра ала ма?

Және... түсіндім. Жасанды интеллект SQL генерациялай алады, құбырларды құра алады, стек іздерін түсіндіре алады, dbt модельдерін жобалай алады, тіпті қойма схемаларын сенімділікпен ұсына алады. SQL үшін GitHub Copilot dbt модельдері туралы GitHub Copilot
Жүк көтергіштің жонглерлік жұмысты үйреніп жатқанын көргендей сезінесіз. Әсерлі, аздап алаңдатарлық және сіз оның сіздің жұмысыңыз үшін нені білдіретінін толық білмейсіз 😅

Бірақ шындық тақырыпқа қарағанда онша ретсіз емес. Жасанды интеллект деректер инженериясын түбегейлі өзгертуде. Ол күңгірт, қайталанатын бөліктерді автоматтандыруда. Ол «Мен не қалайтынымды білемін, бірақ синтаксисті есімде сақтай алмаймын» сәттерін жеделдетуде. Сондай-ақ, ол мүлдем жаңа хаос түрлерін тудыруда.

Ендеше, оптимизмге бой алдырмай немесе үрейленбей, дұрыстап түсіндірейік.

Осыдан кейін оқуға болатын мақалалар:

🔗 Жасанды интеллект радиологтарды алмастыра ма?
Бейнелеу жасанды интеллекті жұмыс процесін, дәлдікті және болашақ рөлдерді қалай өзгертеді.

🔗 Жасанды интеллект бухгалтерлерді алмастыра ма?
Жасанды интеллект қандай бухгалтерлік есеп тапсырмаларын автоматтандыратынын және қайсысы адами болып қалатынын қараңыз.

🔗 Инвестициялық банкирлердің орнын жасанды интеллект ауыстыра ма?
Жасанды интеллекттің мәмілелерге, зерттеулерге және клиенттермен қарым-қатынасқа әсерін түсіну.

🔗 Жасанды интеллект сақтандыру агенттерін алмастыра ма?
Жасанды интеллект андеррайтингті, сатуды және тұтынушыларды қолдауды қалай өзгертетінін біліңіз.

Неліктен «Жасанды интеллект деректер инженерлерін алмастырады» деген сұрақ қайта-қайта көтеріліп жатыр 😬

Қорқыныш өте нақты жерден туындайды: деректер инженериясында көптеген қайталанатын жұмыстар бар.

SQL жазу және рефакторингтеу
Деректерді қабылдау сценарийлерін құру
Өрістерді бір схемадан екіншісіне салыстыру
Тесттер мен негізгі құжаттаманы жасау
Болжамды құбыр ақауларын жөндеу..

Жасанды интеллект қайталанатын үлгілерде ерекше жақсы. Ал деректер инженериясының бір бөлігі дәл осы - үлгілердің үстіне жинақталған үлгілер. GitHub Copilot код ұсыныстары

Сонымен қатар, құралдар экожүйесі күрделілікті «жасырып» жатыр:

Басқарылатын ELT қосқыштары Fivetran құжаттары
Серверсіз есептеу AWS Lambda (серверсіз есептеу)
Қойманы бір рет басу арқылы қамтамасыз ету
Apache Airflow құжаттарының автоматты масштабтау оркестрі
Декларативті түрлендіру жүйелері dbt дегеніміз не?

Сондықтан жасанды интеллект пайда болған кезде, ол соңғы бөлік сияқты сезілуі мүмкін. Егер стек абстракцияланған болса және жасанды интеллект желім кодын жаза алса... не қалады? 🤷

Бірақ адамдар бір нәрсені елемей кетеді: деректер инженериясы негізінен теру емес. Теру - оңай бөлігі. Қиын бөлігі - бұлыңғыр, саяси, өзгермелі бизнес шындығын сенімді жүйе сияқты ету.

Ал жасанды интеллект әлі күнге дейін сол түсініксіздікпен күресуде. Адамдар да күресуде - олар жай ғана жақсырақ импровизация жасайды.

Деректер инженерлері күні бойы не істейді (көңілге қонымсыз шындық) 🧱

Ашығын айтқанда, «Деректер инженері» лауазымы сіз зымыран қозғалтқыштарын таза математикалық есептеулер арқылы құрастырып жатқандай естіледі. Іс жүзінде сіз сенімділік.

Әдеттегі күн «жаңа алгоритмдер ойлап табудан» гөрі көбірек:

Деректерді анықтау бойынша жоғары тұрған топтармен келіссөздер жүргізу (ауыр, бірақ қажет)
Метриканың неліктен өзгергенін (және оның нақты екенін) зерттеу
Схеманың ауытқуын және «біреу түн ортасында баған қосты» деген тосынсыйларды өңдеу
Құбырлардың идемпотентті, қалпына келтірілетін және бақыланатын болуын қамтамасыз ету
Төменгі ағымдағы аналитиктер кездейсоқ мағынасыз бақылау тақталарын жасамауы үшін қоршаулар жасау
Қоймаңыз ақша отына айналмас үшін шығындарды басқару 🔥
Қолжетімділікті қамтамасыз ету, аудит, сәйкестік, сақтау саясаты GDPR қағидаттары (Еуропалық комиссия) Сақтау шектеуі (ICO)
Адамдар сізге жеке хабарлама жібермей-ақ пайдалана алатын деректер өнімдерін жасау 20 сұрақ

Жұмыстың үлкен бөлігі әлеуметтік және операциялық болып табылады:

«Бұл үстел кімге тиесілі?»
«Бұл анықтама әлі де жарамды ма?»
«CRM неге көшірмелерді экспорттайды?»
«Бұл көрсеткішті басшыларға ұялмай жібере аламыз ба?» 😭

Әрине, жасанды интеллект бұл мәселеде көмектесе алады. Бірақ оны толығымен ауыстыру... қиындық тудырады.

Деректер инженериясы рөлінің күшті нұсқасын не құрайды? ✅

Бұл бөлім маңызды, себебі ауыстыру туралы әңгімелер әдетте деректер инженерлерін негізінен «құбыр құрылысшылары» деп болжайды. Бұл аспаздардың негізінен «көкөністерді турайтынын» болжаумен бірдей. Бұл жұмыстың бір бөлігі, бірақ бұл жұмыс емес.

Деректер инженерінің мықты нұсқасы әдетте олардың көпшілігін жасай алатынын білдіреді:

Өзгеріске арналған дизайн
Деректер өзгереді. Командалар өзгереді. Құралдар өзгереді. Жақсы инженер шындық түшкірген сайын құламайтын жүйелерді жасайды 🤧
Келісімшарттар мен күтулерді анықтаңыз
«Тұтынушы» дегеніміз не? «Белсенді» дегеніміз не? Кезек кешіккенде не болады? Келісімшарттар әсем кодтан гөрі хаостың алдын алады. Ашық деректер келісімшарты стандарты (ODCS) ODCS (GitHub)
Барлық нәрсеге бақылаушылықты енгізіңіз.
Тек «жұмыс істеді ме» ғана емес, сонымен қатар «дұрыс жұмыс істеді ме» де. Жаңалық, көлем ауытқулары, нөлдік жарылыстар, таралу ығысулары. Деректерді бақылау (Dynatrace) Деректерді бақылау дегеніміз не?
Ересек адам сияқты ымыраға келіңіз.
Жылдамдық пен дұрыстықты, құны мен кідірісті, икемділік пен қарапайымдылықты салыстырыңыз. Мінсіз құбыр жоқ, тек қана өмір сүруге болатын құбырлар бар.
Бизнес қажеттіліктерін берік жүйелерге айналдырыңыз
Адамдар көрсеткіштерді сұрайды, бірақ оларға деректер өнімі қажет. Жасанды интеллект кодты жобалай алады, бірақ ол бизнес миналарын сиқырлы түрде біле алмайды.
Деректерді құпия ұстаңыз
Деректер платформасы үшін ең жоғары мақтау - ешкім ол туралы айтпайды. Оқиғасыз деректер - жақсы деректер. Сантехника сияқты. Сіз оны тек істен шыққан кезде ғана байқайсыз 🚽

Егер сіз осы әрекеттерді жасап жатсаңыз, «Жасанды интеллект деректер инженерлерін алмастыра ма?» деген сұрақ сәл қателесіп естіледі. Жасанды интеллект меншікті емес, тапсырмаларды алмастыра алады .

Жасанды интеллект деректер инженерлеріне қазірдің өзінде көмектесіп жатыр (және бұл шынымен де керемет) 🤖✨

Жасанды интеллект тек маркетинг қана емес. Дұрыс қолданылса, ол заңды күш көбейткіші болып табылады.

1) SQL және трансформация жұмыстарын жылдамдату

Күрделі қосылыстарды сызу
Ойланғыңыз келмейтін терезе функцияларын жазу
Қарапайым тілдегі логиканы сұрау қаңқаларына айналдыру
Көрінбейтін сұрауларды оқылатын CTE-лерге қайта жасау GitHub Copilot for SQL

Бұл өте маңызды, себебі ол «бос бет» әсерін азайтады. Сіз әлі де тексеруіңіз керек, бірақ сіз 0%-дан емес, 70%-дан бастайсыз.

2) Қателерді түзету және түпкі себептерді жою

Жасанды интеллект келесі жағдайларда жақсы жұмыс істейді:

Қате туралы хабарламаларды түсіндіру
Қайда қарау керектігін ұсыну
GitHub Copilot-та «схема сәйкессіздігін тексеру» қадамдарын ұсыну Бұл ешқашан ұйықтамайтын және кейде сенімді түрде өтірік айтатын шаршамайтын жас инженерге ұқсайды 😅

3) Құжаттама және деректер каталогын байыту

Автоматты түрде жасалған:

Баған сипаттамалары
Модельдің қысқаша мазмұны
Шежіре туралы түсініктемелер
«Бұл кесте не үшін қолданылады?» dbt құжаттамасын

Бұл мінсіз емес, бірақ құжатталмаған құбырлардың қарғысын бұзады.

4) Құрылыс құрылыстарын сынау және тексеру

AI келесі ұсыныстарды бере алады:

Негізгі нөлдік тесттер
Бірегейлікті тексеру
Анықтамалық тұтастық идеялары
«Бұл метрика ешқашан төмендемеуі керек» стиліндегі тұжырымдар dbt деректерін тексеру Үлкен үміттер: Күтулер

Тағы да - сіз әлі де не маңызды екенін шешесіз, бірақ бұл күнделікті бөліктерді жылдамдатады.

5) Құбыр желісінің «желім» коды

Конфигурация үлгілері, YAML құрылымдары, оркестрлік DAG жобалары. Бұл заттар қайталанады және жасанды интеллект таңғы асқа қайталанатын тамақтарды жейді 🥣 Apache Airflow DAGs

Жасанды интеллект әлі де қиындықтарға тап болып жатқан жер (және бұл оның негізгі бөлігі) 🧠🧩

Бұл ең маңызды бөлік, себебі ол ауыстыру сұрағына нақты текстурамен жауап береді.

1) Анықтамалардың екіұштылығы және өзгермелілігі

Бизнес логикасы сирек анық болады. Адамдар сөйлемнің ортасында ойларын өзгертеді. «Белсенді пайдаланушы» «белсенді төлеуші пайдаланушы» болып, «кейде ғана қайтарылатын қаражатты қоспағанда, белсенді төлеуші пайдаланушы» болып өзгереді... қалай екенін білесіз.

Жасанды интеллект бұл түсініксіздікті мойындай алмайды. Ол тек болжай алады.

2) Есеп беру және тәуекел

Құбыр үзіліп, орындаушының басқару тақтасы мағынасыздықты көрсеткенде, біреу келесі әрекеттерді орындауы керек:

сұрыптау
әсер етуді жеткізу
оны жөндеңіз
қайталануының алдын алу
өлімнен кейінгі жағдайды жазу
бизнестің өткен аптадағы сандарға әлі де сене алатынын шешіңіз

Жасанды интеллект көмектесе алады, бірақ ол мағыналы түрде есеп бере алмайды. Ұйымдар көңіл-күймен жұмыс істемейді - олар жауапкершілікпен жұмыс істейді.

3) Жүйелік ойлау

Деректер платформалары – бұл экожүйелер: қабылдау, сақтау, түрлендірулер, оркестрлеу, басқару, шығындарды бақылау, қызмет көрсету шарттары. Бір қабатты толқындардың өзгеруі. Apache Airflow тұжырымдамалары

Жасанды интеллект жаһандық қиындықтар тудыратын жергілікті оңтайландыруларды ұсына алады. Бұл есікті алып тастау арқылы сықырлаған есікті жөндеумен бірдей 😬

4) Қауіпсіздік, құпиялылық, сәйкестік

Міне, осы жерде ауыстыру қиялдары өледі.

Кіруді басқару элементтері
Қатар деңгейіндегі қауіпсіздік Snowflake қатарға кіру саясаттары BigQuery қатар деңгейіндегі қауіпсіздік
PII NIST құпиялылық құрылымын өңдеу
Сақтау ережелері Сақтауды шектеу (ICO) Сақтау бойынша ЕО нұсқаулығы
Аудит трассалары NIST SP 800-92 (журналдарды басқару) CIS Control 8 (аудит журналдарын басқару)
Деректерді резиденттікке қою шектеулері

Жасанды интеллект саясатты жасай алады, бірақ оларды қауіпсіз жүзеге асыру - нағыз инженерия.

5) «Белгісіз белгісіздіктер»

Деректермен байланысты оқиғалар көбінесе болжанбайды:

Жеткізуші API семантикасын үнсіз өзгертеді
Уақыт белдеуі туралы болжам өзгереді
Толтырғыш бөлімді көшіреді
Қайталау механизмі екі рет жазуға әкеледі
Жаңа өнім мүмкіндігі жаңа іс-шаралар үлгілерін ұсынады

Жағдай белгілі бір үлгіде болмаған кезде жасанды интеллект әлсіз болады.

Салыстыру кестесі: іс жүзінде нені азайтады 🧾🤔

Төменде практикалық көзқарас берілген. «Адамдарды алмастыратын құралдар» емес, белгілі бір міндеттерді қысқартатын құралдар мен тәсілдер.

Құрал / тәсіл	Аудитория	Баға атмосферасы	Неліктен жұмыс істейді
AI кодының көшірмелері (SQL + Python көмекшілері) GitHub көшірмесі	Көп код жазатын инженерлер	Ақылыдан тегінге дейін	Құрылыс құрылысында, рефакторларда, синтаксистерде керемет... кейде өте ерекше түрде өзін-өзі көрсете алады
Басқарылатын ELT қосқыштары Fivetran	Командалар жұтып қоюдан шаршады	Жазылым-y	Таңдамалы жұту кезіндегі ауырсынуды жояды, бірақ көңілді жаңа жолдармен бұзылады
Деректерді бақылау платформалары Деректерді бақылау (Dynatrace)	Қызмет көрсету мерзімі туралы келісімшарттарға (SLA) ие кез келген адам	Ортадан кәсіпорынға дейін	Құбырларға арналған түтін дабылы сияқты ауытқуларды ерте анықтайды 🔔
Трансформациялық фреймворктар (декларативті модельдеу) dbt	Аналитика + DE гибридтері	Әдетте құрал + есептеу	Логиканы модульдік және тексеруге болатындай етеді, спагеттиді азайтады
Деректер каталогтары + семантикалық қабаттар dbt Семантикалық қабат	Метрикалық шатасуы бар органдар	Тәжірибе жүзінде тәуелді	«Шындықты» бір рет анықтайды - шексіз метрикалық пікірталастарды азайтады
Apache Airflow үлгілерімен оркестрлеу	Платформаға бағытталған командалар	Ашық + операциялар құны	Жұмыс процестерін стандарттайды; қар түйіршіктерінің DAG-тары азаяды
Жасанды интеллект көмегімен жасалған құжаттама dbt құжаттарын жасау	Құжаттар жазуды жек көретін топтар	Арзаннан орташаға дейін	Білім жоғалып кетпес үшін «жеткілікті жақсы» құжаттар жасайды
Автоматтандырылған басқару саясаты NIST құпиялылық шеңбері	Реттелетін орталар	Кәсіпорындық	Ережелерді орындауға көмектеседі - бірақ ережелерді әзірлеу үшін адамдар қажет

Не жетіспейтініне назар аударыңыз: «деректер инженерлерін жою үшін түймені басыңыз» деген жол. Иә... бұл жол жоқ 🙃

Сонымен... жасанды интеллект деректер инженерлерін алмастыра ма, әлде рөлді ауыстыра ма? 🛠️

Міне, драмалық емес жауап: жасанды интеллект мамандықты емес, жұмыс процесінің кейбір бөліктерін алмастырады.

Бірақ бұл конфигурациялайды . Ал егер сіз мұны елемесеңіз, сіз қысылуды сезінесіз.

Қандай өзгерістер болады:

Шаблон жазуға аз уақыт кетеді
Құжаттарды іздеуге аз уақыт кетеді
Қарап шығуға, тексеруге, жобалауға көбірек уақыт
Келісімшарттарды және сапа күтулерін анықтауға көбірек уақыт бөлу Ашық деректер келісімшарты стандарты (ODCS)
Өнім, қауіпсіздік және қаржы салаларымен серіктестік орнатуға көбірек уақыт бөлу

Бұл нәзік өзгеріс: деректер инженериясы «құбырларды құру» туралы емес, «сенімді деректер өнімі жүйесін құру» туралы болып келеді

Ал тыныш жағдайда бұл құндырақ, кем емес.

Сонымен қатар - және мен мұны драмалық естілсе де айтамын - жасанды интеллект деректер артефактілерін жасай алатын адамдар санын көбейтеді, бұл біреудің бүкіл нәрсені ақылға қонымды ұстау қажеттілігін арттырады. Көбірек нәтиже ықтимал шатасуларды білдіреді. GitHub Copilot

Бұл барлығына электрлік бұрғы бергенмен бірдей. Керемет! Енді біреу «су құбырына бұрғы жасамаңыз» ережесін орындауы керек 🪠

Жаңа дағдылар жинағы құнды болып қала береді (тіпті барлық жерде жасанды интеллект болса да) 🧠⚙️

Егер сізге практикалық «болашаққа жарамды» тексеру тізімі қажет болса, ол келесідей көрінеді:

Жүйелік дизайн ойлау жүйесі

Өзгерістерге төтеп бере алатын деректерді модельдеу
Топтық және ағындық компромисстер
Кідіріс, құны, сенімділік туралы ойлау

Деректер сапасын инженериялау

Келісімшарттар, валидациялар, аномалияларды анықтау Ашық деректер келісімшарты стандарты (ODCS) Деректерді бақылау (Dynatrace)
Қызмет көрсету мерзімі туралы келісімдер (SLA), SLO, оқиғаларға жауап беру әдеттері
Тәртіппен (көңіл-күйді көтерумен емес) түпкі себепті талдау

Басқару және сенім архитектурасы

Қолжетімділік үлгілері
Аудиттелу NIST SP 800-92 (журналдарды басқару)
Дизайн бойынша құпиялылық NIST құпиялылық шеңбері
Деректердің өмірлік циклін басқару ЕО сақтау бойынша нұсқаулық

Платформалық ойлау

Қайта пайдалануға болатын үлгілер, алтын жолдар
Деректерді қабылдау, түрлендіру, тестілеуге арналған стандартталған үлгілер Fivetran dbt деректерін тексеру
Ерімейтін өзіне-өзі қызмет көрсететін құрал-саймандар

Байланыс (иә, шынымен)

Анық құжаттар жазу
Анықтамаларды туралау
«Жоқ» деп сыпайы, бірақ берік айту
Робот сияқты сөйлемей, келісімдерді түсіндіру 🤖

Егер сіз мұны істей алсаңыз, «Жасанды интеллект деректер инженерлерін алмастыра ма?» деген сұрақ онша қауіпті болмайды. Жасанды интеллект сіздің орныңызды басатын құрал емес, сіздің экзоскелеттеріңізге айналады.

Кейбір деректер инженериясының рөлдері қысқаратын шынайы сценарийлер 📉

Жарайды, шындықты тез тексеріп көрейік, себебі бәрі күн сәулесі мен эмодзи конфетти емес 🎉

Кейбір рөлдер көбірек танымал:

Барлығы стандартты қосқыштар болып табылатын таза қабылдау рөлдері Fivetran қосқыштары
Командалар көбінесе қайталанатын есеп беру құбырларын минималды домендік нюанстармен жасайды
Деректер инженериясы «SQL маймылдары» ретінде қарастырылатын ұйымдар (қатал, бірақ шындық)
Жұмыс тек билеттер мен көшіру-қоюдан тұратын төмен меншікті рөлдер

Басқарылатын құралдармен бірге жасанды интеллект бұл қажеттіліктерді азайта алады.

Бірақ тіпті сонда да, ауыстыру әдетте келесідей болады:

Бірдей қайталанатын жұмысты жасайтын адамдар азаяды
Платформаның меншік құқығы мен сенімділігіне көбірек көңіл бөлінеді
«Бір адам көбірек құбырларды қолдай алады» дегенге көшу

Иә, қызметкерлер санының өзгеруі мүмкін. Рөлдер өзгереді. Лауазымдары ауысады. Бұл шындық.

Дегенмен, рөлдің жоғары меншіктегі, жоғары сенімге ие нұсқасы сақталған.

Қорытынды қорытынды 🧾✅

Жасанды интеллект деректер инженерлерін алмастыра ала ма? Адамдар елестеткендей таза, толық емес.

Жасанды интеллект:

қайталанатын тапсырмаларды автоматтандыру
кодтауды, күйін келтіруді және құжаттаманы жеделдету SQL dbt құжаттамасына арналған GitHub Copilot
құбырларды өндіру құнын төмендету

Бірақ деректер инженериясы негізінен мыналарға қатысты:

жауапкершілік
жүйені жобалау
сенім, сапа және басқару Ашық деректер туралы келісімшарт стандарты (ODCS) NIST құпиялылық шеңбері
бұлыңғыр бизнес шындығын сенімді деректер өнімдеріне айналдыру

Жасанды интеллект бұған көмектесе алады... бірақ ол оны «иеленбейді».

Егер сіз деректер инженері болсаңыз, көшу қарапайым (оңай емес, бірақ қарапайым):
меншікке, сапаға, платформалық ойлауға және коммуникацияға сүйеніңіз. Маңызды бөлшектерді өзіңіз басқара отырып, жасанды интеллектке негізгі жұмысты жүргізуге мүмкіндік беріңіз.

Иә, кейде бұл бөлмедегі ересек адам болуды білдіреді. Сәнді емес. Бірақ үнсіз күшті 😄

Жасанды интеллект деректер инженерлерін алмастыра ма?
Ол кейбір міндеттерді ауыстырады, лауазымды қайта құрады және ең үздік деректер инженерлерін одан да құнды етеді. Шынайы оқиға осындай.

Нақты әлемдегі мысал: жасанды интеллект көмегімен деректер құбырын шолу жұмыс процесін құру 🛠️

Сценарий

Бір деректер инженері, екі аналитигі және өте таныс мәселесі бар шағын электрондық коммерция компаниясын елестетіп көріңізші: төлем провайдері өріс атауын өзгерткен сайын қаржы бақылау тақтасы істен шыға береді.

Команда жасанды интеллекттің құбырды «меншік» етуін қаламайды. Бұл қауіпті болар еді. Оның орнына, олар жасанды интеллектті күнделікті, бірақ маңызды жұмыс үшін бірінші жоба көмекшісі ретінде пайдаланады: dbt модель қаңқаларын жазу, тесттерді ұсыну, құжаттаманы жобалау және кодты қарау үшін тексеру тізімін жасау.

Адами деректер инженері әлі де соңғы дизайнға, деректердің анықтамаларына, қолжетімділік ережелеріне және өндірісті орналастыруға иелік етеді. Жасанды интеллект күрделі орта деңгейді жылдамдатады.

Жұмыс процесі не үшін қажет

Жасанды интеллектті қолданар алдында команда пайдалы болу үшін жеткілікті контекст береді:

Қолданыстағы төлем кестесінің схемасы
«Таза кіріс», «қайтарылатын сома» және «есептелген төлем» сияқты мақсатты қаржыландыру көрсеткіштерінің анықтамалары
dbt модельдеріне арналған атау конвенциялары
Мақұлданған сынақтардың мысалдары
Төлемдер ағынына арналған қысқа деректер келісімшарты
Жеке ақпарат, сәтсіз төлемдер, қайталанатын төлемдер және кешіктірілген жазбаларды өңдеу ережелері
Өткен оқиғалардың үлгісі, соның ішінде не дұрыс болмады және ол қалай түзетілді

Негізгі мәселе «жасанды интеллекттен құбыр салуды сұрау» емес. Бұл тым түсініксіз.

Неғұрлым күшті тәсіл: «Міне, біздің ережелеріміз, міне, схема, міне, күтілетін мінез-құлық. Біз қарап шыға алатын нәрсе жобасын жасаңыз»

Мысал нұсқаулығы

Сіз біздің төлем деректеріміз үшін dbt моделін жобалауға көмектесіп жатырсыз. Бірінші өту моделін, ұсынылған dbt сынақтарын және құжаттама ескертпелерін жасау үшін төмендегі схема мен ережелерді пайдаланыңыз.

Модель күнделікті есептелген кірісті order_id және payment_provider арқылы есептеуі керек. Сәтсіз төлемдерді алып тастаңыз, сынақ транзакцияларын алып тастаңыз және қайтарымдарды тек refund_status = “confirmed” болған кезде ғана шегеріңіз.

Бағандар ойлап таппаңыз. Егер міндетті баған жоқ болса, оны болжаудың орнына «Адам шолуына арналған сұрақтар» бөлімінде тізімдеңіз.

Сондай-ақ бірегейлік, нөлдік мәндер, қабылданған мәндер және кірістің негізділігі бойынша тесттерді ұсыныңыз. Қаржылық есептілікке әсер етуі мүмкін кез келген логиканы белгілеңіз.

Оны қалай тексеруге болады

Ақылға қонымды сынақ шағын және әдейі қарапайым:

Жасанды интеллектке бір жақсы белгілі төлем схемасын беріңіз және оның өрістерді ойлап табудан аулақ болатынын тексеріңіз.
Оған refund_status бағаны жоқ бір схеманы беріңіз және оның болжам жасаудың орнына сұрақ қоятынын көріңіз.
Жасалған SQL файлын өндіріске емес, кезеңдік деректер жиынына қарсы іске қосыңыз.
Нәтижені қолмен тексерілген 20 төлем жазбасымен салыстырыңыз.
Біріктіру алдында аналитик пен деректер инженерінен анықтамаларды қарап шығуды сұраңыз.
Қабылданған сынақтарды CI-ге қосыңыз, сонда құбыр орналастырылғаннан кейін өзін тексеріп отырады.

Ең бастысы, жасанды интеллектті ең қорқатын сәтсіздік режимдерінде сынап көру: ойдан шығарылған бағандар, дұрыс емес кіріс логикасы, қайтарымды өңдеудің болмауы және үнсіз қайталанатын жолдар.

Нәтиже

Көрнекі нәтиже: осы жұмыс процесін пайдаланбас бұрын және кейін үш үлгі құбырды ауыстыру тапсырмасын уақытқа бөлуге негізделген.

Жасанды интеллектті қолданбас бұрын, инженер әр ауысымда шамамен 5 сағат 30 минут жұмсады: шамамен 2 сағат SQL жазуға, 1 сағат тест жасауға, 45 минут құжаттар жазуға, ал қалған уақыт қаржыландырумен шеткі жағдайларды тексеруге жұмсалды.

Жасанды интеллект тек алғашқы жобалар үшін ғана қолданылғандықтан, дәл осындай өзгеріс шамамен 2 сағат 10 минутты алды. Ең үлкен үнемдеу сынақ құрылыстары мен құжаттама жобаларынан болды, ол 1 сағат 45 минуттан шамамен 25 минутқа дейін төмендеді.

Адами шолу кезеңі әлі де шамамен 45 минутқа созылды және оны алып тастауға болмайды.

Үш тапсырмадан тұратын тестте жасанды интеллект 18 тексеруді ұсынды. Инженер 11 тексеруді қабылдады, 5-ін өңдеді және 2 тексеруден бас тартты, себебі олар шындыққа жанаспайтын бизнес ережелерін қабылдады. Бұл бас тарту саны маңызды: бұл жұмыс процесінің соқыр сенім емес, қайта қарауды қажет ететінін дәлелдейді.

Не дұрыс болмауы мүмкін

Жасанды интеллект құбырды бұрынғыдан да толық етіп көрсете алады.

Жалпы сәтсіздік нүктелеріне мыналар жатады:

Ықтимал болып көрінетін бағандарды ойлап табу
Қайтаруларды, төлемдерді қайтаруды және сәтсіз төлемдерді бірдей деп санау
Күнделікті кірісте уақыт белдеуінің мәселелері жоқ
Қаржылық қателерді анықтамайтын жалпы сынақтарды ұсыну
Сенімді болып көрінетін, бірақ белгісіздікті жасыратын құжаттама жазу
Үлгі деректерінде тұтынушы туралы мәліметтер болған кезде құпиялылық ережелерін ұмыту

Жақсы ереже: жасанды интеллект модельді жобалай алады, бірақ адам анықтамаларға, ақша логикасына, кіруді бақылауға және өндірісті шығаруға қол қоюы керек.

Практикалық қорытынды

Деректер инженериясындағы жасанды интеллекттің құнды нұсқасы «деректер инженерін ауыстыру» емес, «бос бетті алып тастап, мұқият қарап шығу».

Бұл жылдамырақ SQL, жылдамырақ тестілеу және жақсырақ бірінші өту құжаттамасын білдіреді, ал инженер әлі де ең маңызды бөлікке ие: деректердің дұрыстығына, сенімділігіне, қауіпсіздігіне және түсіндірілуіне.

Жиі қойылатын сұрақтар

Жасанды интеллект деректер инженерлерін толығымен алмастыра ала ма?

Көптеген ұйымдарда жасанды интеллект рөлді толығымен жоюдан гөрі нақты тапсырмаларды өз мойнына алуы ықтимал. Ол SQL жобасын, құбыр құрылысын, құжаттаманы алғашқы тапсыруды және негізгі тесттерді жасауды жеделдете алады. Бірақ деректер инженериясы сонымен қатар меншік пен есеп берушілікті, сонымен қатар ретсіз бизнес шындығын сенімді жүйе сияқты етудің көрінбейтін жұмысын қамтиды. Бұл бөліктерде әлі де адамдардан «дұрыс» дегеннің не екенін шешу және бірдеңе бұзылған кезде жауапкершілікті алу қажет.

Деректер инженериясының қандай бөліктерін жасанды интеллект автоматтандырады?

Жасанды интеллект қайталанатын жұмыстарда ең жақсы нәтиже көрсетеді: SQL жобасын жасау және рефакторингтеу, dbt модель қаңқаларын жасау, жиі кездесетін қателерді түсіндіру және құжаттаманың құрылымдарын жасау. Ол сондай-ақ нөлдік немесе бірегейлікті тексеру сияқты тесттерді құра алады және оркестрлеу құралдарына арналған үлгі «желім» кодын жасай алады. Жеңіс - серпін - сіз жұмыс шешіміне жақындай бастайсыз - бірақ сіз әлі де дұрыстығын тексеріп, оның сіздің ортаңызға сәйкес келетініне көз жеткізуіңіз керек.

Егер жасанды интеллект SQL және құбырларды жаза алса, деректер инженерлеріне не қалады?

Көп нәрсе: деректер келісімшарттарын анықтау, схема дрейфін өңдеу және құбырлардың идемпотентті, бақыланатын және қалпына келтірілетін болуын қамтамасыз ету. Деректер инженерлері метрикалық өзгерістерді зерттеуге, төменгі ағымдағы пайдаланушылар үшін қорғаныс қоршауларын салуға және шығындар мен сенімділік арасындағы ымыраларды басқаруға уақыт жұмсайды. Жұмыс көбінесе сенімділікті қалыптастыруға және деректер платформасын «тыныш» ұстауға, яғни ешкімнің бұл туралы күн сайын ойланбауына әкелетіндей тұрақтылықты сақтауға байланысты.

Жасанды интеллект деректер инженерінің күнделікті жұмысын қалай өзгертеді?

Әдетте, ол стандартты және «іздеу уақытын» қысқартады, сондықтан сіз теруге аз уақыт жұмсайсыз, ал шолуға, тексеруге және жобалауға көбірек уақыт жұмсайсыз. Бұл өзгеріс рөлді барлығын қолмен кодтаудың орнына күтулерді, сапа стандарттарын және қайта пайдалануға болатын үлгілерді анықтауға итермелейді. Іс жүзінде сіз өніммен, қауіпсіздікпен және қаржымен көбірек серіктестік жұмысын жасайсыз - себебі техникалық нәтижелерді жасау оңайырақ болады, бірақ басқару қиындай түседі.

Неліктен жасанды интеллект «белсенді пайдаланушы» сияқты екіұшты бизнес анықтамаларымен күреседі?

Себебі бизнес логикасы статикалық немесе дәл емес - ол жобаның ортасында өзгереді және мүдделі тараптарға байланысты өзгереді. Жасанды интеллект түсіндірме жасай алады, бірақ анықтамалар өзгерген кезде немесе қақтығыстар пайда болған кезде шешім қабылдай алмайды. Деректерді жобалау көбінесе келіссөздерді, болжамдарды құжаттауды және анық емес талаптарды берік келісімшарттарға айналдыруды талап етеді. Бұл «адамдық үйлестіру» жұмысы құрал-жабдықтар жақсарған кезде де рөлдің жоғалып кетпеуінің негізгі себебі болып табылады.

Жасанды интеллект деректерді басқаруды, құпиялылықты және сәйкестікті қауіпсіз түрде қамтамасыз ете ала ма?

Жасанды интеллект саясатты әзірлеуге немесе тәсілдерді ұсынуға көмектесе алады, бірақ қауіпсіз енгізу әлі де нақты инженерияны және мұқият бақылауды қажет етеді. Басқару кіруді бақылауды, жеке тұлғалардың жеке басын куәландыратын құжаттарды өңдеуді, сақтау ережелерін, аудит іздерін және кейде тұрғылықты жері бойынша шектеулерді қамтиды. Бұл «дұрыс дерлік» қабылданбайтын жоғары қауіпті салалар. Адамдар ережелерді әзірлеуі, орындалуын тексеруі және сәйкестік нәтижелері үшін жауапты болуы керек.

Жасанды интеллект жақсарған сайын деректер инженерлері үшін қандай дағдылар құнды болып қала береді?

Жүйелердің тұрақтылығын қамтамасыз ететін дағдылар: жүйелік дизайн ойлауы, деректер сапасын жобалау және платформаға бағытталған стандарттау. Келісімшарттар, бақылау мүмкіндігі, оқиғаларға жауап беру әдеттері және тәртіпті түпкі себептерді талдау көптеген адамдар деректер артефактілерін тез жасай алған кезде одан да маңызды бола түседі. Байланыс сонымен қатар айырмашылыққа айналады - анықтамаларды сәйкестендіру, анық құжаттар жазу және драмасыз ымыраға келуді түсіндіру деректердің сенімділігін сақтаудың маңызды бөлігі болып табылады.

Жасанды интеллект пен басқарылатын құралдардан қандай деректер инженериясының рөлдері ең көп қауіп төндіреді?

Қайталанатын қабылдауға немесе стандартты есеп беру құбырларына бағытталған рөлдер, әсіресе басқарылатын ELT қосқыштары көптеген көздерді қамтыған кезде, көбірек ашық болады. Төмен меншікті, билетке негізделген жұмыс қысқаруы мүмкін, себебі жасанды интеллект және абстракция құбырға жұмсалатын күш-жігерді азайтады. Бірақ бұл әдетте қайталанатын тапсырмаларды орындайтын адамдардың аздығына, «деректер инженерлерінің жоқтығына» ұқсайды. Сенімділікке, сапаға және сенімге бағытталған жоғары меншікті рөлдер ұзақ мерзімді болып қала береді.

GitHub Copilot немесе dbt сияқты құралдарды жасанды интеллектпен хаос тудырмай қалай пайдалануым керек?

Жасанды интеллект шығысын шешім емес, жоба ретінде қарастырыңыз. Оны сұраныс қаңқаларын жасау, оқылымдылықты жақсарту немесе dbt сынақтары мен құжаттарын құру үшін пайдаланыңыз, содан кейін нақты деректер мен шеткі жағдайларға сәйкес тексеріңіз. Оны күшті конвенциялармен: келісімшарттармен, атау стандарттарымен, бақылау тексерулерімен және шолу тәжірибелерімен жұптастырыңыз. Мақсат - сенімділіктен, шығындарды бақылаудан немесе басқарудан бас тартпай, жылдам жеткізу.

Сілтемелер

Еуропалық комиссия - Деректерді қорғау түсіндірмесі: GDPR қағидаттары - commission.europa.eu
Ақпарат комиссары кеңсесі (ICO) - Сақтау орнын шектеу - ico.org.uk
Еуропалық комиссия - Деректерді қанша уақыт сақтауға болады және оларды жаңарту қажет пе? - commission.europa.eu
Ұлттық стандарттар және технологиялар институты (NIST) - Құпиялылық шеңбері - nist.gov
NIST компьютерлік қауіпсіздік ресурстық орталығы (CSRC) - SP 800-92: Компьютерлік қауіпсіздік журналын басқару бойынша нұсқаулық - csrc.nist.gov
Интернет қауіпсіздігі орталығы (CIS) - Аудит журналын басқару (CIS бақылаулары) - cisecurity.org
Snowflake құжаттамасы - Жолға кіру саясаты - docs.snowflake.com
Google Cloud құжаттамасы - BigQuery жол деңгейіндегі қауіпсіздік - docs.cloud.google.com
BITOL - Ашық деректер келісімшарты стандарты (ODCS) v3.1.0 - bitol-io.github.io
BITOL (GitHub) - Ашық деректер келісімшартының стандарты - github.com
Apache Airflow - Құжаттама (тұрақты) - airflow.apache.org
Apache Airflow - DAG (негізгі тұжырымдамалар) - airflow.apache.org
dbt зертханаларының құжаттамасы - dbt дегеніміз не? - docs.getdbt.com
dbt зертханаларының құжаттамасы - dbt модельдері туралы - docs.getdbt.com
dbt зертханаларының құжаттамасы - Құжаттама - docs.getdbt.com
dbt зертханаларының құжаттамасы - Деректер сынақтары - docs.getdbt.com
dbt зертханаларының құжаттамасы - dbt семантикалық қабаты - docs.getdbt.com
Fivetran құжаттамасы - Жұмысты бастау - fivetran.com
Fivetran - Қосқыштар - fivetran.com
AWS құжаттамасы - AWS Lambda әзірлеушісіне арналған нұсқаулық - docs.aws.amazon.com
GitHub - GitHub көшірмесі - github.com
GitHub құжаттары - GitHub Copilot көмегімен IDE-де код ұсыныстарын алу - docs.github.com
Microsoft Learn - SQL үшін GitHub Copilot (VS Code кеңейтімі) - learn.microsoft.com
Dynatrace құжаттамасы - Деректерді бақылау - docs.dynatrace.com
DataGalaxy - Деректерді бақылау дегеніміз не? - datagalaxy.com
Үлкен үміттер туралы құжаттама - Күтулерге шолу - docs.greatexpectations.io

Ресми AI көмекші дүкенінен ең соңғы AI-ді табыңыз

Біз туралы

Блогқа оралу

Қосымша жиі қойылатын сұрақтар

Жасанды интеллект деректер инженерлерінің рөліне қалай әсер етеді?

Жасанды интеллект SQL жобаларын жасау және құжаттау сияқты қайталанатын тапсырмаларды автоматтандыру арқылы деректер инженериясының рөлдерін өзгертуге дайын. Дегенмен, деректер келісімшарттарын анықтау және деректер сапасын басқару сияқты жоғары меншік міндеттері әлі де адами біліктілікті қажет етеді.
Деректер инженериясының қандай бөліктерін жасанды интеллект автоматтандыра алады?

Жасанды интеллект SQL кодын генерациялау, dbt моделінің құрылымдарын жасау және құжаттаманың құрылымдарын жасау сияқты тапсырмаларды автоматтандыруда өте жақсы. Бұл инженерлерге жобаларды тиімдірек бастауға көмектеседі, бірақ дәлдікті қамтамасыз ету үшін адами тексеру қажет.
Жасанды интеллекттің дамуымен деректер инженерлері ескіріп қала ма?

Кейбір тапсырмалар автоматтандырылуы мүмкін болса да, деректер инженерлерінің рөлі жоғалып кетпей, дамып келеді. Инженерлер жүйелік дизайнға, есеп берушілікке және басқаруға көбірек көңіл бөледі, бұл оларды жасанды интеллект негізгі тапсырмаларды жеңілдетуге көмектесетіндіктен құнды етеді.
Неліктен деректер инженериясында жасанды интеллектпен адами бақылау әлі де маңызды?

Деректерді жобалау көбінесе екіұшты бизнес логикасын және нәтижелерге жауапкершілікті талап ететіндіктен, адами бақылау өте маңызды. Жасанды интеллект шешімдерді әзірлеуге көмектесе алады, бірақ деректерді басқару мен сәйкестіктің күрделілігін толық басқара алмайды.
Жасанды интеллект құралдары жетілген сайын деректер инженерлері үшін қандай дағдылар маңызды болады?

Негізгі дағдыларға жүйелік дизайн, деректер сапасын жобалау, деректер келісімшарттарын анықтау және тиімді коммуникация кіреді. Бұл салалар жасанды интеллект күнделікті тапсырмаларды орындайтындықтан, сенімділік пен сәйкестікті қамтамасыз ету үшін өте маңызды.
Жасанды интеллект деректер инженерлері мен басқа командалар арасындағы ынтымақтастықты қалай жақсарта алады?

Жасанды интеллект техникалық нәтижелерді оңтайландыра алады, бұл деректер инженерлеріне өнім, қауіпсіздік және қаржы топтарымен тиімдірек ынтымақтастық орнатуға мүмкіндік береді. Бұл өзгеріс деректер инженерлеріне тек кодтауға емес, сапа стандарттары мен күтілетін нәтижелерді талқылауға назар аударуға мүмкіндік береді.
Деректер инженериясында жасанды интеллект қандай қиындықтарға тап болады?

Жасанды интеллект бизнес логикасындағы екіұшты анықтамаларды өңдеуде және күрделі қарым-қатынастарды басқаруда қиындықтарға тап болады. Оның сыни ойлауды жүзеге асыра алмауы немесе анықтамаларды келіссөздер жүргізе алмауы адами инженерлердің ажырамас бөлігі болып қала беретінін білдіреді.
Деректер инженерлері GitHub Copilot сияқты жасанды интеллект құралдарын қалай пайдалануы керек?

Деректер инженерлері валидация және басқару үшін берік конвенцияларды сақтай отырып, жұмыстарын жақсарту үшін жасанды интеллект құралдарын жоба ретінде пайдалануы керек. Бұған нәтижелердің сапа стандарттарына сәйкес келуін және ұйымдық саясатқа сәйкес келуін қамтамасыз ету кіреді.