Жасанды интеллектте компьютерлік көру дегеніміз не

Жасанды интеллекттегі компьютерлік көру дегеніміз не?

Егер сіз телефоныңыздың құлпын бетіңізбен ашып, түбіртекті сканерлеп немесе авокадоңызды бағалап жатыр ма деп ойлап, өзін-өзі тексеру камерасына қарап отырған болсаңыз, онда сіз компьютерлік көру қабілетіне қарсы шыққан боларсыз. Қарапайым тілмен айтқанда, жасанды интеллекттегі компьютерлік көру - бұл машиналардың көруді және түсінуді шешім қабылдау үшін жеткілікті түрде үйренуінің жолы. Пайдалы ма? Әрине. Кейде таңқаларлық па? Иә. Ал кейде, егер шынымызды айтсақ, аздап қорқынышты. Ең жақсы жағдайда, ол ретсіз пикселдерді практикалық әрекеттерге айналдырады. Ең нашар жағдайда, ол болжайды және дірілдейді. Дұрыстап тереңірек қарастырайық.

Осыдан кейін оқуға болатын мақалалар:

🔗 Жасанды интеллектке бейімділік дегеніміз не?
Жасанды интеллект жүйелерінде бейімділік қалай пайда болады және оны анықтау және азайту жолдары.

🔗 Болжамды жасанды интеллект дегеніміз не?
Болжамды жасанды интеллект трендтер мен нәтижелерді болжау үшін деректерді қалай пайдаланады.

🔗 Жасанды интеллект жаттықтырушысы дегеніміз не?
Жасанды интеллектті жаттықтыратын мамандар қолданатын міндеттер, дағдылар және құралдар.

🔗 Google Vertex AI дегеніміз не?
Модельдерді құру және орналастыруға арналған Google-дың бірыңғай AI платформасына шолу.


Жасанды интеллекттегі компьютерлік көру дегеніміз не? 📸

Жасанды интеллекттегі компьютерлік көру - компьютерлерге визуалды деректерді түсіндіруді және олар туралы ойлауды үйрететін жасанды интеллект саласы. Бұл шикі пиксельдерден құрылымдық мағынаға дейінгі құбыр: «бұл тоқтау белгісі», «бұл жаяу жүргіншілер», «дәнекерлеу ақаулы», «шот-фактураның жалпы сомасы осында». Ол жіктеу, анықтау, сегменттеу, бақылау, тереңдікті бағалау, OCR және басқа да үлгіні оқыту модельдері арқылы біріктірілген тапсырмаларды қамтиды. Формальды сала классикалық геометриядан қазіргі заманғы терең оқытуға дейін, практикалық оқулықтарды көшіріп, өзгертуге болады. [1]

Қысқаша әңгіме: қарапайым 720p камерасы бар қаптама желісін елестетіп көріңіз. Жеңіл детектор қақпақтарды анықтайды, ал қарапайым трекер бөтелкені жасыл жарықтандырмас бұрын олардың қатарынан бес кадрға тураланғанын растайды. Қымбат емес, бірақ арзан, жылдам және қайта өңдеуді азайтады.


Жасанды интеллекттегі компьютерлік көруді не пайдалы етеді? ✅

  • Әрекетке түрткі болатын сигнал : Көрнекі енгізу әрекетке негізделген нәтижеге айналады. Басқару тақтасы азырақ, шешім көбірек болады.

  • Жалпылау : Дұрыс деректермен бір модель әртүрлі кескіндерді өңдейді. Мінсіз емес, кейде таңқаларлықтай жақсы.

  • Деректерді тиімді пайдалану : Камералар арзан және барлық жерде. Көру пиксельдер мұхитын түсінікке айналдырады.

  • Жылдамдық : Модельдер кадрларды тапсырма мен ажыратымдылыққа байланысты нақты уақыт режимінде немесе нақты уақытқа жақын уақытта өңдей алады.

  • Сәйкестік : Сенімді жүйелерге қарапайым қадамдарды тізбектеу: анықтау → бақылау → сапаны бақылау.

  • Экожүйе : Құралдар, алдын ала дайындалған модельдер, эталондар және қоғамдастық қолдауы – кодтың кең таралған нарығы.

Шынын айтсақ, құпия сөз құпия емес: жақсы деректер, тәртіпті бағалау, мұқият орналастыру. Қалғаны жаттығу... және мүмкін кофе. ☕


Жасанды интеллекттегі компьютерлік көру қалай жұмыс істейді, бір ақылға қонымды құбырда 🧪

  1. Суреттерді түсіру
    Камералар, сканерлер, дрондар, телефондар. Сенсор түрін, экспозицияны, объективті және кадр жиілігін мұқият таңдаңыз. Қоқыс және т.б.

  2. Алдын ала өңдеу
    Қажет болса, өлшемін өзгертіңіз, қиыңыз, қалыпқа келтіріңіз, бұлыңғырлықты кетіріңіз немесе шуды азайтыңыз. Кейде контрастты кішкене өзгерту тауларды жылжытады. [4]

  3. Белгілер және деректер жиынтықтары
    Шекаралық қораптар, көпбұрыштар, негізгі нүктелер, мәтіндік аралық. Теңгерімді, репрезентативті белгілер - немесе сіздің моделіңіз біржақты әдеттерді үйренеді.

  4. Модельдеу

    • Жіктеу : «Қай санат?»

    • Анықтау : «Заттар қайда?»

    • Сегментация : «Қай пиксельдер қай затқа жатады?»

    • Негізгі ойлар мен қалыптар : «Буындар немесе бағдарлар қайда?»

    • OCR : «Суреттегі мәтін қандай?»

    • Тереңдік және 3D : «Барлығы қаншалықты алыс?»
      Сәулеттері әртүрлі, бірақ шиыршық торлар мен трансформатор стиліндегі модельдер басым. [1]

  5. Оқыту
    Деректерді бөлу, гиперпараметрлерді реттеу, реттеу, кеңейту. Тұсқағазды жаттап алмас бұрын ерте тоқтату.

  6. Бағалау
    OCR үшін mAP, IoU, F1, CER/WER сияқты тапсырмаға сәйкес метрикаларды пайдаланыңыз. Қателік жасамаңыз. Әділ салыстырыңыз. [3]

  7. Орналастыру
    Мақсатты оңтайландыру: бұлттық пакеттік тапсырмалар, құрылғыдағы болжам, шеткі серверлер. Дрейфті бақылау. Әлем өзгерген кезде қайта оқыту.

Терең желілер үлкен деректер жиынтығы мен есептеулер критикалық массаға жеткеннен кейін сапалық секірісті катализаторлады. ImageNet сынағы сияқты эталондар бұл прогресті көрінетін және үздіксіз етті. [2]


Сіз шынымен пайдаланатын негізгі тапсырмалар (және қашан) 🧩

  • Суретті жіктеу : Әр суретке бір белгі. Жылдам сүзгілер, сұрыптау немесе сапа қақпалары үшін пайдаланыңыз.

  • Нысандарды анықтау : Заттардың айналасындағы қораптар. Бөлшек саудадағы шығындардың алдын алу, көлік құралдарын анықтау, жабайы табиғатты санау.

  • Мысал сегментациясы : Әр нысанға пиксельдік дәлдікпен силуэттер. Өндірістік ақаулар, хирургиялық құралдар, агротехнология.

  • Семантикалық сегменттеу : инстанцияларды бөлмей пиксельге шаққандағы класс. Қалалық жол көріністері, жер жамылғысы.

  • Негізгі нүктелерді анықтау және қалып : буындар, бағдарлар, бет-әлпет ерекшеліктері. Спорттық аналитика, эргономика, AR.

  • Бақылау : Уақыт өте келе нысандарды бақылау. Логистика, көлік қозғалысы, қауіпсіздік.

  • OCR және құжат жасанды интеллекті : мәтінді алу және орналасуды талдау. Шот-фактуралар, түбіртектер, формалар.

  • Тереңдік және 3D : Бірнеше көріністен немесе монокулярлық белгілерден қайта құру. Робототехника, AR, картаға түсіру.

  • Көрнекі субтитрлер : Көріністерді табиғи тілде қорытындылаңыз. Қолжетімділік, іздеу.

  • Көру тілінің модельдері : көпмодальды ойлау, қалпына келтіру арқылы кеңейтілген көру, негізделген сапаны қамтамасыз ету.

Кішкентай қораптың дыбысы: дүкендерде детектор сөрелердің жоқ беттерін белгілейді; қызметкерлер қайта толтырған кезде трекер қайта санаудың алдын алады; қарапайым ереже сенімсіз кадрларды адами шолуға жібереді. Бұл көбінесе дыбысты сақтайтын шағын оркестр.


Салыстыру кестесі: жылдам жеткізуге арналған құралдар 🧰

Әдейі аздап ерекше. Иә, арақашықтық таңқаларлық - білемін.

Құрал / Құрылым Ең жақсысы Лицензия/Баға Неліктен бұл іс жүзінде жұмыс істейді
OpenCV Алдын ала өңдеу, классикалық түйіндеме, жылдам POC Тегін - ашық бастапқы код Үлкен құралдар жинағы, тұрақты API, шайқаста тексерілген; кейде сізге қажет нәрсенің бәрі. [4]
PyTorch Зерттеуге қолайлы оқыту Тегін Динамикалық графиктер, үлкен экожүйе, көптеген оқулықтар.
TensorFlow/Keras Ауқымды өндіріс Тегін Ересектерге арналған тағамдар, мобильді және шеткі тағамдарға да жарамды.
Ультралитикалық YOLO Жылдам нысанды анықтау Тегін + ақылы қосымшалар Оңай жаттығу циклі, бәсекеге қабілетті жылдамдық пен дәлдік, өз пікірін білдіргенімен, ыңғайлы.
Detectron2 / MMDetection Күшті базалық сызықтар, сегменттеу Тегін Қайталанатын нәтижелері бар анықтамалық деңгейдегі модельдер.
OpenVINO / ONNX жұмыс уақыты Қорытындыны оңтайландыру Тегін Кідіріс уақытын қысыңыз, қайта жазбай кеңінен қолданыңыз.
Тессеракт Бюджетке негізделген OCR Тегін Кескінді тазаласаңыз, жақсы жұмыс істейді... кейде шынымен тазалау керек.

Жасанды интеллекттегі компьютерлік көру сапасын не анықтайды 🔧

  • Деректерді қамту : Жарықтандырудың өзгеруі, бұрыштар, фондар, жиектер. Егер болуы мүмкін болса, оны қосыңыз.

  • Белгі сапасы : Сәйкес келмейтін қораптар немесе ұқыпсыз көпбұрыштар mAP-ты бұзады. Кішкене QA көп нәрсені білдіреді.

  • Ақылды толықтырулар : Қию, айналдыру, жарықтықты күшейту, синтетикалық шу қосу. Кездейсоқ хаос емес, шынайы болыңыз.

  • Модельді таңдауға сәйкестік : Анықтау қажет болған жерде анықтауды пайдаланыңыз - жіктеуішті орындарды болжауға мәжбүрлемеңіз.

  • Әсерге сәйкес келетін көрсеткіштер : Егер жалған теріс нәтижелер көбірек зиян келтірсе, еске түсіруді оңтайландырыңыз. Егер жалған оң нәтижелер көбірек зиян келтірсе, алдымен дәлдікке назар аударыңыз.

  • Кері байланыс циклі тығыз : сәтсіздіктерді тіркеңіз, қайта белгілеңіз, қайта оқытыңыз. Шайыңыз, қайталаңыз. Аздап жалықтырады - өте тиімді.

Анықтау/сегменттеу үшін қауымдастық стандарты - IoU шектері бойынша орташаланған орташа дәлдік COCO стиліндегі mAP . IoU және AP@{0.5:0.95} қалай есептелетінін білу көшбасшылар тақтасындағы талаптарды ондық сандармен таң қалдырудан сақтайды. [3]


Гипотетикалық емес нақты өмірдегі пайдалану жағдайлары 🌍

  • Бөлшек сауда : сөрелерді талдау, шығындардың алдын алу, кезекті бақылау, планограммаға сәйкестік.

  • Өндіріс : беткі ақауларды анықтау, құрастыруды тексеру, роботты басқару.

  • Денсаулық сақтау : радиологиялық триаж, аспаптық анықтау, жасуша сегментациясы.

  • Қозғалғыштық : ADAS, жол қозғалысы бақылау камералары, тұрақтағы көліктердің көптігін бақылау, микромобильділікті бақылау.

  • Ауыл шаруашылығы : Егінді санау, ауруларды анықтау, егін жинауға дайындық.

  • Сақтандыру және қаржы : Залалды бағалау, KYC тексерулері, алаяқтық белгілері.

  • Құрылыс және энергетика : Қауіпсіздік талаптарын сақтау, ағып кетуді анықтау, коррозияны бақылау.

  • Мазмұн және қолжетімділік : Автоматты субтитрлер, модерация, визуалды іздеу.

Сіз байқайтын үлгі: қолмен сканерлеуді автоматты сұрыптаумен ауыстырыңыз, содан кейін сенімділік төмендеген кезде адамдарға дейін кеңейтіңіз. Керемет емес - бірақ масштабталады.


Деректер, белгілер және маңызды көрсеткіштер 📊

  • Жіктелуі : Дәлдік, теңгерімсіздік үшін F1.

  • Анықтау : IoU шектері бойынша mAP; әр кластағы AP және өлшем шелектерін тексеріңіз. [3]

  • Сегменттеу : mIoU, Dice; дана деңгейіндегі қателерді де тексеріңіз.

  • Бақылау : MOTA, IDF1; қайта сәйкестендіру сапасы - үнсіз кейіпкер.

  • OCR : Таңба қателерінің жиілігі (CER) және Сөз қателерінің жиілігі (WER); орналасу қателері көбінесе басым болады.

  • Регрессиялық тапсырмалар : Тереңдік немесе қалып абсолютті/салыстырмалы қателерді пайдаланады (көбінесе логарифмдік масштабтарда).

Бағалау хаттамаңызды басқалар қайталай алатындай етіп құжаттаңыз. Бұл сексуалды емес, бірақ сізді адал ұстайды.


Құрастыру және сатып алу - және оны қайда іске қосу керек 🏗️

  • Бұлт : Бастау оңай, топтық жұмыс жүктемелері үшін тамаша. Шығу шығындарын бақылаңыз.

  • Шеткі құрылғылар : Төмен кідіріс және жақсы құпиялылық. Сіз кванттау, кесу және үдеткіштерге мән бересіз.

  • Құрылғыдағы мобильді құрылғы : Сәйкес келгенде керемет. Модельдер мен сағат батареясын оңтайландырыңыз.

  • Гибридті : Шетінде алдын ала сүзгіден өткізіп, бұлтта ауыр заттарды көтеру. Жақсы келісім.

Өте сенімді стек: PyTorch көмегімен прототип жасау, стандартты детекторды оқыту, ONNX-ке экспорттау, OpenVINO/ONNX Runtime көмегімен жеделдету және алдын ала өңдеу және геометрия (калибрлеу, гомография, морфология) үшін OpenCV пайдалану. [4]


Тәуекелдер, этика және айтуға қиын тұстары ⚖️

Көру жүйелері деректер жиынтығының ауытқуларын немесе операциялық соқыр аймақтарды мұра ете алады. Тәуелсіз бағалаулар (мысалы, NIST FRVT) алгоритмдер мен шарттар бойынша бет-әлпетті тану қателіктерінің демографиялық айырмашылықтарын өлшеді. Бұл үрейленуге себеп емес, бірақ себеп . Егер сіз жеке басын куәландыратын немесе қауіпсіздікке қатысты пайдалану жағдайларын енгізсеңіз, адами шолу және шағымдану механизмдерін қосыңыз. Құпиялылық, келісім және ашықтық қосымша болып табылмайды. [5]


Шынымен де орындауға болатын жылдам бастау жоспары 🗺️

  1. Шешімді анықтаңыз.
    Жүйе кескінді көргеннен кейін қандай әрекет жасауы керек? Бұл сіздің бос сөз көрсеткіштерін оңтайландыруыңызға жол бермейді.

  2. Нақты
    ортаңызды көрсететін бірнеше жүз суреттен бастаңыз. Тіпті сіз және үш жабысқақ қағаз болса да, мұқият белгілеңіз.

  3. Негізгі модельді таңдаңыз
    Алдын ала дайындалған салмақтары бар қарапайым магистралды таңдаңыз. Әзірге экзотикалық архитектураларды қуып кетпеңіз. [1]

  4. Оқытыңыз, тіркеңіз, бағалаңыз.
    Көрсеткіштерді, шатасу нүктелерін және сәтсіздік режимдерін бақылаңыз. «Ерекше жағдайларды» - қарды, жарқырауды, шағылысуды, ерекше қаріптерді жазып отырыңыз.

  5. Ілмекті қатайтыңыз.
    Қатты негативтерді қосыңыз, белгі ауытқуын түзетіңіз, толықтыруларды реттеңіз және шектерді қайта реттеңіз. Кішкентай түзетулер қосылады. [3]

  6. Жіңішке нұсқаны орналастырыңыз.
    Кванттау және экспорттау. Ойыншықтың эталонын емес, нақты ортадағы кідірісті/өткізу қабілетін өлшеңіз.

  7. Бақылау және қайталау
    . Дұрыс жұмыс істемейтіндерді жинаңыз, қайта белгілеңіз, қайта оқытыңыз. Модельіңіздің тасқа айналмауы үшін мерзімді бағалауларды жоспарлаңыз.

Кәсіби кеңес: ең циник командаласыңыздың кішкентай қарсыласын белгілеп қойыңыз. Егер олар оған тесік жасай алмаса, сіз дайын болуыңыз мүмкін.


Сіз аулақ болғыңыз келетін жиі кездесетін қателіктер 🧨

  • Таза студиялық кескіндерді жаттықтыру, объективке жаңбыр түсіріп, нақты әлемге орналастыру.

  • Бір маңызды классқа шынымен мән берген кезде жалпы mAP үшін оңтайландыру. [3]

  • Таптық теңгерімсіздікті елемеу және сирек кездесетін оқиғалардың неге жоғалып кететініне таң қалу.

  • Модель жасанды артефактілерді үйренгенше шамадан тыс арттыру.

  • Камера калибрлеуін өткізіп жіберу және перспектива қателерімен мәңгілікке күресу. [4]

  • Бағалаудың дәл нұсқасын қайталамай, көшбасшылар тақтасындағы сандарға сену. [2][3]


Белгілеуге тұрарлық дереккөздер 🔗

Егер сізге негізгі материалдар мен курстық жазбалар ұнаса, бұлар негізгі білімдер, тәжірибе және бақылаулар үшін алтын болып табылады. «Сілтемелер» бөлімін қараңыз: CS231n жазбалары, ImageNet сынақ жұмысы, COCO деректер жиынтығы/бағалау құжаттары, OpenCV құжаттары және NIST FRVT есептері. [1][2][3][4][5]


Қорытынды ескертулер - немесе тым ұзақ, оқылмады 🍃

Жасанды интеллекттегі компьютерлік көру пиксельдерді шешімдерге айналдырады. Дұрыс тапсырманы дұрыс деректермен жұптастырғанда, дұрыс нәрселерді өлшегенде және ерекше тәртіппен қайталағанда, ол жарқырайды. Құралдар кең, эталондар жалпыға қолжетімді, ал егер сіз соңғы шешімге назар аударсаңыз, прототиптен өндіріске дейінгі жол таңқаларлықтай қысқа. Белгілеріңізді дұрыс анықтаңыз, әсерге сәйкес келетін метрикаларды таңдаңыз және модельдерге ауыр жұмысты тапсырыңыз. Ал егер метафора көмектессе, оны өте жылдам, бірақ тура мағынадағы тағылымдамадан өтушіге маңызды нәрсені анықтауды үйрету сияқты елестетіңіз. Сіз мысалдар келтіресіз, қателерді түзетесіз және біртіндеп оған нақты жұмыспен сенесіз. Мінсіз емес, бірақ трансформациялауға жеткілікті жақын. 🌟


Сілтемелер

  1. CS231n: Компьютерлік көруді тереңдетіп оқыту (курс ескертпелері) - Стэнфорд университеті.
    толығырақ оқу

  2. ImageNet ауқымды визуалды тану сынағы (мақала) - Руссаковский және т.б.
    толығырақ оқу

  3. COCO деректер жиынтығы және бағалау - Ресми сайт (тапсырма анықтамалары және mAP/IoU конвенциялары).
    толығырақ оқыңыз

  4. OpenCV құжаттамасы (v4.x) - Алдын ала өңдеу, калибрлеу, морфология және т.б. модульдері
    . толығырақ оқу

  5. NIST FRVT 3-бөлім: Демографиялық әсерлер (NISTIR 8280) - Демографиялық көрсеткіштер бойынша бет-әлпетті тану дәлдігін тәуелсіз бағалау.
    толығырақ оқу

Ресми AI көмекші дүкенінен ең соңғы AI-ді табыңыз

Біз туралы

Блогқа оралу