Жасанды интеллектті арттыру қалай жұмыс істейді

AI Upscaling қалай жұмыс істейді?

Қысқа жауап: Жасанды интеллекттің масштабталуы модельді төмен және жоғары ажыратымдылықтағы жұптасқан кескіндерге үйрету, содан кейін масштабтау кезінде сенімді қосымша пиксельдерді болжау үшін пайдалану арқылы жұмыс істейді. Егер модель жаттығу кезінде ұқсас текстураларды немесе беттерді көрген болса, ол сенімді бөлшектерді қоса алады; егер олай болмаса, ол бейнеде гало, балауыз тәрізді тері немесе жыпылықтау сияқты артефактілерді «галлюцинациялауы» мүмкін.

Негізгі қорытындылар:

Болжам : Модель шындықтың кепілдендірілген қайта құрылуын емес, сенімді бөлшектерді жасайды.

Модельді таңдау : CNN-дер тұрақтырақ болуға бейім; GAN-дар айқынырақ көрінуі мүмкін, бірақ мүмкіндіктерді ойлап табу қаупі бар.

Артефактілерді тексеру : Орегондарды, қайталанатын текстураларды, «дерлік әріптерді» және пластикалық беттерді бақылаңыз.

Бейне тұрақтылығы : Уақытша әдістерді қолданыңыз, әйтпесе кадрдан кадрға жылтырлық пен ауытқуды көресіз.

Жоғары тәуекелді пайдалану : Егер дәлдік маңызды болса, өңдеуді ашып, нәтижелерді иллюстрациялық ретінде қарастырыңыз.

Жасанды интеллектті кеңейту қалай жұмыс істейді? Инфографика.

Сіз мұны көрген шығарсыз: кішкентай, қытырлақ сурет басып шығаруға, ағынмен жіберуге немесе презентацияға қоюға болатындай айқын нәрсеге айналады, бұл алдау сияқты сезіледі. Ең жақсы жағынан алғанда, бұл 😅

Сонымен, жасанды интеллекттің масштабталуы қалай жұмыс істейді деген сұрақ «компьютер бөлшектерді жақсартады» (қолмен толқын тәрізді) және «модель көптеген мысалдардан үйренген үлгілерге негізделген жоғары ажыратымдылықтағы құрылымды болжайды» дегенге жақынырақ нақтырақ нәрсеге келіп тіреледі ( Deep Learning for Image Super-resolution: A Survey ). Бұл болжау қадамы - бұл бүкіл ойын - және сондықтан жасанды интеллекттің масштабталуы таңғажайып көрінуі мүмкін... немесе аздап пластикалық... немесе мысықтың өскен бонустық мұрты сияқты.

Осыдан кейін оқуға болатын мақалалар:

🔗 Жасанды интеллект қалай жұмыс істейді
Жасанды интеллекттегі модельдердің, деректердің және қорытындылардың негіздерін үйреніңіз.

🔗 Жасанды интеллект қалай үйренеді
Оқыту деректері мен кері байланыс уақыт өте келе модельдің өнімділігін қалай жақсартатынын қараңыз.

🔗 Жасанды интеллект аномалияларды қалай анықтайды
Үлгінің бастапқы нүктелерін және жасанды интеллекттің ерекше мінез-құлықты қалай тез белгілейтінін түсіну.

🔗 AI трендтерді қалай болжайды
Сигналдарды анықтайтын және болашақ сұранысты болжайтын болжау әдістерін зерттеңіз.

Жасанды интеллекттің (ЖИ) кеңейтілуі қалай жұмыс істейді: негізгі идея, күнделікті сөздермен 🧩

Масштабтау ажыратымдылықты арттыруды білдіреді: көбірек пиксельдер, үлкенірек кескін. Дәстүрлі масштабтау (бикубтық сияқты) негізінен пиксельдерді созады және ауысуларды тегістейді ( бикубтық интерполяция ). Бұл жақсы, бірақ ол жаңа бөлшектерді ойлап таба алмайды - ол тек интерполяциялайды.

Жасанды интеллекттің масштабталуы батылырақ нәрсені (зерттеу әлемінде «супер ажыратымдылық» деп те аталады) сынап көруде ( Кескіннің супер ажыратымдылығына арналған терең оқыту: сауалнама ):

Ол төмен ажыратымдылықтағы кірісті қарастырады
Өрнектерді таниды (жиектер, текстуралар, бет әлпеті, мәтіндік сызықтар, мата тоқу т.б.)
Жоғары ажыратымдылықтағы нұсқаның қандай болуы керек
Осы үлгілерге сәйкес келетін қосымша пиксельдік деректерді жасайды

«Шындықты мінсіз қалпына келтіру» емес, «өте сенімді болжам жасау» сияқты ( Deep Convolutional Networks (SRCNN) көмегімен кескінді супер ажыратымдылықпен өңдеу ). Егер бұл аздап күдікті болып көрінсе, сіз қателеспейсіз - бірақ оның соншалықты жақсы жұмыс істеуінің себебі де осында 😄.

Иә, бұл жасанды интеллектті арттыру негізінен бақыланатын галлюцинация екенін білдіреді... бірақ өнімді, пиксельге құрметпен.

Жасанды интеллектті жақсартудың жақсы нұсқасын не құрайды? ✅🛠️

Егер сіз жасанды интеллекттің (немесе алдын ала орнатылған параметрдің) жоғары деңгейін бағаласаңыз, ең маңыздысы мыналар:

Шамадан тыс пісірмей бөлшектерді қалпына келтіру
Жақсы масштабтау қытырлақ шу немесе жалған тесіктер емес, қытырлақтық пен құрылым қосады.
Жиектерді тәртіпке келтіру
Таза сызықтар таза болып қалады. Нашар үлгілер жиектерді дірілдетеді немесе гало өрнектер жасайды.
Текстура реализмі
Шаш бояу щеткасының сызығына, ал кірпіш қайталанатын өрнек мөріне айналмауы керек.
Шу мен қысуды басқару
Күнделікті көптеген суреттер JPEG форматында өліп қалады. Жақсы масштабтау құрылғысы бұл зақымды күшейтпейді ( Real-ESRGAN ).
Бет-әлпет пен мәтінді тану
Бет-әлпет пен мәтін қателерді анықтаудың ең оңай жолдары. Жақсы модельдер оларға ақырын қарайды (немесе арнайы режимдері бар).
Кадрлар арасындағы үйлесімділік (бейне үшін)
Егер кадрдан кадрға бөлшектер жыпылықтаса, көздеріңіз айқайлайды. Бейнені үлкейту уақытша тұрақтылық арқылы өмір сүреді немесе өледі ( BasicVSR (CVPR 2021) ).
Тиісті басқару элементтері
Сізге нақты нәтижелерге бағытталған сырғытпалар қажет: шуды азайту, бұлыңғырлықты кетіру, артефактіні жою, түйіршіктерді ұстап тұру, қайрау... практикалық нәрселер.

Тыныш ереже сақталады: «ең жақсы» кеңейту көбінесе сіз байқамайтын нәрсе. Тек бастапқыда сізде жақсырақ камера болған сияқты 📷✨

Салыстыру кестесі: танымал жасанды интеллектті кеңейту нұсқалары (және олардың не үшін пайдалы екендігі) 📊🙂

Төменде практикалық салыстыру келтірілген. Бағалар әдейі анық емес, себебі құралдар лицензияға, пакеттерге, есептеу шығындарына және басқа да қызықты нәрселерге байланысты өзгереді.

Құрал / тәсіл	Ең жақсысы	Баға атмосферасы	Неліктен ол жұмыс істейді (шамамен)
Topaz стиліндегі үстел үсті кеңейткіштері ( Topaz Photo , Topaz Video )	Фотосуреттер, бейне, оңай жұмыс	Ақылы	Күшті жалпы модельдер + көптеген баптаулар, көбінесе «тек жұмыс істейді»..
Adobe «Super Resolution» түріндегі мүмкіндіктер ( Adobe Enhance > Super Resolution )	Фотографтар сол экожүйеде қазірдің өзінде бар	Жазылым-y	Тұтас бөлшектерді қайта құру, әдетте консервативті (аз драмалық)
Real-ESRGAN / ESRGAN нұсқалары ( Real-ESRGAN , ESRGAN )	Өз қолыңмен жұмыс істеу, әзірлеушілер, топтық жұмыстар	Тегін (бірақ уақытты қажет етеді)	Текстурасын жақсы өңдейді, абай болмасаңыз, бетке ащы әсер етуі мүмкін
Диффузияға негізделген жоғарылату режимдері ( SR3 )	Шығармашылық жұмыс, стильдендірілген нәтижелер	Аралас	Керемет бөлшектер жасай алады - сонымен қатар мағынасыз нәрселерді ойлап таба алады, сондықтан... иә
Ойынның кеңейтілген нұсқалары (DLSS/FSR стилінде) ( NVIDIA DLSS , AMD FSR 2 )	Нақты уақыттағы ойындар және рендеринг	Жиынтықта	Қозғалыс деректерін және үйренген приоритеттерді пайдаланады - тегіс өнімділік жеңісі 🕹️
Бұлтты кеңейту қызметтері	Ыңғайлылық, жылдам жеңістер	Ақылы пайдалану	Жылдам + масштабталатын, бірақ сіз бақылауды және кейде нәзіктікті айырбастайсыз
Бейнеге бағытталған жасанды интеллекттің кеңейткіштері ( BasicVSR , Topaz Video )	Ескі кадрлар, аниме, мұрағат	Ақылы	Жыпылықтауды азайтудың уақытша амалдары + мамандандырылған бейне модельдері
«Ақылды» телефон/галереяны кеңейту	Кездейсоқ пайдалану	Қосылған	Жеңіл модельдер мінсіздікке емес, жағымды нәтижеге бағытталған (әлі де ыңғайлы)

Форматтаудағы ерекше мойындау: «Ақылы» сол кестеде көп жұмыс істейді. Бірақ сіз түсіндіңіз 😅

Үлкен құпия: модельдер төмен ажыратымдылықтан жоғары ажыратымдылыққа көшуді үйренеді 🧠➡️🖼️

Көптеген жасанды интеллектті арттырудың негізінде бақыланатын оқыту жүйесі жатыр ( Deep Convolutional Networks (SRCNN) арқылы кескінді супер ажыратымдылықпен ):

Жоғары ажыратымдылықтағы суреттерден бастаңыз («шындық»)
Оларды төмен ажыратымдылықтағы нұсқаларға («кіріс») кішірейтіңіз
Төмен ажыратымдылықтағыдан түпнұсқа жоғары ажыратымдылықты қалпына келтіру үшін модельді үйрету

Уақыт өте келе модель келесідей корреляцияларды үйренеді:

«Көз айналасындағы бұлыңғырлық әдетте кірпіктерге тән»
«Бұл пиксель кластері көбінесе serif мәтінін көрсетеді»
«Бұл шеткі градиент кездейсоқ шу емес, шатыр сызығына ұқсайды»

Бұл нақты кескіндерді жаттау емес (қарапайым мағынада), бұл статистикалық құрылымды үйрену ( Deep Learning for Image Super-resolution: A Survey ). Мұны текстуралар мен жиектердің грамматикасын үйрену сияқты елестетіңіз. Поэзия грамматикасына емес, IKEA нұсқаулық грамматикасы 🪑📦 (ебедейсіз метафора, бірақ жеткілікті жақын).

Гайкалар мен болттар: қорытынды жасау кезінде не болады (жоғары деңгейге жеткенде) ⚙️✨

Кескінді жасанды интеллекттің кеңейткішіне енгізген кезде, әдетте келесідей құбыр болады:

Алдын ала өңдеу
- Түс кеңістігін түрлендіру (кейде)
- Пиксель мәндерін қалыпқа келтіру
- Сурет үлкен болса, оны бөліктерге бөліңіз (VRAM шындықты тексеру 😭) ( Real-ESRGAN репозиторийі (плитка опциялары) )
Функцияны алу
- Ерте қабаттар шеттерін, бұрыштарын, градиенттерін анықтайды
- Терең қабаттар үлгілерді анықтайды: текстуралар, пішіндер, бет компоненттері
Қайта құру
- Модель жоғары ажыратымдылықтағы мүмкіндіктер картасын жасайды
- Содан кейін оны нақты пиксель шығысына түрлендіреді
Кейінгі өңдеу
- Қосымша қайрау
- Қосымша шуылсыздандыру
- Артефактіні басу (қоңырау, гало, блоктау) қосымша мүмкіндігі

Бір нәзік деталь: көптеген құралдар плиткаларды үлкейтеді, содан кейін жіктерді араластырады. Керемет құралдар плитка шекараларын жасырады. Егер сіз көзіңізді қыссаңыз, өте нәзік құралдар әлсіз тор іздерін қалдырады. Иә, сіз көзіңізді қысасыз, себебі адамдар кішкентай гремлиндер сияқты 300% масштабтаумен ұсақ кемшіліктерді тексеруді жақсы көреді 🧌

Жасанды интеллектті арттыру үшін қолданылатын негізгі модельдік отбасылар (және олардың неге басқаша сезінетіні) 🤖📚

1) CNN негізіндегі аса ажыратымдылық (классикалық жұмыс құралы)

Конволюциялық нейрондық желілер жергілікті үлгілерде өте жақсы: жиектер, текстуралар, шағын құрылымдар ( Deep Convolutional Networks (SRCNN) арқылы кескінді супер ажыратымдылықпен өңдеу ).

Артықшылықтары: жылдам, тұрақты, аз тосынсыйлар
Кемшіліктері: қатты басылса, аздап «өңделген» болып көрінуі мүмкін

2) GAN негізіндегі кеңейту (ESRGAN стилінде) 🎭

GAN (генеративті қарсылас желілер) генераторды дискриминатор нақты кескіндерден ажырата алмайтын жоғары ажыратымдылықтағы кескіндерді жасауға үйретеді ( генеративті қарсылас желілер ).

Артықшылықтары: айқын детальдар, әсерлі текстура
Кемшіліктері: болмаған бөлшектерді ойлап табуы мүмкін - кейде қате, кейде таңқаларлық ( SRGAN , ESRGAN )

GAN сізге таңғажайып айқындық бере алады. Сондай-ақ, портрет нысанына қосымша қас бере алады. Сонымен... шайқастарды таңдаңыз 😬

3) Диффузияға негізделген кеңейту (шығармашылық wildcard) 🌫️➡️🖼️

Диффузиялық модельдер шуды біртіндеп азайтады және жоғары ажыратымдылықтағы бөлшектерді шығаруға бағытталуы мүмкін ( SR3 ).

Артықшылықтары: әсіресе шығармашылық жұмыс үшін сенімді бөлшектерді жасауда өте жақсы болуы мүмкін
Кемшіліктері: егер параметрлер агрессивті болса, бастапқы сәйкестіктен/құрылымнан ауытқуы мүмкін ( SR3 )

Міне, осы жерде «жоғарылау» «қайта елестетуге» ұласады. Кейде сіз дәл осыны қалайсыз. Кейде олай емес.

4) Уақытша тұрақтылықпен бейнені кеңейту 🎞️

Бейнені үлкейту көбінесе қозғалысқа сезімтал логиканы қосады:

Бөлшектерді тұрақтандыру үшін көршілес кадрларды пайдаланады ( BasicVSR (CVPR 2021) )
Жыпылықтау және жорғалау артефактілерінен аулақ болуға тырысады
Көбінесе жоғары ажыратымдылықты шуды азайту және деинтерлейсингпен біріктіреді ( Topaz Video )

Егер кескіннің масштабын арттыру бір суретті қалпына келтірумен бірдей болса, бейненің масштабын арттыру кейіпкердің мұрнының әр беттегі пішінін өзгертпей, флипбукты қалпына келтірумен бірдей. Бұл... естілгеннен де қиынырақ.

Неліктен жасанды интеллекттің жоғарылауы кейде жалған болып көрінеді (және оны қалай анықтауға болады) 👀🚩

Жасанды интеллектті арттыру белгілі бір жолдармен сәтсіздікке ұшырайды. Үлгілерді үйренгеннен кейін, сіз оларды барлық жерде көресіз, мысалы, жаңа көлік сатып алып, кенеттен әр көшеде сол үлгіні байқайсыз 😵💫

Жалпы былай дейді:

Беттегі балауыз терісі
шамадан тыс үшкірленген галолар (классикалық «шамадан тыс» аумақ) ( Бикубтық интерполяция )
Қайталанатын текстуралар (кірпіш қабырғалар көшіру-қою үлгілеріне айналады)
«Алгоритм» деп айқайлайтын қытырлақ микроконтраст
Мәтінді бұрмалау, онда әріптер дерлік әріпке айналады (ең нашар түрі)
Әсіресе диффузиялық жұмыс процестерінде ұсақ ерекшеліктер аздап өзгеретін егжей-тегжейлі дрейф SR3 )

Қиын тұсы: кейде бұл артефактілер бір қарағанда «жақсырақ» көрінеді. Миыңыз өткірлікті ұнатады. Бірақ біраз уақыттан кейін ол... ыңғайсыз сезінеді.

Жақсы тактика - масштабты кішірейтіп, қалыпты көру қашықтығында табиғи көрінетінін тексеру. Егер ол тек 400% масштабта жақсы көрінсе, бұл жеңіс емес, бұл хобби 😅

Жасанды интеллекттің (ЖИ) кеңейтілуі қалай жұмыс істейді: математикалық бас ауруынсыз жаттығу жағы 📉🙂

Ажыратымдылығы жоғары модельдерді оқыту әдетте мыналарды қамтиды:

Жұпталған деректер жиынтықтары (төмен ажыратымдылықтағы кіріс, жоғары ажыратымдылықтағы нысана) ( Терең конволюциялық желілерді (SRCNN) пайдалану арқылы кескіннің аса ажыратымдылығы )
Дұрыс емес реконструкцияларды жазалайтын жоғалту функциялары SRGAN )

Типтік шығын түрлері:

Пиксельдің жоғалуы (L1/L2)
Дәлдікті арттырады. Нәтижелер сәл жұмсақ болуы мүмкін.
Қабылдау қабілетінің жоғалуы
дәл пиксельдерді емес, тереңірек ерекшеліктерді салыстырады (мысалы, «бұл ұқсас па » Perceptual Losses (Johnson et al., 2016) ).
Қарсыластың шығыны (GAN)
кейде тура дәлдіктің құнына байланысты реализмді ынталандырады ( SRGAN , генеративті қарсылас желілер ).

Тұрақты тартыс жүріп жатыр:

Оны түпнұсқаға
адал және қарсы
Оны көрнекі түрде жағымды

Әртүрлі құралдар сол спектрде әр түрлі орындарға түседі. Сіз отбасылық фотосуреттерді қалпына келтіріп жатқаныңызға немесе криминалистикалық дәлдіктен гөрі «әдемі» маңыздырақ болатын плакат дайындап жатқаныңызға байланысты біреуін таңдай аласыз.

Практикалық жұмыс процестері: фотосуреттер, ескі сканерленген суреттер, аниме және бейне 📸🧾🎥

Фотосуреттер (портреттер, пейзаждар, өнім суреттері)

Әдетте ең жақсы тәжірибе:

Алдымен аздап шуылсыздандырыңыз (қажет болса)
Консервативті параметрлері бар жоғары деңгейлі
Егер бәрі тым тегіс болса, дәнді қайта қосыңыз (иә, шынымен де)

Дән тұз сияқты. Тым көп болса, кешкі асты бұзады, бірақ ешқайсысы дәмін өзгертпейді 🍟

Ескі сканерленген файлдар және қатты сығылған кескіндер

Бұлар қиынырақ, себебі модель қысу блоктарын «текстура» ретінде қарастыруы мүмкін.
Мынаны қолданып көріңіз:

Артефактіні алып тастау немесе блоктан шығару
Содан кейін жоғары деңгейлі
Содан кейін жеңіл қайрау (тым көп емес... Білемін, бәрі солай дейді, бірақ сонда да)

Аниме және сызықтық өнер

Сызықтық өнер келесі артықшылықтарға ие:

Таза жиектерді сақтайтын модельдер
Текстураның төмендеуімен галлюцинация
Анименің масштабын арттыру көбінесе керемет көрінеді, себебі пішіндер қарапайым және тұрақты. (Бақыттымын.)

Бейне

Бейне қосымша қадамдарды көрсетеді:

Шуды азайту
Deinterlace (белгілі бір дереккөздер үшін)
Жоғары деңгейлі
Уақытша тегістеу немесе тұрақтандыру ( BasicVSR (CVPR 2021) )
Біріктіру үшін дәнді қайта енгізуді таңдау мүмкіндігі

Уақытша консистенцияны өткізіп жіберсеңіз, жылтыр бөлшектердің жыпылықтауын көресіз. Бір байқағаннан кейін, оны байқамай қаласыз. Тыныш бөлмедегі сықырлаған орындық сияқты 😖

Баптауларды кездейсоқ таңдамай таңдау (кішкентай шпаргалка) 🎛️😵💫

Міне, жақсы бастаушы ойлау тәсілі:

Егер беттер пластикалық көрінсе,
шуды азайтыңыз, қайрауды азайтыңыз, бетті сақтайтын модельді немесе режимді қолданып көріңіз.
Егер текстуралар тым қанық көрінсе.
«Егжей-тегжейлі жақсарту» немесе «егжей-тегжейлі қалпына келтіру» сырғытпаларын азайтып, кейін нәзік түйіршік қосыңыз.
Егер шеттері жарқырап тұрса,
қайрауды азайтыңыз, гало басу параметрлерін тексеріңіз.
Егер сурет тым «Жасанды интеллект» сияқты көрінсе,
консервативтірек болыңыз. Кейде ең жақсы қадам - жай ғана... азырақ.

Сонымен қатар: тек мүмкіндігіңіз бар деп 8 есе үлкейтпеңіз. Таза 2 немесе 4 есе үлкейту көбінесе ең жақсы нұсқа болып табылады. Одан басқа, сіз модельден пиксельдеріңіз туралы фанфик жазуды сұрайсыз 📖😂

Этика, шынайылық және «шындықтың» ыңғайсыз сұрағы 🧭😬

Жасанды интеллектті кеңейту сызықты бұлдыр етеді:

Қалпына келтіру дегеніміз - бұрын болған нәрсені қалпына келтіру
Жақсарту дегеніміз - жоқ нәрсені қосу

Жеке фотосуреттермен әдетте жақсы (және әдемі). Журналистикада, заңды дәлелдемелерде, медициналық бейнелеуде немесе шынайылық маңызды кез келген нәрседе... абай болу керек ( OSAC/NIST: Сот-медициналық цифрлық кескіндерді басқару бойынша стандартты нұсқаулық , Сот-медициналық кескіндерді талдау бойынша SWGDE нұсқаулықтары ).

Қарапайым ереже:

Егер тәуекел жоғары болса, жасанды интеллекттің кеңеюін түпкілікті емес, мысал

Сонымен қатар, кәсіби контексте ақпаратты ашу маңызды. Жасанды интеллект зиянды болғандықтан емес, аудитория мәліметтердің қалпына келтірілгенін немесе түсірілгенін білуге құқылы болғандықтан. Бұл жай ғана... құрмет.

Қорытынды жазбалар және қысқаша қорытынды 🧡✅

Сонымен, жасанды интеллекттің масштабталуы қалай жұмыс істейді : модельдер жоғары ажыратымдылықтағы бөлшектердің төмен ажыратымдылықтағы үлгілермен қалай байланысты екенін үйренеді, содан кейін масштабтау кезінде сенімді қосымша пикселдерді болжайды ( Кескіннің супер ажыратымдылығына арналған терең оқыту: сауалнама ). Модельдер тобына (CNN, GAN, диффузия, бейне-уақыт) байланысты бұл болжам консервативті және сенімді болуы мүмкін... немесе батыл және кейде негізсіз болуы мүмкін 😅

Қысқаша шолу

Дәстүрлі масштабтау пиксельдерді созады ( Бикубтық интерполяция )
Жасанды интеллекттің (ЖИ) масштабталуы үйренген үлгілерді пайдаланып, жетіспейтін бөлшектерді болжайды ( Deep Convolutional Networks (SRCNN) көмегімен кескіннің супер ажыратымдылығы )
Дұрыс модель + ұстамдылықтан керемет нәтижелер келеді
Бейнедегі галоларды, балауыз тәрізді беттерді, қайталанатын текстураларды және жыпылықтауды бақылаңыз ( BasicVSR (CVPR 2021) )
Жоғарылату көбінесе «сенімді қайта құру» болып табылады, бұл мінсіз шындық емес ( SRGAN , ESRGAN )

Қаласаңыз, нені үлкейтіп жатқаныңызды айтыңыз (бет-әлпет, ескі фотосуреттер, бейне, аниме, мәтіндік сканерлеу), сонда мен «AI көрінісі» сияқты жиі кездесетін қателіктерден аулақ болуға көмектесетін баптау стратегиясын ұсынамын 🎯🙂

Жиі қойылатын сұрақтар

Жасанды интеллектті кеңейту және оның қалай жұмыс істейтіні

Жасанды интеллектті жоғарылату (көбінесе «супер ажыратымдылық» деп аталады) жаттығу кезінде үйренген үлгілерден жоғары ажыратымдылықтағы бөлшектердің жетіспеуін болжау арқылы кескіннің ажыратымдылығын арттырады. Бикубтық интерполяция сияқты пиксельдерді жай ғана созудың орнына, модель жиектерді, текстураларды, беттерді және мәтін тәрізді сызықтарды зерттейді, содан кейін үйренген үлгілермен үйлесетін жаңа пиксельдік деректерді жасайды. Бұл «шындықты қалпына келтіру» емес, табиғи болып көрінетін «сенімді болжам жасау» болып табылады.

Жасанды интеллекттің масштабталуын екі кубты немесе дәстүрлі өлшемді өзгертумен салыстырғанда арттыру

Дәстүрлі масштабтау әдістері (мысалы, бикубикалық) негізінен бар пиксельдер арасында интерполяция жасайды, шынайы жаңа бөлшектерді жасамай, ауысуларды тегістейді. Жасанды интеллект масштабтау визуалды белгілерді тану және сол белгілердің жоғары ажыратымдылықтағы нұсқалары қандай болатынын болжау арқылы ықтимал құрылымды қалпына келтіруге бағытталған. Сондықтан жасанды интеллект нәтижелері айтарлықтай айқынырақ болып көрінуі мүмкін, сонымен қатар олар дереккөзде болмаған артефактілерді енгізе алады немесе бөлшектерді «ойлап табады».

Неліктен беттер балауыз тәрізді немесе тым тегіс көрінуі мүмкін

Балауыз тәрізді беттер әдетте шуды азайту және тегістеу арқылы табиғи терінің құрылымын кетіретін қайраумен бірге жасалады. Көптеген құралдар шуды және жұқа құрылымды бірдей өңдейді, сондықтан кескінді «тазалау» тері тесіктері мен нәзік бөлшектерді жоя алады. Жалпы тәсіл - шуды азайту және қайрау, егер мүмкін болса, бетті сақтау режимін пайдалану, содан кейін нәтиже аз пластикалық және фотографиялық көрінуі үшін аздап түйіршіктерді қайта енгізу.

Жасанды интеллекттің кең таралған масштабтау артефактілеріне назар аудару керек

Әдеттегі белгілерге жиектердегі гало, қайталанатын текстуралық үлгілер (мысалы, көшіру-қою кірпіштері), қытырлақ микроконтраст және «әріптерге дерлік» айналатын мәтін жатады. Диффузияға негізделген жұмыс процестерінде ұсақ ерекшеліктердің нәзік өзгеретін бөлшектердің ауытқуын да көруге болады. Бейне үшін жыпылықтау және кадрлардағы бөлшектердің жылжуы үлкен қауіп тудырады. Егер ол тек экстремалды масштабтау кезінде жақсы көрінсе, параметрлер тым агрессивті болуы мүмкін.

GAN, CNN және диффузиялық жоғары деңгейлі құрылғылардың нәтижелерде қалай ерекшеленетіні

CNN негізіндегі супер ажыратымдылық тұрақтырақ және болжамдырақ болады, бірақ қатты басылса, ол «өңделген» болып көрінуі мүмкін. GAN негізіндегі опциялар (ESRGAN стилі) көбінесе өткір текстураны және айқындықты тудырады, бірақ олар, әсіресе беттерде, дұрыс емес бөлшектерді елестетуі мүмкін. Диффузияға негізделген масштабтау әдемі, сенімді бөлшектерді жасай алады, бірақ егер бағыттау немесе күш параметрлері тым күшті болса, ол бастапқы құрылымнан ауытқуы мүмкін.

«Тым жасанды интеллект» көрінісінен аулақ болудың практикалық параметрлер стратегиясы

Консервативті түрде бастаңыз: экстремалды факторларға қол жеткізбес бұрын 2 немесе 4 есе жоғары масштабтаңыз. Егер беттер пластикалық болып көрінсе, шуылсыздық пен қайрауды азайтып, бетке назар аударатын режимді қолданып көріңіз. Егер текстуралар тым қарқынды болса, бөлшектерді жақсартуды азайтып, кейіннен нәзік түйіршіктерді қосуды қарастырыңыз. Егер жиектер жарқыраса, қайрауды азайтып, гало немесе артефакт басылуын тексеріңіз. Көптеген жобаларда «аз» ұтымды, себебі ол сенімді реализмді сақтайды.

Масштабты үлкейту алдында ескі сканерленген немесе қатты JPEG-сығымдалған кескіндерді өңдеу

Сығылған кескіндер қиын, себебі модельдер блок артефактілерін нақты текстура ретінде қарастырып, оларды күшейте алады. Әдеттегі жұмыс процесі - алдымен артефактіні алып тастау немесе блоктан шығару, содан кейін масштабты үлкейту, содан кейін қажет болған жағдайда ғана жарықты айқындау. Сканерлеу үшін ақырын тазалау модельге зақымға емес, нақты құрылымға назар аударуға көмектеседі. Мақсат - масштабтау құрылғысы шулы кірістерден сенімді болжамдар жасауға мәжбүр болмас үшін «жалған текстура белгілерін» азайту.

Неліктен бейнені үлкейту фотосуреттерді үлкейтуге қарағанда қиынырақ

Бейнені масштабтау тек бір кадрда ғана емес, кадрлар бойынша да біркелкі болуы керек. Егер бөлшектер кадрдан кадрға жыпылықтаса, нәтиже тез алаңдатады. Бейнеге бағытталған тәсілдер қайта құруды тұрақтандыру және жылтыр артефактілерді болдырмау үшін көршілес кадрлардан алынған уақытша ақпаратты пайдаланады. Көптеген жұмыс процестеріне шуылдың төмендеуі, белгілі бір көздер үшін деинтерлейсинг және дәндерді қайта енгізудің қосымша әдістері кіреді, осылайша бүкіл тізбек жасанды түрде өткір емес, үйлесімді сезіледі.

Жасанды интеллектті кеңейту орынсыз болғанда немесе оған сену қауіпті болғанда

Жасанды интеллекттің масштабталуын дәлелдеу ретінде емес, жақсарту ретінде қарастырған дұрыс. Журналистика, заңды дәлелдер, медициналық бейнелеу немесе сот-медициналық жұмыс сияқты маңызды жағдайларда «сенімді» пиксельдерді жасау адастыруы мүмкін, себебі ол түсірілмеген мәліметтерді қосуы мүмкін. Қауіпсіз кадрлау - оны иллюстрациялық түрде пайдалану және жасанды интеллект процесінің қайта құрылған мәліметтерін ашу. Егер дәлдік маңызды болса, түпнұсқаларды сақтаңыз және әрбір өңдеу қадамы мен параметрін құжаттаңыз.

Сілтемелер

arXiv - Кескінді жоғары ажыратымдылықта терең оқыту: сауалнама - arxiv.org
arXiv - Терең конволюциялық желілерді (SRCNN) пайдаланып кескінді аса жоғары ажыратымдылықта жасау - arxiv.org
arXiv - Real-ESRGAN - arxiv.org
arXiv - ESRGAN - arxiv.org
arXiv - SR3 - arxiv.org
NVIDIA әзірлеушісі - NVIDIA DLSS - developer.nvidia.com
AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com
Computer Vision Foundation (CVF) ашық қолжетімділік - BasicVSR: Бейненің супер ажыратымдылығындағы маңызды компоненттерді іздеу (CVPR 2021) - openaccess.thecvf.com
arXiv - Генеративтік қарсылас желілер - arxiv.org
arXiv - SRGAN - arxiv.org
arXiv - Қабылдаудағы шығындар (Джонсон және т.б., 2016) - arxiv.org
GitHub - Real-ESRGAN репозиторийі (плитка опциялары) - github.com
Уикипедия - Бикуб интерполяциясы - wikipedia.org
Topaz Labs - Topaz Photo - topazlabs.com
Topaz Labs - Topaz бейнесі - topazlabs.com
Adobe анықтама орталығы - Adobe Enhance > Super Resolution - helpx.adobe.com
NIST / OSAC - медициналық сандық кескіндерді басқаруға арналған стандартты нұсқаулық (1.0 нұсқасы) - nist.gov
SWGDE - Сот-медициналық бейнелерді талдау бойынша нұсқаулық - swgde.org

Ресми AI көмекші дүкенінен ең соңғы AI-ді табыңыз

Біз туралы

Блогқа оралу

Ел/аймақ