Жасанды интеллектті арттыру қалай жұмыс істейді

AI Upscaling қалай жұмыс істейді?

Қысқа жауап: Жасанды интеллекттің масштабталуы модельді төмен және жоғары ажыратымдылықтағы жұптасқан кескіндерге үйрету, содан кейін масштабтау кезінде сенімді қосымша пиксельдерді болжау үшін пайдалану арқылы жұмыс істейді. Егер модель жаттығу кезінде ұқсас текстураларды немесе беттерді көрген болса, ол сенімді бөлшектерді қоса алады; егер олай болмаса, ол бейнеде гало, балауыз тәрізді тері немесе жыпылықтау сияқты артефактілерді «галлюцинациялауы» мүмкін. 

Негізгі қорытындылар:

Болжам: Модель шындықтың кепілдендірілген қайта құрылуын емес, сенімді бөлшектерді жасайды.

Модельді таңдау: CNN-дер тұрақтырақ болуға бейім; GAN-дар айқынырақ көрінуі мүмкін, бірақ мүмкіндіктерді ойлап табу қаупі бар.

Артефактілерді тексеру: Орегондарды, қайталанатын текстураларды, «дерлік әріптерді» және пластикалық беттерді бақылаңыз.

Бейне тұрақтылығы: Уақытша әдістерді қолданыңыз, әйтпесе кадрдан кадрға жылтырлық пен ауытқуды көресіз.

Жоғары тәуекелді пайдалану: Егер дәлдік маңызды болса, өңдеуді ашып, нәтижелерді иллюстрациялық ретінде қарастырыңыз.

Жасанды интеллектті кеңейту қалай жұмыс істейді? Инфографика.

Сіз мұны көрген шығарсыз: кішкентай, қытырлақ сурет басып шығаруға, ағынмен жіберуге немесе презентацияға қоюға болатындай айқын нәрсеге айналады, бұл алдау сияқты сезіледі. Ең жақсы жағынан алғанда, бұл 😅

Сонымен, жасанды интеллекттің масштабталуы қалай жұмыс істейді деген сұрақ «компьютер бөлшектерді жақсартады» (қолмен толқын тәрізді) және «модель көптеген мысалдардан үйренген үлгілерге негізделген жоғары ажыратымдылықтағы құрылымды болжайды» дегенге жақынырақ нақтырақ нәрсеге келіп тіреледі (Deep Learning for Image Super-resolution: A Survey). Бұл болжау қадамы - бұл бүкіл ойын - және сондықтан жасанды интеллекттің масштабталуы таңғажайып көрінуі мүмкін... немесе аздап пластикалық... немесе мысықтың өскен бонустық мұрты сияқты.

Осыдан кейін оқуға болатын мақалалар:

🔗 Жасанды интеллект қалай жұмыс істейді
Жасанды интеллекттегі модельдердің, деректердің және қорытындылардың негіздерін үйреніңіз.

🔗 Жасанды интеллект қалай үйренеді
Оқыту деректері мен кері байланыс уақыт өте келе модельдің өнімділігін қалай жақсартатынын қараңыз.

🔗 Жасанды интеллект аномалияларды қалай анықтайды
Үлгінің бастапқы нүктелерін және жасанды интеллекттің ерекше мінез-құлықты қалай тез белгілейтінін түсіну.

🔗 AI трендтерді қалай болжайды
Сигналдарды анықтайтын және болашақ сұранысты болжайтын болжау әдістерін зерттеңіз.


Жасанды интеллекттің (ЖИ) кеңейтілуі қалай жұмыс істейді: негізгі идея, күнделікті сөздермен 🧩

Масштабтау ажыратымдылықты арттыруды білдіреді: көбірек пиксельдер, үлкенірек кескін. Дәстүрлі масштабтау (бикубтық сияқты) негізінен пиксельдерді созады және ауысуларды тегістейді (бикубтық интерполяция). Бұл жақсы, бірақ ол жаңа бөлшектерді ойлап таба алмайды - ол тек интерполяциялайды.

Жасанды интеллекттің масштабталуы батылырақ нәрсені (зерттеу әлемінде «супер ажыратымдылық» деп те аталады) сынап көруде (Кескіннің супер ажыратымдылығына арналған терең оқыту: сауалнама):

  • Ол төмен ажыратымдылықтағы кірісті қарастырады

  • Өрнектерді таниды (жиектер, текстуралар, бет әлпеті, мәтіндік сызықтар, мата тоқу т.б.)

  • Жоғары ажыратымдылықтағы нұсқаның қандай болуы керек екенін болжайды

  • Осы үлгілерге сәйкес келетін қосымша пиксельдік деректерді жасайды

«Шындықты мінсіз қалпына келтіру» емес, «өте сенімді болжам жасау» сияқты (Deep Convolutional Networks (SRCNN) көмегімен кескінді супер ажыратымдылықпен өңдеу). Егер бұл аздап күдікті болып көрінсе, сіз қателеспейсіз - бірақ оның соншалықты жақсы жұмыс істеуінің себебі де осында 😄.

Иә, бұл жасанды интеллектті арттыру негізінен бақыланатын галлюцинация екенін білдіреді... бірақ өнімді, пиксельге құрметпен.


Жасанды интеллектті жақсартудың жақсы нұсқасын не құрайды? ✅🛠️

Егер сіз жасанды интеллекттің (немесе алдын ала орнатылған параметрдің) жоғары деңгейін бағаласаңыз, ең маңыздысы мыналар:

  • Шамадан тыс пісірмей бөлшектерді қалпына келтіру
    Жақсы масштабтау қытырлақ шу немесе жалған тесіктер емес, қытырлақтық пен құрылым қосады.

  • Жиектерді тәртіпке келтіру
    Таза сызықтар таза болып қалады. Нашар үлгілер жиектерді дірілдетеді немесе гало өрнектер жасайды.

  • Текстура реализмі
    Шаш бояу щеткасының сызығына, ал кірпіш қайталанатын өрнек мөріне айналмауы керек.

  • Шу мен қысуды басқару
    Күнделікті көптеген суреттер JPEG форматында өліп қалады. Жақсы масштабтау құрылғысы бұл зақымды күшейтпейді (Real-ESRGAN).

  • Бет-әлпет пен мәтінді тану
    Бет-әлпет пен мәтін қателерді анықтаудың ең оңай жолдары. Жақсы модельдер оларға ақырын қарайды (немесе арнайы режимдері бар).

  • Кадрлар арасындағы үйлесімділік (бейне үшін)
    Егер кадрдан кадрға бөлшектер жыпылықтаса, көздеріңіз айқайлайды. Бейнені үлкейту уақытша тұрақтылық арқылы өмір сүреді немесе өледі (BasicVSR (CVPR 2021)).

  • Тиісті басқару элементтері
    Сізге нақты нәтижелерге бағытталған сырғытпалар қажет: шуды азайту, бұлыңғырлықты кетіру, артефактіні жою, түйіршіктерді ұстап тұру, қайрау... практикалық нәрселер.

Тыныш ереже сақталады: «ең жақсы» кеңейту көбінесе сіз байқамайтын нәрсе. Тек бастапқыда сізде жақсырақ камера болған сияқты 📷✨


Салыстыру кестесі: танымал жасанды интеллектті кеңейту нұсқалары (және олардың не үшін пайдалы екендігі) 📊🙂

Төменде практикалық салыстыру келтірілген. Бағалар әдейі анық емес, себебі құралдар лицензияға, пакеттерге, есептеу шығындарына және басқа да қызықты нәрселерге байланысты өзгереді.

Құрал / тәсіл Ең жақсысы Баға атмосферасы Неліктен ол жұмыс істейді (шамамен)
Topaz стиліндегі үстел үсті кеңейткіштері (Topaz Photo, Topaz Video) Фотосуреттер, бейне, оңай жұмыс Ақылы Күшті жалпы модельдер + көптеген баптаулар, көбінесе «тек жұмыс істейді»..
Adobe «Super Resolution» түріндегі мүмкіндіктер (Adobe Enhance > Super Resolution) Фотографтар сол экожүйеде қазірдің өзінде бар Жазылым-y Тұтас бөлшектерді қайта құру, әдетте консервативті (аз драмалық)
Real-ESRGAN / ESRGAN нұсқалары (Real-ESRGAN, ESRGAN) Өз қолыңмен жұмыс істеу, әзірлеушілер, топтық жұмыстар Тегін (бірақ уақытты қажет етеді) Текстурасын жақсы өңдейді, абай болмасаңыз, бетке ащы әсер етуі мүмкін
Диффузияға негізделген жоғарылату режимдері (SR3) Шығармашылық жұмыс, стильдендірілген нәтижелер Аралас Керемет бөлшектер жасай алады - сонымен қатар мағынасыз нәрселерді ойлап таба алады, сондықтан... иә
Ойынның кеңейтілген нұсқалары (DLSS/FSR стилінде) (NVIDIA DLSS, AMD FSR 2) Нақты уақыттағы ойындар және рендеринг Жиынтықта Қозғалыс деректерін және үйренген приоритеттерді пайдаланады - тегіс өнімділік жеңісі 🕹️
Бұлтты кеңейту қызметтері Ыңғайлылық, жылдам жеңістер Ақылы пайдалану Жылдам + масштабталатын, бірақ сіз бақылауды және кейде нәзіктікті айырбастайсыз
Бейнеге бағытталған жасанды интеллекттің кеңейткіштері (BasicVSR, Topaz Video) Ескі кадрлар, аниме, мұрағат Ақылы Жыпылықтауды азайтудың уақытша амалдары + мамандандырылған бейне модельдері
«Ақылды» телефон/галереяны кеңейту Кездейсоқ пайдалану Қосылған Жеңіл модельдер мінсіздікке емес, жағымды нәтижеге бағытталған (әлі де ыңғайлы)

Форматтаудағы ерекше мойындау: «Ақылы» сол кестеде көп жұмыс істейді. Бірақ сіз түсіндіңіз 😅


Үлкен құпия: модельдер төмен ажыратымдылықтан жоғары ажыратымдылыққа көшуді үйренеді 🧠➡️🖼️

Көптеген жасанды интеллектті арттырудың негізінде бақыланатын оқыту жүйесі жатыр (Deep Convolutional Networks (SRCNN) арқылы кескінді супер ажыратымдылықпен):

  1. Жоғары ажыратымдылықтағы суреттерден бастаңыз («шындық»)

  2. Оларды төмен ажыратымдылықтағы нұсқаларға («кіріс») кішірейтіңіз

  3. Төмен ажыратымдылықтағыдан түпнұсқа жоғары ажыратымдылықты қалпына келтіру үшін модельді үйрету

Уақыт өте келе модель келесідей корреляцияларды үйренеді:

  • «Көз айналасындағы бұлыңғырлық әдетте кірпіктерге тән»

  • «Бұл пиксель кластері көбінесе serif мәтінін көрсетеді»

  • «Бұл шеткі градиент кездейсоқ шу емес, шатыр сызығына ұқсайды»

Бұл нақты кескіндерді жаттау емес (қарапайым мағынада), бұл статистикалық құрылымды үйрену (Deep Learning for Image Super-resolution: A Survey). Мұны текстуралар мен жиектердің грамматикасын үйрену сияқты елестетіңіз. Поэзия грамматикасына емес, IKEA нұсқаулық грамматикасы 🪑📦 (ебедейсіз метафора, бірақ жеткілікті жақын).


Гайкалар мен болттар: қорытынды жасау кезінде не болады (жоғары деңгейге жеткенде) ⚙️✨

Кескінді жасанды интеллекттің кеңейткішіне енгізген кезде, әдетте келесідей құбыр болады:

  • Алдын ала өңдеу

  • Функцияны алу

    • Ерте қабаттар шеттерін, бұрыштарын, градиенттерін анықтайды

    • Терең қабаттар үлгілерді анықтайды: текстуралар, пішіндер, бет компоненттері

  • Қайта құру

    • Модель жоғары ажыратымдылықтағы мүмкіндіктер картасын жасайды

    • Содан кейін оны нақты пиксель шығысына түрлендіреді

  • Кейінгі өңдеу

    • Қосымша қайрау

    • Қосымша шуылсыздандыру

    • Артефактіні басу (қоңырау, гало, блоктау) қосымша мүмкіндігі

Бір нәзік деталь: көптеген құралдар плиткаларды үлкейтеді, содан кейін жіктерді араластырады. Керемет құралдар плитка шекараларын жасырады. Егер сіз көзіңізді қыссаңыз, өте нәзік құралдар әлсіз тор іздерін қалдырады. Иә, сіз көзіңізді қысасыз, себебі адамдар кішкентай гремлиндер сияқты 300% масштабтаумен ұсақ кемшіліктерді тексеруді жақсы көреді 🧌


Жасанды интеллектті арттыру үшін қолданылатын негізгі модельдік отбасылар (және олардың неге басқаша сезінетіні) 🤖📚

1) CNN негізіндегі аса ажыратымдылық (классикалық жұмыс құралы)

Конволюциялық нейрондық желілер жергілікті үлгілерде өте жақсы: жиектер, текстуралар, шағын құрылымдар (Deep Convolutional Networks (SRCNN) арқылы кескінді супер ажыратымдылықпен өңдеу).

  • Артықшылықтары: жылдам, тұрақты, аз тосынсыйлар

  • Кемшіліктері: қатты басылса, аздап «өңделген» болып көрінуі мүмкін

2) GAN негізіндегі кеңейту (ESRGAN стилінде) 🎭

GAN (генеративті қарсылас желілер) генераторды дискриминатор нақты кескіндерден ажырата алмайтын жоғары ажыратымдылықтағы кескіндерді жасауға үйретеді (генеративті қарсылас желілер).

  • Артықшылықтары: айқын детальдар, әсерлі текстура

  • Кемшіліктері: болмаған бөлшектерді ойлап табуы мүмкін - кейде қате, кейде таңқаларлық (SRGAN, ESRGAN)

GAN сізге таңғажайып айқындық бере алады. Сондай-ақ, портрет нысанына қосымша қас бере алады. Сонымен... шайқастарды таңдаңыз 😬

3) Диффузияға негізделген кеңейту (шығармашылық wildcard) 🌫️➡️🖼️

Диффузиялық модельдер шуды біртіндеп азайтады және жоғары ажыратымдылықтағы бөлшектерді шығаруға бағытталуы мүмкін (SR3).

  • Артықшылықтары: әсіресе шығармашылық жұмыс үшін сенімді бөлшектерді жасауда өте жақсы болуы мүмкін

  • Кемшіліктері: егер параметрлер агрессивті болса, бастапқы сәйкестіктен/құрылымнан ауытқуы мүмкін (SR3)

Міне, осы жерде «жоғарылау» «қайта елестетуге» ұласады. Кейде сіз дәл осыны қалайсыз. Кейде олай емес.

4) Уақытша тұрақтылықпен бейнені кеңейту 🎞️

Бейнені үлкейту көбінесе қозғалысқа сезімтал логиканы қосады:

  • Бөлшектерді тұрақтандыру үшін көршілес кадрларды пайдаланады (BasicVSR (CVPR 2021))

  • Жыпылықтау және жорғалау артефактілерінен аулақ болуға тырысады

  • Көбінесе жоғары ажыратымдылықты шуды азайту және деинтерлейсингпен біріктіреді (Topaz Video)

Егер кескіннің масштабын арттыру бір суретті қалпына келтірумен бірдей болса, бейненің масштабын арттыру кейіпкердің мұрнының әр беттегі пішінін өзгертпей, флипбукты қалпына келтірумен бірдей. Бұл... естілгеннен де қиынырақ.


Неліктен жасанды интеллекттің жоғарылауы кейде жалған болып көрінеді (және оны қалай анықтауға болады) 👀🚩

Жасанды интеллектті арттыру белгілі бір жолдармен сәтсіздікке ұшырайды. Үлгілерді үйренгеннен кейін, сіз оларды барлық жерде көресіз, мысалы, жаңа көлік сатып алып, кенеттен әр көшеде сол үлгіні байқайсыз 😵💫

Жалпы былай дейді:

  • Беттегі балауыз терісі (тым көп шу шығару + тегістеу)

  • шамадан тыс үшкірленген галолар (классикалық «шамадан тыс» аумақ) (Бикубтық интерполяция)

  • Қайталанатын текстуралар (кірпіш қабырғалар көшіру-қою үлгілеріне айналады)

  • «Алгоритм» деп айқайлайтын қытырлақ микроконтраст

  • Мәтінді бұрмалау, онда әріптер дерлік әріпке айналады (ең нашар түрі)

  • Әсіресе диффузиялық жұмыс процестерінде ұсақ ерекшеліктер аздап өзгеретін егжей-тегжейлі дрейф ( SR3 )

Қиын тұсы: кейде бұл артефактілер бір қарағанда «жақсырақ» көрінеді. Миыңыз өткірлікті ұнатады. Бірақ біраз уақыттан кейін ол... ыңғайсыз сезінеді.

Жақсы тактика - масштабты кішірейтіп, қалыпты көру қашықтығында табиғи көрінетінін тексеру. Егер ол тек 400% масштабта жақсы көрінсе, бұл жеңіс емес, бұл хобби 😅


Жасанды интеллекттің (ЖИ) кеңейтілуі қалай жұмыс істейді: математикалық бас ауруынсыз жаттығу жағы 📉🙂

Ажыратымдылығы жоғары модельдерді оқыту әдетте мыналарды қамтиды:

Типтік шығын түрлері:

  • Пиксельдің жоғалуы (L1/L2)
    Дәлдікті арттырады. Нәтижелер сәл жұмсақ болуы мүмкін.

  • Қабылдау қабілетінің жоғалуы дәл пиксельдерді емес, тереңірек ерекшеліктерді салыстырады (мысалы, «бұл ұқсас па » ) ( Perceptual Losses (Johnson et al., 2016) ).

  • Қарсыластың шығыны (GAN)
    кейде тура дәлдіктің құнына байланысты реализмді ынталандырады (SRGAN, генеративті қарсылас желілер).

Тұрақты тартыс жүріп жатыр:

  • Оны түпнұсқаға адал етіңіз және қарсы

  • Оны көрнекі түрде жағымды

Әртүрлі құралдар сол спектрде әр түрлі орындарға түседі. Сіз отбасылық фотосуреттерді қалпына келтіріп жатқаныңызға немесе криминалистикалық дәлдіктен гөрі «әдемі» маңыздырақ болатын плакат дайындап жатқаныңызға байланысты біреуін таңдай аласыз.


Практикалық жұмыс процестері: фотосуреттер, ескі сканерленген суреттер, аниме және бейне 📸🧾🎥

Фотосуреттер (портреттер, пейзаждар, өнім суреттері)

Әдетте ең жақсы тәжірибе:

  • Алдымен аздап шуылсыздандырыңыз (қажет болса)

  • Консервативті параметрлері бар жоғары деңгейлі

  • Егер бәрі тым тегіс болса, дәнді қайта қосыңыз (иә, шынымен де)

Дән тұз сияқты. Тым көп болса, кешкі асты бұзады, бірақ ешқайсысы дәмін өзгертпейді 🍟

Ескі сканерленген файлдар және қатты сығылған кескіндер

Бұлар қиынырақ, себебі модель қысу блоктарын «текстура» ретінде қарастыруы мүмкін.
Мынаны қолданып көріңіз:

  • Артефактіні алып тастау немесе блоктан шығару

  • Содан кейін жоғары деңгейлі

  • Содан кейін жеңіл қайрау (тым көп емес... Білемін, бәрі солай дейді, бірақ сонда да)

Аниме және сызықтық өнер

Сызықтық өнер келесі артықшылықтарға ие:

  • Таза жиектерді сақтайтын модельдер

  • Текстураның төмендеуімен галлюцинация
    Анименің масштабын арттыру көбінесе керемет көрінеді, себебі пішіндер қарапайым және тұрақты. (Бақыттымын.)

Бейне

Бейне қосымша қадамдарды көрсетеді:

  • Шуды азайту

  • Deinterlace (белгілі бір дереккөздер үшін)

  • Жоғары деңгейлі

  • Уақытша тегістеу немесе тұрақтандыру (BasicVSR (CVPR 2021))

  • Біріктіру үшін дәнді қайта енгізуді таңдау мүмкіндігі

Уақытша консистенцияны өткізіп жіберсеңіз, жылтыр бөлшектердің жыпылықтауын көресіз. Бір байқағаннан кейін, оны байқамай қаласыз. Тыныш бөлмедегі сықырлаған орындық сияқты 😖


Баптауларды кездейсоқ таңдамай таңдау (кішкентай шпаргалка) 🎛️😵💫

Міне, жақсы бастаушы ойлау тәсілі:

  • Егер беттер пластикалық көрінсе,
    шуды азайтыңыз, қайрауды азайтыңыз, бетті сақтайтын модельді немесе режимді қолданып көріңіз.

  • Егер текстуралар тым қанық көрінсе.
    «Егжей-тегжейлі жақсарту» немесе «егжей-тегжейлі қалпына келтіру» сырғытпаларын азайтып, кейін нәзік түйіршік қосыңыз.

  • Егер шеттері жарқырап тұрса,
    қайрауды азайтыңыз, гало басу параметрлерін тексеріңіз.

  • Егер сурет тым «Жасанды интеллект» сияқты көрінсе,
    консервативтірек болыңыз. Кейде ең жақсы қадам - ​​​​жай ғана... азырақ.

Сонымен қатар: тек мүмкіндігіңіз бар деп 8 есе үлкейтпеңіз. Таза 2 немесе 4 есе үлкейту көбінесе ең жақсы нұсқа болып табылады. Одан басқа, сіз модельден пиксельдеріңіз туралы фанфик жазуды сұрайсыз 📖😂


Этика, шынайылық және «шындықтың» ыңғайсыз сұрағы 🧭😬

Жасанды интеллектті кеңейту сызықты бұлдыр етеді:

  • Қалпына келтіру дегеніміз - бұрын болған нәрсені қалпына келтіру

  • Жақсарту дегеніміз - жоқ нәрсені қосу

Жеке фотосуреттермен әдетте жақсы (және әдемі). Журналистикада, заңды дәлелдемелерде, медициналық бейнелеуде немесе шынайылық маңызды кез келген нәрседе... абай болу керек (OSAC/NIST: Сот-медициналық цифрлық кескіндерді басқару бойынша стандартты нұсқаулық, Сот-медициналық кескіндерді талдау бойынша SWGDE нұсқаулықтары).

Қарапайым ереже:

  • Егер тәуекел жоғары болса, жасанды интеллекттің кеңеюін түпкілікті емес, мысал ретінде қарастырыңыз

Сонымен қатар, кәсіби контексте ақпаратты ашу маңызды. Жасанды интеллект зиянды болғандықтан емес, аудитория мәліметтердің қалпына келтірілгенін немесе түсірілгенін білуге ​​​​құқылы болғандықтан. Бұл жай ғана... құрмет.


Қорытынды жазбалар және қысқаша қорытынды 🧡✅

Сонымен, жасанды интеллекттің масштабталуы қалай жұмыс істейді : модельдер жоғары ажыратымдылықтағы бөлшектердің төмен ажыратымдылықтағы үлгілермен қалай байланысты екенін үйренеді, содан кейін масштабтау кезінде сенімді қосымша пикселдерді болжайды ( Кескіннің супер ажыратымдылығына арналған терең оқыту: сауалнама ). Модельдер тобына (CNN, GAN, диффузия, бейне-уақыт) байланысты бұл болжам консервативті және сенімді болуы мүмкін... немесе батыл және кейде негізсіз болуы мүмкін 😅

Қысқаша шолу

Қаласаңыз, нені үлкейтіп жатқаныңызды айтыңыз (бет-әлпет, ескі фотосуреттер, бейне, аниме, мәтіндік сканерлеу), сонда мен «AI көрінісі» сияқты жиі кездесетін қателіктерден аулақ болуға көмектесетін баптау стратегиясын ұсынамын 🎯🙂

Нақты мысал: Ескі базар өнімдерінің фотосуреттерін үлкейту 📸

Сценарий

Кішкентай пайдаланылған камералар дүкенінде ескі веб-сайттан экспортталған 40 өнім фотосуреті бар, оның ені 800 пиксель. Иесі оларды ұсынылған кескін өлшемі 1600 пиксель болатын жаңа электрондық коммерция бетінде қайта пайдаланғысы келеді.

Мәселе: қалыпты өлшемді өзгерту камераларды жұмсақ етіп көрсетеді, ал жасанды интеллектті агрессивті түрде үлкейту резеңке тұтқаларды, сериялық нөмірлерді және линза белгілерін күдікті түрде жалған етіп көрсетуі мүмкін. Бұл маңызды, себебі сатып алушылар сатып алмас бұрын осы мәліметтерге сүйенеді.

Мақсат - жоқ ақпаратты мінсіз «қалпына келтіру» емес. Бұл түпнұсқа файлдарды қолжетімді ете отырып, таза тізім суреттерін жасау, себебі жасанды интеллекттің масштабталуы кепілдендірілген шындықтың орнына сенімді мәліметтерді болжайды.

Жұмыс процесі не үшін қажет

Өнімнің түпнұсқа фотосуреттері, ең аз сығылған нұсқалары қолжетімді болғаны жөн

Мақсатты шығыс өлшемі, мысалы, 800 пиксельден 1600 пиксельге дейінгі 2 еселік кеңейтілген өлшем

Шуды азайту, қайрау және артефактілерді жоюға арналған бөлек басқару элементтері бар құрал немесе модель

Мәтін, жиектер, логотиптер, бұрандалар, түймелер, былғары талшықтар және шағылысулар үшін қарапайым шолу тізімі

Түпнұсқаларға арналған қалта және өңделген экспорттарға арналған бөлек қалта, сондықтан ештеңе қайта жазылмайды

Мысал нұсқаулығы

Жасанды интеллект күшейткішін сынақтан өткізген кезде осы нұсқаулықты пайдаланыңыз:

Электрондық коммерция тізімін жасау үшін осы өнім фотосуретін 2 есе үлкейтіңіз. Нысанның пішінін, логотиптің орналасуын, линза белгілерін, түйме жиектерін және бетінің құрылымын түпнұсқаға мүмкіндігінше жақын ұстаңыз. Аздап қысу тазалауын, аздап қайрауды қолданыңыз және қосымша мәтін, сызаттар, жапсырмалар, сериялық нөмірлер немесе сәндік бөлшектерді ойлап таппаңыз. Соңғы кескін қалыпты өнім бетінің өлшемінде табиғи көрінуі керек, 400% масштабтау кезінде жасанды түрде өткір емес.

Оны қалай тексеруге болады

Толық топтаманы өңдемес бұрын бес аралас кескіннен бастаңыз:

Жақсы жарықтандырылған бір таза өнім фотосуреті

Блок тәрізді бір JPEG-сығымдалған кескін

Ұсақ басылған мәтін немесе линза белгілері бар бір фотосурет

Көлеңкеде шуыл бар бір қараңғы сурет

Шағылысатын металл немесе әйнекпен бір сурет

Масштабты арттырғаннан кейін, әрбір нәтижені түпнұсқамен 100% және 200% салыстырыңыз. Бренд атауларының, циферблаттардың, бұрандалардың, порттардың және текстуралық үлгілердің әлі де сәйкес келетінін тексеріңіз. Егер модель «әріптерге дерлік» немесе жалған беткі белгілерді жасаса, өткірлеу немесе бөлшектерді қалпына келтіру параметрін төмендетіңіз.

Нәтиже

Көрнекі нәтиже: осы жұмыс процесін пайдаланбас бұрын және кейін бес суретті тестілеу уақытын есептеуге негізделген.

Қолмен тазалау және өлшемін өзгерту әр сурет үшін шамамен 9 минут немесе бес сурет үшін 45 минут уақыт алды.

Жасанды интеллект көмегімен жұмыс процесі әр суретке шамамен 3 минут немесе бес суретке 15 минут уақыт алды.

Бұл бес суретке шамамен 30 минут немесе 40 суреттен тұратын топтамаға шамамен 4 сағат үнемделген уақыт.

Сапаны тексеру нәтижесі: 5 суреттің 4-і бірінші шолудан өтті. Бір сурет сәтсіз аяқталды, себебі масштабтау құрылғысы кішкентай линза мәтінін бұрмалады, сондықтан ол төменгі анықтықпен және мәтінді жақсартусыз қайта өңделді.

Мұндағы құнды көрсеткіш тек «айқынырақ көрінеді» ғана емес, сонымен қатар: қанша сурет ойлап табылған бөлшектерсіз қатар шолудан өтеді?

Не дұрыс болмауы мүмкін

Модель шаңды, JPEG блоктарын немесе сызаттарды «шынайы» текстураға айналдыруы мүмкін.

Ұлғайтылғанша кішкентай мәтін сенімді болып көрінетін жалған мәтінге айналуы мүмкін.

Тым көп шуыл резеңке, былғары немесе қылқалам металды балауыз тәрізді етіп көрсетуі мүмкін.

Қатты қайрау өнімнің шеттерінің айналасында ореолдар жасауы мүмкін.

Топтық өңдеу қателерді жасыруы мүмкін, сондықтан барлығын экспорттамас бұрын үлгіні қарап шығыңыз.

Электрондық коммерция үшін ең қауіпсіз ереже қарапайым: ешқашан зиянды жасыру, жағдайды өзгерту немесе өнімді бұрынғыдан жаңа етіп көрсету үшін жасанды интеллекттің масштабтауын пайдаланбаңыз.

Практикалық қорытынды

Жасанды интеллектті жақсарту сиқырлы жөндеу түймесі емес, бақыланатын әрлеу қадамы ретінде қарастырған кезде жақсы жұмыс істейді. Консервативті 2× параметрлерін пайдаланыңыз, сатып алушылар қандай мәліметтерді ескеретінін тексеріңіз және өңделген нұсқасы сенімді болып қалуы үшін түпнұсқа кескінді сақтаңыз.

Нақты мысал: Ескі жаттығу бейнежазбасын жылтыратпай, оны үлкейту

Сценарий

Шағын оқыту компаниясы 2014 жылы 720p ажыратымдылығында жазылған 7 минуттық қауіпсіздік демонстрациялық бейнежазбасын ұсынды. Мазмұны әлі де құнды, бірақ кадрлар компанияның жаңа веб-сайтында, әсіресе үлкен ноутбук экрандарында, әлсіз көрінеді.

Команда қайта түсірмей, таза 1080p нұсқасын экспорттағысы келеді. Тәуекел мынада: агрессивті жасанды интеллект масштабтау бет-әлпетті балауыз тәрізді етіп көрсетуі, белгілердегі мәтінді «дерлік сөздерге» айналдыруы немесе кадрдан кадрға жыпылықтайтын текстура жасауы мүмкін.

Мақсат - бейнені мүлдем жаңа етіп көрсету емес. Ол нұсқаушының бет-әлпетін, ескерту белгілерін, қол қимылдарын және жабдықтың мәліметтерін түпнұсқаға сәйкес сақтай отырып, оны анық, тұрақты және аз қысылған ету.

Жұмыс процесі не үшін қажет

Мүмкін болса, әлеуметтік желілерден сығылған бейне файл емес, түпнұсқа бейне файл

4K-ға бірден секірудің орнына 720p-ден 1080p-ге дейінгі экспорт өлшемін мақсатты ету

Шуды азайту, айқындау, қысуды жөндеу және уақытша консистенция опциялары бар бейнені кеңейту құралы

Беттер, қозғалыс, мәтін және егжей-тегжейлі беттер көрсетілген қысқа сынақ бейнежазбасы

Жыпылықтау, ореолдар, бұрмаланған мәтін, бет құрылымы және қозғалатын жиектерді шолу тізімі

Қажет болған жағдайда салыстыру және ақпарат беру үшін түпнұсқа бейненің сақталған көшірмесі

Мысал нұсқаулығы

Толық бейнені өңдемес бұрын осы нұсқаулықты пайдаланыңыз:

Бұл 720p оқу бейнежазбасын 1080p дейін үлкейтіңіз. Табиғи қозғалысқа, тұрақты жиектерге, оқылатын мәтінге және шынайы тері құрылымына басымдық беріңіз. Жұмсақ қысу жөндеуін және төмен өткірлеуді пайдаланыңыз. Жоқ мәтінді, логотиптерді, жапсырмаларды, сызаттарды, бет бөлшектерін немесе жабдық белгілерін ойлап таппаңыз. Кадрдан кадрға жылтыратпаңыз. Соңғы нәтиже қалыпты көру өлшемінде анық көрінуі керек, кідіртілгенде және үлкейтілгенде жасанды өткір емес.

Оны қалай тексеруге болады

Толық 7 минуттық файлды өңдемес бұрын, мыналарды қамтитын 20 секундтық үлгіні экспорттаңыз:

Оқытушының сөйлеу кезіндегі бет-әлпеті

Кадрдың бойымен қозғалатын қол

Ескерту жапсырмасы немесе кішкентай басылған мәтін

Мата, бетон, қылқаламмен қапталған металл немесе пластик сияқты текстуралы бет

Камераның панорамасы немесе кез келген дірілдеген қозғалыс

Үлгіні екі рет көріңіз: бір рет қалыпты жылдамдықпен және бір рет кадр сайын кідіртілген күйде. Қалыпты жылдамдықта жыпылықтауды, жылжып бара жатқан текстураны немесе шеттердің айналасындағы табиғи емес қозғалысты іздеңіз. Кідіртілген кезде, мәтіннің, түймелердің, құралдардың және бет-әлпеттің әлі де сәйкес келетінін тексеру үшін түпнұсқа және жоғары деңгейлі нұсқаларды салыстырыңыз.

Нәтиже

Көрнекі нәтиже: 20 секундтық бір сынақ бейнероликтің уақытын есептеуге және содан кейін сол параметрлерді 7 минуттық бейнеге қолдануға негізделген.

Қолмен «өлшемін өзгерту және айқындау» жұмыс процесі экспорттау мен шолуды қоса алғанда шамамен 35 минутқа созылды, бірақ нәтиже нұсқаушының шашында көрінетін жылтырды және қауіпсіздік белгілерінің айналасында галоларды көрсетті.

Жасанды интеллект көмегімен жұмыс процесі сынақ экспорттарын қоса алғанда шамамен 55 минутқа созылды, бірақ шолу мәселелерін бірінші экспорттағы 8 көрінетін мәселеден соңғы экспорттағы 2 кішігірім мәселеге дейін азайтты.

Соңғы нұсқа шолу тізіміндегі 12 тексерудің 10-ынан өтті. Қалған екі мәселе фондық мәтіндегі аздап жұмсақтық және бір қараңғы бұрыштағы аздап шу болды. Екеуі де қабылданды, себебі нұсқаушы, жабдық және қауіпсіздік қадамдары визуалды түрде біркелкі болды.

Мұндағы маңызды көрсеткіш «1080p сапасына қол жеткізілді» емес. Бұл: бейненің қанша секундында қалыпты ойнату кезінде алаңдататын артефактілер көрсетіледі?

Не дұрыс болмауы мүмкін

Модель қысу блоктарын қайрап, оларды шынайы текстураға ұқсатуы мүмкін.

Ұсақ мәтін сенімдірек көрінуі мүмкін, бірақ дәлдігі төмен болуы мүмкін.

Шу деңгейі тым жоғары болса, беттер тым тегіс болып кетуі мүмкін.

Құрал әрбір кадрды тым бөлек өңдесе, қозғалатын жиектер жылтырлауы мүмкін.

4K экспорты шектеулі 1080p экспортына қарағанда нашар көрінуі мүмкін, себебі модель тым көп бөлшектерді ойлап табуға мәжбүр.

Ең үлкен қателік - тек кідіртілген кадрды бағалау. Бейнені масштабтау тек қозғалмайтын сурет ретінде әсерлі емес, қозғалыс кезінде табиғи көрінуі керек.

Практикалық қорытынды

Бейне үшін жасанды интеллекттің масштабталуы алдымен қысқа бөлікті сынап көргенде, масштабты орташа деңгейде ұстап, айқындықты бағалаған кезде жақсы жұмыс істейді. Әдетте, сәл жұмсақ, бірақ тұрақты нәтиже біреу қозғалған сайын жыпылықтайтын анық нұсқаға қарағанда жақсырақ болады.


Жиі қойылатын сұрақтар

Жасанды интеллектті кеңейту және оның қалай жұмыс істейтіні

Жасанды интеллектті жоғарылату (көбінесе «супер ажыратымдылық» деп аталады) жаттығу кезінде үйренген үлгілерден жоғары ажыратымдылықтағы бөлшектердің жетіспеуін болжау арқылы кескіннің ажыратымдылығын арттырады. Бикубтық интерполяция сияқты пиксельдерді жай ғана созудың орнына, модель жиектерді, текстураларды, беттерді және мәтін тәрізді сызықтарды зерттейді, содан кейін үйренген үлгілермен үйлесетін жаңа пиксельдік деректерді жасайды. Бұл «шындықты қалпына келтіру» емес, табиғи болып көрінетін «сенімді болжам жасау» болып табылады.

Жасанды интеллекттің масштабталуын екі кубты немесе дәстүрлі өлшемді өзгертумен салыстырғанда арттыру

Дәстүрлі масштабтау әдістері (мысалы, бикубикалық) негізінен бар пиксельдер арасында интерполяция жасайды, шынайы жаңа бөлшектерді жасамай, ауысуларды тегістейді. Жасанды интеллект масштабтау визуалды белгілерді тану және сол белгілердің жоғары ажыратымдылықтағы нұсқалары қандай болатынын болжау арқылы ықтимал құрылымды қалпына келтіруге бағытталған. Сондықтан жасанды интеллект нәтижелері айтарлықтай айқынырақ болып көрінуі мүмкін, сонымен қатар олар дереккөзде болмаған артефактілерді енгізе алады немесе бөлшектерді «ойлап табады».

Неліктен беттер балауыз тәрізді немесе тым тегіс көрінуі мүмкін

Балауыз тәрізді беттер әдетте шуды азайту және тегістеу арқылы табиғи терінің құрылымын кетіретін қайраумен бірге жасалады. Көптеген құралдар шуды және жұқа құрылымды бірдей өңдейді, сондықтан кескінді «тазалау» тері тесіктері мен нәзік бөлшектерді жоя алады. Жалпы тәсіл - шуды азайту және қайрау, егер мүмкін болса, бетті сақтау режимін пайдалану, содан кейін нәтиже аз пластикалық және фотографиялық көрінуі үшін аздап түйіршіктерді қайта енгізу.

Жасанды интеллекттің кең таралған масштабтау артефактілеріне назар аудару керек

Әдеттегі белгілерге жиектердегі гало, қайталанатын текстуралық үлгілер (мысалы, көшіру-қою кірпіштері), қытырлақ микроконтраст және «әріптерге дерлік» айналатын мәтін жатады. Диффузияға негізделген жұмыс процестерінде ұсақ ерекшеліктердің нәзік өзгеретін бөлшектердің ауытқуын да көруге болады. Бейне үшін жыпылықтау және кадрлардағы бөлшектердің жылжуы үлкен қауіп тудырады. Егер ол тек экстремалды масштабтау кезінде жақсы көрінсе, параметрлер тым агрессивті болуы мүмкін.

GAN, CNN және диффузиялық жоғары деңгейлі құрылғылардың нәтижелерде қалай ерекшеленетіні

CNN негізіндегі супер ажыратымдылық тұрақтырақ және болжамдырақ болады, бірақ қатты басылса, ол «өңделген» болып көрінуі мүмкін. GAN негізіндегі опциялар (ESRGAN стилі) көбінесе өткір текстураны және айқындықты тудырады, бірақ олар, әсіресе беттерде, дұрыс емес бөлшектерді елестетуі мүмкін. Диффузияға негізделген масштабтау әдемі, сенімді бөлшектерді жасай алады, бірақ егер бағыттау немесе күш параметрлері тым күшті болса, ол бастапқы құрылымнан ауытқуы мүмкін.

«Тым жасанды интеллект» көрінісінен аулақ болудың практикалық параметрлер стратегиясы

Консервативті түрде бастаңыз: экстремалды факторларға қол жеткізбес бұрын 2 немесе 4 есе жоғары масштабтаңыз. Егер беттер пластикалық болып көрінсе, шуылсыздық пен қайрауды азайтып, бетке назар аударатын режимді қолданып көріңіз. Егер текстуралар тым қарқынды болса, бөлшектерді жақсартуды азайтып, кейіннен нәзік түйіршіктерді қосуды қарастырыңыз. Егер жиектер жарқыраса, қайрауды азайтып, гало немесе артефакт басылуын тексеріңіз. Көптеген жобаларда «аз» ұтымды, себебі ол сенімді реализмді сақтайды.

Масштабты үлкейту алдында ескі сканерленген немесе қатты JPEG-сығымдалған кескіндерді өңдеу

Сығылған кескіндер қиын, себебі модельдер блок артефактілерін нақты текстура ретінде қарастырып, оларды күшейте алады. Әдеттегі жұмыс процесі - алдымен артефактіні алып тастау немесе блоктан шығару, содан кейін масштабты үлкейту, содан кейін қажет болған жағдайда ғана жарықты айқындау. Сканерлеу үшін ақырын тазалау модельге зақымға емес, нақты құрылымға назар аударуға көмектеседі. Мақсат - масштабтау құрылғысы шулы кірістерден сенімді болжамдар жасауға мәжбүр болмас үшін «жалған текстура белгілерін» азайту.

Неліктен бейнені үлкейту фотосуреттерді үлкейтуге қарағанда қиынырақ

Бейнені масштабтау тек бір кадрда ғана емес, кадрлар бойынша да біркелкі болуы керек. Егер бөлшектер кадрдан кадрға жыпылықтаса, нәтиже тез алаңдатады. Бейнеге бағытталған тәсілдер қайта құруды тұрақтандыру және жылтыр артефактілерді болдырмау үшін көршілес кадрлардан алынған уақытша ақпаратты пайдаланады. Көптеген жұмыс процестеріне шуылдың төмендеуі, белгілі бір көздер үшін деинтерлейсинг және дәндерді қайта енгізудің қосымша әдістері кіреді, осылайша бүкіл тізбек жасанды түрде өткір емес, үйлесімді сезіледі.

Жасанды интеллектті кеңейту орынсыз болғанда немесе оған сену қауіпті болғанда

Жасанды интеллекттің масштабталуын дәлелдеу ретінде емес, жақсарту ретінде қарастырған дұрыс. Журналистика, заңды дәлелдер, медициналық бейнелеу немесе сот-медициналық жұмыс сияқты маңызды жағдайларда «сенімді» пиксельдерді жасау адастыруы мүмкін, себебі ол түсірілмеген мәліметтерді қосуы мүмкін. Қауіпсіз кадрлау - оны иллюстрациялық түрде пайдалану және жасанды интеллект процесінің қайта құрылған мәліметтерін ашу. Егер дәлдік маңызды болса, түпнұсқаларды сақтаңыз және әрбір өңдеу қадамы мен параметрін құжаттаңыз.

Сілтемелер

  1. arXiv - Кескінді жоғары ажыратымдылықта терең оқыту: сауалнама - arxiv.org

  2. arXiv - Терең конволюциялық желілерді (SRCNN) пайдаланып кескінді аса жоғары ажыратымдылықта жасау - arxiv.org

  3. arXiv - Real-ESRGAN - arxiv.org

  4. arXiv - ESRGAN - arxiv.org

  5. arXiv - SR3 - arxiv.org

  6. NVIDIA әзірлеушісі - NVIDIA DLSS - developer.nvidia.com

  7. AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com

  8. Computer Vision Foundation (CVF) ашық қолжетімділік - BasicVSR: Бейненің супер ажыратымдылығындағы маңызды компоненттерді іздеу (CVPR 2021) - openaccess.thecvf.com

  9. arXiv - Генеративтік қарсылас желілер - arxiv.org

  10. arXiv - SRGAN - arxiv.org

  11. arXiv - Қабылдаудағы шығындар (Джонсон және т.б., 2016) - arxiv.org

  12. GitHub - Real-ESRGAN репозиторийі (плитка опциялары) - github.com

  13. Уикипедия - Бикуб интерполяциясы - wikipedia.org

  14. Topaz Labs - Topaz Photo - topazlabs.com

  15. Topaz Labs - Topaz бейнесі - topazlabs.com

  16. Adobe анықтама орталығы - Adobe Enhance > Super Resolution - helpx.adobe.com

  17. NIST / OSAC - медициналық сандық кескіндерді басқаруға арналған стандартты нұсқаулық (1.0 нұсқасы) - nist.gov

  18. SWGDE - Сот-медициналық бейнелерді талдау бойынша нұсқаулық - swgde.org

Ресми AI көмекші дүкенінен ең соңғы AI-ді табыңыз

Біз туралы

Блогқа оралу

Қосымша жиі қойылатын сұрақтар

  • Жасанды интеллектті кеңейту дәстүрлі өлшемді өзгерту әдістерінен қалай ерекшеленеді?

    Жасанды интеллекттің масштабталуы суреттегі бар үлгілерден жоғары ажыратымдылықтағы бөлшектердің жоғалуын болжайды, бұл бикубикалық интерполяция сияқты дәстүрлі әдістер сияқты пиксельдерді созудың орнына жүзеге асырылады. Бұл кескіндердің айқынырақ және егжей-тегжейлі болуына әкеледі.

  • Жасанды интеллектті арттыруды пайдаланған кезде қандай жиі кездесетін артефактілерге назар аударуым керек?

    Жиі кездесетін артефактілерге жиектердегі галолар, қайталанатын текстуралық өрнектер, тым тегіс немесе балауыз тәрізді беттер және «әріптерге дерлік» айналатын мәтін жатады. Табиғи көрінетін нәтижені қамтамасыз ету үшін осы мәселелерді бақылау маңызды.

  • Неліктен масштабтаудан кейін беттер кейде тым тегіс немесе шындыққа жанаспайтын болып көрінеді?

    Беттер тесіктер сияқты текстураларды кетіретін агрессивті шуды азайту және қайрау салдарынан тым тегіс көрінуі мүмкін. Табиғи көрініске қол жеткізу үшін шуды азайту және қайрау параметрлерін азайтуды қарастырыңыз.

  • Жасанды интеллектті үлкейтуді қолданғаннан кейін суреттерім қытырлақ болып көрінсе немесе шамадан тыс шуыл шықса, не істеуім керек?

    Егер суреттеріңіз қытырлақ болып көрінсе, шу деңгейін төмендету және бөлшектерді жақсарту сырғытпаларын реттеп көріңіз. Нәзік түйіршікті қосу фотографиялық сезімді қалпына келтіруге де көмектесуі мүмкін.

  • GAN және CNN модельдері жасанды интеллектті арттыру нәтижелерінде қалай салыстырылады?

    CNN модельдері, әдетте, тұрақты және болжамды, ал GAN модельдері көбінесе айқынырақ мәліметтерді ұсынады, бірақ шындыққа жанаспайтын элементтерді енгізу қаупін тудырады. Олардың арасынан таңдау сіздің реализмге деген қажеттілігіңізге немесе жақсартылған текстураға байланысты.

  • Бейне контент үшін жасанды интеллектті кеңейту қолайлы ма және ол қандай қиындықтар туғызады?

    Иә, жасанды интеллектті кеңейту бейне үшін жарамды, бірақ кадрлардың біркелкілігі өте маңызды болғандықтан, бұл қиын болуы мүмкін. Жыпылықтау немесе жылтыр бөлшектер көрермендердің назарын аударуы мүмкін, сондықтан бейнеге бағытталған арнайы әдістер ұсынылады.

  • Жасанды интеллекттің (ЖИ) кеңейтілуіне қашан сену орынсыз?

    Жасанды интеллектті кеңейтуді журналистика немесе сот-медициналық талдау сияқты жоғары тәуекелді жағдайларда сақтықпен қолдану керек, мұнда дәлдік маңызды. Оны нақты дәлел ретінде емес, жақсарту ретінде қарастырған дұрыс, ал жасанды интеллект процестерінің ашықтығы өте маңызды.

  • Қатты сығылған кескіндерді масштабтау кезінде қандай факторларды ескеруім керек?

    Қатты сығылған кескіндер үшін қажетсіз бітелуді азайту үшін артефактіні жоюдан бастаңыз. Осыдан кейін, қажет болған жағдайда сығымдау артефактілерін күшейтпей, бөлшектерді сақтау үшін масштабты үлкейтіп, жарықты айқындауды қолдануға болады.