Жасанды интеллект ақпаратты қайдан алады?

Басыңызды қасып отырып,... бұл қайдан шыққан деп ойлаған кезіңіз болды ма? Айтайын дегенім, жасанды интеллект шаң басқан кітапхана жинақтарын ақтарып немесе YouTube қысқаметражды бейнелерін жасырын түрде көріп отырған жоқ. Дегенмен, ол лазаньяның құпияларынан бастап қара құрдым физикасына дейінгі барлық нәрсеге жауап табады, мысалы, ішінде түпсіз файл шкафы бар сияқты. Шындық одан да таңқаларлық және сіз ойлағаннан да қызықтырақ болуы мүмкін. Оны аздап ашып көрейік (иә, мүмкін, жол бойында бірнеше мифті жоққа шығарармыз).

Сиқыр ма? 🌐

Бұл сиқыр емес, дегенмен кейде солай сезіледі. Астында не болып жатқаны негізінен үлгіні болжау. Үлкен тілдік модельдер (ТТМ) фактілерді миыңыз әжеңіздің печенье рецептін ұстағандай сақтамайды; оның орнына олар алдыңғы сөзге сүйене отырып, келесі сөзді (белгіні) болжауға үйретілген [2]. Іс жүзінде бұл олардың қарым-қатынастарға жабысатынын білдіреді: қандай сөздер бір-біріне ілінеді, сөйлемдер әдетте қалай қалыптасады, тұтас идеялар қалай құрылыс сияқты құрылады. Сондықтан нәтиже естіледі , тіпті толық шыншылдық болса да, бұл түсіну емес, статистикалық мимика [4].

Сонымен, жасанды интеллект жасаған ақпаратты не пайдалы? Бірнеше нәрсе:

Деректердің әртүрлілігі - бір тар ағымнан емес, сансыз дереккөздерден ақпарат алу.
Жаңартулар - жаңарту циклдарынсыз ол тез ескіреді.
Сүзу - қоқысты ішке кіргізбес бұрын ұстап алу (шынымды айтсам, торда тесіктер бар).
Айқаспалы тексеру – көптеген жасанды интеллектті басқару бойынша нұсқаулықтарда міндетті түрде болуы керек [3].

Соған қарамастан, кейде ол сенімді түрде ойдан шығарады. Сол галлюцинациялар деп аталады ма ? Негізінен, бет-әлпетпен айтылған жылтыратылған сандырақ [2][3].

Осыдан кейін оқуға болатын мақалалар:

🔗 Жасанды интеллект лотерея сандарын болжай ала ма?
Жасанды интеллект лотереясының болжамдары туралы мифтер мен фактілерді зерттеу.

🔗 Жасанды интеллектке кешенді көзқараспен қарау нені білдіреді?
Этика мен әсерге қатысты теңгерімді көзқарастармен жасанды интеллектті түсіну.

🔗 Киелі кітапта жасанды интеллект туралы не айтылған
Технология мен адамның жаратылуына қатысты Киелі кітаптағы көзқарастарды зерттеу.

Жылдам салыстыру: Жасанды интеллект қайдан пайда болады 📊

Әрбір дереккөз бірдей емес, бірақ әрқайсысы өз рөлін атқарады. Міне, қысқаша шолу.

Дереккөз түрі	Оны кім пайдаланады (AI)	Құны/құны	Неліктен ол жұмыс істейді (немесе жұмыс істемейді...)
Кітаптар мен мақалалар	Үлкен тілдік модельдер	Баға жетпес (иә)	Тығыз, құрылымдалған білім - тез ескіреді.
Веб-сайттар мен блогтар	Барлық дерлік жасанды интеллект	Тегін (шумен)	Жабайы әртүрлілік; жарқырау мен абсолютті қоқысты араластыру.
Академиялық мақалалар	Зерттеуге көп көңіл бөлетін жасанды интеллект	Кейде ақылы қабырғамен жабылған	Қатаңдық + сенімділік, бірақ ауыр жаргонмен айтылған.
Пайдаланушы деректері	Жекелендірілген жасанды интеллект	Өте сезімтал ⚠️	Тігін тігу өткір, бірақ құпиялылыққа қатысты көптеген мәселелер бар.
Нақты уақыттағы веб	Іздеуге байланысты жасанды интеллект	Тегін (онлайн режимінде болса)	Ақпаратты жаңартып отырады; кемшілігі - қауесеттердің көбею қаупі.

Оқыту деректері әлемі 🌌

Бұл «балалық шақтағы оқу» кезеңі. Балаға бірден миллиондаған ертегі кітаптарын, жаңалықтар үзінділерін және Уикипедияның «қоян тесіктерін» таратып жатқаныңызды елестетіп көріңізші. Алдын ала дайындық осылай көрінеді. Нақты өмірде провайдерлер жалпыға қолжетімді деректерді, лицензияланған дереккөздерді және жаттықтырушы жасаған мәтінді біріктіреді [2].

Жоғарыдан қабатталған: күшейту басталмай тұрып, адами мысалдар - жақсы жауаптар, жаман жауаптар, дұрыс бағытқа түрткілеу [1].

Ашықтық туралы ескерту: компаниялар барлық мәліметтерді жария етпейді. Кейбір қоршаулар құпия болып табылады (зияткерлік меншік, қауіпсіздік мәселелері), сондықтан сіз нақты араласуды тек ішінара көре аласыз [2].

Нақты уақыттағы іздеу: Қосымша үстіңгі қабат 🍒

Кейбір модельдер енді жаттығу көпіршігінен тыс қарай алады. Бұл қалпына келтіру арқылы кеңейтілген генерация (RAG) -негізінен тікелей эфирдегі индекстен немесе құжат дүкенінен бөліктерді алып, содан кейін оны жауапқа біріктіру [5]. Жаңалықтар тақырыптары немесе акция бағалары сияқты тез өзгеретін нәрселер үшін өте қолайлы.

Соның салдары қандай? Интернет – данышпандық пен қоқыс отының тең бөлігі. Егер сүзгілер немесе шығу тегін тексеру әлсіз болса, сіз зиянды деректердің қауіп-қатер жүйелері ескерткендей [3] қайта оралу қаупін тудырасыз.

Жалпы шешім: компаниялар модельдерді өздерінің ішкі дерекқорларына қосады, сондықтан жауаптар ағымдағы HR саясатына немесе жаңартылған өнім құжатына сілтеме жасайды, оны қайталаудың орнына. Ойланыңыз: «ух-ох» деген сәттер аз, сенімді жауаптар көп.

Нақты баптау: жасанды интеллекттің жылтырату қадамы 🧪

Алдын ала дайындалған шикі модельдер ебедейсіз. Сондықтан олар дәл бапталады:

Оларды көмекшіл, зиянсыз, адал болуға үйрету (адамдардың кері байланысынан алынған күшейту арқылы, RLHF) [1].
Қауіпсіз емес немесе улы жиектерді тегістеу (туралау) [1].
Достық, ресми немесе ойнақы сарказмдық болсын, тонды реттеу.

Бұл гауһарды жылтырату емес, статистикалық көшкінді әңгімелесушінің рөлін атқаруға мәжбүрлеу.

Сәтсіздіктер мен қиындықтар 🚧

Оның мінсіз екеніне көз жеткізбейік:

Галлюцинациялар – мүлдем қате жауаптар [2][3].
Қателік - деректерге енгізілген үлгілерді бейнелейді; егер белгіленбесе, оларды тіпті күшейте алады [3][4].
Жеке тәжірибем жоқ - айтуға , бірақ ешқашан дәмін татып көрмегенмін [4].
Шамадан тыс сенімділік – проза білмейтін кезде де білгендей ағып кетеді. Тәуекел шеңберлері болжамдарды белгілеуге баса назар аударады [3].

Неліктен білгендей сезім 🧠

Оның сенімі де, адами мағынадағы естелігі де, әрине, өзі де жоқ. Дегенмен, сөйлемдерді біркелкі байланыстыратындықтан, миыңыз оны түсінгендей оқиды .Болып жатқан нәрсе - тек ауқымды келесі таңбалау болжамы: бірнеше секунд ішінде триллиондаған ықтималдықтарды талдау [2].

«Интеллект» сипаты – бұл пайда болатын мінез-құлық, зерттеушілер оны, аздап әзілдеп айтқанда, «стохастикалық тотықұс» әсері деп атайды [4].

Балаларға арналған ұқсастық 🎨

Кітапханадағы барлық кітапты оқып шыққан тотықұсты елестетіп көріңізші. Ол түсінбейді , бірақ сөздерді даналыққа айналдыра алады. Кейде бұл өте орынды; кейде мағынасыз - бірақ жеткілікті шеберлікпен сіз әрқашан айырмашылықты ажырата алмайсыз.

Қорытынды: Жасанды интеллект туралы ақпарат қайдан келеді 📌

Қарапайым тілмен айтқанда:

Оқыту туралы жаппай деректер (жарияланған + лицензияланған + жаттықтырушы жасаған) [2].
Пішіннің тонусын/мінез-құлқын анықтау үшін адамның кері байланысымен дәл баптау [1]
Тікелей деректер ағындарына қосылған кездегі қалпына келтіру жүйелері [5]

Жасанды интеллект ештеңені «білмейді» - ол мәтінді болжайды. Бұл оның супер күші де, Ахиллестің өкшесі де. Түйіндей ме? Маңызды нәрселерді әрқашан сенімді дереккөзбен салыстырыңыз [3].

Сілтемелер

Ouyang, L. және т.б. (2022). Тілдік модельдерді адамдардың кері байланысымен нұсқауларды орындауға үйрету (InstructGPT). arXiv.
OpenAI (2023). GPT-4 техникалық есебі - лицензияланған, жалпыға қолжетімді және адам жасаған деректердің қоспасы; келесі таңбалауыш болжамының мақсаты мен шектеулері. arXiv.
NIST (2023). Жасанды интеллект тәуекелдерін басқару құрылымы (ЖИ RMF 1.0) - шығу тегі, сенімділігі және тәуекелдерді бақылау. PDF.
Бендер, Э.М., Гебру, Т., Макмиллан-Мэйжор, А., Митчелл, С. (2021). Стохастикалық тотықұстардың қауіптері туралы: Тілдік модельдер тым үлкен бола ала ма? PDF.
Льюис, П. және т.б. (2020). Білімді көп қажет ететін НЛБ үшін іздеу арқылы кеңейтілген ұрпақ. arXiv.

Ресми AI көмекші дүкенінен ең соңғы AI-ді табыңыз

Біз туралы

Блогқа оралу