Бір кездері басыңды тырнап отырасың, мысалы... бұл зат қайдан шыққан ? Айтайын дегенім, жасанды интеллект шаң басқан кітапханалар жинақтарын аралап немесе YouTube шорттарын қулықпен пайдаланбайды. Дегенмен, ол әйтеуір бір нәрсеге жауап береді - лазаньяны бұзудан бастап қара тесік физикасына дейін - оның ішінде түбі жоқ файл шкафы бар сияқты. Шындық сіз ойлағаннан да оғаш және мүмкін қызықтырақ. Оны сәл ашайық (және иә, жол бойында бірнеше мифтерді бұзу мүмкін).
Сиқырлық па? 🌐
Бұл сиқырлық емес, бірақ кейде ол солай сезінеді. Сорғыштың астында болып жатқан нәрсе негізінен үлгіні болжау . Үлкен тіл үлгілері (LLM) сіздің миыңыз әжеңіздің печенье рецептін ұстанатындай фактілерді сақтамайды орнына, олар алдыңғы сөзге негізделген келесі сөзді (жетонды) болжауға жаттығады [2]. Іс жүзінде бұл олардың өзара қарым-қатынасқа тірелетінін білдіреді: қандай сөздер бір-бірімен ілінеді, сөйлемдер әдетте қалай қалыптасады, тұтас идеялар қалай құрастырылады. Сондықтан нәтиже естіледі , тіпті толық адалдық - бұл түсіну емес, статистикалық мимика [4].
Сонымен, AI жасаған ақпаратты шынымен не пайдалы ? Біраз заттар:
-
Деректер әртүрлілігі - бір тар ағын емес, сансыз көздерден алу.
-
Жаңартулар - жаңарту циклдері жоқ, ол тез ескіреді.
-
Сүзгілеу – керексіз заттарды ішке кірмей тұрып ұстау (бірақ, шын болайық, бұл тордың тесіктері бар).
-
Кросс-тексеру – құзырлы дереккөздерге сүйену (NASA, ДДҰ, ірі университеттер деп ойлаңыз), бұл көптеген AI басқару оқулықтарында міндетті түрде болуы керек [3].
Дегенмен, кейде ол сенімді түрде ойдан шығарады. Галлюцинация деп аталатындар ма ? Түзу бетпен жеткізілген негізінен жылтыратылған нонсенс [2][3].
Осы мақаладан кейін оқығыңыз келетін мақалалар:
🔗 AI лотерея нөмірлерін болжай алады
AI лотереясының болжамдары туралы мифтер мен фактілерді зерттеу.
🔗 Жасанды интеллектке тұтас көзқараспен қарау нені білдіреді?
Этика мен әсерге қатысты теңдестірілген перспективалары бар AI-ны түсіну.
🔗 Киелі кітап жасанды интеллект туралы не дейді?
Технология және адам жаратылысы туралы библиялық перспективаларды зерттеу.
Жылдам салыстыру: AI қайдан шығады 📊
Әрбір көз тең емес, бірақ әрқайсысы өз рөлін атқарады. Міне, сурет көрінісі.
| Дереккөз түрі | Оны кім пайдаланады (AI) | Құны/құн | Неліктен ол жұмыс істейді (немесе жұмыс істемейді ...) |
|---|---|---|---|
| Кітаптар және мақалалар | Үлкен тіл үлгілері | Бағасыз (ish) | Тығыз, құрылымды білім – тез қартаяды. |
| Веб-сайттар және блогтар | Барлығы дерлік АИ | Тегін (шумен) | Жабайы алуан; жарқырау мен абсолютті қоқыс қоспасы. |
| Академиялық мақалалар | Зерттеуге арналған ауыр АИ | Кейде ақылы | Қаттылық + сенімділік, бірақ ауыр жаргонмен жазылған. |
| Пайдаланушы деректері | Жекелендірілген AI | Өте сезімтал ⚠️ | Өткір тігу, бірақ құпиялылық бас ауруы көп. |
| Нақты уақыттағы веб | Іздеуге байланысты АИ | Тегін (егер желіде болса) | Ақпараттың жаңалығын сақтайды; кемшілігі - қауесеттердің күшею қаупі. |
The Training Data Universe 🌌
Бұл «балалық шақтағы оқу» кезеңі. Балаға миллиондаған әңгімелер кітаптарын, жаңалықтар үзінділерін және Wikipedia қоян саңылауларын бір уақытта беріп жатқаныңызды елестетіп көріңіз. Алдын ала дайындық осылай көрінеді. Нақты әлемде провайдерлер жалпыға қолжетімді деректерді, лицензияланған көздерді және жаттықтырушы жасаған мәтінді [2].
Үстіңгі қабат: адам мысалдары – жақсы жауаптар, жаман жауаптар, дұрыс бағытта итермелеу – күшейту тіпті басталмай тұрып [1].
Мөлдірлік туралы ескерту: компаниялар барлық бөлшектерді ашпайды. Кейбір қоршаулар құпия болып табылады (IP, қауіпсіздік мәселелері), сондықтан сіз нақты қоспаға ішінара ғана терезе аласыз [2].
Нақты уақыттағы іздеу: қосымша толықтыру 🍒
Кейбір модельдер енді жаттығу көпіршігі сыртын көре алады. Бұл іздеу кеңейтілген генерация (RAG) - негізінен тірі индекстен немесе құжаттар қоймасынан бөліктерді алып, содан кейін оны жауапқа тоқу [5]. Жаңалықтар тақырыптары немесе акциялардың бағалары сияқты тез өзгеретін материалдар үшін өте қолайлы.
руб? Интернет гений мен қоқыс өртінің тең бөліктері болып табылады. Сүзгілер немесе шығу тексерулері әлсіз болса, қажетсіз деректердің кері қайтарылу қаупін тудырасыз, дәл сол қауіп құрылымдары ескертеді [3].
Жалпы шешім: компаниялар модельдерді өздерінің ішкі дерекқорларына қосады, сондықтан жауаптар оны қосудың орнына ағымдағы HR саясатына немесе жаңартылған өнім құжатына сілтеме жасайды. Ойланыңыз: «у-у» сәттері аз, сенімді жауаптар.
Нақты баптау: AI жылтырату қадамы 🧪
Алдын ала дайындалған үлгілер қиын. Осылайша олар жақсы реттеледі :
-
пайдалы, зиянсыз, адал болуға үйрету (адамның кері байланысынан, RLHF арқылы күшейтілген оқыту арқылы) [1].
-
Қауіпті немесе улы жиектерді тегістеу (туралау) [1].
-
Тонды реттеу - бұл мейірімді, ресми немесе ойнақы мысқыл болсын.
Бұл гауһар тасты жылтырату емес, статистикалық көшкінді әңгімелесу серіктесі сияқты ұстау сияқты.
Қиындықтар мен сәтсіздіктер 🚧
Оны мінсіз деп көрсетпейік:
-
Галлюцинациялар – анық қате, анық жауаптар [2][3].
-
Bias - ол деректерге пісірілген үлгілерді көрсетеді; құсбелгі алынбаса, оларды тіпті күшейте алады [3][4].
-
Тәжірибе жоқ - бұл айтуға , бірақ ешқашан дәмін көрмеген [4].
-
Артық сенімділік - проза білмесе де, өзі білетіндей ағып кетеді. Тәуекел шеңберлерінің стрессті белгілеу болжамдары [3].
Неліктен бұл білу сияқты болады
Оның наным-сенімі, адамдық мағынада жады жоқ және, әрине, мен жоқ. Дегенмен, ол сөйлемдерді біркелкі біріктіретіндіктен, сіздің миыңыз оны түсінгендей . Болып жатқан жай ғана жаппай ауқымды келесі таңбалауышты болжау : секундтарда триллиондаған ықтималдықтарды бұзу [2].
«Интеллект» діріл - бұл пайда болған мінез-құлық-зерттеушілер оны «стохастикалық попугая» әсері деп атайды [4].
Балаларға арналған аналогия 🎨
Кітапханадағы әрбір кітапты оқитын тотықұсты елестетіңіз. Ол әңгімелерді қабылдамайды , бірақ сөздерді ақылға қонымды нәрсеге айналдыра алады. Кейде ол өз орнында болады; кейде бұл нонсенс, бірақ жеткілікті қабілетпен сіз әрқашан айырмашылықты айта алмайсыз.
Қорытындылау: AI туралы ақпарат қайдан келеді 📌
Қарапайым сөзбен айтқанда:
-
Жаппай оқыту деректері (қоғамдық + лицензияланған + жаттықтырушы жасаған) [2].
-
Тонды/мінез-құлықты қалыптастыру үшін адамның кері байланысымен дәл баптау
-
Тікелей деректер ағындарына қосылған кезде іздеу жүйелері
AI заттарды «білмейді» - ол мәтінді болжайды . Бұл оның керемет күші де, Ахиллес өкшесі де. Төменгі сызық? Әрқашан маңызды нәрселерді сенімді дереккөзбен салыстырып тексеріңіз [3].
Анықтамалар
-
Ouyang, L. et al. (2022). Адамдардың кері байланысы бар нұсқауларды орындау үшін тіл үлгілерін үйрету (InstructGPT) . arXiv .
-
OpenAI (2023). GPT-4 Техникалық есеп – лицензияланған, жалпыға ортақ және адам жасаған деректердің қоспасы; келесі токенді болжау мақсаты мен шектеулері. arXiv .
-
NIST (2023). AI Risk Management Framework (AI RMF 1.0) – шығу, сенімділік және тәуекелді бақылау. PDF .
-
Бендер, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021). Стохастикалық попугаялардың қауіптері туралы: тіл үлгілері тым үлкен болуы мүмкін бе? PDF .
-
Льюис, П. және т.б. (2020). Білімді қажет ететін NLP үшін іздеу-толықтырылған ұрпақ . arXiv .