Генеративната AI революция започна – как стигнахме дотук?


Това изображение е частично генерирано от AI с подканата
Увеличете / Това изображение е частично генерирано от AI с подканата „чифт ръце на робот, държащи моливи, рисуващи чифт човешки ръце, маслена живопис, цветна“, вдъхновена от класическата рисунка на MC Escher. Гледането на AI как омаловажава рисуващите ръце ни помага да се чувстваме по-добри от машините… засега. — Аурих

Аурих Лоусън | Стабилна дифузия

Напредъкът в системите с изкуствен интелект често изглежда цикличен. На всеки няколко години компютрите изведнъж могат да направят нещо, което никога преди не са били в състояние. “Ето!” истинските вярващи на AI провъзгласяват, „ерата на изкуствения общ интелект е близо!“ “Глупости!” казват скептиците. „Помните ли самоуправляващите се коли?“

Истината обикновено е някъде по средата.

Ние сме в друг цикъл, този път с генеративен AI. Медийните заглавия са доминирани от новини за изкуствения интелект, но има и безпрецедентен напредък в много различни области. Във всичко – от видеоклипове до биология, програмиране, писане, превод и други, ИИ напредва със същата невероятна скорост.

Защо всичко това се случва сега?

Може да сте запознати с най-новите събития в света на AI. Виждали сте наградените произведения на изкуството, чували сте интервюта между мъртви хора и сте чели за откритията в сгъването на протеини. Но тези нови системи с изкуствен интелект не само създават страхотни демонстрации в изследователски лаборатории. Те бързо се превръщат в практични инструменти и истински търговски продукти, които всеки може да използва.

Има причина всичко това да дойде наведнъж. Всички пробиви са подкрепени от нов клас AI модели, които са по-гъвкави и мощни от всичко, което е идвало преди. Тъй като първо са били използвани за езикови задачи като отговаряне на въпроси и писане на есета, те често са известни като големи езикови модели (LLM). GPT3 на OpenAI, BERT на Google и т.н. са LLM.

Но тези модели са изключително гъвкави и адаптивни. Същите математически структури са били толкова полезни в компютърното зрение, биологията и други, че някои изследователи ги наричат ​​„модели на основата“, за да формулират по-добре ролята им в съвременния AI.

Откъде идват тези базови модели и как са надхвърлили езика, за да управляват толкова много от това, което виждаме в AI днес?

Основата на моделите на основата

В машинното обучение има света троица: модели, данни и изчисления. Моделите са алгоритми, които приемат входове и произвеждат изходи. Данните се отнасят за примерите, върху които се обучават алгоритмите. За да научите нещо, трябва да има достатъчно данни с достатъчно богатство, така че алгоритмите да могат да произвеждат полезен резултат. Моделите трябва да бъдат достатъчно гъвкави, за да уловят сложността на данните. И накрая, трябва да има достатъчно изчислителна мощност за изпълнение на алгоритмите.

Първата модерна революция на ИИ се състоя с дълбоко обучение през 2012 г., когато решаването на проблеми с компютърното зрение с конволюционни невронни мрежи (CNN) излетя. CNN са подобни по структура на зрителната кора на мозъка. Те съществуват от 90-те години на миналия век, но все още не са били практични поради интензивните им изисквания за изчислителна мощност.

През 2006 г. обаче Nvidia пусна CUDA, език за програмиране, който позволява използването на GPU като суперкомпютри с общо предназначение. През 2009 г. изследователите на Станфорд AI представиха Imagenet, колекция от етикетирани изображения, използвани за обучение на алгоритми за компютърно зрение. През 2012 г. AlexNet комбинира CNN, обучени на GPU, с данни от Imagenet, за да създаде най-добрия визуален класификатор, който светът някога е виждал. Дълбокото обучение и AI избухнаха оттам.

CNN, наборът от данни ImageNet и графичните процесори бяха магическа комбинация, която отключи огромен напредък в компютърното зрение. 2012 г. предизвика бум на вълнение около дълбокото обучение и породи цели индустрии, като тези, занимаващи се с автономно шофиране. Но бързо научихме, че има ограничения за това поколение задълбочено обучение. CNN бяха страхотни за визията, но други области не постигнаха техния моделен пробив. Една огромна празнина беше в обработката на естествения език (NLP) – т.е. да накараш компютрите да разбират и работят с нормален човешки език, а не с код.

Проблемът с разбирането и работата с езика е коренно различен от този с работата с изображения. Езикът за обработка изисква работа с поредици от думи, където редът има значение. Котката си е котка, независимо къде се намира в изображението, но има голяма разлика между „този читател научава за AI“ и „AI научава за този читател“.

Доскоро изследователите разчитаха на модели като повтарящи се невронни мрежи (RNNs) и дълга краткосрочна памет (LSTM), за да обработват и анализират данни във времето. Тези модели бяха ефективни при разпознаването на кратки последователности, като изречени думи от кратки фрази, но им беше трудно да се справят с по-дълги изречения и абзаци. Паметта на тези модели просто не беше достатъчно усъвършенствана, за да улови сложността и богатството на идеи и концепции, които възникват, когато изреченията се комбинират в абзаци и есета. Те бяха чудесни за прости гласови асистенти в стил Siri и Alexa, но не и за много други.

Получаването на правилните данни за обучение беше друго предизвикателство. ImageNet беше колекция от сто хиляди етикетирани изображения, чието генериране изискваше значителни човешки усилия, най-вече от студенти и работници на Amazon Mechanical Turk. И ImageNet всъщност беше вдъхновен и моделиран по по-стар проект, наречен WordNet, който се опита да създаде етикетиран набор от данни за английския речник. Въпреки че няма недостиг на текст в Интернет, създаването на смислен набор от данни, който да научи компютъра да работи с човешкия език извън отделните думи, отнема невероятно време. И етикетите, които създавате за едно приложение върху едни и същи данни, може да не се прилагат за друга задача.