
Часть 1: Введение. Как читать эту книгу, чтобы изменить мышление
Глава 1. Почему мы боимся машин и восхищаемся гениями? (Психология восприятия инноваций)
Представь себе два лица.
Первое — это Альберт Эйнштейн. Лохматые волосы, добрые глаза, высунутый язык на знаменитой фотографии. Гений. Мы вешаем его постеры в комнатах, цитируем его шутки и платим деньги, чтобы посмотреть на его письма в музее. Мы им восхищаемся.
Второе лицо — безликое. Это экран монитора, на котором бегущей строкой мелькает код. А может быть, это металлическая рука робота на заводе или просто пустое поле ввода вроде ChatGPT. Мы смотрим на это и… боимся. Боимся, что завтра эта штука оставит нас без работы, обесценит наши навыки или просто сломается и натворит дел.
Странно, правда? И Эйнштейн, и нейросеть — это результат работы человеческого мозга. Но одного мы готовы обнимать, а вторую готовы воткнуть вилами, если она подойдет слишком близко.
Эта глава — наш первый сеанс психотерапии перед погружением в мир «Гениев кода». Мы не просто начнем с кнопок и матриц. Мы начнем с тебя и твоего мозга. Потому что, пока мы боимся, мы не можем учиться.
Откуда растут ноги у нашего страха?
Психологи говорят, что страх перед технологиями (технофобия) так же стар, как и сами технологии. Когда-то люди боялись книг (вдруг там дьявольщина?), потом боялись поездов (врачи викторианской эпохи всерьез считали, что у пассажиров от скорости «выпадут матки и съедут лица»), а потом боялись компьютеров.
Но с ИИ всё сложнее. Здесь работают три глубинных механизма, которые достались нам от предков.
1. Эффект «Зловещей долины» (The Uncanny Valley).
Этот термин придумал робототехник Масахиро Мори. Суть проста: пока робот похож на коробку с проводами — нам всё равно. Мы его даже можем пожалеть (помните ВАЛЛ-И?). Но как только робот становится слишком похож на человека, но с изъяном (стеклянные глаза, дерганые движения), наш мозг паникует. Срабатывает древний детектор «чужой/больной/опасность».
С ИИ то же самое. Когда нейросеть пишет откровенную ерунду — мы снисходительно улыбаемся: «глупая машина». Но когда ChatGPT выдает текст, полный боли и мудрости, а Midjourney рисует картину, от которой плачут искусствоведы, мы впадаем в ступор. Машина подошла слишком близко к «человеку», но человеком не стала. Это пугает.
2. Угроза идентичности.
Наш мозг очень любит чувствовать себя уникальным. «Человек — это звучит гордо», — говорил Горький. Мы считаем себя венцом творения именно из-за того, что умеем думать, творить, сочувствовать. Интеллект — это наша «священная корова».
И тут приходит машина и заявляет (пусть даже косвенно): «Я тоже умею думать. И писать стихи. И ставить диагнозы». Для психики это удар по самооценке вида Homo sapiens. Это страх потерять себя, свою исключительность. Это как если бы твоя собака вдруг заговорила и сказала, что она теперь главная в доме.
3. Непредсказуемость (Эффект «Черного ящика»).
Эйнштейн понятен. Он был человеком. У него была мать, которая его ругала, у него были проблемы в школе и любовницы. Мы понимаем логику человека (даже гения): страсть, голод, любопытство.
Нейросеть — это «черный ящик». Мы залили в нее гигабайты текста, нажали кнопку «обучать», и она начала выдавать результаты. Но почему она решила, что на этой картинке кошка, а не собака? Почему она выбрала именно это слово в предложении? Иногда даже инженеры, которые ее создали, не могут дать точного ответа. Мозг пугается всего, что нельзя предсказать и проконтролировать.
А почему мы тогда любим гениев?
Гений (человек) — это понятный «черный ящик». Мы верим, что даже в самой безумной идее Эйнштейна была искра божественного вдохновения или титанического труда.
История про гения — это всегда история про преодоление. Он страдал, ошибался, но встал и сделал. Это очень «человеческая» история. Она нас вдохновляет, потому что мы ставим себя на его место: «Я тоже могу страдать и ошибаться, значит, и я могу стать гением?».
Когда мы смотрим на прорыв ИИ — истории про преодоление нет. Нейросеть не страдала бессонницей, не писала сто черновиков, не плакала от критики. Она просто переработала данные. Это не вдохновляет, это пугает своей «нечеловеческой» эффективностью.
Психологический ключ к книге (Обещанный лайфхак)
Как же нам, простым смертным, читать про эти машины и не впадать в уныние или панику?
Очень просто. Нам нужно сменить фокус внимания.
На протяжении всей этой книги, читая про очередной гениальный проект, задавай себе не вопрос: «Что эта машина сделает со мной?», а вопрос: «Какой человеческий гений стоит за этим кодом?».
Смотри не на экран, а за экран.
— За AlphaGo стоит Демис Хассабис — вундеркинд, гроссмейстер в шахматы с детства, который мечтал понять, как работает разум.
— За GPT стоит сотня инженеров, которые годами бились над тем, чтобы текст был не просто правильным, а живым.
— За роботом-хирургом стоит история врача, который хотел спасать жизни, но уставала его рука.
ИИ — это не восстание машин. Это зеркало человеческого гения. Когда мы смотрим на ИИ, мы на самом деле смотрим на самих себя, просто усиленных кремнием и скоростью вычислений.
Итог главы: Снимаем страх
Итак, почему мы боимся машин? Потому что они нарушают наше чувство уникальности и непредсказуемы.
Почему мы любим гениев? Потому что мы видим в них отражение своих лучших качеств.
Твоя новая суперсила после этой главы: В следующий раз, когда услышишь новость «ИИ научился делать Х», поймай себя на страхе, а потом добавки любопытства. Спроси: «А кто тот человек или команда, которые сделали это возможным? Какой кусочек своего разума они вложили в машину?».
В этой книге мы будем рассказывать именно такие истории. Мы разберем проекты на атомы, заглянем в головы их создателей и увидим, что гениальность кода — это всегда отражение гениальности человека.
А теперь, когда твой мозг расслабился и настроился на волну восхищения, а не страха, мы можем смело нырять вглубь.
Глава 2. Метод «Трёх проекций»: Как смотреть на код (как программист), на смысл (как философ) и на выгоду (как предприниматель)
Представь, что ты держишь в руках не книгу, а волшебный фонарик. Если посветить им на стену под одним углом — увидишь скелет здания (балки и перекрытия). Под другим углом — архитектуру (красоту замысла). Под третьим — объявление о продаже (цену и выгоду).
Информация об ИИ — та же стена. Без правильного угла света ты увидишь либо скучную математику, либо страшную сказку про терминаторов, либо скучный рекламный памфлет.
Метод «Трёх проекций» — это твой личный фонарик. Его придумал не я. Его подсмотрели у великих мыслителей Возрождения. Они умели смотреть на мир глазами и инженера, и художника, и купца одновременно. Сейчас мы научимся делать то же самое с кодом.
Проекция 1: Взгляд программиста (Как это сделано?)
Это самая приземлённая, но самая честная проекция. Здесь нет места магии. Только механизмы.
Что мы ищем:
— Архитектура: Из каких «кирпичиков» собран проект? (Нейросеть, база данных, просто сложная формула?)
— Данные: На чём это учили? (На книгах, на фотографиях, на действиях людей?)
— Ошибки: Где это может сломаться? (Любой программист знает: если что-то может упасть — оно упадёт).
Вопросы, которые нужно задавать:
— Это результат труда 10 человек за месяц или 10 000 человек за год?
— Эта штука умная сама по себе, или просто ловко ищет в памяти готовые ответы?
— Могу ли я повторить это в упрощённом виде дома?
Пример:
Мы слышим: «ИИ научился писать сценарии для Голливуда!»
Взгляд программиста: «Ага. Скорее всего, это языковая модель типа GPT, которую натренировали на 10 000 голливудских сценариев. Она не придумывает сюжеты „из головы“, а комбинирует клише, которые уже были в фильмах. Если дать ей задание написать финал „Властелина колец“ в стиле Тарантино — она, вероятно, справится. Но связный трёхактный фильм с подтекстом? Сделает, скорее всего, ерунду».
Этот взгляд убивает магию, но даёт уважение к труду инженеров.
Проекция 2: Взгляд философа (Зачем это и что это меняет?)
Это самая глубокая проекция. Здесь мы отходим от кода и смотрим на последствия.
Что мы ищем:
— Смысл: Что эта технология говорит о нас, о людях? (Мы ленивы? Мы хотим жить вечно? Мы соскучились по общению?)
— Границы: Где проходит линия между человеком и машиной? (Если ИИ пишет музыку, от которой плачут — кто автор: код или композитор, написавший промт?)
— Будущее: Как изменится наше представление о норме через 10 лет?
Вопросы, которые нужно задавать:
— Если эту технологию дать каждому человеку на Земле — мир станет добрее или злее?
— Что мы теряем, когда доверяем это машине? (Например, ИИ переводит текст — мы теряем шероховатости и душу оригинала).
— Не обесценивает ли это какой-то важный человеческий навык?
Пример (продолжаем про сценарии):
Взгляд философа: «Если ИИ пишет сценарии — что происходит с профессией сценариста? Он исчезает или превращается в редактора? А зритель — ему всё равно, кто написал историю, если она цепляет? Или мы подсознательно хотим чувствовать за текстом живого человека с его болью и опытом? И ещё: если все фильмы будут написаны ИИ на основе лучших фильмов прошлого — не превратится ли кино в бесконечный ремикс самого себя? Где тогда место для настоящего „нового слова“?»
Этот взгляд расширяет сознание и не даёт технологиям застать нас врасплох.
Проекция 3: Взгляд предпринимателя (Сколько в этом денег и пользы?)
Это самая прагматичная проекция. Философия хороша за чашкой чая, но жить хочется здесь и сейчас.
Что мы ищем:
— Боль: Какую конкретную проблему людей решает эта штука? (Скуку? Трату времени? Деньги?)
— Рынок: Кто заплатит за это деньги? (Рекламодатели? Обычные пользователи? Государство?)
— Ниша: Где здесь место для меня? Могу ли я прицепиться к этому проекту и заработать?
Вопросы, которые нужно задавать:
— Это экономит время или деньги? Кому это нужно больше всего?
— Это одноразовая игрушка или сервис, к которому привыкают и не могут оторваться?
— Если я сейчас научусь с этим работать, стану ли я ценнее на рынке труда?
Пример (последний раз про сценарии):
Взгляд предпринимателя: «Голливудские студии платят сценаристам миллионы и ждут годами. Если ИИ за 5 минут накидает 10 вариантов сценария — студия сэкономит кучу времени на этапе „черновиков“. Значит, есть спрос. При этом сам ИИ ничего не стоит, но нужен человек, который умеет им пользоваться (промт-инженер). Вот она — новая работа! А ещё можно сделать приложение для начинающих режиссёров: „Напиши сценарий за 100 рублей“. Или для крупных компаний — генератор рекламных роликов под товар. Денег здесь — вагон».
Этот взгляд превращает читателя из пассивного наблюдателя в активного игрока.
Как применять метод на практике (Инструкция)
Когда ты читаешь любую главу этой книги (или новость в интернете), делай простое упражнение. Заведи мысленный «трёхколоночный журнал»:
Важный психологический секрет:
Сначала пользоваться методом будет трудно. Мозг будет лениться и соскальзывать в одну колею (обычно либо в страх, либо в восторг).
Но если ты будешь сознательно переключать проекции, произойдёт магия: ты перестанешь быть потребителем новостей. Ты станешь аналитиком реальности.
Когда вокруг все паникуют («ИИ отнимет работу!»), ты спокойно включишь проекцию программиста («пока ещё криво, без человека не работает») и философа («а может, это шанс перестать быть рабами рутины?»). Когда вокруг все ноют («всё уже придумали!»), ты включишь проекцию предпринимателя и увидишь сто ниш, которые никто не занял.
Итог главы: Три в одном
Итак, великие проекты, о которых мы будем говорить, — это не просто строчки кода.
— Для программиста — это элегантное решение инженерной задачи.
— Для философа — это новый виток в развитии цивилизации.
— Для предпринимателя — это миллиарды долларов и изменение привычек.
Твоя задача — научиться видеть все три грани одновременно. Не будь просто «технарём», который не понимает жизни. Не будь просто «мечтателем», который не умеет считать деньги. Не будь просто «торгашом», которому плевать на смыслы.
Будь Гением кода.
А теперь, когда твой фонарик настроен на три режима, давай посмотрим на него в действии. Глава 3 будет про то, как наш мозг вообще запоминает сложные вещи. Это будет полезно и для учёбы, и для жизни.
Глава 3. Как мозг запоминает сложное через истории (Нейробиология сторителлинга)
Представь, что ты держишь в руках две бумажки.
На первой написано: «Дофамин участвует в формировании мотивации и закреплении воспоминаний. Нейронные связи, активирующиеся одновременно, укрепляются». Скучно? Возможно. Запомнишь ты это? Скорее всего, нет.
На второй: «Однажды маленькая девочка обожглась, дотронувшись до горячей плиты. Её мозг в панике записал: „Плита = больно“. Больше она никогда не делала так. Нейроны, которые выстрелили вместе, связались навсегда».
Что ты запомнишь через неделю? Конечно, историю про девочку.
Почему? Потому что твой мозг — это не жёсткий диск компьютера, который бездушно сохраняет файлы. Это живой, хитрый, эволюционно старый орган, который миллионы лет выживал в саванне. И у него есть свои правила приёма информации.
Правило первое: Мозг игнорирует скуку (Роль ретикулярной формации)
В глубине твоего мозга живёт маленький сторож — ретикулярная формация. Её работа — фильтровать информацию. Каждую секунду на тебя обрушивается 11 миллионов бит информации, но сознание обрабатывает всего… 50. Сторож отсеивает всё, что неважно для выживания.
Скучная лекция, сухой текст, список фактов — сторож говорит: «Опасности нет, еды нет, секса нет, можно спать». И ты выключаешься.
А теперь история. В ней есть герой (кто-то, с кем можно себя идентифицировать). Есть конфликт или проблема. Есть эмоция. Сторон вскидывается: «Внимание! Социальная информация! Возможно, это важно для выживания в племени!» — и открывает шлюзы внимания.
Вывод: Если ты хочешь, чтобы информация усвоилась, её нужно упаковать в историю. Иначе мозг просто заснёт.
Правило второе: Мозг живёт химией (Коктейль из трёх веществ)
Когда ты слушаешь историю, твой мозг не остаётся безучастным. Он начинает варить химический коктейль, который и закрепляет воспоминания.
1. Дофамин — клей внимания.
Когда в истории нарастает напряжение, когда мы ждём развязки, мозг выбрасывает дофамин. Мы привыкли считать, что дофамин — это только про удовольствие. На самом деле это про ожидание и внимание.
Как это работает: Ты читаешь детектив и хочешь узнать, кто убийца. Дофамин заставляет тебя не отрываться от книги. А заодно он «склеивает» все факты, которые ты узнаёшь по пути, в единую цепочку.
Применительно к книге: Мы будем строить главы так, чтобы тебе хотелось узнавать «а что же дальше?».
2. Окситоцин — гормон доверия.
Когда история вызывает сочувствие к герою, когда мы чувствуем его боль или радость, мозг выделяет окситоцин.
Как это работает: Это вещество заставляет нас доверять. Если мы сопереживаем герою (учёному, который бился над задачей), мы начинаем доверять и той информации, которую он нёс.
Применительно к книге: Поэтому мы будем рассказывать про людей. Про их страхи, ошибки и триумфы. Ты будешь доверять этим историям, потому что полюбишь (или возненавидишь) героев.
3. Кортизол — маркер важности.
Когда в истории случается конфликт, опасность, боль — мозг выбрасывает кортизол. Это гормон стресса.
Как это работает: Кортизол кричит телу: «Это важно! Запомни это, чтобы выжить!». Стрессовые события запоминаются ярче всего.
Применительно к книге: Мы не будем тебя пугать, но мы покажем реальные конфликты. Борьбу человека с машиной (DeepBlue против Каспарова). Борьбу корпораций. Борьбу идей. Это создаст «кортизоловые якоря».
Правило третье: Мозг не отличает историю от реальности (Зеркальные нейроны)
Это самое удивительное открытие последних десятилетий. Итальянские учёные нашли в мозге обезьян клетки, которые загорались и когда обезьяна сама брала орех, и когда она видела, как другую обезьяну берёт орех.
Зеркальные нейроны заставляют нас проживать то, что мы видим или читаем.
Когда ты читаешь: «Он порезал палец, и кровь закапала на клавиатуру», — твой мозг активирует те же зоны, как если бы порезал палец ты. Ты чувствуешь это.
Когда ты читаешь про гения, который в отчаянии лупит кулаком по столу, потому что его код не работает сотую ночь подряд, — твои зеркальные нейроны заставляют тебя чувствовать его разочарование.
И вот магия: когда ты проживаешь эмоцию, информация записывается глубже. Ты не просто запомнил факт. Ты запомнил чувство. А чувства не стираются годами.
Как мы построим эту книгу (Обещанная схема)
Теперь ты знаешь тайный план. Почему главы в этой книге будут именно такими, а не иначе?
Каждая глава (каждый проект) будет построена по единой схеме, которая бьёт прямо в твои нейронные сети:
1. Крючок (Захват внимания).
Мы начнём не с дат и формул, а с живого момента. С кульминации. С той секунды, когда всё решилось. (Дофаминовый всплеск: «Что будет дальше?»).
2. Герой и его боль (Эмпатия).
Мы расскажем про человека. Как он ошибался, сомневался, ненавидел свой код. Ты увидишь в нём себя. (Окситоцин: «Я ему доверяю, он свой»).
3. Конфликт и преодоление (Напряжение).
Покажем настоящую проблему, которая казалась нерешаемой. Тупик. Бессонные ночи. (Кортизол: «Это важно, надо запомнить, как он выкрутился»).
4. Развязка и инсайт (Награда).
Момент «Эврика!». Как сломался старый мир и родился новый. Выброс дофамина от успеха героя — и твой мозг связывает этот успех с конкретными знаниями.
5. Твой ход (Применение).
Короткий блок про то, как этот урок применить тебе. (Переход от пассивного чтения к активному действию).
Итог главы: Стань режиссёром своего обучения
Итак, подведём итог. Если ты хочешь учиться эффективно:
— Не читай сухие инструкции. Превращай их в истории. Даже формулу Эйнштейна можно представить как драму между энергией, массой и скоростью света.
— Ищи героя. В любой технологии есть человек, который её создал. Найди его, пойми его мотивы, и ты поймёшь технологию.
— Проживай эмоции. Когда читаешь про успех — радуйся. Когда читаешь про провал — злись или грусти. Эмоция — цемент памяти.
Твой мозг создан для историй. Не борись с этим. Используй это.
А теперь, когда мы разобрались с инструментарием (метод трёх проекций) и поняли, как работает наша память, нам остался последний шаг перед погружением в мир великих проектов.
Нужно убедиться, что мы говорим на одном языке и понимаем базовые вещи. Глава 4 будет самым простым объяснением нейросетей в твоей жизни.
Глава 4. Краткий ликбез: Что такое нейросеть на пальцах (Объяснение 5-летнему ребенку)
Если ты откроешь учебник по машинному обучению, ты утонешь в математике. Градиентный спуск, функции активации, обратное распространение ошибки… Глаза закатываются, мозг плавится.
Но давай честно: чтобы понимать, как работают гениальные проекты, и чтобы применять их в жизни, тебе не нужно защищать диссертацию по высшей математике. Тебе нужно понять суть.
Поэтому выключи режим «ученика», который должен всё запомнить. Включи режим «любопытного человека». И представь, что мы сидим на кухне с чашкой чая.
Метафора первая: Ребёнок и котик
Представь маленького ребёнка. Он никогда в жизни не видел кота. Ты показываешь ему картинку с рыжим пушистым котом и говоришь: «Это кот».
Потом ты показываешь другую картинку — с чёрным гладкошерстным котом. Ребёнок думает: «Хм, цвет другой, шерсть короче, но уши похожи, и нос мокрый. Наверное, тоже кот».
Потом ты показываешь ему собаку. Ребёнок говорит: «Уши висят, язык высунут, хвост виляет. Непохоже на тех двух. Наверное, это не кот».
Позже ты показываешь тигра в книжке. Ребёнок в ужасе: «Полосатый, большой, но морда знакомая! Это огромный опасный кот!».
Вот ровно так же учится нейросеть.
— Ты показываешь ей тысячи фотографий котов (это данные).
— Ты говоришь: «Вот это — кот, а это — не кот» (это разметка).
— Нейросеть пытается угадать. Сначала она ошибается 100 раз подряд, думая, что кот — это всё подряд (колёса от машины, тарелки, люди). Но с каждой ошибкой она чуть-чуть подкручивает свои внутренние настройки, чтобы в следующий раз ошибиться меньше.
— И через тысячи попыток она вдруг начинает угадывать правильно.
Суть: Нейросеть — это не программа, которой написали правила «как выглядит кот». Это программа, которая сама вывела правила, глядя на миллион примеров.
Метафора вторая: Овощной рынок и торговка
Теперь давай заглянем внутрь нейросети. Что там?
Представь старую торговку на рынке, бабу Машу. У неё феноменальное чутьё на качество помидоров. Ты подносишь помидор, она сжимает его, нюхает, смотрит на свет и выдаёт вердикт: «Бери, сладкий» или «Не бери, кислый, пластмассовый».
Как у неё это получается? У неё внутри есть огромный опыт (те же миллионы примеров). И есть набор простых вопросов, которые она задаёт себе мгновенно:
— Вопрос первый: Цвет? (Если зелёный — сразу «нет», если красный — идём дальше).
— Вопрос второй: Упругость? (Если твёрдый как камень — «нет», если мягкий — идём дальше).
— Вопрос третий: Запах? (Если пахнет землёй — «да», если ничем не пахнет — «нет»).
Этот список вопросов называется слои нейросети. Каждый вопрос — это нейрон. Ответы на вопросы передаются дальше по цепочке.
Вот так и нейросеть. Она не думает абстрактно. Она просто проводит объект (картинку, текст, звук) через множество простых фильтров-вопросов и на выходе выдаёт ответ.
Метафора третья: Слепой скульптор (Как нейросеть обучается)
Самый сложный для понимания момент — как именно нейросеть «подкручивает настройки»? Тут поможет метафора слепого скульптора.
Представь, что тебе завязали глаза и дали кусок глины. Рядом стоит скульптура идеального кота (это идеал), но тебе её не дают трогать. Ты должен вылепить свою копию, но проверять результат будешь только на ощупь.
— Ты лепишь что-то. Подходит эксперт (это функция потерь) и трогает твою поделку. Он говорит: «Плохо. Ухо должно быть здесь, на 2 сантиметра левее». (Это ошибка).
— Ты сдвигаешь ухо. Эксперт снова трогает: «Лучше, но хвост коротковат, добавь длины».
— Ты добавляешь. Эксперт: «Хорошо, но нос слишком курносый, сделай чуть прямее».
Ты делаешь так тысячи раз, пока эксперт не скажет: «Всё, отпускай повязку, смотри — получилось!».
В мире нейросетей роль «эксперта с завязанными глазами» выполняет математический алгоритм. Он не знает, как выглядит идеал, но он знает, как посчитать разницу между тем, что получилось, и тем, что должно было получиться. И он даёт команду: «нейрон №5, увеличь свою чувствительность на 0,001%, а нейрон №6, наоборот, уменьшь». Это называется обратное распространение ошибки.
Метафора четвёртая (и самая простая): Шеф-повар и суп
Самое понятное объяснение того, чем ИИ отличается от обычной программы.
Обычная программа (как повар по книге):
Ты даёшь повару книгу рецептов. Там написано: «Возьми 2 яйца, 100 грамм муки, 50 грамм сахара, взбей, пеки 30 минут». Повар чётко выполняет. Если яйца будут мелкими, пирог может не получиться, но повар сделает всё как написано. Это программирование: ты даёшь правила, компьютер даёт результат.
Нейросеть (как повар, который учится готовить сам):
Ты приводишь повара на кухню и говоришь: «Вот продукты. Я хочу получить вот такой пирог (показываешь картинку идеального торта). Пробуй. Если получится невкусно — я скажу». Повар мешает как попало, печёт, ты пробуешь: «Фу, гадость». Повар меняет пропорции, печёт снова. Ты: «Лучше, но всё сырое внутри». И так 1000 раз. В итоге повар находит идеальную комбинацию, сам, без рецепта. Это обучение: ты даёшь примеры результата, компьютер сам находит правила.
Разрушаем главный миф
После этих метафор ты уже понял главное, но я скажу это прямо:
Нейросеть НЕ думает. Нейросеть НЕ понимает смысла. Нейросеть просто УГАДЫВАЕТ на основе прошлого опыта.
Когда ChatGPT пишет тебе стихи, он не чувствует вдохновения. Он просто перебирает миллиарды комбинаций слов, которые люди уже использовали в похожих ситуациях, и выдаёт самую вероятную.
Это как умный попугай, который слышал столько разговоров, что научился вставлять слова к месту, но понятия не имеет, что они значат.
Итог главы: Словарик для смелых
Теперь, когда мы прошли через метафоры, ты готов к трём терминам, которые будешь встречать в книге. Не пугайся их, за каждым стоит простая картинка из нашей главы.
— Нейросеть (НС) — это просто программа, которая учится на примерах, как ребёнок, а не действует по инструкции.
— Обучение — это процесс «подкручивания настроек» тысячи раз, пока ошибка не станет маленькой (как слепой скульптор).
— Данные — это те самые примеры (фотографии котов, тексты книг, голоса людей), на которых нейросеть учится. Чем больше и качественнее данные — тем умнее сеть.
Вот и всё. Теперь ты знаешь о нейросетях достаточно, чтобы понимать 90% новостей и проектов. Остальное — это просто масштаб (больше слоёв, больше данных, быстрее компьютеры).
А теперь, когда страха нет (мы поняли, что это просто сумасшедший угадайщик), инструменты есть (метод трёх проекций), память готова (мы знаем про истории), и база заложена (нейросеть — это просто сложный калькулятор)…
Мы готовы к настоящим героям!
Следующая глава будет про проект, с которого всё началось. Про студентов, которые перевернули мир компьютерного зрения с двумя видеокартами.
Часть 2: Рождение титанов. Истории прорывов, изменивших правила игры
Глава 5. AlexNet (2012): Как студент победил всех на конкурсе и начал революцию (Компьютерное зрение)
Крючок: Скука, которая изменила мир
Представь себе 2012 год. В мире ещё нет приложений, которые узнают твоё лицо, чтобы разблокировать телефон. Нет фильтров в соцсетях, которые превращают тебя в щенка. Нет машин, которые ездят сами. Если ты хотел, чтобы компьютер что-то увидел, ты должен был объяснить ему это человеческим языком: «Сначала найди края, потом углы, потом проверь, есть ли у этого уши…» Это была муторная работа программистов-ремесленников.
В это время в Торонто, в Университете, сидел аспирант по имени Алекс Крижевский. Он был родом из Украины, учился у гуру нейросетей Джеффри Хинтона и… ему было просто интересно поковыряться с железом. Буквально.
Алекс любил видеокарты. Он знал, что они созданы для игр, чтобы быстро рисовать пиксели, но в глубине души подозревал: эти штуки могут делать не только красивые картинки в Crysis, но и считать. Считать параллельно, быстро, как стая муравьёв.
В 2012 году никто в научном мире всерьёз не использовал GPU (видеокарты) для обучения нейросетей. Все работали на процессорах (CPU). Это было медленно, чинно и благородно. А Алекс взял две игровые видеокарты NVIDIA GTX 580 (каждая стоила около 500 долларов, такие же ставили геймеры для стрелялок), соединил их простым кабелем и сказал: «А давай-ка попробуем скормить им все картинки мира».
Он не знал, что эти две карты, купленные в обычном магазине, станут тем самым «ядерным реактором», который запустит эру современного ИИ.
Герои и их боль: Три мушкетёра глубокого обучения
За этим проектом стояли три человека, и каждый из них — легенда.
— Алекс Крижевский — тот самый парень, который писал код. Но он писал его не на Python, как все сейчас, а на CUDA/C++. Вручную, с нуля. Он создавал механизмы, которые обычно входят в стандартные библиотеки, своими пальцами. Это было безумно сложно, но давало максимальную скорость. Его код был произведением искусства для тех, кто понимает.
— Илья Суцкевер — ещё один аспирант Хинтона, тоже с украинскими корнями. Если Алекс был «инженером», то Илья был «архитектором». Он понимал, как заставить сеть учиться, как подбирать параметры, чтобы она не сходила с ума. Позже Илья станет сооснователем OpenAI и сделает ChatGPT, но пока это был просто талантливый парень, который верил в идею.
— Джеффри Хинтон — «крестный отец» глубокого обучения. Ему было уже под 70. Он всю жизнь, с 70-х годов, доказывал, что нейросети — это будущее, и все эти годы над ним смеялись. Его идеи считались маргинальной ересью. Но он продолжал верить и собрал вокруг себя таких же сумасшедших романтиков, как Алекс и Илья.
Их боль была огромной.
У них не было суперкомпьютера. Не было денег Google. У них были старые видеокарты и данные, которые едва влезали в память. 3 гигабайта памяти на карту — этого катастрофически не хватало, чтобы загрузить всю сеть целиком. Поэтому им пришлось пойти на хитрость: они разрезали нейросеть пополам и положили каждую половину на отдельную карту. Карты общались друг с другом только в самые важные моменты, экономя драгоценные мегабайты.
И вот так, на коленке, с паяльником в душе, они собирали бомбу замедленного действия.
Конфликт: Гонка с ветеранами
В 2012 году прошёл очередной конкурс ImageNet (ILSVRC-2012). Это была Олимпиада в мире компьютерного зрения. Участникам давали 1,3 миллиона фотографий, разбитых на 1000 категорий: от «сиамская кошка» до «стиральная машина». Нужно было научить компьютер угадывать, что на фото.
Лучшие команды мира — исследовательские центры Google, Microsoft, Oxford — бились над этой задачей годами. Они использовали классические методы: люди вручную придумывали признаки объектов (SIFT, HOG), программировали сложные алгоритмы, и те показывали результат. Лучший результат прошлого года был с ошибкой около 26%.
Команда Хинтона (они назвали себя SuperVision) подошла к старту с непонятной для всех штукой под названием «свёрточная нейросеть». Никто не верил, что эти древние концепции могут выиграть у инженерной мысли человечества.
Обучение длилось 5–6 дней. Компьютер гудел, квартира Алекса, видимо, превратилась в сауну. Они наблюдали за цифрами ошибок и не верили своим глазам: сеть училась слишком хорошо.
Развязка: Разрыв шаблона
Когда объявили результаты, академический мир взорвался. SuperVision не просто выиграла. Она уничтожила конкурентов.
— Ошибка лучших традиционных методов: 26,2%.
— Ошибка AlexNet: 15,3%.
Разрыв в почти 11% — это даже не победа, это смена эпох. Это как если бы в забеге спортсменов на стометровку вдруг прилетела ракета. С этого момента стало ясно: старые методы мертвы.
Интересно, что сначала их открытие просто проигнорировали. Ну, подумаешь, очередная нейросеть. Но когда увидели цифры, началась паника и эйфория одновременно.
Инсайт: Что они сделали такого особенного?
Гениальность Алекса, Ильи и Джеффри была не в том, что они придумали что-то космически новое. Они сделали три вещи правильно:
— Масштаб. Они поняли: нейросети работают, если они большие. 60 миллионов параметров (настроек) — это был абсурдный по тем временам объём. Все боялись таких масштабов, а они не побоялись.
— Железо. Они доказали, что видеокарты (GPU) — это новый станок индустрии. Если бы не GTX 580, обучение заняло бы не неделю, а год. Именно эта победа заставила NVIDIA обратить внимание на ИИ. Через несколько лет они станут главным бенефициаром бума нейросетей.
— Трюки против переобучения. Они использовали приём под названием Dropout — во время обучения случайно выключали половину нейронов, чтобы сеть не заучивала картинки наизусть, а училась обобщать. И функцию активации ReLU, которая ускоряла обучение в разы. Эти приёмы стали классикой.
Наследие: Всё пошло отсюда
Та самая архитектура AlexNet (8 слоёв, хитрые свёртки) стала прародительницей всего. Без неё не было бы:
— VGG, ResNet (которые победили в последующие годы).
— Распознавания лиц в iPhone.
— Теслы, которая видит дорогу.
— И даже самого ChatGPT, потому что языковые модели — это наследницы той самой идеи «масштабируем нейросети и кормим их данными».
Ирония судьбы:
После победы они основали компанию DNNResearch. Бизнес-план был простой: «У нас есть гениальный код». Через несколько месяцев Google купил эту компанию за несколько миллионов долларов. Говорят, сумма была около 50 миллионов. Хинтон, Алекс и Илья стали работать на Google.
Кстати, сам исходный код AlexNet десятилетиями считался потерянным. Он лежал в недрах Google, и только в 2024–2025 годах Музей компьютерной истории уговорил корпорацию выложить его на GitHub. Теперь любой студент может скачать код, который перевернул мир.
Твой ход: Три урока от Алекса
Что нам, простым смертным, вынести из этой истории?
— Не жди идеальных условий. У Алекса были две старые видеокарты, а не суперкомпьютер. Он использовал то, что было под рукой. Начни с тем, что у тебя есть.
— Будь на «ты» с инструментом. Алекс писал на CUDA вручную, потому что хотел выжать максимум. Тебе не нужно писать с нуля, но понимать, как работает твой инструмент (библиотеки Python, нейросети) — обязательно.
— Масштабируй гениальность. Идея была не нова. Они просто сделали её больше. Иногда прорыв — это не изобретение велосипеда, а постройка огромного завода по производству велосипедов.
P.S.
Знаешь, что самое крутое? Когда Алекс Крижевский учился, никто не давал ему грантов на «разработку революционного ИИ». Он просто занимался тем, что ему нравилось: ковырялся в коде и видеокартах. И это изменило мир.
Так что, может, твой код, который ты пишешь сегодня ночью на старом ноутбуке, — это AlexNet 2030 года?
Глава 6. DeepMind играет в Atari: Как ИИ научился играть в игры, не зная правил (Reinforcement Learning)
Крючок: Щенок перед телевизором
Представь, что ты принёс в дом маленького щенка. Он ещё ничего не знает. Ты включаешь телевизор, ставишь старую приставку Atari с игрой Breakout (это где нужно отбивать шарик платформой, разбивая кирпичи) и говоришь: «Играй».
Щенок смотрит на экран. Видит движущиеся пиксели. Видит платформу, которую можно двигать. Он не знает правил. Он не знает, что нужно отбивать мяч. Он не знает, что кирпичи нужно разбивать. Он просто тыкает лапой в джойстик.
Сначала он двигает платформу влево, вправо, просто так. Мяч падает. На экране появляется надпись «Game Over». Щенок не понимает, что случилось. Он снова тыкает. Снова мяч падает.
Но через несколько часов происходит чудо. Щенок начинает ловить мяч. Он двигает платформу туда, куда летит шарик. Ещё через несколько часов он не просто ловит, а целится так, чтобы разбить все кирпичи. А через день он находит идеальную стратегию, о которой не догадываются даже люди.
Примерно так в 2013–2015 годах мир наблюдал за тем, как программа DeepMind училась играть в 49 игр Atari, не зная ничего — только глядя на пиксели.
Герой: Вундеркинд с душой геймера
За этим проектом стоит человек с необычной судьбой — Демис Хассабис.
В 4 года он начал играть в шахматы. В 8 лет уже программировал. В 13 лет стал гроссмейстером по шахматам (второй в мире рейтинг в своей возрастной группе). В 17 лет бросил школу, чтобы работать… геймдизайнером. Да-да, он создавал игры. Одна из них — знаменитый симулятор больницы Theme Hospital, где нужно лечить смешных пациентов.
Потом он ушёл в науку, защитил диссертацию по нейробиологии (изучал, как работает память и воображение у людей) и в 2010 году основал компанию DeepMind.
Его гениальность была в синтезе:
— Он понимал, как устроены игры (как геймдизайнер).
— Он понимал, как устроен мозг (как нейробиолог).
— Он понимал, как устроен ИИ (как программист).
И он задал вопрос: «А что, если заставить компьютер учиться так же, как учится ребёнок? Не по правилам, а методом проб и ошибок?»
Конфликт: Как научить тому, чему сам не знаешь
До DeepMind все игры, в которые выигрывал компьютер, были «заточены» под конкретную задачу. Deep Blue обыграл Каспарова, но не умел играть даже в крестики-нолики. Это были узкие специалисты.
Хассабис хотел создать общий интеллект — программу, которая сможет научиться чему угодно, просто глядя на экран.
Но как это сделать? Если ты учишь нейросеть распознавать котов, ты показываешь ей котов и говоришь: «Вот кот, молодец». А здесь нет правильных ответов. Есть только экран, джойстик и счёт в углу. Ты даже не знаешь, какой ход правильный, потому что результат может наступить через 1000 шагов.
Представь, что ты учишь кого-то играть в шахматы, но не говоришь правила и не показываешь, как ходят фигуры. Ты просто даёшь джойстик и говоришь: «Смотри на экран и крути. Если в конце счёт вырастет — значит, ты делал что-то правильно». Как тут вообще можно чему-то научиться?
Развязка: DQN — игрок, который запоминает сны
Команда DeepMind придумала элегантное решение. Они создали систему под названием Deep Q-Network (DQN).
В ней было три гениальных компонента.
Компонент 1: Глаза (Свёрточная нейросеть).
Как и в AlexNet, DQN использовала нейросеть, которая смотрела на пиксели. Она училась распознавать на экране важные объекты: мяч, платформу, кирпичи, врагов. Это был её «зрительный котелок».
Компонент 2: Инстинкт (Q-learning).
Второй компонент — это математический метод, который оценивал, насколько хорошо совершить то или иное действие в данной ситуации. Скажем, если мяч летит влево, то нажать «влево» — это хорошо (+10 баллов к будущей победе), а нажать «вправо» — глупо (-100 баллов). Нейросеть училась предсказывать эту «ценность» каждого действия.
Компонент 3: Память снов (Experience Replay).
Это был главный трюк. Обычно, когда мы учимся, мы учимся на последовательности событий. Но в играх события сильно связаны: 100 кадров подряд мяч просто летит. Если учиться на этом, нейросеть «зациклится» и будет думать, что мир всегда такой.
DeepMind придумали гениально простую вещь: они заставили программу запоминать свой игровой опыт (действие, ситуацию, награду) в специальный «буфер памяти». А потом, во время обучения, они не кормили её последними кадрами, а случайно выбирали кусочки из всей памяти.
Это как если бы ты учился играть на гитаре не просто повторяя одно и то же упражнение, а вспоминая все свои попытки за месяц — и удачные, и провальные — и анализируя их вперемешку. Мозг так не делает, но для машины это оказалось секретом успеха.
Инсайт: Момент, когда мир ахнул
В 2013 году DeepMind показала первые результаты на семи играх. В 2015 году вышла статья в журнале Nature про 49 игр. Результаты были сенсационными.
— Breakout (Арканоид): Сначала программа играла хуже ребёнка. Через 2 часа — как средний игрок. Через 4 часа она нашла идеальную стратегию: пробить дыру в боку, загнать мяч за стену кирпичей и дать ему там летать, снося всё подряд. Люди до этого додумывались не сразу.
— Pong (теннис): Обыграла человека всухую.
— Space Invaders: Набрала в 2–3 раза больше очков, чем профессиональный игрок.
— Video Pinball (пинбол): Превысила человеческий результат в 200 раз.
Из 49 игр DQN показала результат лучше предыдущих алгоритмов в 43 играх, а в половине случаев играла лучше человека.
Куда не дотянулся гений
Конечно, были и провалы. Самая знаменитая игра, в которой DQN опозорилась, — Montezuma’s Revenge («Месть Монтесумы»).
Это бродилка, где нужно собирать ключи, открывать двери, избегать ловушек. Награда (очки) выпадает очень редко — только когда ты нашёл сокровище в конце уровня. Между первым шагом и наградой — сотни действий. Нейросеть не могла понять, какое именно действие привело к успеху. Она просто тыкалась как слепая и умирала.
Это показало важную вещь: DQN отлично работает там, где награда частая и понятная, но пасует перед долгосрочным планированием. (Эту проблему потом будут решать другие архитектуры).
Сделка века: Google платит 650 миллионов
Самое забавное в этой истории — как DeepMind купили.
В 2014 году, ещё до публикации в Nature, Хассабис пришёл на переговоры с Google. Он показал демо: программа играет в Breakout, сама учится, находит стратегии.
Ларри Пейдж (сооснователь Google) смотрел и не мог поверить своим глазам. Он понял, что это не просто игра. Это технология, которая может оптимизировать всё: от охлаждения дата-центров до показа рекламы.
Google купила DeepMind за 400 миллионов фунтов стерлингов (около 650 миллионов долларов). Для компании, у которой не было готового продукта, а были только идеи и пара статей, это было невероятно.
Наследие: От Atari к AlphaGo и дальше
Именно технология DQN стала фундаментом для всего будущего DeepMind:
— AlphaGo (2016), обыгравшая чемпиона мира по го, использовала те же принципы обучения с подкреплением, только усложнённые.
— AlphaFold, решившая задачу сворачивания белков, тоже наследница этой философии.
— Оптимизация серверов Google: DQN научили экономить электроэнергию на охлаждении (об этом будет отдельная глава).
Твой ход: Чему нас учит история с приставкой
— Награда должна быть понятной. Если ты хочешь чему-то научиться (или научить нейросеть), нужна частая и честная обратная связь. Без неё даже гений заблудится, как в Montezuma’s Revenge.
— Ошибки — это опыт. Метод «воспроизведения опыта» (Replay) — гениальная метафора для жизни. Иногда полезно не просто мчаться вперёд, а остановиться, вспомнить свои прошлые действия (и удачные, и нет) и понять, что сработало, а что нет.
— Синтез — сила. Хассабис победил не потому, что был лучшим программистом, а потому что понимал игры, мозг и математику одновременно. Самые крутые прорывы случаются на стыке дисциплин.
P.S.
Знаешь, что сказал Демис Хассабис, когда его спросили, зачем он учит ИИ играть в игры?
«Игры — это идеальная песочница для интеллекта. Если мы научимся создавать интеллект в игре, мы сможем применить его в реальности: в медицине, энергетике, науке».
Оказалось, он не шутил.
Глава 7. AlphaGo и матч с Ли Седолем: «Божественный ход», который потряс человечество
Крючок: 15 секунд, изменивших всё
9 марта 2016 года, Сеул. В конференц-зале отеля «Фор Сизонс» тишина, которую нарушает только стук камней о деревянную доску. За столом сидит Ли Седоль — легенда, 18-кратный чемпион мира по игре Го, живое национальное достояние Кореи. Напротив него — пустота. Только камера, направленная на доску, и динамик, через который транслируются ходы соперника.
Соперник — программа AlphaGo, созданная британской компанией DeepMind, которую недавно купил Google.
Идёт вторая партия. Счёт 0:1 в пользу AlphaGo — Ли Седоль уже проиграл первую партию, что само по себе было шоком. Но сейчас, на 37-м ходу второй партии, происходит нечто странное.
AlphaGo делает ход. Камень ложится в точку, которую комментаторы называют «невозможной». Один из профессиональных игроков, комментирующий матч в прямом эфире, говорит: «Это ошибка. Программа сломалась. Так не ходят люди».
Ли Седоль на мгновение замирает. Ему нужно принять решение. Он не знает, что этот ход войдёт в историю под именем «Божественный ход». Он не знает, что этот момент изменит всё.
Он выходит из зала покурить. Ему нужно подумать.
А в это время по всему миру трансляцию смотрят миллионы людей, и никто ещё не понимает: они стали свидетелями момента, когда машина сделала то, что не мог сделать ни один человек за тысячелетия игры.
Герой: Последний бастион человеческого разума
Чтобы понять драму, нужно понять, что такое игра Го.
Го — это древняя китайская игра, которой больше 2500 лет. Правила просты: два игрока ставят чёрные и белые камни на пересечения линий, пытаясь окружить территорию. Но сложность этой игры — космическая.
В шахматах после каждого хода есть около 35 вариантов. В Го — 250 вариантов. Количество возможных позиций в Го больше, чем количество атомов во Вселенной. Тысячелетиями считалось, что машина никогда не сможет обыграть человека в Го, потому что здесь нужна не просто сила перебора, а интуиция. Чувство красоты. Понимание формы.
Ли Седоль был воплощением этой интуиции. Он стал профессионалом в 12 лет. Он выигрывал всё, что можно. В Корее его боготворили. Когда стало известно о матче с программой, он был уверен в победе. «Я выиграю 5:0 или 4:1», — сказал он перед началом. «Люди интуитивно чувствуют игру, а машина — нет».
Он не знал, что через несколько дней будет плакать.
Конфликт: Две философии интеллекта
AlphaGo, созданная командой Демиса Хассабиса (того самого, что играл в Atari), была принципиально новой машиной. Она не была «запрограммирована» на игру в Го. Её учили по-другому.
Как учили AlphaGo:
— Сначала она смотрела на людей. Ей скормили 30 миллионов ходов, сделанных профессиональными игроками. Она училась предсказывать: «Если позиция такая, то человек скорее всего сходит сюда». Это называется обучение с учителем. Она впитала всю мудрость человечества за 2500 лет.
— Потом она начала играть сама с собой. Миллионы партий, днём и ночью, без остановки. Она играла с копией себя, училась на своих ошибках, находила новые стратегии, которые никогда не приходили в голову людям. Это называется обучение с подкреплением.
— У неё были две нейросети внутри. Одна — «Политика» — предлагала, куда сходить. Вторая — «Ценность» — оценивала, насколько хороша позиция в долгосрочной перспективе. Они спорили друг с другом, и рождалась истина.
К марту 2016 года AlphaGo сыграла сама с собой столько партий, сколько человек не сыграет за миллион лет.
Развязка: Пять партий, потрясших мир
Матч из пяти партий транслировался на видеохостинге. Комментаторами были профессиональные игроки Го. Зрителями — весь мир.
Партия 1: Шок
AlphaGo выиграла. Ли Седоль ошибался? Нет, он играл сильно. Но программа играла сильнее. Мир ахнул, но решил: «Первая партия, разведка. Дальше будет легче».
Партия 2: Божественный ход (37-й ход)
И вот он, тот самый момент. 37-й ход чёрными. AlphaGo поставила камень в точку, которая считалась не просто плохой, а немыслимой для профессионалов. Комментаторы в студии сказали: «Это ошибка программы». Они даже попытались найти объяснение: «Может, там баг?».
Но по мере развития партии стало понятно: это был не баг. Это был гений. Этот камень оказался ключевым. Он создавал невидимые глазу человека угрозы на 50 ходов вперёд. Комментаторы замолчали, потом начали говорить: «Мы никогда не видели такого хода за 1000 лет игры».
Ли Седоль проиграл вторую партию. Счёт 0:2.
Партия 3: Унижение
Третья партия. Ли Седоль играет изо всех сил, но AlphaGo снова побеждает. Счёт 0:3. Матч проигран досрочно. В зале тишина. Ли Седоль выглядит потерянным. Он извиняется перед зрителями. Он говорит: «Я чувствую себя бессильным».
Партия 4: Слёзы и триумф человека
И тут происходит то, чего не ждал никто. Ли Седоль собирается. Он делает ход, который потом назовут «Ход Бога» (или «Ход Ли Седоля»). На 78-м ходу четвёртой партии он ставит камень в сложнейшую позицию.
AlphaGo сбивается. Программа, которая никогда не ошибается, начинает делать странные ходы. Алгоритм подсчёта вероятности победы резко падает. Впервые за матч AlphaGo проигрывает.
Ли Седоль выигрывает. Он плачет. Зал аплодирует стоя. Комментаторы рыдают в эфире. Человек победил машину.
Партия 5: Финал
Пятая партия была напряжённой, но AlphaGo восстановилась и выиграла. Итог матча: 4:1 в пользу машины.
Инсайт: Что случилось с AlphaGo в четвёртой партии?
Почему машина, которая обыграла чемпиона, вдруг проиграла? Ответ прост и сложен одновременно.
Ход Ли Седоля был настолько нестандартным, настолько человечным, что вывел AlphaGo из зоны комфорта. Программа не видела такого хода в миллионах партий, которые она сыграла сама с собой. Она просто не знала, как на него реагировать. Это был творческий акт, который сломал алгоритм.
Демис Хассабис потом скажет: «Это был гениальный ход. Ли Седоль нашёл единственную слабость в нашей системе. Он играл как человек, а не как машина».
Божественный ход (37-й) — взгляд изнутри
А что насчёт того самого 37-го хода? Почему его назвали божественным?
Профессиональные игроки Го объясняют это так: человек мыслит «паттернами». Мы видим привычные формы, стандартные построения. Мы знаем, что «так не ходят», потому что так не учили.
AlphaGo не знала слова «нельзя». Она просто посчитала вероятности. И вероятность победы при этом ходе оказалась выше, чем при «правильных» ходах. Она нашла решение, которое лежало за пределами человеческого опыта.
Это был момент, когда машина показала человеку: «Ваша мудрость, накопленная веками, — это лишь частный случай. Есть другие миры, о которых вы даже не догадываетесь».
Наследие: После матча
Что стало с героями?
AlphaGo больше никогда не играла с людьми. DeepMind объявила о «выходе на пенсию» программы в 2017 году. Но перед этим она сыграла с собой 50 партий, которые были опубликованы как «шедевры». Сегодня любой игрок может изучать эти партии, как шахматисты изучают партии Каспарова. AlphaGo изменила игру Го навсегда. Появились новые дебюты, новые стратегии. Люди стали играть лучше, глядя на машину.
Ли Седоль ушёл из профессионального спорта в 2019 году. Он сказал: «С появлением ИИ понял, что я больше не на вершине. Есть существо, которое невозможно победить». Но в 2023 году он объявил о возвращении, чтобы сыграть с… другими людьми. С машинами он больше никогда не играл. В интервью он говорит, что гордится той одной победой, потому что это была победа человеческого духа.
Человечество получило важнейший урок. Мы поняли, что интуиция — это не магия. Это тоже результат обработки данных, просто очень быстрой и неосознаваемой. И что машины могут создавать новое, то, чего не было в обучающей выборке.
Твой ход: Четыре урока от Ли Седоля и AlphaGo
— Не бойся выходить за рамки. 37-й ход AlphaGo был невозможен с точки зрения традиции. Но он сработал. В твоей работе, творчестве, жизни — ищи «невозможные ходы».
— Цени человеческое. Ход Ли Седоля в четвёртой партии был гениален именно потому, что был человеческим. Нестандартным, интуитивным, отчаянным. Машины учатся на данных. Люди умеют делать то, чему их не учили.
— Учись у машин. Сегодня профессиональные игроки в Го изучают партии AlphaGo. Ты тоже можешь смотреть, как ИИ пишет код, рисует или пишет тексты, и находить там новые приёмы.
— Принимай поражение с достоинством. Ли Седоль проиграл, но не сломался. Он выиграл одну партию, и этого хватило, чтобы войти в историю. Иногда одна победа важнее десяти титулов.
P.S.
Когда Ли Седоля спросили, что он чувствовал после 37-го хода во второй партии, он ответил:
«Сначала я подумал, что это ошибка. Потом я подумал, что надо покурить. А потом я понял, что смотрю на доску и не понимаю, что происходит. Я играл в Го 30 лет, но никогда не видел такой красоты».
Это и есть момент встречи человека и сверхинтеллекта — когда ты перестаёшь бояться и начинаешь восхищаться.
Глава 8. WaveNet: Как Google научил машину говорить с человеческими интонациями (Синтез речи)
Крючок: Звонок от мамы
Представь, что тебе звонит мама. Ты снимаешь трубку, слышишь родной голос, интонации, дыхание, может быть, лёгкую хрипотцу. Она говорит: «Привет, сынок, как дела? Ты поел?» Ты отвечаешь, расслабляешься, потому что это свой, родной человек.
А потом выясняется, что это был не человек. Это был робот. Он сгенерировал голос твоей мамы в реальном времени, сымитировал её манеру говорить, её паузы, её дыхание. И ты купился.
Звучит как сценарий фильма ужасов? Возможно. Но именно к этому миру нас привела технология, которая называется WaveNet.
А начиналось всё с простой задачи: сделать так, чтобы роботы перестали звучать как роботы.
Герои: Британские учёные, которым надоел металлический голос
В 2016 году в Лондоне, в офисе DeepMind (той самой компании, которая обыграла Ли Седоля в Го), сидела команда исследователей. Они занимались разными вещами: играми, логикой, планированием. Но была одна проблема, которая раздражала всех: синтез речи.
В то время все голосовые помощники — Siri, Google Now, Алиса (в будущем) — звучали… как роботы. Да, они были понятны. Да, они могли прочитать текст. Но это был мёртвый звук. Он резал слух.
Почему? Потому что все существующие системы синтеза речи работали по одному из двух принципов:
— Компиляция (Concatenative synthesis). Берётся огромная библиотека записей реального диктора, режется на кусочки (фонемы, слоги), а потом эти кусочки склеиваются как конструктор. Звучит дёргано, потому что интонации на стыках не совпадают.
— Параметрический синтез (Parametric synthesis). Компьютер генерирует звук по математическим формулам: частота, амплитуда, длительность. Это звучит как «говорящий калькулятор» — плоско и неестественно.
Команда DeepMind задала вопрос: «А что, если не склеивать и не считать по формулам? Что, если заставить нейросеть научиться говорить, как человек? С нуля, генерируя звук по сэмплу, точка за точкой?».
Конфликт: Почему звук — это сложно
Звук — это не слова. Слова — это просто символы. Звук — это физика. Это колебания воздуха, которые мы измеряем 16 000 или 44 100 раз в секунду (частота дискретизации).
Чтобы сгенерировать 1 секунду речи, нейросеть должна предсказать 16 000 значений (сэмплов). И каждый следующий сэмпл зависит от предыдущих. Это как если бы ты писал бесконечную цепочку, где каждое следующее слово зависит от предыдущих 16 000.
Проблема в том, что существующие нейросети (рекуррентные, LSTM) плохо справлялись с такой длинной зависимостью. Они «забывали» начало предложения к тому моменту, как доходили до конца. А для интонации важна вся фраза целиком.
Кроме того, человеческий голос — это не просто частота. Это:
— Дыхание (вдохи перед фразами).
— Интонация (повышение и понижение тона).
— Акценты (выделение важных слов).
— Эмоции (радость, грусть, сарказм).
— Паузы (заполненные и незаполненные).
Ни одна из существующих систем не умела это моделировать. Они выдавали «мёртвый» текст.
Развязка: Гениальная простота
Команда DeepMind (Аарон ван ден Оорд, Карен Симонян и другие) придумала архитектуру, которую назвали WaveNet.
Идея была обманчиво проста: они взяли свёрточные нейросети (те, что используются для распознавания картинок) и применили их к звуку. Но не просто свёрточные, а дилатированные (dilated) свёртки.
Что это значит?
Обычная свёртка смотрит на соседние пиксели. В звуке — на соседние сэмплы. Но чтобы охватить длинные зависимости (например, интонацию всего предложения), нужно смотреть далеко вперёд и назад.
Дилатированная свёртка — это как если бы ты смотрел на звук не подряд, а с шагом: сначала на каждый сэмпл, потом на каждый второй, потом на каждый четвёртый, шестнадцатый и так далее. Это позволяло сети «видеть» и микро-детали (шёпот, шипение), и макро-структуру (ритм фразы) одновременно.
Они сложили много таких слоёв друг на друга (как слоёный пирог), и сеть научилась предсказывать следующий звук на основе всех предыдущих, даже очень далёких.
Второй гениальный трюк: они не просто генерировали звук. Они генерировали распределение вероятностей для каждого следующего сэмпла.
То есть нейросеть не говорила: «Следующий звук будет такой-то». Она говорила: «С вероятностью 70% это будет звук А, с вероятностью 20% — звук Б, с вероятностью 10% — звук В». А потом они выбирали случайно из этого распределения.
Зачем? Чтобы голос звучал естественно. Если выбирать всегда самый вероятный вариант, голос становится слишком «механическим», как автопилот. Если добавить случайность — появляются те самые живые вариации, которые делают речь человеческой.
Инсайт: Момент, когда робот задышал
В 2016 году DeepMind опубликовала статью и демо-записи. Люди, слушавшие их впервые, не могли поверить своим ушам.
Голоса, сгенерированные WaveNet, звучали лучше, чем записи реальных дикторов в существующих системах. Тесты показали, что люди предпочитают WaveNet и реальным записям (потому что реальные дикторы иногда устают и ошибаются), и уж тем более другим синтезаторам.
Но самое потрясающее было в другом.
WaveNet научилась не просто читать текст. Она научилась:
— Имитировать акценты. Ей давали запись человека с ирландским акцентом, и она говорила с ирландским акцентом.
— Передавать эмоции. Она могла говорить сердито, радостно, грустно — если её обучить на соответствующих записях.
— Генерировать дыхание. В паузах между фразами слышно, как диктор делает вдох. Это то, что ни одна система раньше не делала.
А ещё WaveNet научилась генерировать музыку и звуки. Если её обучить на фортепианных записях, она могла сочинять новые мелодии в том же стиле. Если обучить на звуках дождя — она генерировала бесконечный дождь, который звучал как настоящий.
Проблема: Гениальное нельзя запустить
У WaveNet была одна огромная проблема, которая делала её коммерчески непригодной в 2016 году.
Скорость.
Чтобы сгенерировать 1 секунду звука, WaveNet требовалось несколько минут вычислений на мощном процессоре. Потому что она генерировала сэмпл за сэмплом, последовательно, и каждый сэмпл проходил через огромную нейросеть.
Это было как если бы ты хотел послушать аудиокнигу, а тебе приходилось ждать неделю, пока компьютер её наговорит. Для реального использования (Google Assistant, озвучка видео) это было невозможно.
DeepMind пришлось искать компромиссы. Они создали упрощённую версию (Parallel WaveNet), которая использовала вторую нейросеть для «дистилляции» знаний и могла генерировать звук параллельно, в реальном времени.
Наследие: Революция в голосе
WaveNet изменила всё. После неё:
— Google Assistant заговорил новым, живым голосом. Теперь его стало сложно отличить от человека по коротким фразам.
— Амазонка и Apple бросились догонять. Началась гонка голосов.
— Появились коммерческие сервисы синтеза речи (Murf.ai, ElevenLabs), которые делают голоса, неотличимые от человеческих.
— Началась эра дипфейков голоса. Технология, созданная для удобства, быстро стала инструментом мошенников. Сегодня аферисты могут позвонить вам голосом вашего начальника и попросить перевести деньги.
Темная сторона: Когда голос крадут
Самое страшное применение WaveNet и её последователей — это синтез голоса конкретного человека.
Достаточно 3–5 минут записи чужого голоса (из видео, интервью, случайного разговора), чтобы нейросеть научилась говорить так же. Мошенники звонят родственникам и паническим голосом просят выкуп. Журналистов дискредитируют фейковыми высказываниями. Бизнесменов обманывают, имитируя голос партнёров.
WaveNet открыла ящик Пандоры. Мы вступили в эру, где голосу больше нельзя доверять. Если ты не видишь человека своими глазами — ты не можешь быть уверен, что это он.
Твой ход: Четыре урока от WaveNet
— Гениальность в деталях. WaveNet победила не потому, что придумала что-то космическое, а потому что научилась учитывать все детали: дыхание, паузы, интонации. В твоей работе тоже: успех часто в мелочах, которые другие игнорируют.
— Скорость имеет значение. Самая гениальная технология бесполезна, если её нельзя применить в реальной жизни. Всегда думай о том, как твоё решение будет работать «в поле».
— Технология нейтральна. WaveNet создавали, чтобы помочь слепым людям «читать» тексты или чтобы Алиса звучала приятнее. А теперь ею пользуются мошенники. Помни: любой инструмент можно использовать во благо и во зло.
— Проверяй реальность. Если тебе позвонили с неожиданной просьбой о деньгах — перезвони сам, напиши в мессенджер, спроси то, что знаете только вы двое. Доверие к голосу умерло.
P.S.
Знаешь, что сказал один из создателей WaveNet, когда его спросили про мошенников?
«Мы создавали технологию, чтобы помогать людям. То, как её используют другие, — это вопрос образования и законодательства. Но остановить прогресс нельзя. Мы можем только научиться жить в новом мире».
Глава 9. BERT and Co.: Как модели научились читать контекст (Понимание языка)
Крючок: Загадка про банк
Представь, что ты даёшь компьютеру два предложения:
— «Я пошёл в банк, чтобы положить деньги на счёт.»
— «Мы сидели на банке в парке и ели мороженое.»
Для человека это элементарно. В первом случае — финансовое учреждение, во втором — скамейка. Но для машины до 2018 года это была катастрофа. Слово «банк» — это просто набор букв. У него нет значения само по себе. Значение появляется только из контекста.
До появления BERT компьютеры читали текст как мешок слов. Они не понимали, что порядок важен. Они не понимали, что слово может менять смысл в зависимости от соседей. Они были как дислексики, которые видят буквы, но не схватывают суть.
А потом в Google пришла команда исследователей и сделала то, что изменило всё.
Герои: Невидимые гении из Маунтин-Вью
В отличие от DeepMind с их громкими пиар-кампаниями, команда, создавшая BERT, работала в тени. Это были инженеры и исследователи из Google AI Language.
Их имена — Джейкоб Девлин, Мин-Вей Чанг, Кентон Ли, Кристина Тутанова — известны в основном специалистам. Они не играли в Го на глазах у всего мира. Они просто делали свою работу: улучшали поиск Google.
Проблема, которую они решали, была мучительной для всей компании. Google зарабатывает деньги на поиске. А поиск — это понимание того, что ищет пользователь. Если поисковая система не понимает смысла запроса, она показывает ерунду. А пользователи уходят к конкурентам.
К 2018 году все поисковики работали примерно одинаково: они смотрели на слова в запросе и искали страницы, где эти слова встречаются. Это была эра keyword matching. Но люди так не мыслят. Люди мыслят смыслами.
Конфликт: Почему старые модели были глупыми
До BERT все языковые модели работали по одному из двух принципов:
1. Bag of Words (Мешок слов).
Предложение превращалось в набор слов без порядка. «Мама мыла раму» и «Рама мыла маму» для такой модели были одинаковыми. Абсурд, но факт.
2. Односторонние модели (RNN/LSTM).
Они читали текст слева направо и предсказывали следующее слово. Но у них была проблема: они «видели» только прошлое, но не будущее. А для понимания контекста нужно видеть и то, что было ДО, и то, что будет ПОСЛЕ.
Пример: «Он пошёл в банк, потому что ему нужно было…».
Чтобы понять, какой банк имеется в виду, нужно знать, что будет дальше: «… положить деньги» или «… починить штаны». Односторонняя модель этого не умела. Она гадала вслепую.
Исследователи Google задали простой вопрос: «А что, если научить модель смотреть на текст с двух сторон одновременно? Что, если дать ей читать как человек?».
Развязка: BERT — дворецкий, который понимает всё
BERT (Bidirectional Encoder Representations from Transformers) — это архитектура, которая совершила революцию.
Название расшифровывается как «Двунаправленные представления кодировщика от трансформеров». Звучит страшно, но суть проста.
Гениальная идея №1: Двунаправленность.
BERT читает текст сразу весь. Он не идёт слева направо. Он смотрит на все слова в предложении одновременно и для каждого слова учитывает все остальные — и слева, и справа.
Как это работает? Представь, что ты разгадываешь кроссворд. У тебя есть слово из 5 букв, и тебе нужно его угадать. Ты смотришь на соседние слова по вертикали и горизонтали. Ты учитываешь всё сразу. Примерно так же работает BERT.
Гениальная идея №2: Маскировка (Masked Language Model).
Как научить модель понимать контекст, если у тебя нет правильных ответов? В обычном языке нет размеченных данных.
Хитрость: они прятали 15% слов в предложении и заставляли модель угадывать спрятанное.
Например: «Я пошёл в [MASK], чтобы положить деньги.»
Модель должна понять по контексту, что спрятано слово «банк» (финансовый), а не «парк» или «магазин».
Когда модель учится угадывать спрятанные слова, она невольно учится понимать, как слова связаны друг с другом. Она впитывает в себя грамматику, семантику, контекст. Это называется self-supervised learning — самообучение без учителя.
Гениальная идея №3: Трансформеры.
BERT построен на архитектуре Transformer, которая была придумана в Google чуть раньше (знаменитая статья «Attention Is All You Need», 2017). Трансформеры позволяют модели обрабатывать все слова параллельно (а не последовательно, как старые сети) и использовать механизм внимания (attention) — то есть фокусироваться на важных словах в предложении, даже если они далеко друг от друга.
Инсайт: Момент, когда поиск поумнел
В 2018 году Google опубликовала статью про BERT и одновременно выложила код в открытый доступ.
Это был гениальный бизнес-ход. Google могла держать технологию в секрете и пользоваться сама. Вместо этого они открыли исходники. Почему? Потому что BERT — это не продукт. Это фундамент. Google хотела, чтобы весь мир начал строить на этом фундаменте, чтобы экосистема росла, а Google оставалась лидером.
Эффект был мгновенным. BERT побил все рекорды в 11 задачах понимания языка (GLUE benchmark). То, что казалось невозможным вчера, стало реальностью сегодня.
А в 2019 году Google объявила, что BERT работает в поиске. Это было самое большое изменение в алгоритмах поиска за последние 5 лет.
Что это значило для обычных людей?
Раньше, если ты искал «2019 бразилия путешественник забрался в аптеку», Google искал слова «2019», «бразилия», «путешественник», «забрался», «аптека». И находил чёрт знает что.
С BERT Google начала понимать, что предлог «в» меняет смысл. Что «забраться в аптеку» — это не то же самое, что «купить в аптеке». Что контекст важен.
Вот пример, который приводила сама Google:
Запрос: «Do estheticians stand a lot at work?» (Много ли стоят косметологи на работе?)
Раньше Google показывала страницы про «стоячую работу» вообще. BERT понял, что важно слово «estheticians» (косметологи), и выдал точный ответ именно про эту профессию.
Война гигантов: BERT против всех
Успех BERT породил гонку вооружений. Все захотели свою «понимающую» модель.
— OpenAI выпустила GPT (Generative Pre-trained Transformer). Но их модель была односторонней (слева направо). Она лучше генерировала текст, но хуже понимала контекст.
— Фейс выпустил RoBERTa — улучшенную версию BERT (больше данных, дольше обучение, хитрее настройки).
— Microsoft выпустила MT-DNN, Turing-NLG.
— Google не остановилась: вышли ALBERT (лёгкий BERT), T5 (Text-to-Text Transfer Transformer) — модель, которая умела делать всё: переводить, отвечать, обобщать, просто превращая любую задачу в текст.
Каждая новая модель была больше, мощнее и требовала больше вычислительных ресурсов. Если первые версии BERT имели 110 миллионов параметров, то современные модели (GPT-3) доросли до 175 миллиардов.
Темная сторона: Размер имеет значение?
У этого бума был обратный эффект.
1. Экологический. Обучение большой языковой модели выделяет столько же CO2, сколько 5 автомобилей за весь срок службы. Гонка гигантов стала угрожать климату.
2. Элитарный. Только суперкорпорации (Google, Microsoft…) могли позволить себе обучать такие модели. Университеты и стартапы выпали из гонки. Наука из открытой стала закрытой.
3. Невменяемый. Модели стали настолько большими, что никто до конца не понимает, как они работают внутри. Мы знаем, что на входе и что на выходе, но что происходит между ними — «чёрный ящик».
Наследие: Без BERT не было бы ChatGPT
BERT и его последователи создали фундамент для всего, что мы имеем сейчас.
— Поисковики стали умными. Яндекс тоже внедрил свои аналоги.
— Голосовые помощники начали понимать сложные запросы.
— Анализ тональности (определение эмоций по тексту) вышел на новый уровень.
— Машинный перевод перестал быть корявым.
— И самое главное: BERT доказал, что контекст — это всё.
А потом, через несколько лет, на этом фундаменте построили ChatGPT. Но об этом позже.
Твой ход: Четыре урока от BERT
— Смотри на проблему с двух сторон. Одностороннее мышление — главный враг понимания. Всегда ищи контекст, всегда смотри на ситуацию с разных углов.
— Учись угадывать спрятанное. Метод маскировки (предсказание пропущенного) — отличный способ учиться чему угодно. Когда ты сталкиваешься с неполной информацией, попробуй восстановить целое. Это тренирует мозг.
— Открытость порождает экосистему. Google открыла BERT — и весь мир начал работать на их технологии. Иногда выгоднее поделиться, чем спрятать.
— Размер — не главное. BERT был прорывом не потому, что был огромным, а потому что был умным. В погоне за масштабом не забывай про качество архитектуры.
P.S.
Знаешь, что самое забавное? Когда BERT только вышел, многие критики говорили: «Ну, понимание контекста — это круто, но до настоящего интеллекта ещё далеко». Они были правы. Но они не знали, что семена уже посеяны.
Всего через несколько лет те же принципы (трансформеры, внимание, контекст) приведут к появлению моделей, которые будут писать поэмы и сдавать экзамены в Стэнфорде.
Глава 10. GANs (Состязательные сети): История про художника и критика, которые создают идеальные подделки
Крючок: Лицо, которого нет
Зайди на сайт ThisPersonDoesNotExist.com. Нажми F5. Ты увидишь лицо человека. Красивого, живого, с морщинками, родинками, эмоциями. Нажми ещё раз — новое лицо. Ещё раз — новое.
Ни одного из этих людей не существует в реальности. Никогда не существовало. Это чистая генерация нейросети. Они не родились, не ходили в школу, не любили, не страдали. Их просто нарисовала машина.
А теперь самое страшное: ты не можешь отличить их от реальных фотографий. Твой мозг обманут. И это сделала технология под названием GAN.
Герой: Канадец, которого достала скука
История GAN началась в 2014 году в Монреале. Молодой исследователь по имени Ян Гудфеллоу (Ian Goodfellow) работал в лаборатории знаменитого Йошуа Бенжио (одного из «трёх китов» глубокого обучения).
По легенде (а Гудфеллоу подтверждает её в интервью), идея пришла к нему в баре.
Они сидели с друзьями после защиты диссертации одного из коллег. Разговор зашёл о нейросетях, и кто-то сказал: «Всё, что мы умеем — это классифицировать и предсказывать. Мы не умеем создавать новое. Машины не творческие».
Ян задумался. А что, если заставить две нейросети соревноваться? Что, если одна будет пытаться обмануть другую? Он достал ноутбук, прямо в баре начал писать код и к утру у него была работающая версия.
Это был момент истинной гениальности — не в лаборатории, не на суперкомпьютере, а в баре за кружкой пива.
Конфликт: Почему машины не умели творить
До GAN всё, что умели нейросети — это распознавать и классифицировать. Они смотрели на картинку и говорили: «Это кот», «Это не кот». Они были как искусствоведы, которые могут отличить Пикассо от Матисса, но сами нарисовать не могут.
Задача генерации (создания нового) казалась неразрешимой. Потому что «правильного ответа» нет. Как проверить, хорошую картинку нарисовала нейросеть или плохую? Кто судья?
Можно было попробовать обучить сеть срисовывать с примеров. Но тогда она просто запоминала картинки и выдавала их копии с шумом. Это не творчество, это плагиат.
Нужен был принципиально новый подход.
Развязка: Гениальная дуэль
Ян Гудфеллоу придумал гениально простую конструкцию. Он взял две нейросети и поставил их играть в игру с нулевой суммой (кто выиграл, тот и съел).
Игрок 1: Генератор (Художник-фальшивомонетчик).
Это нейросеть, которая учится создавать подделки. На входе она получает случайный шум (набор случайных чисел). На выходе выдаёт картинку. Сначала это просто цветной мусор, абстракция, похожая на телевизионные помехи.
Игрок 2: Дискриминатор (Критик-искусствовед).
Это нейросеть, которая учится отличать подлинники от подделок. Ей показывают и настоящие фотографии из базы данных, и творения Генератора. Она должна сказать: «Настоящее» или «Подделка».
Правила игры:
— Генератор создаёт подделку.
— Дискриминатор оценивает: «Фу, ерунда, видно же, что подделка».
— Генератор получает по носу (штраф) и подкручивает свои настройки, чтобы в следующий раз обмануть критика лучше.
— Дискриминатор тоже учится: если его обманули, он подкручивает свои настройки, чтобы стать более придирчивым.
— И так миллион раз.
Эволюция:
— Раунд 1: Генератор рисует серое месиво. Дискриминатор смеётся: «Это подделка, 100%».
— Раунд 1000: Генератор рисует что-то, отдалённо похожее на размытое лицо. Дискриминатор говорит: «Сомнительно, но похоже на подделку».
— Раунд 1 000 000: Генератор рисует идеальное фото человека. Дискриминатор в панике: «Я не знаю… может, настоящее?».
Когда игра доходит до конца, наступает равновесие Нэша (то самое, из «Игр разума» про Джона Нэша): Дискриминатор уже не может отличить подделку от оригинала, потому что Генератор научился создавать идеальные копии.
Инсайт: Почему это гениально
Гениальность GAN в том, что критик обучается вместе с художником.
В обычной нейросети ты фиксируешь «правильные ответы» и учишь сеть под них подстраиваться. В GAN нет фиксированных ответов. Есть только вечная гонка вооружений. Дискриминатор становится всё более требовательным, и Генератор вынужден становиться всё более искусным, чтобы его обмануть.
Это как если бы ты учился рисовать, а твоим учителем был самый придирчивый искусствовед в мире, который с каждым твоим успехом становился бы ещё придирчивее.
Эволюция: От размытых лиц к фотореализму
Первые GAN в 2014 году выдавали ужасное качество. Лица были размытыми, с плавающими глазами, с тремя ушами. Но сообщество исследователей подхватило идею, и началась эволюция.
DCGAN (2015): Добавили свёрточные слои (те, что из AlexNet). Картинки стали чётче, появилась структура.
CycleGAN (2017): Научилась превращать лошадей в зебр, лето в зиму, эскизы в фото. Без парных примеров! Просто берёт два набора картинок (сотни фото лошадей и сотни фото зебр) и учится переводить одно в другое.
StyleGAN (2018) от NVIDIA: Прорыв года. StyleGAN научилась генерировать лица в супер-высоком разрешении, с контролем стиля. Хочешь, чтобы у человека были веснушки? Пожалуйста. Хочешь изменить возраст? Легко. Хочешь повернуть голову? Без проблем. Именно StyleGAN лежит в основе сайта ThisPersonDoesNotExist.com.
BigGAN (2019): Научилась генерировать не только лица, а вообще всё: собак, цветы, еду, пейзажи. Качество стало почти фотографическим.
Темная сторона: Империя фейков
Как только GAN научились создавать неотличимые от реальности изображения, начался кошмар.
1. Deepfakes (дипфейки).
Самое известное (и страшное) применение. Люди начали накладывать лица знаменитостей на порно-ролики. Потом — лица политиков на видео, где они говорят то, чего никогда не говорили. Потом — лица обычных людей. Теперь любой человек с видеокартой может «заставить» любого другого человека сказать что угодно.
2. Фейковые новости.
Представь фотографию, на которой президенты пожимают руки врагам. Или солдаты совершают военные преступления. Фотошоп раньше был заметен. StyleGAN создаёт фото, которые не отличить от настоящих. Доказательств больше не существует.
3. Кража личности.
Мошенники создают фейковые профили в соцсетях с лицами несуществующих людей. Они выглядят привлекательно, ведут переписку, втираются в доверие и выманивают деньги. Жертва даже не подозревает, что человека, с которым она общалась месяц, не существует в природе.
4. Порноместь.
Самый страшный пункт. Люди начали генерировать порнографические изображения с лицами своих бывших партнёров или одноклассников, а потом распространять их в интернете. Жертва не может доказать, что это не она, потому что фото выглядит идеально реалистично.
Борьба: Охотники за фейками
Парадокс GAN в том, что те же самые технологии используются для борьбы с фейками.
— Создаются детекторы дипфейков, которые ищут микро-артефакты: как бьётся пульс на видео (дипфейки не умеют имитировать кровоток), как отражается свет в глазах, как двигаются ресницы.
— Компании вроде Microsoft вкладывают миллионы в создание «водяных знаков» для настоящих видео.
— Учёные разрабатывают методы, которые позволяют определить, какой именно GAN создал картинку (у каждой архитектуры есть свой «почерк»).
Но это гонка без финиша. Как только детекторы учатся ловить один тип фейков, GAN учатся их обходить.
Наследие: Эра пост-правды
Что оставили нам GAN?
Для творчества:
Теперь любой человек может создать иллюстрацию, дизайн, концепт-арт. Достаточно набросать эскиз, а GAN дорисует в любом стиле. Дизайнеры используют GAN для генерации текстур, узоров, вариаций. Это инструмент, как фотошоп, только в тысячу раз мощнее.
Для науки:
GAN используют для создания новых молекул (лекарств), для улучшения снимков МРТ (делают чётче без дополнительного облучения), для восстановления старых фотографий.
Для общества:
Мы вступили в эру, где видеть — больше не значит верить. Фотография перестала быть доказательством. Любое изображение может быть подделкой. Это требует от нас нового уровня критического мышления.
Твой ход: Четыре урока от GAN
— Конкуренция рождает качество. Генератор и Дискриминатор стали гениями только потому, что соревновались. В жизни тоже: здоровый конфликт, обратная связь от «критика» делает тебя лучше.
— Творчество — это комбинация. GAN не создают из ничего. Они комбинируют элементы из миллионов примеров. Твоё творчество — тоже переработка опыта. Не бойся заимствовать и смешивать.
— Инструмент нейтрален. Молотком можно забить гвоздь, а можно разбить голову. GAN можно использовать для лечения рака и для разрушения репутаций. Выбор за тобой.
— Проверяй реальность. Если увидел скандальное фото или видео в интернете — не верь сразу. Ищи источник, смотри на детали, включай критическое мышление. Мир стал сложнее.
P.S.
Знаешь, что сказал Ян Гудфеллоу, когда его спросили про дипфейки и фейковые новости?
«Я создавал технологию, чтобы машины могли творить. Я не думал о злоумышленниках. Но науку не остановить. Мы должны учить людей думать, а не запрещать технологии».
Генератор и Критик продолжают свою вечную дуэль. Художник становится лучше, критик — придирчивее. И кто знает, может быть, через несколько лет мы уже не сможем отличить реальность от вымысла никогда.
Глава 11. ResNet: Почему «остаточные связи» позволили строить сети толщиной в сотни слоев
Крючок: Парадокс строителя
Представь, что ты строишь небоскрёб. Ты начинаешь с 10 этажей. Здание стоит крепко. Ты добавляешь ещё 10 — всё хорошо. Ещё 10 — стоит.
Но вдруг, когда ты доходишь до 50 этажей, происходит странное: нижние этажи начинают проседать. Бетон трескается. Здание становится менее устойчивым, чем 40-этажное. Хотя по логике, чем выше здание, тем оно прочнее (если строить правильно), но здесь что-то идёт не так.
Примерно такая же проблема встала перед исследователями нейросетей в 2015 году. Казалось бы, чем больше слоёв в нейросети, тем умнее она должна быть. Ведь больше параметров, больше возможностей для абстракций.
Но практика показывала обратное: сети глубиной более 20–30 слоёв начинали учиться хуже, чем их мелкие собратья. Ошибка на обучении не уменьшалась, а росла. Это было проклятие, которое грозило остановить прогресс.
Герои: Команда из Пекина, которая победила всех
В 2015 году группа исследователей из Microsoft Research Asia (пекинский офис) под руководством Каймина Хэ (Kaiming He) работала над этой проблемой.
Каймин Хэ — фигура легендарная. Позже он уйдёт в Фейс и станет одним из главных людей в мире компьютерного зрения. Но тогда это был просто талантливый учёный, который бился над проклятием глубины.
Команда (Сяньюй Чжан, Шаоцин Жэнь, Цзянь Сунь) задала себе простой вопрос: «Почему глубокие сети работают хуже? Ведь они могут аппроксимировать мелкие, просто обнуляя лишние слои?»
Теоретически, если у тебя есть сеть в 50 слоёв, ты можешь сделать первые 20 слоёв такими же, как в 20-слойной сети, а остальные 30 превратить в тождественное преобразование (то есть они просто передают сигнал дальше, не меняя его). Тогда 50-слойная сеть должна работать не хуже 20-слойной.
Но на практике оптимизация (градиентный спуск) не могла найти такое решение. Сети «забывали», как обнулять лишние слои, и начинали портить уже выученное.
Конфликт: Проклятие градиента
Чтобы понять проблему, нужно вспомнить, как учатся нейросети.
Ошибка (разница между ответом сети и правильным ответом) передаётся от последнего слоя к первому. Это называется обратное распространение ошибки. Градиент (сигнал ошибки) проходит через каждый слой и подсказывает, как менять веса.
Но когда сеть очень глубокая, градиент, проходя через десятки слоёв, начинает вести себя плохо. Он либо затухает (становится почти нулевым — vanishing gradient), либо взрывается (становится бесконечно большим — exploding gradient).
В результате первые слои (которые отвечают за базовые признаки — края, углы, линии) либо вообще не учатся (градиент умер), либо сходят с ума.
Сети просто не могли доставить сигнал ошибки от выхода до входа, не потеряв его по дороге. Это был тупик.
Развязка: Шорткат (Обходной путь)
Решение, которое предложила команда Каймина Хэ, было гениальным в своей простоте. Они придумали Residual Block (Остаточный блок).
Обычный слой нейросети пытается выучить нужное преобразование напрямую. Например: Выход = Функция (Вход).
В Residual Block они изменили формулу. Теперь слой учится не самому выходу, а разнице (остатку) между входом и выходом.
Выход = Вход + Остаток (Вход)
Что это значит на практике?
В блок добавляется прямое соединение (shortcut connection), которое перескакивает через один или несколько слоёв и просто прибавляет исходный вход к результату работы слоя.
Как это работает:
— Есть вход X.
— Он проходит через несколько слоёв, которые вычисляют некое изменение F (X).
— Потом мы берём исходный X и прибавляем к нему это изменение: Выход = F (X) + X.
Зачем это нужно?
Теперь у градиента есть обходной путь. Когда ошибка идёт обратно, она может пройти не через сложные слои, а напрямую по этому «шорткату». Это решает проблему затухания градиента.
Кроме того, сети становится легче учиться. Если дополнительные слои не нужны, сеть может просто сделать F (X) = 0, и тогда Выход = X (тождественное преобразование). Градиентный спуск легко находит такое решение, потому что обнулить изменение проще, чем выучить сложную функцию.
Инсайт: Почему это гениально
Гениальность ResNet в том, что она переопределила задачу обучения.
Вместо того чтобы заставлять каждый новый слой выучивать сложную функцию с нуля, ResNet говорит: «Ты уже знаешь, что у тебя есть. Просто добавь немного улучшений».
Это как если бы ты учился играть на гитаре. Вместо того чтобы каждый раз учить новую песню с нуля, ты берёшь уже известный аккорд и просто добавляешь к нему пару новых нот. Намного проще, правда?
Триумф: Победа на ImageNet 2015
В 2015 году команда Microsoft Research выставила ResNet на тот же конкурс ImageNet, где в 2012 году победила AlexNet.
Результаты были ошеломляющими.
ResNet выиграла с результатом, который считался невозможным. Ошибка распознавания упала до 3,57%. Это лучше, чем у человека (средний человек ошибается примерно в 5% случаев).
Но главное было не в цифрах. Главное было в глубине. ResNet-152 (152 слоя) работала стабильно и показывала лучшие результаты, чем любые мелкие сети. Проклятие глубины было снято.
После этой победы архитектура ResNet стала стандартом де-факто для всего компьютерного зрения. Сегодня, если ты видишь какую-то сложную нейросеть для распознавания, она почти наверняка использует residual connections.
Эволюция: От 152 слоёв до бесконечности
После ResNet началась гонка глубины.
— ResNet-152 — 152 слоя.
— ResNet-1001 — 1001 слой (экспериментально показали, что можно обучать и такие глубины, хотя практической пользы было мало).
— DenseNet — пошли ещё дальше: там каждый слой соединяется со всеми предыдущими напрямую.
— ResNeXt, Wide ResNet — варианты, которые оптимизировали ширину и архитектуру блоков.
Главное было доказано: глубина работает, если правильно организовать обходные пути.
Наследие: ResNet в каждом телефоне
Сегодня ResNet живёт везде.
— Распознавание лиц в телефоне. Когда твой iPhone разблокируется по лицу, внутри работает сеть, основанная на residual-блоках.
— Медицина. Анализ снимков МРТ и КТ — везде ResNet или её наследники.
— Беспилотные автомобили. Распознавание пешеходов, знаков, дорожной разметки — всё это требует глубины, которую дала ResNet.
— Сателлиты. Анализ снимков Земли из космоса.
— Любая задача компьютерного зрения. Если ты видишь современную нейросеть для картинок, в ней почти наверняка есть residual connections.
Твой ход: Четыре урока от ResNet
— Ищи обходные пути. Если задача кажется нерешаемой из-за сложности, попробуй найти «шорткат». Не пытайся выучить всё с нуля — используй то, что уже знаешь, и добавляй небольшие улучшения.
— Учись прибавлять, а не заменять. Иногда проще научиться дополнять существующее, чем создавать новое с нуля. Это работает и в коде, и в жизни.
— Проблема может быть в доставке сигнала. Если ты не видишь прогресса, проверь, доходит ли «сигнал» (обратная связь, информация, мотивация) до первых слоёв твоей системы. Может быть, он затухает по пути.
— Не бойся глубины. Глубокие системы работают, если правильно организовать связи. Строить небоскрёбы можно — главное, не забывать про лифты и лестницы.
P.S.
Знаешь, что сказал Каймин Хэ, когда его спросили, как они додумались до residual connections?
«Мы просто долго смотрели на проблему и думали: „Что самое простое решение, которое может сработать?“ Идея была настолько очевидной, что мы удивлялись, почему никто не сделал этого раньше».
Именно так работают гениальные идеи — они кажутся очевидными после того, как их объяснили.
Глава 12. Word2Vec: Элегантность математики: Король — Мужчина + Женщина = Королева
Крючок: Магия арифметики
Представь, что я даю тебе задание по математике.
Сложи числа: 5 +3 = 8. Вычти: 10 — 4 = 6. Скучно, да?
А теперь представь другое задание. Я говорю:
«Король» минус «Мужчина» плюс «Женщина» =?
Ты, не задумываясь, отвечаешь: «Королева».
Но как это возможно? Как можно вычитать и складывать слова? Слова — это не числа. Это смыслы, образы, культурные коды.
А теперь представь, что компьютер, который ничего не понимает в королях и королевах, вдруг выдаёт тот же ответ. И не только этот. Он считает: «Париж» — «Франция» + «Италия» = «Рим». «Берлин» — «Германия» + «Франция» = «Париж».
Это не магия. Это Word2Vec. И это одна из самых элегантных идей в истории искусственного интеллекта.
Герои: Чех и его русская жена в Google
История Word2Vec началась в 2013 году в недрах Google. Главным героем был Томаш Миколов (Tomáš Mikolov) — чешский учёный, который работал в Google Brain.
У Миколова была интересная особенность: он не был классическим лингвистом или математиком. Он был инженером, который хотел решить конкретную проблему. Как научить машину понимать слова так, чтобы это понимание можно было использовать в поиске, переводе, рекомендациях.
Вместе с коллегами (в том числе с русским учёным Кай Ченом) они придумали гениально простую идею, которая перевернула представление о работе с текстом.
Конфликт: Как объяснить слово компьютеру
До Word2Vec компьютеры работали со словами двумя примитивными способами.
Способ 1: Индексы (One-hot encoding).
Каждому слову присваивался уникальный номер. «Кот» = 1, «Собака» = 2, «Король» = 3.
Проблема: для компьютера слова были просто ярлыками. «Кот» и «Собака» — такие же разные, как «Кот» и «Атомный реактор». Никакой связи, никакого смысла. Машина не знала, что кошки и собаки — это животные, а атомный реактор — это нечто другое.
Способ 2: Мешки слов (Bag of Words).
Текст превращался в набор слов без порядка. Терялся контекст, терялась грамматика, терялось всё.
Нужно было придумать способ, который позволил бы компьютеру вложить смысл в числа. Чтобы близкие по значению слова имели близкие числовые координаты. Чтобы отношения между словами можно было выразить математически.
Развязка: Гениальная простота
Идея Миколова была обманчиво проста: «Скажи мне, с кем ты дружишь, и я скажу, кто ты».
Это старая поговорка, но в мире слов она работает идеально. Смысл слова определяется контекстом, в котором оно встречается. Если два слова часто встречаются рядом с одними и теми же соседями — они, скорее всего, близки по смыслу.
Миколов взял эту идею и превратил её в алгоритм.
Как это работает (максимально просто):
— Берётся огромный текст (например, весь Google Books или вся Википедия).
— Нейросеть учится предсказывать слово по его соседям.
— Берём предложение: «Я пью горячий…».
— Прячем слово «чай».
— Нейросеть должна угадать: какое слово тут пропущено?
— Чтобы угадать правильно, сеть вынуждена создавать для каждого слова числовой вектор — набор из, скажем, 300 чисел.
— В процессе угадывания эти векторы подстраиваются так, чтобы слова, которые часто встречаются в похожих контекстах, имели похожие векторы.
Варианты обучения:
— CBOW (Continuous Bag of Words): По контексту угадываем слово. (Соседи говорят, какое слово в центре).
— Skip-gram: По слову угадываем контекст. (Слово говорит, какие соседи у него должны быть).
Через некоторое время у нас есть векторное пространство, где каждое слово — это точка с координатами.
Инсайт: Арифметика смыслов
И вот тут начинается самое интересное.
Когда у тебя есть векторы слов, ты можешь их складывать и вычитать. И векторы ведут себя как настоящие смыслы!
Классический пример:
Возьмём вектор слова «Король». Вычтем из него вектор «Мужчина». Прибавим вектор «Женщина». Получится точка, которая ближе всего к вектору слова «Королева».
Это не случайность. Это работает потому, что в процессе обучения нейросеть уловила, что разница между «Королём» и «Королевой» примерно такая же, как между «Мужчиной» и «Женщиной». И эта разница выражается в одних и тех же числах.
Другие примеры:
— Столицы: «Париж» — «Франция» + «Италия» = «Рим»
— Времена глаголов: «Идти» — «шёл» + «думал» = «думать»
— Род занятий: «Доктор» — «мужчина» + «женщина» = «женщина-врач» (иногда получалось даже с учётом стереотипов, что показывало проблему данных)
Почему это гениально
Гениальность Word2Vec в трёх вещах:
1. Обучение без учителя.
Для создания векторов не нужна ручная разметка. Не нужно нанимать лингвистов, которые будут объяснять машине, что кот — это животное. Машина сама всё выучивает, просто читая тексты.
2. Перенос смысла в математику.
Впервые смысл стал вычислимым. Мы можем измерять близость слов (косинусное расстояние между векторами). Мы можем искать аналогии. Мы можем кластеризовать слова по темам.
3. Эффективность.
Word2Vec работает быстро и не требует суперкомпьютеров. Его можно обучить на обычном ноутбуке за пару часов (если текст не слишком большой). Код был открыт и доступен всем.
Эволюция: Что стало дальше
Word2Vec породил целое семейство технологий.
GloVe (Global Vectors) от Stanford:
Другая техника, которая учитывает не только локальный контекст, но и статистику по всему тексту целиком. Часто работает ещё лучше.
FastText:
Улучшение от Миколова. Учит векторы не только для целых слов, но и для частей слов (n-грамм). Это позволяет находить векторы для редких слов и даже для тех, которых не было в обучающей выборке.
ELMo, BERT и далее:
Современные модели пошли дальше: они создают векторы, которые зависят от контекста. То есть у слова «банк» будет разный вектор в зависимости от того, финансовое это учреждение или скамейка в парке. Но всё это выросло из идей Word2Vec.
Темная сторона: Стереотипы в числах
У Word2Vec обнаружилась и тёмная сторона. Поскольку модель учится на человеческих текстах, она впитывает все наши предрассудки.
Исследователи обнаружили, что в векторах проявляются гендерные и расовые стереотипы.
Например:
— «Программист» — «мужчина» + «женщина» часто давало «домохозяйка».
— «Врач» ближе к «мужчина», а «медсестра» ближе к «женщина».
— Европейские имена ассоциировались с приятными словами, а африканские — с неприятными.
Это была важная находка. Она показала, что ИИ не просто отражает реальность, а усиливает наши предрассудки, потому что учится на исторических данных. С тех пор тема «смещения в данных» (bias) стала одной из главных в этике ИИ.
Наследие: Word2Vec в каждом телефоне
Сегодня Word2Vec живёт везде.
— Поиск: Когда ты ищешь «пушистые животные», Google понимает, что ты имеешь в виду кошек, даже если ты не написал это слово.
— Перевод: Машинный перевод использует векторные представления, чтобы находить соответствия между языками.
— Рекомендации: Системы рекомендуют товары, которые «близки» к тому, что ты уже купил.
— Анализ тональности: Компании анализируют отзывы, переводя слова в векторы и смотря, с какими эмоциями они связаны.
Твой ход: Четыре урока от Word2Vec
— Смысл рождается в контексте. Ты — это твоё окружение. Слова, которые ты используешь, люди, с которыми общаешься, книги, которые читаешь — всё это формирует твой «вектор». Хочешь измениться — измени контекст.
— Ищи скрытые закономерности. Word2Vec нашёл структуру там, где её никто не искал. В твоих данных, в твоей жизни, в твоей работе — тоже есть скрытые паттерны. Просто нужно правильно посмотреть.
— Арифметика работает не только с числами. Смыслы можно складывать и вычитать. Когда ты строишь карьеру, ты фактически делаешь «Навыки» + «Опыт» — «Ошибки» = «Профессионал». Думай в терминах векторов.
— Остерегайся стереотипов. Данные, на которых ты учишься, могут быть предвзяты. Всегда критически оценивай, откуда берутся твои «векторы» и какие неявные предположения они в себе несут.
P.S.
Знаешь, что сказал Томаш Миколов, когда его спросили, как он додумался до такой элегантной идеи?
«Я просто хотел, чтобы компьютер понимал, что кошки и собаки — это животные, а не просто разные цифры. И оказалось, что для этого достаточно заставить его угадывать слова по соседям. Всё гениальное — просто».
Часть 3: Генеративная революция. Творцы, а не просто классификаторы
Глава 13. Трансформеры: Почему статья «Attention Is All You Need» взорвала мир
Крючок: Восемь имён, которые вы должны знать
Летом 2017 года на arXiv (сайт с научными статьями) появился препринт с броским названием: «Attention Is All You Need» («Внимание — всё, что тебе нужно»).
Авторов было восемь: Ашиш Васвани, Ной Шазер, Ники Пармар, Якоб Ушкорейт, Ллион Джонс, Эйдан Гомес, Лукаш Кайзер и Илья Полосухин.
Тогда на эту статью мало кто обратил внимание. Ну, подумаешь, очередная архитектура для машинного перевода. Мало ли их выходит каждый месяц.
Сегодня эта статья — одна из самых цитируемых в истории компьютерных наук. На её основе построены все современные большие языковые модели: GPT, BERT, Gemini, Llama, Claude. Без неё не было бы ChatGPT. Не было бы Midjourney. Не было бы того мира, в котором мы живём.
Что же такого гениального они написали?
Герои: Команда мечты из Google
Восемь авторов работали в Google Brain и Google Research. Это была сборная солянка талантов из разных стран: США, Индия, Польша, Канада.
Их идея родилась из разочарования. В то время лучшими моделями для работы с последовательностями (текст, речь) были рекуррентные нейросети (RNN) и LSTM. Они читали текст слово за словом, поддерживая внутреннее состояние (память).
Но у RNN были огромные проблемы:
— Медленно. Нельзя распараллелить, потому что нужно ждать, пока обработается первое слово, потом второе и так далее.
— Забывчивость. Длинные зависимости (когда важное слово в начале предложения влияет на слово в конце) давались им с трудом.
— Сложно обучать. Градиенты затухали на длинных последовательностях.
Команда задала себе дерзкий вопрос: «А что, если выкинуть всю рекуррентность вообще? Что, если оставить только механизм внимания?»
Конфликт: Почему все думали, что внимание — это добавка
Механизм внимания (attention) был известен и до 2017 года. Его использовали в машинном переводе как дополнение к RNN. Идея была простая: когда модель переводит предложение, она не обязана смотреть на все слова исходного текста равномерно. Она может фокусироваться на нужных словах в нужный момент.
Например, переводя слово «кот», она смотрит на слово «cat» в исходном предложении, а не на артикли и предлоги.
Но внимание всегда считалось приправой к основному блюду — рекуррентным сетям. Никто не думал, что внимание может быть основным блюдом.
Команда трансформеров решила проверить эту безумную гипотезу.
Развязка: Архитектура, которая изменила всё
Трансформер, который они предложили, состоял из нескольких ключевых идей.
Идея 1: Самовнимание (Self-Attention).
Это гениальный ход. Модель смотрит на предложение и спрашивает: «Какие слова здесь важны друг для друга?».
В предложении «Она уронила сумку, потому что она была тяжёлая» — кто «она»? Сумка или женщина? Человек понимает по контексту. Трансформер учится понимать то же самое, вычисляя «внимание» между всеми словами одновременно.
Каждое слово «смотрит» на все другие слова в предложении и решает, насколько они важны для его понимания.
Идея 2: Параллельная обработка.
В отличие от RNN, которые читают последовательно, трансформер читает все слова сразу. Это как если бы ты смотрел на весь текст целиком, а не читал по буквам. Это позволяет обучать модели на огромных кластерах GPU, потому что всё можно распараллелить.
Идея 3: Позиционные кодировки.
Но если все слова видны сразу, как модель понимает их порядок? Ведь «Кот съел мышь» и «Мышь съела кота» — это разные вещи.
Авторы придумали добавлять к векторам слов специальные позиционные сигналы (синусы и косинусы разных частот), которые кодируют позицию слова в предложении. Математически элегантное решение.
Идея 4: Многоголовое внимание (Multi-Head Attention).
Вместо одного механизма внимания они использовали несколько «голов», каждая из которых учится обращать внимание на разные аспекты текста. Одна голова следит за синтаксисом, другая — за семантикой, третья — за местоимениями. Потом всё это собирается вместе.
Инсайт: Почему «All You Need»
Название статьи — «Attention Is All You Need» — звучало как манифест. И оно оказалось правдой.
Трансформер оказался лучше RNN во всём:
— Скорость обучения: в разы быстрее благодаря параллелизации.
— Качество: лучше захватывал длинные зависимости.
— Масштабируемость: его можно было делать огромным, добавляя слои и головы внимания.
Статья показала, что рекуррентные сети больше не нужны. Внимание действительно решает все задачи работы с последовательностями.
Триумф: Как трансформер завоевал мир
После выхода статьи в 2017 году началась лавина.
2018: BERT (от Google) использует трансформеры и бьёт все рекорды в понимании языка.
2018—2020: GPT (от OpenAI) использует трансформеры и учится генерировать текст.
2020: GPT-3 с 175 миллиардами параметров показывает, что масштабирование трансформеров даёт разум.
2022: ChatGPT выходит в свет, и мир сходит с ума.
2023—2024: Трансформеры начинают использовать везде: в музыке (MusicGen), в видео (Sora, Veo), в химии (AlphaFold), в генетике (AlphaMissense).
Трансформер стал универсальной архитектурой для всего, где есть последовательности.
Почему это гениально (ещё раз, простыми словами)
Представь, что ты читаешь книгу в компании друзей. Раньше (RNN) вы читали по очереди: первый прочитал слово, передал эстафету второму, тот третьему. Медленно, и к концу страницы первый уже забыл начало.
Трансформер — это когда все одновременно читают всю страницу и постоянно перекрикиваются: «Эй, смотри, это слово связано с тем словом в начале!» Все слышат всех одновременно. Быстро, эффективно, и никто ничего не забывает.
Темная сторона: Цена внимания
У трансформеров есть и обратная сторона.
1. Квадратичная сложность.
Чем длиннее текст, тем больше вычислений нужно. Внимание считается для всех пар слов, а это квадрат от длины текста. Для коротких текстов ок, но для целых книг (1 миллион токенов) это становится проблемой. Учёные бьются над решением (Sparse Attention, Linear Attention), но проблема пока не решена полностью.
2. Гигантомания.
Трансформеры так хорошо масштабируются, что все бросились делать модели всё больше и больше. GPT-3 — 175 млрд параметров. GPT-4 — 估计 1.8 трлн (по слухам). Это требует чудовищных ресурсов, доступных только гигантам.
3. Непонятность.
Модели стали настолько сложными, что никто до конца не понимает, как именно они работают. Мы знаем архитектуру, но внутренняя жизнь трансформера с миллиардами параметров — это «чёрный ящик».
Наследие: Восемь гениев, разлетевшихся по миру
Судьба авторов той статьи тоже интересна. Они разлетелись по разным компаниям, основывая новые проекты.
— Эйдан Гомес соосновал Cohere — конкурента OpenAI.
— Ной Шазер и Ники Пармар основали Character.ai — платформу для общения с ИИ-персонажами.
— Лукан Кайзер ушёл в DeepMind.
— Илья Полосухин (кстати, выходец из России) работал в Google, потом в OpenAI.
Все они стали звёздами первой величины. А их статья продолжает собирать цитирования и вдохновлять новые поколения исследователей.
Твой ход: Четыре урока от трансформеров
— Иногда старое — это новое. Механизм внимания был известен. Но никто не думал сделать его главным. Не бойся брать известные идеи и доводить их до крайности.
— Параллельность — сила. В мире, где всё можно делать одновременно, последовательные процессы проигрывают. Ищи, что в твоей работе можно делать параллельно.
— Контекст решает всё. Трансформеры победили, потому что научились учитывать весь контекст сразу. В жизни тоже: принимай решения, оглядываясь на всю картину целиком, а не на один фрагмент.
— Название имеет значение. «Attention Is All You Need» — гениальный заголовок. Он запоминается, он интригует, он обещает революцию. Учись упаковывать свои идеи в яркие формулировки.
P.S.
Знаешь, что сказал один из авторов, когда его спросили, ожидали ли они такого успеха?
«Мы знали, что это хорошая работа. Но чтобы она изменила весь мир? Нет, конечно. Мы просто пытались решить конкретную задачу — ускорить машинный перевод».
Так часто бывает с гениальными открытиями — они решают локальную проблему, а меняют всё вокруг.
Глава 14. GPT-2: Испуг в OpenAI — почему модель боялись выложить в открытый доступ
Крючок: Новость, которая взбудоражила мир
Февраль 2019 года. Сайт OpenAI, некоммерческой организации, созданной Илоном Маском и Сэмом Альтманом (тогда ещё некоммерческой), публикует сообщение.
Они создали новую языковую модель под названием GPT-2. И она умеет… всё.
Генерировать связные тексты на любые темы. Отвечать на вопросы. Писать статьи. Сочинять рассказы. Переводить. Суммировать. И всё это без специального обучения — просто ей даёшь задание на естественном языке, и она его выполняет.
Звучит знакомо, правда? Это было за три года до ChatGPT.
Но самое шокирующее было не в этом. OpenAI заявила: «Мы не будем выкладывать полную модель в открытый доступ».
Они сказали, что модель слишком опасна. Что её могут использовать для создания фейковых новостей, спама, пропаганды, манипуляций. Что они боятся «злоумышленников».
Сообщество ИИ взорвалось. Одни кричали: «Цензура! Вы предаёте идеалы открытости!». Другие: «Молодцы, безопасность прежде всего!». Третьи: «Они просто хотят заработать, прикрываясь этикой».
Что же на самом деле произошло?
Герои: Команда, которая увидела будущее
За GPT-2 стояла команда исследователей OpenAI, включая Алека Рэдфорда (того самого, кто позже станет ключевой фигурой в создании GPT-3 и GPT-4).
Они не изобрели ничего принципиально нового в архитектуре. Они взяли трансформер (глава 13) и просто… сделали его больше.
— GPT-1 (2018) была маленькой моделью, которая неплохо справлялась с конкретными задачами после дообучения.
— GPT-2 была в 10 раз больше: 1,5 миллиарда параметров.
— Её обучили на огромном датасете WebText — 8 миллионов веб-страниц (45 терабайт текста), отобранных по ссылкам с Reddit.
И вдруг обнаружился эффект, который никто не ожидал.
Инсайт: Рождение «zero-shot» обучения
Раньше считалось, что языковые модели нужно специально обучать для каждой задачи. Хочешь перевод — учи на переводах. Хочешь ответы на вопросы — учи на парах вопрос-ответ.
GPT-2 показала, что это необязательно.
Если модель достаточно большая и обучена на достаточно разнообразных данных, она начинает сама обобщать. Ей не нужно показывать примеры перевода — она уже видела переводы в интернете и поняла, как это работает. Ей не нужно учиться отвечать на вопросы — она просто знает, что после вопроса обычно идёт ответ.
Это называлось zero-shot learning (обучение без примеров) или few-shot learning (обучение на нескольких примерах прямо в запросе).
Ты просто пишешь:
Переведи на французский: «Как дела?»
Comment ça va?
И модель понимает: ага, сейчас мне нужно перевести следующую фразу.
Это было открытие. Оно означало, что большие модели — это не просто инструменты для конкретных задач, а зачатки общего интеллекта.
Конфликт: Чем же она так опасна?
OpenAI опубликовала список страшилок. Звучало убедительно.
1. Фейковые новости (масштабируемый обман).
Представь, что ты можешь генерировать тысячи статей, неотличимых от человеческих, за минуты. Можно заполнить интернет пропагандой, дезинформацией, фейками. Люди перестанут понимать, где правда.
2. Социальные боты.
Тысячи аккаунтов в соцсетях, которые ведут осмысленные беседы, продвигают нужные мнения, манипулируют общественным дискурсом. И всё это автоматически.
3. Спам следующего уровня.
Не просто «Купи виагру», а персонализированные письма, написанные так, что их не отличить от человеческих. Идеальные фишинговые атаки.
4. Радикализация.
Модель может генерировать экстремистский контент, если её подтолкнуть. А злоумышленники могут её использовать для создания пропаганды.
В демо-примерах они показали, как GPT-2 продолжает текст про «фейковые новости» и пишет абсолютно убедительную чушь про то, что «учёные обнаружили, что айфоны излучают радиацию, вызывающую рак» (все детали выдуманы, но звучат научно).
Решение: Частичная публикация
OpenAI пошла на компромисс, который разозлил всех.
Они опубликовали:
— Статью с подробным описанием архитектуры.
— Меньшую версию модели (124 миллиона параметров) в открытом доступе.
— Но полную модель (1,5 млрд) оставили себе, пообещав выдать доступ «проверенным исследователям по запросу».
Сообщество взвыло. Критики говорили: «Если архитектура известна, любая крупная компания или государство воспроизведут модель за пару месяцев. А мелким разработчикам вы закрываете доступ. Это элитизм!».
Другие возражали: «Лучше перебдеть, чем недобдеть. Посмотрим, что будет через полгода».
Что было дальше: Проверка страхов
Прошло полгода. OpenAI постепенно выкладывала всё большие версии. К концу 2019 года полная модель стала доступна.
И что? Мир рухнул? Началась эпидемия фейков?
Не совсем.
Что сбылось:
— Модель действительно использовали для создания контента. Появились генераторы статей, постов, рекламных текстов.
— Некоторые спамеры начали экспериментировать, но массового злоупотребления не случилось.
Что НЕ сбылось:
— Армагеддона с фейковыми новостями не произошло. Оказалось, что для убедительной лжи нужно не только уметь генерировать текст, но и распространять его, встраивать в медийную повестку, обходить модерацию. Это всё ещё делают люди, а не алгоритмы.
— Модель была не настолько умной, чтобы полностью заменить человека в сложных манипуляциях. Она часто «галлюцинировала» (выдумывала факты) и писала бессвязно, если не контролировать.
Многие исследователи сказали: «OpenAI переоценила опасность. Они просто испугались собственной тени».
Но был и другой взгляд.
Инсайт: Почему испуг был важен
Несмотря на то, что апокалипсис не случился, решение OpenAI сыграло огромную роль.
1. Оно запустило глобальную дискуссию об этике ИИ.
Впервые в истории создатели модели публично заявили: «Наше творение может быть опасным, и мы несём за него ответственность». Это изменило тон разговоров об ИИ. Появились этические комитеты, правила публикации, исследования по безопасности.
2. Оно показало, что большие модели — это не просто игрушки.
Испуг OpenAI привлёк к GPT-2 огромное внимание. Если бы они просто выложили модель, это была бы ещё одна научная статья. А так это стало мировой новостью. Все захотели узнать, что же там такого страшного.
3. Оно заложило основу для будущей политики OpenAI.
Когда через три года выйдет GPT-4, OpenAI снова будет вводить ограничения, но уже более системно: доступ через API, фильтры контента, модерация. Испуг 2019 года стал репетицией.
Критика: А не пиар ли это?
Конечно, были и циники. Они говорили:
— «OpenAI просто сделала гениальный пиар-ход. Все обсуждают их модель, хотя она не самая лучшая (у Google были модели и побольше)».
— «Они хотят монополизировать технологию, прикрываясь этикой».
— «Если бы они действительно боялись, они бы не публиковали статью с архитектурой. Они хотели и славу получить, и контроль сохранить».
Доля правды в этом есть. Но даже если это был пиар, он сработал. GPT-2 стала самой обсуждаемой моделью 2019 года.
Наследие: Что осталось после GPT-2
GPT-2 изменила ландшафт ИИ навсегда.
1. Zero-shot и few-shot стали мейнстримом.
После GPT-2 все бросились исследовать, как большие модели обобщают знания. Это привело к GPT-3, а потом и к ChatGPT.
2. Открытость vs безопасность.
Дилемма, которую OpenAI поставила в 2019 году, до сих пор не решена. Каждая новая мощная модель вызывает споры: публиковать или не публиковать? Meta опубликовала Llama (и её слили в открытый доступ). Google держит Gemini под замком. Единого ответа нет.
3. Галлюцинации стали проблемой.
Именно GPT-2 показала, что большие языковые модели склонны уверенно врать. Они не говорят «я не знаю». Они придумывают правдоподобную чушь. Эта проблема не решена до сих пор.
Твой ход: Четыре урока от GPT-2
— Ответственность создателя. Ты отвечаешь за то, что создаёшь, даже если последствия неочевидны. Иногда лучше подождать и подумать, чем выложить и пожалеть.
— Страх может быть преувеличен. OpenAI боялась апокалипсиса, а получила дискуссию. Не позволяй страху парализовать действие, но и не игнорируй риски совсем.
— Контекст решает всё. Модель опасна не сама по себе, а в сочетании с человеческим намерением. Инструмент нейтрален — важно, в чьих он руках.
— Учись на чужих страхах. История GPT-2 — хороший пример того, как можно балансировать между открытостью и безопасностью. Используй этот опыт в своих проектах.
P.S.
Знаешь, что сказал Сэм Альтман через несколько лет?
«Оглядываясь назад, мы, возможно, переоценили риски GPT-2. Но это был важный опыт. Мы учились, и лучше перебдеть, чем недобдеть. Без этого опыта мы бы не справились с GPT-3 и GPT-4».
Глава 15. ChatGPT: Момент, когда ИИ заговорил как человек
Крючок: 5 дней, которые потрясли мир
30 ноября 2022 года. Обычный осенний день. В мире происходит тысяча событий: война, кризис в экономике, чемпионат мира по футболу в Катаре.
Маленькая компания OpenAI, о которой знают в основном специалисты, тихо запускает «исследовательский превью» — бесплатный чат-бот под названием ChatGPT.
Никакой рекламы. Никаких пресс-релизов. Просто ссылка в твиттере Сэма Альтмана.
Через 5 дней у ChatGPT миллион пользователей.
Через 2 месяца — 100 миллионов пользователей. Это самый быстрый рост в истории человечества. Ни одно приложение, ни одна соцсеть, ни один сервис не росли так быстро. Соц. Сеть добиралась до 100 миллионов 9 месяцев. ChatGPT — 2 месяца.
Что произошло? Почему именно эта версия, именно этого чат-бота, именно в этот момент взорвала мир?
Герои: Команда, которая сделала ставку на разговор
За ChatGPT стояла всё та же команда OpenAI, которую мы уже знаем по GPT-2 и GPT-3.
Сэм Альтман — генеральный директор, визионер и главный публичный спикер.
Грег Брокман — президент и технический гений, который собирал команду.
Илья Суцкевер — главный научный сотрудник, тот самый ученик Хинтона из AlexNet, который верил в масштабирование.
И сотни инженеров, исследователей, дизайнеров.
Но ключевой момент был не в создании самой модели. GPT-3 существовала с 2020 года. Она была огромной (175 миллиардов параметров) и умной, но… с ней было тяжело разговаривать.
Она могла выдать гениальный текст, а могла понести чушь. Она могла оскорбить собеседника. Она могла выдать расистские высказывания. Она не слушалась.
Нужно было научить её вести себя.
Конфликт: Умная, но невоспитанная
Представь, что у тебя есть друг-гений. Он знает всё на свете, может решить любую задачу, написать любой текст. Но он совершенно не умеет общаться. Может нахамить, может уйти в бессвязный монолог, может обидеться на ровном месте. Ты будешь с ним дружить? Нет.
GPT-3 была таким гением. Её нужно было «приручить».
OpenAI сделала две ключевые вещи.
Шаг 1: Обучение с учителем (Supervised Fine-Tuning).
Они наняли десятки тысяч людей (в основном через Кению и другие страны с дешёвой рабочей силой), которые сидели и писали «правильные» ответы на вопросы.
Людям показывали запросы и просили написать идеальный ответ. Как должен отвечать вежливый, полезный, безопасный ассистент? Миллионы таких примеров загружали в модель, чтобы она училась подражать человеческому стилю общения.
Шаг 2: Обучение с подкреплением на основе обратной связи (RLHF — Reinforcement Learning from Human Feedback).
Это был гениальный трюк.
Сначала модель генерировала несколько вариантов ответа на один вопрос. Люди оценивали: этот ответ хороший, этот плохой, этот средний. Потом на этих оценках обучали отдельную модель-«критика», которая предсказывала, понравится ли ответ человеку.
А потом основную модель учили так, чтобы она нравилась этому «критику». Это как GAN (глава 10), только вместо критика, который ловит подделки, — критик, который ловит грубость и бесполезность.
В результате получилась модель, которая не только знает, но и умеет себя вести.
Развязка: Диалог, который изменил всё
30 ноября 2022 года пользователи зашли на сайт и начали печатать.
— «Напиши стих про программиста, который влюбился в баги.»
— «Объясни квантовую физику так, чтобы понял пятилетний.»
— «Придумай тост на свадьбу друга.»
— «Помоги мне написать письмо начальнику.»
— «Я грустный, подбодри меня.»
И ChatGPT отвечал. Быстро, связно, полезно, вежливо. Он шутил (иногда смешно), он сочувствовал (иногда трогательно), он объяснял (иногда гениально просто).
Люди не могли поверить. Казалось, что по ту сторону экрана сидит живой человек. Умный, терпеливый, готовый помочь 24/7, бесплатно, без осуждения.
Соцсети взорвались скриншотами диалогов. Люди показывали, как ИИ пишет за них код, как помогает с домашним заданием, как утешает в трудную минуту.
Это был момент, который историк технологий Бенедикт Эванс назвал «моментом Айзека Азимова» — когда фантастика стала реальностью.
Инсайт: Почему сработало именно это
Чем ChatGPT отличался от всех предыдущих чат-ботов?
1. Бесплатно и доступно.
Любой человек с интернетом мог зайти и попробовать. Не нужно было платить, не нужно было разбираться в API, не нужно было читать инструкции.
2. Естественный язык.
Не нужно учить команды. Не нужно писать запросы особым образом. Просто говоришь по-человечески — и получаешь ответ.
3. Универсальность.
Одна модель делала всё: писала код, сочиняла стихи, отвечала на вопросы, переводила, объясняла, советовала. Раньше для каждой задачи был свой инструмент. Теперь один инструмент закрывал 90% потребностей.
4. Персонализация.
ChatGPT помнил контекст разговора. Вы могли обсуждать тему, уточнять детали, возвращаться к предыдущим вопросам. Это создавало иллюзию настоящего диалога.
5. Эмоциональный интеллект.
Модель научилась не просто отвечать, а реагировать на эмоциональное состояние пользователя. Если ты писал грустное сообщение, она отвечала с сочувствием. Если злое — спокойно. Если весёлое — поддерживала игру.
Триумф: Мир после ChatGPT
После 30 ноября 2022 года мир разделился на «до» и «после».
Для обычных людей:
Появился помощник, который всегда под рукой. Школьники перестали писать сочинения сами (к ужасу учителей). Программисты получили шпаргалку по любому языку. Домохозяйки — генератор рецептов. Пенсионеры — собеседника, который не устаёт.
Для бизнеса:
Microsoft вложила в OpenAI миллиарды и встроила ChatGPT в Bing, Office, Windows. Началась гонка вооружений: Google спешно запускала Bard (позже Gemini), Anthropic выпускала Claude, Meta — Llama.
Для образования:
Учителя запаниковали. Как проверять домашние задания, если их может написать робот? Школы начали запрещать ChatGPT, а потом поняли, что запретить нельзя, и начали учить работать с ним.
Для журналистики:
Появились статьи, полностью написанные ИИ. Новостные порталы начали эксперименты с генерацией контента. Качество упало, но количество выросло.
Для творчества:
Писатели испугались за свою работу. Сценаристы в Голливуде бастовали, требуя ограничений на использование ИИ. Художники уже пережили шок от Midjourney, теперь пришла очередь текста.
Темная сторона: Проблемы, которые остались
Успех ChatGPT не отменил проблем.
1. Галлюцинации.
Модель до сих пор уверенно врёт. Она не знает границ своего незнания. Если её спросить о том, чего нет в данных, она придумает правдоподобную чушь. В юридической практике уже были случаи, когда адвокаты ссылались на несуществующие дела, придуманные ChatGPT.
2. Предвзятость.
Модель впитала все предрассудки интернета. Она может выдавать стереотипные ответы, дискриминировать группы, повторять опасные идеи. OpenAI ставит фильтры, но идеально отфильтровать невозможно.
3. Безопасность.
Люди пытаются взломать модель, заставить её говорить запрещённое (jailbreak). Иногда получается. Инструкции по изготовлению бомб, способы взлома, оскорбления — всё это можно вытянуть, если знать как.
4. Зависимость.
Люди перестают думать сами. Зачем запоминать, если можно спросить? Зачем анализировать, если можно получить готовый ответ? Это меняет когнитивные привычки целого поколения.
Наследие: Что останется в истории
ChatGPT войдёт в историю как точка бифуркации — момент, когда ИИ стал массовым.
Как изобретение книгопечатания изменило доступ к знаниям, как интернет изменил доступ к информации, так ChatGPT изменил доступ к интеллектуальному труду.
Впервые в истории у каждого человека появился личный ассистент с энциклопедическими знаниями. Бесплатно. Круглосуточно. На любом языке.
И это только начало.
Твой ход: Четыре урока от ChatGPT
— Важны не только знания, но и подача. GPT-3 была умной, но невоспитанной. ChatGPT победил потому, что его научили общаться. В любой сфере навыки коммуникации важнее чистой экспертизы.
— Бесплатность меняет правила игры. OpenAI сделала ставку на доступность, и это сработало. Иногда лучшая бизнес-стратегия — отдать продукт бесплатно и захватить рынок.
— Люди хотят общения. Даже когда мы знаем, что говорим с машиной, нам важно, чтобы она была вежливой, полезной, эмоциональной. Мы ищем человеческого даже в коде.
— Технология нейтральна, но применение — нет. ChatGPT можно использовать для учёбы и для списывания, для творчества и для обмана. Выбор за тобой.
P.S.
Знаешь, что написал один пользователь в твиттере через неделю после запуска?
«Я сегодня разговаривал с ChatGPT три часа. О чём угодно. Он умнее большинства моих знакомых. И он никогда не устаёт от меня. Это одновременно прекрасно и пугающе».
Глава 16. DALL-E 2 / Midjourney: Как ИИ научился рисовать и что сказали художники
Крючок: Картина, победившая на конкурсе
Август 2022 года, Колорадо. Ярмарка искусств штата, ежегодный конкурс. В категории «Цифровое искусство / фотоманипуляция» жюри рассматривает работы и выбирает победителя.
Первое место получает картина «Théâtre D’opéra Spatial» («Театр космической оперы»). Это потрясающее полотно в стиле фэнтези: огромный зал в стиле барокко, через разбитый купол которого видно космическое пространство, фигуры в старинных костюмах, свет, фактура, глубина.
Жюри в восторге. Публика аплодирует.
А потом выясняется, что автора зовут Джейсон Аллен. Он не художник. Он настольный геймдизайнер, который никогда в жизни не брал в руки кисть. Свою работу он создал с помощью Midjourney — программы, генерирующей изображения по текстовому описанию.
Скандал разразился мгновенно. Художники кричали: «Это не искусство! Это читерство! Мы потратили годы, чтобы научиться рисовать, а какой-то парень напечатал текст и победил!».
Джейсон Аллен был спокоен. Он сказал: «Я создал это. Я написал сотни промптов, перебрал тысячи вариантов, отбирал, комбинировал, редактировал. Мой мозг — главный инструмент. А то, что я не держал кисть — неважно».
Мир искусства вошёл в эпоху турбулентности.
Герои: Два подхода к одной мечте
В 2022 году сразу несколько компаний представили революционные модели генерации изображений. Главных игроков было двое (и третий в тени).
DALL-E 2 (OpenAI).
Апрель 2022 года. OpenAI, создатели ChatGPT, выпускают вторую версию своей модели генерации картинок. Название — гибрид имени художника Сальвадора Дали и забавного робота ВАЛЛ-И из мультфильма Pixar.
DALL-E 2 была прорывом. Она понимала сложные запросы, генерировала фотореалистичные изображения, умела смешивать стили и объекты. За ней стояла технология CLIP (Contrastive Language-Image Pre-training) — нейросеть, которая училась сопоставлять тексты и картинки, понимая, что «синий круглый фрукт с косточкой» — это скорее всего черника.
OpenAI подошла к делу осторожно. Сначала доступ давали только по инвайтам, потом открыли лист ожидания. Только в сентябре 2022 года убрали все барьеры.
Midjourney (David Holz).
Июль 2022 года. Бывший инженер NASA Дэвид Хольц запускает свой проект. Но не как обычный сайт, а как бота в Discord. Ты заходишь на сервер, пишешь /imagine prompt: «космическая опера в стиле барокко», и через минуту бот присылает тебе 4 варианта.
Midjourney с самого начала сделала ставку на эстетику и художественность. В отличие от фотореализма DALL-E, Midjourney выдавала изображения с узнаваемым «художественным» стилем — сочным, насыщенным, часто мрачным или фантастическим. Именно это и обеспечило ей любовь художников (и победу на конкурсе).
Третий игрок: Stable Diffusion.
В августе 2022 года британский стартап Stability AI выпустил Stable Diffusion в открытый доступ. Это была революция внутри революции. Модель с открытым кодом, которую можно было скачать и запустить на своём компьютере. Бесплатно. Без ограничений. Миллионы людей установили её за несколько недель.
Конфликт: Что сказали художники
Реакция художественного сообщества была бурной и неоднозначной. Давай посмотрим на неё с помощью нашего метода трёх проекций.
Проекция программиста (Как это работает?)
Технология за всем этим великолепием называется диффузионные модели.
Представь, что ты берёшь идеальную фотографию и начинаешь добавлять на неё шум, пока она не превратится в полный хаос, как телевизор без сигнала. Диффузионная модель учится делать обратное — брать хаос и убирать шум, шаг за шагом восстанавливая картинку.
А направляет этот процесс текстовый промпт. Модель обучена на миллиардах пар «текст-картинка» (датасет LAION), и она знает, что сочетание слов «кот в шляпе» должно выглядеть примерно так.
Промпт-инжиниринг стал новым видом искусства. Люди пишут сотни слов, перебирают синонимы, добавляют имена художников, технические параметры, чтобы получить нужный результат. На онлайн-биржах продают «волшебные промпты», которые гарантированно дают красивые картинки.
Проекция философа (Что это меняет?)
Здесь начались самые горячие споры.
Аргумент 1: «Это убивает искусство»
Главный крик души художников: нейросети обучаются на наших работах без спроса и разрешения.
История с Грегом Рутковски стала символом этой проблемы. Рутковски — популярный цифровой художник, рисующий фэнтези. Его стиль оказался настолько востребован, что пользователи Midjourney начали массово добавлять «в стиле Грега Рутковски» в свои промпты. В результате его настоящее творчество стало тонуть в море подражаний. Люди искали его работы, а находили тысячи картинок, сгенерированных «под него».
Рутковски сказал: «Моё имя стало промптом. Мои работы используют, чтобы создавать конкурентов мне же. И никто меня не спросил».
Художники подали коллективные иски против Stability AI, Midjourney и других компаний, обвиняя их в «массовом нарушении авторских прав» — использовании миллионов изображений для обучения без лицензий и отчислений.
Аргумент 2: «Это не творчество, а компиляция»
Противники ИИ говорят: машина не творит, а перекомбинирует уже существующее. Она не вкладывает в работу душу, переживания, личный опыт. Искусство — это диалог между художником и зрителем, это история человека. А у машины нет истории.
Критики указывают, что ИИ легко справляется со стилями и техниками, но не умеет передать ту самую «человечность» — спонтанность, эмоциональную глубину, уникальный взгляд на мир.
Аргумент 3: «Это новый инструмент, не убивайте его»
Сторонники ИИ (и многие художники, принявшие технологию) говорят: это просто инструмент. Как фотография когда-то убила портретную миниатюру, но родила новое искусство. Как фотошоп когда-то казался «нечестным».
Пол Трилло, видеохудожник из Калифорнии, говорит: «Люди кричат, что это смерть художников. А я думаю, что это просто значит, что нам не придётся работать ночами и выходными».
Дон Аллен Стивенсон III, работавший в DreamWorks, признаётся: «Для меня это был экзистенциальный кризис в первый месяц. Я думал: „Боже, это же вся моя работа“. Но потом я понял, что это просто новый этап. Это страшно, если ты не готов меняться».
Проекция предпринимателя (Где здесь деньги?)
Бизнес-модели выстроились мгновенно.
Midjourney работает по подписке. Бесплатно — 25 картинок, потом от 10 до 60 долларов в месяц. К 2023 году это многомиллионный бизнес.
OpenAI монетизирует DALL-E через кредиты. Купил кредиты — генерируешь картинки.
Stable Diffusion выбрала другую стратегию: открытый код, а деньги на сервисах (DreamStudio), корпоративных лицензиях и инвестициях.
Shutterstock подписал соглашение с OpenAI и объявил, что будет выплачивать компенсации художникам, чьи работы использовались для обучения. Getty Images, наоборот, запретила ИИ-изображения и подала в суд на Stability AI.
Появился новый рынок — промпт-инженеры. Люди, которые умеют разговаривать с ИИ, чтобы получать идеальные картинки, зарабатывают десятки тысяч долларов. Как говорит архитектор из Zaha Hadid Architects Чхави Мехта: «Научиться составлять промпты — это целое искусство. Нужно понимать, как ИИ мыслит, какие слова сработают, как балансировать текст и веса».
Инсайт: Проблема рук и эволюция мастерства
Была одна забавная деталь, которая выдавала ИИ с головой. Руки.
Долгое время нейросети не умели рисовать руки. Пальцев могло быть шесть, семь, они могли расти из неожиданных мест, загибаться под невозможными углами. Это стало мемом и главным способом отличить ИИ-картинку от реальной.
Но технологии развиваются. Midjourney v5, вышедшая в 2023 году, наконец-то научилась рисовать руки. И это символично. Каждая новая версия стирает ещё одну границу между «подделкой» и «реальностью».
Наследие: Новый мир творчества
Что оставил нам 2022 год?
1. Демократизация творчества.
Рисовать может каждый. У тебя есть идея? Ты можешь её визуализировать за минуту. Не нужно 10 лет учиться академическому рисунку. Это открывает двери миллионам людей, у которых нет технических навыков, но есть воображение.
2. Новые профессии.
Промпт-инженер, ИИ-художник, куратор генераций. Появились люди, которые совмещают традиционные навыки с новыми инструментами. В Zaha Had Architects, например, активно используют и Midjourney, и DALL-E для проектирования.
3. Этические вопросы без ответов.
Что считать кражей, а что — вдохновением? Если человек учится на картинах старых мастеров — это норма. Если машина учится на миллионах картинок — это воровство? Где граница?
4. Кризис аутентичности.
Фотография перестала быть доказательством. Искусство перестало быть гарантией человеческого труда. Мы вступаем в эпоху, где вопрос «Это сделал человек?» будет звучать всё чаще.
Твой ход: Четыре урока от DALL-E и Midjourney
— Инструмент не определяет художника. Фотоаппарат не отменил фотографов. ИИ не отменит художников. Он просто изменит правила игры. Те, кто адаптируются, выживут и расцветут. Те, кто будут отрицать, — останутся в прошлом.
— Важна идея, а не исполнение. Раньше, чтобы воплотить идею, нужно было владеть техникой. Теперь техника есть у всех. Конкуренция переходит в плоскость замысла, концепции, уникальности видения.
— Этику нужно обсуждать. Просто запретить нельзя. Просто разрешить — страшно. Нужны новые законы, новые нормы, новое понимание авторства. Это работа для всех нас.
— Учись «разговаривать» с ИИ. Навык формулировать запросы, точно выражать свои мысли, подбирать слова становится критическим. В мире, где машины понимают текст, умение писать промпты — новая грамотность.
P.S.
Знаешь, что сказал Сэм Альтман, когда его спросили, ожидали ли они такого бума?
«Мы всегда знали, что это важно. Но чтобы настолько… Нет, не ожидали. Мы просто построили модель и наблюдали, как мир сходит с ума. Это первый раз, когда технология ИИ действительно зажгла обычных людей».
Глава 17. GitHub Copilot: История о том, как ИИ стал напарником программиста
Крючок: Миллиардная сделка и внезапный релиз
Лето 2021 года. Microsoft уже потратила миллиард долларов на инвестиции в OpenAI, но мир пока не увидел ничего революционного. GPT-3 впечатляет, но остаётся демо-версией. И вдруг 29 июня компания GitHub (принадлежащая Microsoft) тихо объявляет о запуске технической预览-версии инструмента под названием GitHub Copilot.
Никакой громкой рекламы. Никаких пресс-конференций. Просто плагин для Visual Studio Code, который умеет… дописывать код за программиста.
Реакция сообщества была мгновенной и бурной. Одни кричали: «Это конец профессии!». Другие: «Наконец-то!». Третьи: «Как это вообще работает?».
Но все чувствовали одно: что-то изменилось. Впервые искусственный интеллект сел за один стол с программистом и стал не просто инструментом, а напарником.
Герои: Тандем, изменивший разработку
За этим прорывом стояли две компании и одна технология.
GitHub — крупнейший в мире хостинг для кода. Миллионы репозиториев, миллиарды строк кода, вся история современного программирования. У GitHub было то, без чего невозможен ИИ, — данные.
OpenAI — исследовательская лаборатория, созданная для безопасного развития AGI. У них была технология — OpenAI Codex, прямой потомок GPT-3, но обученный не на текстах, а на коде.
Грег Брокман, технический директор OpenAI, объяснял разницу просто: «GPT-3 генерирует текст на английском. Codex генерирует код. Он понимает не только синтаксис, но и то, что программа должна делать».
Обучение Codex было титаническим: 159 гигабайт кода Python из 54 миллионов публичных репозиториев GitHub. Модель впитывала в себя не просто синтаксис, а логику, паттерны, подходы тысяч разработчиков по всему миру.
Конфликт: До-копилотовская эра
Чтобы понять масштаб перемен, нужно вспомнить, как программисты работали раньше.
Представь, что ты пишешь функцию на Python. Ты знаешь, что нужно сделать, но забыл точный синтаксис или название метода. Что ты делаешь?
— Открываешь браузер
— Гуглишь запрос
— Листаешь Stack Overflow
— Копируешь пример
— Возвращаешься в редактор
— Вставляешь и правишь под свои нужды
Этот цикл отнимал минуты, разрывал концентрацию, выбивал из потока. По оценкам, программисты тратили до 30% времени не на написание кода, а на поиск решений.
И это были простые случаи. А если нужно было разобраться в незнакомом фреймворке? Изучать документацию днями.
Copilot предложил другой путь: не искать, а генерировать. Прямо в редакторе, без переключения контекста, за секунды.
Развязка: Как работает напарник
Принцип работы Copilot гениален в своей простоте. Ты пишешь комментарий или начало функции, а Copilot предлагает продолжение.
Пример 1: Комментарий в код
Ты пишешь:
python
# Create an API endpoint using the FastAPI framework that accepts a JSON payload in a POST request
Copilot генерирует готовый код с правильным синтаксисом, импортами, обработкой ошибок.
Пример 2: Имя функции
Ты вводишь:
python
def get_tweets_from_user
Copilot дописывает тело функции — авторизацию, запрос к API, обработку ответа, возврат данных.
Пример 3: Шаблонный код
Ты создаёшь HTML-форму с полем и кнопкой, а Copilot добавляет JavaScript-обработчик, валидацию, отправку данных.
Главное, что Copilot не просто копирует готовые куски. Он генерирует новый код, комбинируя миллионы паттернов из обучающей выборки. Технический директор GitHub Нэт Фридман подчёркивал: «Система не копирует, она понимает контекст и создаёт подходящее решение».
Инсайт: Парное программирование с призраком
GitHub назвал Copilot «ваш AI-парный программист» (your AI pair programmer). Это не маркетинговый трюк, а точное описание.
В парном программировании два человека работают вместе: один пишет код, другой постоянно проверяет, предлагает идеи, замечает ошибки. Copilot делает то же самое, но с одной важной оговоркой: он не понимает код, но статистически предсказывает правильные решения.
Для опытного программиста Copilot стал ускорителем. Он берёт на себя рутину, позволяя сосредоточиться на архитектуре и сложных задачах. Для новичка — наставником, показывающим, как обычно решаются типовые задачи.
Но появилась и новая проблема. Чтобы Copilot работал хорошо, нужно научиться с ним разговаривать. Качество запроса (промпта) стало критическим навыком. Расплывчатое «сделай API» даёт мусор. Чёткое «создай эндпоинт на FastAPI, принимающий JSON в POST-запросе» — готовый код.
Наследие: От автодополнения к автономности
С 2021 года Copilot прошёл огромный путь. В июне 2022 года инструмент вышел из предварительной версии и стал платным — $10 в месяц или $100 в год. Студентам и мейнтейнерам open-source проектов — бесплатно.
К 2025 году Copilot превратился в нечто гораздо большее, чем автодополнение.
Copilot Chat позволил общаться с ИИ прямо в редакторе, задавать вопросы о коде, просить объяснить сложные места.
Copilot Agent взял на себя асинхронные задачи — тестирование, проверку, создание pull-реквестов. Разработчик может просто поставить задачу, а Copilot сам разберётся с репозиторием, отредактирует файлы, запустит тесты и оповестит о результате.
Copilot CLI перенёс магию в терминал. Теперь можно писать «найди команду, которая покажет изменения за последние 3 коммита», и Copilot выполнит её.
Copilot с мультимодальностью (2025) научился превращать картинки в код — нарисовал интерфейс, получил HTML/CSS.
Модели тоже эволюционировали. Copilot последовательно интегрировал GPT-4, GPT-5, а в конце 2025 года добавил Claude Opus 4.5 от Anthropic, позволяя выбирать лучшую модель под задачу.
Цифры, которые впечатляют
К 2025 году Copilot стал не просто инструментом, а стандартом индустрии:
— Более 2000 разработчиков по всему миру используют Copilot
— 90% компаний из списка Fortune 100 внедрили его в свои процессы
— В ноябре 2025 года Copilot получил престижную премию World Internet Conference Leading Technology Award
— В январе 2026 года Microsoft сообщила, что 30% всего кода в её репозиториях генерируется с помощью AI (Copilot и аналоги)
Темная сторона: Критика и риски
Успех Copilot не отменяет серьёзных проблем.
Лицензионные споры. Copilot обучался на миллионах репозиториев, многие из которых имели открытые лицензии. Иногда он генерировал код, почти дословно совпадающий с оригинальным. Юристы заспорили: можно ли считать это fair use? GitHub утверждает, что обучение на публичных данных — общепринятая практика, но споры не утихают.
Безопасность. Исследование 2022 года показало, что примерно 40% сгенерированного Copilot кода содержит потенциальные уязвимости. Он может предложить небезопасный способ работы с базой данных или подверженный XSS JavaScript.
Деградация навыков. Новички, привыкшие полагаться на Copilot, могут не научиться писать код с нуля. Исследование Oakland University показало, что Codex решает задачи лучше большинства студентов, но его решения часто нарушают ограничения, установленные преподавателем.
Конкуренция. К 2025—2026 годам у Copilot появились серьёзные конкуренты — Cursor, Claude Code, Codex, Devin. Некоторые компании, включая Goldman Sachs, начали сокращать использование Copilot в пользу более специализированных инструментов.
Твой ход: Четыре урока от GitHub Copilot
— Рутина уходит, творчество остаётся. Copilot не заменяет программиста, а берёт на себя скучную работу. Освободившееся время можно потратить на архитектуру, дизайн, решение сложных проблем.
— Качество промпта определяет результат. Научиться чётко формулировать задачи — новый базовый навык. Расплывчатый запрос даёт мусор, точный — шедевр.
— Код нужно проверять. Copilot ошибается, генерирует уязвимости, иногда выдаёт полную бессмыслицу. Ответственность за код всегда остаётся на человеке.
— Инструмент не заменяет понимание. Новичкам важно не просто копировать предложения Copilot, а разбираться, почему он предлагает именно такое решение. Иначе вместо программиста вырастет оператор ИИ.
P.S.
Знаешь, что сказал один из разработчиков, впервые попробовав Copilot?
«Я написал комментарий „сделай парсер логов“, и он сгенерировал 50 строк кода. Я почувствовал себя менеджером, который ставит задачу, а джуниор её выполняет. Только этот джуниор никогда не спит и работает за 10 долларов в месяц».
Глава 18. Stable Diffusion: Почему открытый код побеждает (Скорость и доступность)
Крючок: Ночь, когда всё стало бесплатным
20 августа 2022 года. Обычная суббота. Где-то в мире художники спорят о DALL-E, дизайнеры выпрашивают инвайты в Midjourney, а обычные пользователи просто смотрят на красивые картинки в соцсетях и завидуют.
В этот день небольшая команда из британского стартапа Stability AI публикует в открытом доступе ссылку на GitHub и Hugging Face.
Внутри — веса модели Stable Diffusion. Не демо-версия, не API с ограничениями, не лист ожидания. А полная, готовая к работе модель, которую любой человек с нормальным компьютером может скачать и запустить у себя.
Бесплатно. Навсегда. Без цензуры. Без ограничений.
Интернет взорвался. За первые сутки модель скачали сотни тысяч раз. За неделю — миллионы. Началась эпоха, которую позже назовут «ИИ для народа».
Герои: Сумасшедший немец и британский стартап
У Stable Diffusion необычная родословная.
Технический гений: Патрик Эссер (Patrick Esser).
Немецкий исследователь из Университета Гейдельберга, работавший в компании Runway ML. Он разработал архитектуру модели на основе латентной диффузии (Latent Diffusion Models).
Идея была гениальна: вместо того чтобы обрабатывать миллионы пикселей напрямую (что требует безумных ресурсов), сжать изображение в специальное «латентное пространство» (как в ZIP-архиве), провести там всю магию диффузии, а потом разжать обратно. Это ускорило процесс в разы.
Инвестор-визионер: Эмад Мостак (Emad Mostaque).
Британский предприниматель индийского происхождения, основатель Stability AI. Он увидел потенциал технологии и вложил деньги в то, чтобы превратить исследовательский проект в реальную модель.
Но главное решение Мостака — он настоял на открытости. В то время как OpenAI и Midjourney строили бизнес на дефиците (инвайты, лист ожидания, платный доступ), Мостак решил: «Мы выложим всё бесплатно. Пусть люди делают что хотят».
Конфликт: Закрытые сады против открытой степи
К августу 2022 года рынок генерации изображений выглядел так:
— DALL-E 2 — лучшая в понимании сложных запросов, но доступ строго по листу ожидания. Цензура жёсткая: нельзя генерировать знаменитостей, насилие, политиков.
— Midjourney — красивая, художественная, но работает только через Discord. Нет API, нет локальной версии. Тоже платная подписка.
— Imagen (Google) — ещё даже не выпущена, ходят слухи, что Google боится репутационных рисков и держит модель под замком.
Все эти модели называли «закрытыми садами» (walled gardens). Они красивы внутри, но ты можешь гулять только там, где тебе разрешили.
Stable Diffusion предложила альтернативу: открытая степь. Бери модель, запускай где хочешь, делай что хочешь.
Развязка: Технологический прорыв
Почему Stable Diffusion смогла стать открытой, а другие нет?
1. Лёгкость архитектуры.
Благодаря латентной диффузии, модель была на удивление компактной. Полные веса занимали около 2 гигабайт. Для сравнения: некоторые современные модели занимают сотни гигабайт.
Это означало, что обычный пользователь с игровой видеокартой (от 4—6 ГБ VRAM) мог запустить модель у себя на компьютере. Без интернета. Без отправки данных в облако. Полная приватность.
2. Датасет LAION.
Модель обучали на датасете LAION-5B — огромной коллекции из 5 миллиардов пар «текст-картинка», собранной некоммерческой организацией LAION (German nonprofit). Этот датасет был открытым и доступным для всех.
3. Правильная лицензия.
Stability AI выбрала лицензию, которая позволяла использовать модель для любых целей — включая коммерческие. Ты мог встроить Stable Diffusion в свой стартап, продавать генерации, создавать приложения. И это было легально.
4. Сообщество.
Как только веса упали в открытый доступ, сообщество разработчиков набросилось на них с инструментарием.
Через неделю появились:
— AUTOMATIC1111 Web UI — красивый интерфейс для запуска на домашнем компьютере.
— DreamStudio — официальный веб-интерфейс от Stability AI.
— Десятки форков, модификаций, улучшений.
Через месяц:
— ControlNet — техника, позволяющая контролировать позу, композицию, контуры (открыл китайский исследователь Львмин Чжан).
— LoRA — лёгкий способ дообучать модель на конкретные стили или объекты.
— Тысячи обученных моделей в стилях конкретных художников.
Инсайт: Почему открытый код победил
Закрытые модели (DALL-E, Midjourney) развиваются усилиями одной компании. У них есть одна команда, один план, один бюджет.
Открытая модель развивается усилиями всего мира. Тысячи разработчиков, исследователей, энтузиастов по всему миру:
— Находят баги и чинят их.
— Добавляют новые функции.
— Оптимизируют скорость.
— Создают интерфейсы.
— Обучают специализированные версии.
Эта коллективная мощь оказалась сильнее любого корпоративного бюджета.
Через полгода после релиза экосистема Stable Diffusion превосходила по возможностям любую закрытую модель. Хочешь генерировать аниме? Есть специализированная модель (Anything V3). Хочешь фотореализм? Есть (Realistic Vision). Хочешь контролировать позу? Есть ControlNet.
Midjourney оставалась красивее «из коробки», но гибкость Stable Diffusion сделала её выбором профессионалов.
Тёмная сторона: Цена свободы
Открытость принесла не только благо, но и проблемы.
1. Порнография и дипфейки.
Без цензуры люди начали генерировать всё. Включая порнографию (в том числе с лицами реальных людей) и жестокий контент. Модель стала инструментом для создания нелегальных изображений.
2. Копирование стилей.
Художники обнаружили, что их стиль можно скопировать за минуты, дообучив модель на 20—30 работах. И это легально, потому что модель открытая. Протесты художников против Stability AI были особенно яростными.
3. Политическая пропаганда.
Модель использовали для создания фейковых изображений политиков в компрометирующих ситуациях. Без цензуры остановить это невозможно.
4. Юридические риски.
Stability AI столкнулась с исками от Getty Images и отдельных художников, обвинявших компанию в нарушении авторских прав.
Эмад Мостак на это отвечал: «Мы не можем контролировать, как люди используют открытую технологию. Это как обвинять создателей ножей в том, что кто-то совершил убийство».
Наследие: Новая экосистема
Что оставила нам Stable Diffusion?
1. Демократизация ИИ.
Технология перестала быть привилегией гигантов. Любой стартап, любой энтузиаст может строить на её основе свои продукты.
2. Экосистема инструментов.
ControlNet, LoRA, DreamBooth, тысячи моделей на Civitai — всё это выросло вокруг открытого ядра.
3. Бизнес-модель «открытое ядро».
Stability AI показала, что можно зарабатывать на открытой технологии: продавать облачный доступ (DreamStudio), корпоративные лицензии, поддержку, платные версии для бизнеса.
4. Альтернативный путь развития.
Пока OpenAI и Google спорили об этике и безопасности, открытое сообщество просто делало. И сделало больше и быстрее.
Твой ход: Четыре урока от Stable Diffusion
— Открытость порождает инновации. Когда технология доступна всем, её развитие ускоряется в геометрической прогрессии. Сообщество сильнее любой корпорации.
— Контроль — это иллюзия. Закрытые модели пытаются контролировать, что можно генерировать, а что нет. Но если технология существует, рано или поздно она станет открытой. Лучше учиться жить с этим, чем строить стены.
— Гибкость важнее красоты. Midjourney красивее «из коробки», но Stable Diffusion позволяет сделать что угодно. В долгосрочной перспективе гибкость побеждает.
— Свобода требует ответственности. Открытые технологии дают возможность и для творчества, и для злоупотреблений. Выбор, как их использовать, остаётся за тобой.
P.S.
Знаешь, что сказал Эмад Мостак, когда его спросили, не боится ли он ответственности за дипфейки?
«Я боюсь. Но ещё больше я боюсь мира, где несколько корпораций контролируют всё визуальное творчество человечества. Открытость — единственный способ сохранить свободу».
Глава 19. GPT-4 и мультимодальность: Когда нейросеть видит картинку и понимает юмор
Крючок: Экзамен, который сдала машина
Март 2023 года. Тысячи студентов-юристов по всей Америке в панике. Они готовились годами, платили десятки тысяч долларов за обучение, зубрили кодексы и прецеденты, чтобы сдать унифицированный экзамен на адвокатскую лицензию (Uniform Bar Exam). Это один из самых сложных профессиональных экзаменов в мире. Провал там — это крах карьеры.
И тут OpenAI тихо публикует отчёт. Их новая модель, GPT-4, сдала этот экзамен.
Но не просто сдала. Она вошла в топ-10% лучших результатов. В то время как предыдущая версия, GPT-3.5, плелась в худших 10%.
Разрыв был колоссальным. За один год модель перешла из категории «троечников» в категорию «круглых отличников». Но самое шокирующее было не в этом. Самое шоковое — GPT-4 сдавала экзамен, видя не только текст, но и картинки, диаграммы, скриншоты.
Она смотрела на условия задачи, нарисованные в виде схемы, и выдавала решение. Она анализировала графики, читала подписи к фотографиям, понимала мемы. Это был момент, когда ИИ перестал быть слепым.
Герои: Команда, которая научила ИИ видеть
За GPT-4 стояла всё та же команда OpenAI, которую мы уже хорошо знаем. Но масштаб был совсем иным.
Если GPT-3 (2020) была просто большой языковой моделью (175 миллиардов параметров), которая работала только с текстом, то GPT-4 стала мультимодальной (LMM — Large Multimodal Model). Это означало, что она училась на тексте и на картинках одновременно, связывая слова с визуальными образами.
Точное количество параметров GPT-4 OpenAI держит в секрете (по слухам, больше триллиона), но главное не в размере. Главное — в архитектуре.
Технически GPT-4 работает так: изображение «разбивается» на патчи (кусочки), превращается в последовательность токенов (как слова в тексте), и трансформер (та самая архитектура из главы 13) обрабатывает их вместе с текстовыми токенами. Это позволяет модели «видеть» картинку и «читать» текст одновременно, находя связи между ними.
Конфликт: Почему мультимодальность — это прорыв
Чтобы понять величие момента, нужно вспомнить, как было раньше.
До GPT-4 все языковые модели были слепыми. Они могли читать текст, но если ты загружал картинку — получал ошибку. Чтобы проанализировать изображение, нужно было использовать отдельную модель компьютерного зрения (например, YOLO для распознавания объектов), а потом передавать её результаты языковой модели. Это было медленно, громоздко и неестественно.
Человек так не работает. Когда ты смотришь на мир, твой мозг обрабатывает визуальную и текстовую информацию одновременно. Ты видишь улыбку и слышишь шутку — и понимаешь, что это сарказм. Ты смотришь на график и читаешь подпись к нему — и видишь закономерность.
GPT-4 впервые приблизилась к этому человеческому способу восприятия.
Развязка: Мемы, которые поняла машина
Но самой красивой демонстрацией новых способностей стали не экзамены и не графики. Стали мемы.
OpenAI в своём блоге показала несколько примеров, которые облетели весь мир.
Пример 1: Винтажный iPhone.
На картинке был изображён современный iPhone, подключенный через переходник к огромному старинному монитору с VGA-кабелем. Человеку смешно, потому что это абсурдно: новейший телефон цепляют к древнему монитору через груду переходников. Но поймёт ли это машина?
GPT-4 объяснила: «Юмор изображения проистекает из того, насколько абсурдным оказывается подключение старого массивного разъема VGA к маленькому современному порту зарядки смартфона».
Она поняла не просто объекты (телефон, кабель, монитор). Она поняла контекст — что VGA устарел, что iPhone современен, что их соединение нелепо. Это уже не распознавание образов, это понимание культурного кода.
Пример 2: Гладильная доска на такси.
Другая картинка: мужчина гладит одежду на гладильной доске, прикреплённой к крыше движущегося такси. GPT-4: «Необычность этого изображения в том, что мужчина гладит одежду на гладильной доске, прикрепленной к крыше движущегося такси».
Она поняла абсурд ситуации. Она знает, что такси едет, что гладить на ходу опасно и странно, что это шутка.
Пример 3: Мем про нейросети.
Третий пример был сложнее — мета-мем про сами нейросети. GPT-4 объяснила, что юмор заключается в «контрасте между сложностью и специфичностью подхода к статистическому обучению и простотой и общностью подхода к нейронным сетям».
Она поняла иронию. Она поняла шутку про саму себя.
Инсайт: Что значит «понимать юмор»
Способность понимать юмор — это не просто забавная функция. Это маркер глубинного понимания контекста.
Шутки и мемы построены на:
— Несоответствии ожидаемого и реального.
— Культурных отсылках.
— Иронии и сарказме.
— Игре слов и визуальных метафорах.
Когда модель может объяснить, почему мем смешной, это значит, что она:
— Распознала объекты на картинке.
— Поняла отношения между ними.
— Связала это с внешними знаниями (что VGA — это старый стандарт, что такси не место для глажки).
— Уловила абсурдность ситуации.
Это уже не просто «классификация». Это мышление, пусть и в зачаточной форме.
Исследователи из Университета Джорджа Вашингтона проводили эксперименты: они просили GPT продолжить сложные многоходовые шутки (про кирпич, упавший с самолёта, про слона в холодильнике, про львиную вечеринку). Модель не просто отвечала — она включалась в игру, подыгрывала, развивала сюжет и даже придумывала неожиданные финалы. Это уровень не просто понимания, а соучастия в творчестве.
Триумф: Универсальный помощник
Мультимодальность открыла совершенно новые возможности применения.
1. Помощь незрячим.
Приложение Be My Eyes интегрировало GPT-4. Теперь человек с нарушением зрения может навести камеру телефона на холодильник и спросить: «Что тут есть?». Модель описывает продукты, читает этикетки, помогает ориентироваться в пространстве.
2. Образование и репетиторство.
Студент фотографирует рукописное решение задачи по математике. GPT-4 не просто даёт ответ, а объясняет, где ошибка, и предлагает правильный ход мыслей. Можно показывать ей схемы, графики, чертежи — она всё анализирует.
3. Программирование.
Разработчик показывает GPT-4 скетч интерфейса, нарисованный от руки на салфетке. Модель генерирует HTML, CSS и JavaScript код, который превращает этот скетч в работающий сайт. С нуля, без единой строчки кода, написанной человеком.
4. Анализ данных.
Бизнес-аналитик загружает в модель сложный график с множеством показателей и просит: «Объясни, почему продажи упали в третьем квартале». GPT-4 анализирует визуальные тренды и выдаёт связный отчёт.
5. Медицина.
Врач может показать модели снимок МРТ и попросить описать возможные патологии (конечно, с оговоркой, что окончательный диагноз ставит человек).
Темная сторона: Новые риски
Вместе с новыми возможностями пришли и новые страхи.
1. Приватность.
GPT-4 может распознавать лица и места на фотографиях. Это создаёт огромные риски для конфиденциальности. Если модель видит всё, что ты ей показываешь, кто гарантирует, что эти данные не будут использованы во вред?
2. Предвзятость.
Как и текстовые модели, мультимодальные ИИ впитывают предрассудки из данных. Если интернет полон стереотипных изображений, модель научится их воспроизводить. Это может привести к дискриминации при автоматическом анализе.
3. Галлюцинации.
GPT-4 по-прежнему может уверенно врать. Она может увидеть на рентгеновском снимке то, чего нет, и выдать это за факт. В чувствительных областях (медицина, безопасность) это смертельно опасно.
4. Новые виды мошенничества.
Способность анализировать изображения в реальном времени открывает дорогу для новых схем обмана. Например, подделка документов, создание фейковых видео с «пониманием» контекста.
Послесловие: GPT-4o и «Она»
В мае 2024 года OpenAI сделала следующий шаг — выпустила GPT-4o (omni — «всеохватывающий»).
Эта модель добавила к тексту и изображениям реальное время и голос. Теперь можно говорить с ИИ так, как будто разговариваешь с человеком. Модель видит твоё лицо через камеру, слышит интонации, понимает эмоции и отвечает с естественными паузами, междометиями, смехом.
Создатели не скрывали вдохновения фильмом «Она» (Her), где герой Хоакина Феникса влюбляется в голосового ассистента. Сэм Альтман написал в соцсетях просто: «она».
Голос GPT-4o звучал так естественно, что многие заподозрили, что это запись реальной актрисы. Но это была чистая генерация — с дыханием, смехом, интонациями живой речи.
Твой ход: Четыре урока от GPT-4
— Контекст решает всё. GPT-4 победила не потому, что стала больше, а потому что научилась учитывать больше контекста — визуального, культурного, эмоционального. В твоей жизни тоже: чем больше контекста ты учитываешь, тем точнее твои решения.
— Мультимодальность — это будущее. Мир не разделён на текст и картинки. Всё переплетено. Учись мыслить комплексно, соединять разные типы информации, видеть связи там, где другие видят отдельные факты.
— Юмор — признак интеллекта. Способность шутить и понимать шутки — это не просто развлечение. Это маркер того, что ты улавливаешь неочевидные связи. Развивай в себе чувство юмора — это делает умнее.
— Осторожность не помешает. Чем умнее инструмент, тем опаснее он в плохих руках. Используй силу GPT-4 во благо, помни о приватности и никогда не доверяй слепо — даже самому умному ИИ.
P.S.
Знаешь, что сказал один из пользователей, когда GPT-4 впервые объяснила ему мем?
«Я почувствовал себя так, будто мой пёс вдруг заговорил и рассказал анекдот. Сначала страшно, потом смешно, а потом думаешь: а что ещё он понимает?»
Глава 20. Голосовой клон: Как ИИ научился подражать голосам за 3 секунды
Крючок: Звонок от «дочери»
Январь 2023 года, США. Обычный вечер в семье среднего класса. Мать двоих детей занималась домашними делами, когда зазвонил телефон. На экране высветился незнакомый номер, но женщина ответила — мало ли, вдруг что-то срочное.
В трубке раздался истерический женский плач. Сквозь рыдания она услышала голос своей пятнадцатилетней дочери: «Мама! Мама, помоги! Меня похитили, пожалуйста, сделай, что они говорят!».
Следом в трубке заговорил грубый мужской голос: «Мы похитили твою дочь. Если хочешь увидеть её живой — переведи 50 тысяч долларов. И никакой полиции, иначе мы её убьем».
Женщина была в панике. Она слышала голос дочери. Она слышала её интонации, её манеру говорить, её плач. Материнский инстинкт кричал: «Плати! Спасай!».
Но что-то её остановило. Она перезвонила дочери на мобильный. Та ответила спокойным голосом: «Мам, я в школе, всё нормально. Что случилось?».
Это было первое громкое дело о голосовом мошенничестве, которое попало в СМИ. Позже выяснилось, что преступники каким-то образом получили всего несколько секунд записи голоса девочки из её аккаунта и с помощью ИИ сгенерировали фразу о похищении.
Мир вступил в новую эру: голосу больше нельзя верить.
Герои: Гонка вооружений в мире звука
Технология клонирования голоса развивалась незаметно, но стремительно. В 2023—2024 годах сразу несколько компаний представили системы, способные создавать цифровые копии голосов за минуты и даже секунды.
ElevenLabs (2023).
Стартап, который стал первым публично доступным инструментом для клонирования голоса с качеством, пугающе близким к реальности. Их технология позволяла загрузить несколько минут речи и получить голосовую модель, которая могла сказать что угодно на десятках языков. Сервис быстро набрал популярность у создателей контента, а потом у мошенников.
Voice Engine от OpenAI (2024).
В марте 2024 года OpenAI представила свою модель Voice Engine. Главная сенсация: для создания клона голоса достаточно 15 секунд аудиозаписи. Одна фраза, сказанная человеком, — и нейросеть уже может говорить от его имени.
OpenAI подошла к делу осторожно. Voice Engine был доступен только избранным партнёрам, а публичный релиз отложили из-за «опасений по поводу возможного злоупотребления технологией». Компания опубликовала примеры использования: помощь детям с проблемами чтения, перевод подкастов с сохранением голоса автора, восстановление речи пациентов, потерявших голос из-за болезней.
VALL-E от Microsoft (2023).
Ещё раньше, в начале 2023 года, Microsoft анонсировала исследовательскую модель VALL-E, которая могла клонировать голос по 3-секундной записи. Три секунды — и ваш голос оцифрован навсегда. Правда, в открытый доступ технологию не выпустили, оставив «для исследовательских целей».
Разработки с открытым кодом.
Параллельно на GitHub появились open-source проекты, такие как GPT-SoVITS, позволяющие клонировать голос по одной минуте аудио и запускать модель локально, без интернета и без чьего-либо разрешения. Это означало, что технология стала доступна любому человеку с видеокартой.
Конфликт: Как учили машину говорить чужим голосом
Чтобы понять магию, нужно заглянуть под капот. Как нейросеть учится подражать голосу?
Технически клонирование голоса состоит из трёх этапов :
Этап 1: Кодировщик (Encoder).
Нейросеть анализирует образец голоса (15 секунд, минута, три секунды) и извлекает из него уникальные характеристики: тембр, высоту, интонационные паттерны, ритм речи, особенности произношения. Она создаёт цифровой «отпечаток» голоса — вектор в многомерном пространстве признаков.
Этап 2: Синтезатор (Synthesizer).
Когда пользователь вводит текст, синтезатор превращает его в спектрограмму — визуальное представление звука, но с учётом голосового отпечатка. Он как бы «рисует» звуковую волну, которую должен был бы произнести человек с таким голосом.
Этап 3: Вокодер (Vocoder).
Самый важный шаг. Вокодер превращает спектрограмму в реальный звук, который мы слышим. Современные нейросетевые вокодеры (WaveNet от DeepMind, HiFi-GAN и другие) научились добавлять в звук все человеческие нюансы: дыхание, паузы, дрожание голоса, эмоциональные модуляции.
Результат: на выходе звучит голос, который невозможно отличить от оригинала. Он дышит, он интонирует, он даже делает паузы, чтобы вдохнуть воздух перед длинной фразой.
Инсайт: Почему 3 секунды — это прорыв
Бесплатный фрагмент закончился.
Купите книгу, чтобы продолжить чтение.