
DeepDream — це програмакомп’ютерного бачення, створена інженеромGoogle Олександром Мордвінцевим, яка використовуєзгорткову нейронну мережу для пошуку та посилення образів узображеннях за допомогоюалгоритмічноїпарейдолії, таким чином створюючи виглядсновидіння, який нагадуєпсиходелічний досвід у навмисно надмірно оброблених зображеннях.[1][2][3]
Програма Google популяризувала термін (глибоке) «сновидіння» для позначення генерації зображень, які викликають бажанізбудження в натренованійглибокій мережі, і тепер цей термін стосується набору пов'язаних підходів.
Програмне забезпечення DeepDream, походить від глибокоїзгорткової мережі під кодовою назвою «Inception» на честьоднойменного фільму[1][2][3], розробленої дляImageNet Large-Scale Visual Recognition Challenge(інші мови) (ILSVRC) у 2014 році[3] і випущеної у липні 2015 року.
Ідея та назва стали популярними в Інтернеті в 2015 році завдяки програмі DeepDream від Google. Ця ідея походить з ранніх етапів історії нейронних мереж[4], і подібні методи використовувалися для синтезу візуальних текстур.[5] Відповідні ідеї візуалізації були розроблені (до роботи Google) кількома дослідницькими групами.[6][7]
Після того, як Google опублікував свої технології тавідкрив вихідний код[8], на ринку з'явилася низка інструментів у формі веб-сервісів, мобільних додатків і програмного забезпечення для настільних комп'ютерів, які дозволяють користувачам перетворювати власні фотографії.[9]
Програмне забезпечення було призначене длявиявлення облич та інших образів на зображеннях з метою автоматичної класифікації зображень.[10] Однак після навчання мережу також можна запустити у зворотному напрямку, попросивши трохи відкоригувати вихідне зображення, щоб певний вихідний нейрон (наприклад, для облич чи певних тварин) давав вищу оцінку достовірності. Це можна використовувати для візуалізації, щоб краще зрозуміти структуру нейронної мережі, що виникає, і є основою для концепції DeepDream. Це зворотнє функціонування ніколи не є абсолютно чітким та однозначним, оскільки воно використовує процес відображенняодин-до-багатьох.[11] Однак після достатньої кількості повторів навіть образи, спочатку позбавлені шуканих рис, будуть скориговані настільки, що в результаті виникне формапарейдолії, за допомогою якої алгоритмічно генеруютьсяпсиходелічні тасюрреалістичні зображення. Оптимізація нагадуєзворотне поширення, однак, замість коригування ваг мережі, ваги залишаються фіксованими, а коригуються вхідні дані.
Наприклад, існуюче зображення можна змінити так, щоб воно стало «більш котячим», і отримане покращене зображення можна знову ввести в обробку.[2] Таке використання нагадує пошук тварин або інших образів у хмарах.
Застосування градієнтного спуску незалежно до кожного пікселя вхідних даних створює зображення, у яких сусідні пікселі мають мало зв'язку, і, отже, зображення містить занадто багато високочастотної інформації. Згенеровані зображення можна значно покращити, включивширегуляризатор, який віддає перевагу входам, що мають природну статистику зображень (без переваги для будь-якого конкретного зображення), або просто гладкі.[7][12][13] Наприклад, Mahendran et al.[12] використали регуляризатор загальної варіації, який віддає перевагу зображенням, які є кусково-постійними. Різні регуляризатори обговорюються далі в Yosinski та ін.[13] Нещодавно було опубліковано поглиблене візуальне дослідження методів візуалізації ознак і регулярізації.[14]
Наведена подібність образів до галюцинацій, викликанихЛСД іпсилоцибіном, свідчить про функціональну подібність між штучними нейронними мережами та певними шарами зорової кори.[15]
Нейронні мережі, такі як DeepDream, мають біологічні аналогії, які дають змогу зрозуміти процеси роботи мозку та формування свідомості. Галюциногени, такі якДМТ, змінюють функцію серотонінергічної системи, яка присутня в шарах зорової кори. Нейронні мережі навчаються на вхідних векторах і змінюються внутрішніми варіаціями під час процесу навчання. Вхідні та внутрішні модифікації представляють обробку екзогенних та ендогенних сигналів відповідно в зоровій корі. Оскільки внутрішні варіації модифікуються в глибоких нейронних мережах, вихідне зображення відображає ці зміни. Ця специфічна маніпуляція демонструє, як внутрішні механізми мозку аналогічні внутрішнім шарам нейронних мереж. Зміни рівня внутрішнього шуму показують, як галюциногени пропускають зовнішню сенсорну інформацію, що призводить до того, що внутрішні упереджені концепції сильно впливають на зорове сприйняття.[16]

Ідея сновидінь може бути застосована до прихованих (внутрішніх) нейронів, відмінних від тих, що знаходяться у виході, що дозволяє досліджувати ролі та представлення різних частин мережі.[13] Також можна оптимізувати вхідні дані, щоб задовольнити або один нейрон (це використання іноді називають максимізацією збудження,англ.Activity Maximization)[17] або цілий шар нейронів.
Хоча сновидіння найчастіше використовується для візуалізації мереж або створення комп'ютерного мистецтва, нещодавно було запропоновано, що додавання «мріяних» вхідних даних до навчального набору може покращити час навчання для абстракцій у інформатиці.[18]
Було також продемонстровано, що модель DeepDream має застосування в галузіісторії мистецтва.[19]
DeepDream був використаний для музичного кліпуFoster the People на пісню«Doing It for the Money(інші мови)».[20]
У 2017 році дослідницька група з Університету Сассекса створиламашину галюцинацій, застосувавши алгоритм DeepDream до попередньо записаного панорамного відео, що дозволяє користувачам досліджувати середовища віртуальної реальності, імітуючи досвід психоактивних речовин та/або психопатологічних станів.[21] Вони змогли продемонструвати, що суб'єктивні переживання, викликані машиною галюцинацій, суттєво відрізнялися від контрольних (не «галюциногенних») відео, але мали феноменологічну схожість із психоделічним станом (після введення псилоцибіну).
У 2021 році дослідження, опубліковане в журналіEntropy(інші мови), продемонструвало подібність між DeepDream і реальним психоделічним досвідом ізнейронауковими доказами.[22] Автори записали електроенцефалограму (ЕЕГ) учасників під час пасивного перегляду відеокліпу та його аналога, згенерованого DeepDream. Вони виявили, що відео DeepDream викликало вищуентропію в сигналі ЕЕГ і вищий рівеньфункціонального зв’язку(інші мови) між областями мозку[22]. Обидві ознаки добре відомібіомаркери справжнього психоделічного досвіду.[23]
У 2022 році дослідницька група під керівництвом Університету Тренто «виміряла когнітивну гнучкість і креативність учасників після перегляду панорамних відео у віртуальній реальності та їхніх галюцинаторних аналогів, згенерованих алгоритмом DeepDream, імітуючи психоделічний вплив. Люди демонстрували ослаблений внесок автоматичного процесу та хаотичну динаміку, що лежить в основі їхніх процесів прийняття рішень, імовірно, через реорганізацію когнітивної динаміки, яка полегшує дослідження незвичайних стратегій прийняття рішень і перешкоджає автоматизованому вибору».[24]
| Зовнішні відео | |
|---|---|