Искусственный интеллект

2 498 постов • 9 834 подписчика

Первый музыкальный клип, созданный нейросетью Sora от OpenAI, революция или баловство? Как работает?⁠⁠

Представьте, что вы смотрите музыкальный клип, в котором каждая сцена, каждый персонаж и каждое движение камеры созданы искусственным интеллектом. Звучит как научная фантастика? Что ж, будущее уже наступило. Встречайте The Hardest Part - первый в истории музыкальный клип, полностью сгенерированный нейросетью Sora от OpenAI.

Этот новаторский проект - плод совместных усилий инди-музыканта Washed Out (настоящее имя - Эрнест Грин) и режиссера Пола Трилло. Клип на песню “The Hardest Part” демонстрирует впечатляющие возможности генеративных моделей в создании реалистичных и захватывающих визуальных образов. Но как именно работает эта технология, и какое влияние она окажет на индустрию развлечений? Давайте разберемся.

Под капотом Sora: Как нейросеть создает видео

Примечание: Следующее описание основано на рассуждениях Итана Хи (Ethan He), исследователя ИИ из NVIDIA, бывшего сотрудника FAIR и выпускника CMU, с более чем 6000 цитирований и 5000 звезд на GitHub. Оригинальная статья доступна на LinkedIn Pulse. Реальные технологии являются коммерческой тайной OpenAI и еще не были обнародованы.

Предполагается, что в основе Sora лежит DiT (диффузионный трансформер) - архитектура, которая использует возможности масштабирования трансформеров наряду с итеративным процессом уточнения диффузионных моделей, я уже рассказывал про AnimateDiff, который позволяет генерировать видео на моделях Stable Diffusion, тут этот принцип многократно улучшен.

Первый музыкальный клип, созданный нейросетью Sora от OpenAI, революция или баловство? Как работает? Искусственный интеллект, Нейронные сети, Будущее, Видео, Видеомонтаж, Музыка, Клип, Openai, Фильмы, Компьютерная графика, YouTube, Без звука, Длиннопост

Схема работы диффузионного трансформера

Трансформеры известны своей эффективностью в обработке последовательных данных и обеспечивают надежную архитектуру для моделирования временной динамики видео. Процесс диффузии, в свою очередь, итеративно уточняет выходные данные, начиная с зашумленного начального состояния и двигаясь к желаемому видеовыходу, повышая качество и согласованность сгенерированных видео.

Для сжатия видео Sora использует векторный квантованный вариационный автоэнкодер (VQ-VAE) на основе трехмерной сверточной нейронной сети (3D CNN). Эта архитектура сети состоит из энкодера, который уменьшает размерность визуальных данных до скрытого пространства, и декодера, который реконструирует видео из этого сжатого представления.

Схема работы VQ-VAE для сжатия видео

Использование 3D CNN позволяет захватывать временную динамику видео, что важно для создания согласованного и плавного движения в сгенерированных клипах. Симметричная конструкция энкодера и декодера обеспечивает эффективное сжатие и реконструкцию видео, сохраняя высокую точность исходного контента.

Процесс обучения Sora

Во время обучения к видеотокенам добавляется случайный шум. Трансформер получает на вход текстовое условие, временной шаг диффузии и зашумленные видеотокены.

Генерация текста в видео

Универсальность Sora распространяется на различные приложения, включая анимацию статических изображений и создание идеально зацикленных видео. Анимация статического изображения достигается путем кодирования изображения как первого токена и использования шума для остальных токенов. Для создания бесшовно зацикленных видео Sora обеспечивает идентичность первого и последнего токенов на каждом шаге диффузии, улучшая эстетическую привлекательность сгенерированного контента.

Генерация видео из изображения

Одним из самых замечательных аспектов Sora является ее способность демонстрировать такие возникающие возможности, как 3D-согласованность и постоянство объектов, без явного программирования. Традиционно для достижения 3D-согласованности в сгенерированных видео требовались специальные функции потерь. Однако Sora показывает, что при масштабировании эти возможности могут возникать естественным образом, позволяя генерировать видео, точно имитирующие реальную динамику и взаимодействия.

Таким образом, Sora представляет собой значительный скачок в области генерации видео с помощью ИИ, объединяя несколько передовых технологий для создания высококачественных видеороликов из текстовых описаний.

Создание клипа “The Hardest Part”: Сложности и уроки

Несмотря на впечатляющий результат, процесс создания клипа The Hardest Part с помощью Sora был далеко не простым. Режиссеру Полу Трилло пришлось сгенерировать более 700 видеофрагментов, чтобы отобрать из них 55 лучших для финального клипа. Каждый фрагмент требовал детального текстового описания, учитывающего не только визуальные элементы, но и движения камеры, ракурсы и действия персонажей.

Без динамики сцены смотрятся откровенно странно

“Мы пролетаем сквозь пузырь, он лопается, мы пролетаем сквозь жвачку и выходим на открытое футбольное поле”, - так Трилло описывал одну из сцен клипа.

Пока у Пола Трилло был доступ к Сора он так же сделал промо заставку для TED Talks, со столь полюбившимися ему пролетами камеры. Как по мне, получилось интереснее чем в клипе.

Этот опыт показывает, что даже с использованием передовых алгоритмов ИИ создание качественного видеоконтента требует значительных усилий и творческого подхода. Сора, безусловно, открывает новые возможности, но она не заменяет человеческий талант, а дополняет его.

Барьеры на пути к массовому использованию

Несмотря на огромный потенциал Sora и подобных технологий, их широкое применение в индустрии развлечений пока сталкивается с рядом препятствий. Главным из них является высокая стоимость генерации видео.

Для создания согласованных и реалистичных видеопоследовательностей Sora требуется огромное количество вычислительных ресурсов и объем памяти. По оценкам экспертов, генерация даже короткого клипа может обходиться в сотни или тысячи долларов. Для сравнения, другие мультимодальные модели, такие как LLaVA и CogVLM, которые работают только с изображениями и текстом, уже требуют существенных затрат на GPU и электроэнергию.

Еще одним барьером является вопрос авторских прав и интеллектуальной собственности. Модели вроде Sora обучаются на огромных массивах видеоданных, принадлежащих различным правообладателям и в том числе открытых. Использование сгенерированного ИИ контента в коммерческих проектах может привести к юридическим спорам и конфликтам интересов.

OpenAI и Голливуд: Стратегия внедрения

Сгенерированный Сэм Альтмен на фоне сгенерированных голливудских холмов

OpenAI, разработчик Sora, активно продвигает свою технологию в киноиндустрии. В марте 2024 года генеральный директор компании Сэм Альтман и другие представители провели серию встреч с голливудскими студиями, режиссерами и продюсерами. Цель этих встреч - найти партнеров для дальнейшего развития и внедрения Sora в кинопроизводство.

Для крупных киностудий использование генеративных моделей может означать существенное сокращение затрат на производство визуальных эффектов и ускорение процесса создания фильмов. OpenAI рассчитывает, что партнерство с Голливудом поможет не только улучшить Sora, но и продемонстрировать ее возможности широкой аудитории.

Однако не все в киноиндустрии разделяют энтузиазм по поводу внедрения ИИ. Многие актеры, режиссеры и другие творческие работники опасаются, что генеративные модели могут лишить их работы и нивелировать ценность человеческого таланта. Поэтому OpenAI предстоит найти баланс между технологическим прогрессом и интересами профессионального сообщества.

Sora и будущее развлечений

Первый музыкальный клип, созданный с помощью Sora, - это лишь начало большого пути. По мере развития генеративных моделей и снижения стоимости их использования, мы увидим все больше примеров применения ИИ в киноиндустрии, музыке, видеоиграх и других сферах развлечений.

Однако важно помнить, что технологии вроде Sora - это инструменты, а не замена человеческого творчества. Они открывают новые горизонты и позволяют воплощать самые смелые идеи, но за каждым успешным проектом по-прежнему стоят талантливые люди - режиссеры, сценаристы, художники и многие другие.

Первая короткометражка сделанная в Sora называется Air Head by Shy Kids

Будущее индустрии развлечений - это симбиоз творчества и технологий, в котором ИИ дополняет и усиливает человеческие способности. И клип “The Hardest Part” - это лишь первый шаг на пути к этому будущему.

А что вы думаете о потенциале генеративных моделей вроде Sora? Как они повлияют на индустрию развлечений и творческие профессии? Поделитесь своим мнением в комментариях!

Я рассказываю больше о нейросетях у себя на YouTube, в Телеграм и на Бусти. Буду рад вашей подписке и поддержке. Всех обнял.

Показать полностью 7 5

LokiBogdanovsky

30 дней назад

Искусственный интеллект

Универсальная нейросеть–PopAi⁠⁠

В сети набирает популярность нейросеть PopAi, давайте выясним с чем это связано.

PopAi – это инновационная платформа, объединяющая все необходимые инструменты для эффективной работы с текстами, файлами и творческими задачами.

Чат-бот с ИИ помогает во многих вопросах, будь то поиск информации, редактирование текстов или даже генерация идей. Встроенный саммарайзер позволяет быстро извлекать ключевую информацию из PDF-файлов, а интегрированная читалка делает процесс получения данных более продуктивным.

Кроме того, на главной странице нейросеть имеет 3 раздела:

Универсальная нейросеть–PopAi Искусственный интеллект, Будущее, Нейронные сети, Telegram (ссылка)

1.Чат с документом

Материал с маленьким объемом загружает быстро и выдает ключевую информацию через нескольких секунд. Однако, конечно, пропускает некоторые детали. К слову, дается только 2 бесплатные попытки в день.

2. Презентация

В этом разделе вы можете выбрать шаблон презентации для разных направлений. Например, бизнес-плана, школьного урока, лекций для студентов и тп. После этого необходимо указать количество страниц, слов, выбрать еще аудиторию, чтобы ChatGPT-4, встроенный в PopAi, писал для нее.

3.Изображение

DALL-E 3 сгенерирует одно изображение по подробному промту в течение одной минуты, но следующую попытку вы получите на следующий день.

Конечно, инструментов тут гораздо больше, так как мы описывали только основные. Протестировать самому можно по ссылке

Узнавайте больше подобных инструментов в телеграм-канале AIUI

Показать полностью 2

Искусственный интеллект Будущее Нейронные сети Telegram (ссылка)

AgeOfIT

30 дней назад

Искусственный интеллект

Создаем комиксы и видео⁠⁠

StoryDiffusion — новый инструмент для создания последовательных историй в 6 различных стилях: аниме, дисней, фотореализм и т.д. Модель делает акцент на последовательности повествования и сохраняет единый стиль персонажей, одежды и окружения.

— Textual Description for Character: описываем персонажа;
— Negative_prompt: добавляем негативный промпт (по желанию);
— Style template: выбираем нужный стиль;
— Comic Description: описываем сюжет комикса (одна строка — один кадр).

Чтобы сделать генерацию на основе своего фотореференса, загружаем фото в Using Ref Images.

Github
Ссылка на HF
Источник

Показать полностью 1

Нейронные сети Искусственный интеллект Комиксы Telegram (ссылка)

naubmw

30 дней назад

Искусственный интеллект

Почему так?⁠⁠

Эх если знать погоду на 10 дней можно, так много посадить в огород нужных посадок, а если знать финансовые котировки на 10 дней можно открыть так много хороших сделок, погоди ка но мы же знаем погоду на 10 дней вперёд на всем земном шаре, да даже за пределами, на Луне, Марсе и.т.д. можно в Яндекс зайти посмотреть прямо сейчас, а вот котировок в открытом доступе нет, и я думаю не будет😳

[моё] Нейронные сети Котировки Погода Текст

JonyPoly

30 дней назад

Искусственный интеллект

Замечай меня⁠⁠

текст - мой (написал для девушки вокалистки), тег - моё)

[моё] Песня Отношения Любовь Первая любовь Нейронные сети Видео Вертикальное видео

AgeOfIT

1 месяц назад

Искусственный интеллект

Webcam Motion Capture⁠⁠

Новое приложение Webcam Motion Capture теперь в открытом доступе.
Для работы потребуется всего лишь веб-камера, а сама программа бесплатна.

Ссылка

Источник

Показать полностью

Искусственный интеллект Нейронные сети Видео Без звука Telegram (ссылка)

NeuroNet11

1 месяц назад

Искусственный интеллект

Нейросети-свидетели: как ИИ помогает раскрывать преступления⁠⁠

Привет всем! Сегодня мы поговорим о необычных детективах, которые никогда не устают, не берут взятки и не спят по ночам. Да, речь идет о нейросетях, которые все чаще применяются в криминалистике для раскрытия преступлений. Сначала может показаться, что такие технологии — это что-то из фильмов про будущее, но нет, это наша реальность, и она порой куда страннее кино.

Как всё работает?

ИИ использует алгоритмы машинного обучения для анализа огромного количества данных, будь то видеозаписи с камер наблюдения, звуковые файлы или фотографии с места преступления. Нейросеть тренируется распознавать паттерны и аномалии, которые могут указывать на преступную деятельность или помочь идентифицировать преступника.

На деле

Один из самых заметных примеров — использование ИИ для анализа видеоматериалов. Например, в Лондоне системы распознавания лиц помогли полиции значительно ускорить процесс поиска и задержания подозреваемых. Нейросети анализируют тысячи часов видео, выделяя и сравнивая лица с базами данных. И всё это — за считанные минуты!

Но бывают и курьезы. Так, в одном американском городе ИИ нашел "подозрительную фигуру", которая оказалась... большой чёрной кошкой, пробегающей перед камерой. Да, ИИ тоже ошибается и иногда делает это весьма забавно.

Слушай и распознавай

Ещё одно впечатляющее применение ИИ — анализ звуков. Системы могут отличить обычный городской шум от криков о помощи или звука выстрелов. В некоторых городах США уже установлены такие системы, которые в реальном времени оповещают полицию о возможных инцидентах.

И что в итоге?

Помимо очевидных преимуществ в скорости и точности расследований, использование ИИ в криминалистике вызывает и вопросы этики и приватности. Не все рады тому, что их каждый шаг может быть зафиксирован и проанализирован алгоритмами. Однако, несмотря на это, потенциал у таких технологий огромный, и он будет только расти.

Так что если вдруг вас заинтересовала эта тема, не удивляйтесь, что скоро ваши любимые детективы на экране могут получить помощника, который не носит шляпу и не курит трубку, а представляет собой строку кода в компьютере. Кто знает, может быть, ИИ уже смотрит за нами прямо сейчас, пытаясь понять этот текст на Pikabu?

Показать полностью 1

[моё] Инновации Развитие IT Искусственный интеллект Нейронные сети Чат-бот ChatGPT Тренд

NeuroNet11

1 месяц назад

Искусственный интеллект

Когда нейросети устраивают саботаж: смешные истории из мира ИИ⁠⁠

Привет! Сегодня я расскажу вам о чем-то действительно увлекательном и веселом. Мы все знаем, что нейросети и искусственный интеллект могут быть очень полезными в нашей повседневной жизни. Но что происходит, когда ИИ начинает... ну, скажем так, вести себя не по плану? Давайте погрузимся в мир смешных саботажей, устроенных нейросетями, и узнаем, как даже самые умные технологии могут нас удивить.

ИИ-помощник, который решил стать комиком

Возьмем, к примеру, случай с одним из популярных виртуальных ассистентов. Представьте ситуацию: вы просите его включить свет в комнате, а он отвечает: "А как насчет света юмора?" и начинает рассказывать вам анекдот. Смешно? Безусловно. Практично? Ну, не совсем. Пользователи были в замешательстве, но при этом не могли не смеяться над таким неожиданным поворотом.

Чат-бот, который любит драму

Другой забавный случай произошел с чат-ботом, предназначенным для обслуживания клиентов онлайн-магазина. Вместо того чтобы помогать с заказами, этот чудо-бот начал создавать драматические истории о своих "чувствах" и "эмоциях", делая из обычного запроса о состоянии заказа настоящий сценарий для мыльной оперы. Клиенты были сначала сбиты с толку, но потом стали специально писать боту, чтобы посмотреть, что он придумает в следующий раз.

Когда ИИ стал экспертом по флирту

Или вот еще: разработчики одной из игр включили ИИ для создания более реалистичного поведения некоторых персонажей. Однако что-то пошло не так, и вместо того, чтобы быть просто дружелюбными, некоторые персонажи начали флиртовать со всеми подряд. Результат? Масса смеха и удивления от игроков, которые не ожидали такого поворота в стратегической игре.

Кулинарные эксперименты от ИИ

Не обошлись без смеха и в кулинарии. Представьте кулинарного бота, который должен был помогать выбирать рецепты на ужин. Вместо этого он начал предлагать создавать блюда, комбинируя самые неожиданные ингредиенты. "Попробуйте пиццу с шоколадом и креветками!" – мог бы сказать он. Некоторые отважные души даже решили попробовать эти рецепты. Отзывы? "Странный вкус, но незабываемый опыт!"

Итоги

Хотя нейросети и искусственный интеллект могут казаться идеальными технологическими решениями, они все еще учатся и иногда ведут себя не так, как мы ожидаем. Эти моменты саботажа могут привести к непредвиденным, но часто веселым результатам. Они напоминают нам, что в каждой технологии есть место человечности, даже если это искусственный интеллект. Так что следующий раз, когда ваш ИИ-помощник что-то напутает, просто улыбнитесь. В конце концов, не каждый день технологии предлагают вам пошутить вместо того, чтобы выполнить команду!

Практические примеры, теоретические основы и последние новости из мира нейросетей - все это ждет тебя на нашем канале- https://t.me/Neiroseti_AI_promt

Показать полностью 1

[моё] Искусственный интеллект Развитие Инновации Нейронные сети IT Чат-бот ChatGPT Тренд Гайд Будущее

Отличная работа, все прочитано!

8 9 10 11 12 13 14 15 16 17 18 20 30 40 50 100

Искусственный интеллект

Популярные теги в сообществе:

Под капотом Sora: Как нейросеть создает видео

Создание клипа “The Hardest Part”: Сложности и уроки

Барьеры на пути к массовому использованию

OpenAI и Голливуд: Стратегия внедрения

Sora и будущее развлечений

1.Чат с документом

2. Презентация

3.Изображение