Идеи не падают с неба - они складываются из того, что нас окружает. Кто работал на фрилансе или шабашил наверняка сталкивался с проблемами продать подороже (купить подешевле).
На своём канале я реализую свои идеи. Порой хочется создать что-то новое. Так что в какой-то момент пазл сложился: я собрал в один трек свой опыт общения с «клиентскими хотелками», их требования, и привычку выражать мысли в рифме - получился черновой набросок песни:
Под него сложилась картинка клипа. ChatGPT помог обработать текст под рэп. Начались 15 раундов шлифовки: подгонял ритм, искал точнее рифмы, ужимал длинные формулировки, менял порядок строк, пока куплеты и припев не «сели» в бит без спотыкания.
Перед генерацией вокала и аранжировки открыл документацию Riffusion (режим Compose) - чтобы правильно разметить текст на секции (Intro / Verse / Pre-Chorus / Chorus / Bridge / Outro), задать тон, и не бороться с инструментом вслепую. Принцип простой и вечный: не игнорируйте документацию - инструкции экономят часы проб и ошибок и дают предсказуемый результат.
Скриншот AI Riffusion
9 неудачных музыкальных версий привели в итоге к попаданию в цель. Окончательный итог правил в Audition (небольшой EQ, де-эссер, лёгкая динамика. После хирургии трек стал чище и музыкальнее.
Скриншот окна программы Audition
Плей - диван - закрытые глаза. Я слушал готовый трек и ловил картинку, которая всплывает первой: фактуры, ритм монтажа, гэги. Этот «слуховой сториборд» зафиксировал тезисно, а уже потом перешёл к гриду референсов и генерации.
В ComfyUI написал промты, с помощью Checkpoint Flux Dev Krea сгенерировал изображения сцен. Из удачных кадров собрал «палитру мира» клипа.
ComfyUI с Checkpoint Flux Dev Krea
Veo 3 (платный аккаунт). Часть сцен я подавал чисто текстом (без картинок) - и это иногда давало результат лучше: особенно там, где важен темп движения и «киношные» клише.
Veo 3 - этапы генерации
Для сборки я выбрал CapCut (desktop) - без сложной покраски и тяжелых FX он работает быстрее. Разложил таймлайн: базовые нарезки, темповые резы под бас/снейр, текстовые плашки, пару простых переходов. Важнее было ритм и читабельность шуток, а не фейрверки визуальных трюков.
CapCut (desktop) - сборка клипа
На просмотре не всегда внешность главного героя совпадала. Уравнять образы помог Viso Master. Почему не DeepFaceLab? Качество у DFL выше, но требовало бы ~6 часов тренировки модели - а я ставил скорость/качество 50/50. С Viso Master получил достойный баланс.
Viso Master - замена лица
Реальность вмешалась: не везде детектило лицо, плюс на 8 ГБ VRAM тяжело тянуть улучшайзеры - ноут грелся, софт падал. Решение: разбил ролик 2:07 на 3836 кадров, прогнал кадрово нужные фрагменты через Viso Master и собрал обратно:
Разбитие на кадры - бесплатная Jpg Converter (узко заточенная, но делает своё дело легко).
Сборка назад — через Blender 3D (как видеоредактор он удобен для таких задач и даёт контроль по частоте кадров/кодекам).
После финальной склейки вернулся к смыслу. В After Effects замазал (масками) сообщения на телефоне в начале клипа - перевёл с английского на русский, добавил слегка агрессивное движение текста, чтобы подчеркнуть «снисходительность» заказчика. Пара трекингов и реплики «жалят» ровно как в треке:
After Effects - замена сообщений в телефоне
Финальный прогон через Topaz Video AI: апскейл до 4K, умеренное повышение деталей на средних планах, аккуратное подавление шума на «тёмных» кадрах. Важно не пережать — язык пародии не любит стеклянные лица.
Для кликабельности сделал две обложки - горизонтальную (16:9) и вертикальную (9:16). Генеративный черновик собрал в ChatGPT, затем довёл композицию и типографику в Photoshop: крупный заголовок, контрастные силуэты, ясный фокус на «болезни фриланса». Тот же сет использовал для превью в Shorts/Reels.
Photoshop - создание обложки
Спасибо за внимание! Посмотрев клип, я думаю он вызвал у вас улыбку😊
Если интересны такие темы как AI, 2D или 3D графика - можете заходить на мой YouTube и TG.
Где можно попробовать: На сайте Google Vertex, разные сервисы(сайты), боты ТГ, лично я использую удобный бот Телеграм https://t.me/gptcyber_bot?start=utm_Banana6 потомучто есть недорогие безлимитные подписки и бесплатные тестовые генерации + понятный интерфейс
Если Вас интересуют решение ошибок генерации контента - смотрите блок в конце статьи
Редактирование лица и деталей
Особенность Banana в том, что она точно сохраняет портретное сходство, при этом позволяет корректировать лишь выбранные элементы снимка. Если попросить изменить шапку, модель затронет только её, оставив остальное изображение без изменений. Это скорее инструмент точечного редактирования наподобие Photoshop, чем классическая генеративная система.
При этом запросы можно формулировать свободно: даже простая разговорная фраза будет преобразована в корректный запрос для генерации картинки.
Запрос "сделай цвет волос на брюнетку, и прическу каре."
К готовому изображению всегда можно внести дополнительные корректировки, нажав кнопку "Добавить для улучшения" — и, как правило, первые пару-тройку правок проходят без потери качества.
Такая же логика применяется и к одежде с аксессуарами:
Запрос "поменяй картинку на свитере, вместо льва сделай зайца"
Запрос с упоминанием знаменитости обрабатывается без проблем: достаточно загрузить фото и указать, чьё лицо нужно подставить, как показано в примере выше:
Запрос: "два человека стоят рядом и снимают фото селфи"
Примерка одежды
С помощью Banana можно «надеть» на человека выбранные вещи или аксессуары так, будто они изначально были частью образа. Текстуры совпадают всегда идеально в 90% случаях, итоговое фото выглядит вполне правдоподобно. Однако задействовать эту функцию не всегда просто: модель иногда выдаёт исходное фото или сообщает, что не способна выполнить запрос. Особенно сложно менять одежду у знаменитостей — с обычными людьми и стоковыми моделями результат достигается легче. Чтобы повысить шанс успеха, лучше заранее убрать с изображения лишние элементы гардероба и оставить только те, что требуется заменить: тогда не возникнет путаницы с референсами.
Запрос "Одень эту кофту на мужчину. Мужчина стоит на фоне скального обрыва и океана."
Дизайн интерьера (немного дольше, но результат того стоит)
Мы нашли фотографии понравившейся мебели в онлайн магазине (или можно использовать снимки той мебели, что уже есть у вас, или вовсе попросить ИИ нарисовать мебель с нуля), выбрали лучшие кадры и загрузили их боту вместе с фото пустой комнаты новой квартиры. (напомним тут, что фото пустой комнаты прикрепляем последней к боту, тк он будет ориентироваться на ее пропорции. Можно и не пустой, и попросить очистить комнату) После этого попросили расставить мебель в интерьере, чтобы наглядно увидеть, как всё будет выглядеть. Не забывайте что указать какие потолки, полы, стены по желанию.
Далее рекомендация: Составьте правильный запрос (промт) для Banana, тк деталей много и Banana может запутаться. Запрос (промт) заранее формируется в диалоге с ИИ (кнопка «начать чат с ИИ»): приложите фото своей комнаты + в одном сообщении с фото вместе отправьте запрос по шаблону - тут цель составить с помощью ИИ запрос (промт) для banana. Шаблон обращения к ИИ за помощью найдете ниже.
Вот результат:
Шаблон обращения к ИИ за помощью в составлении промта для Banana (к нему прикладывается одно фото комнаты и отправляется одним сообщением в разделе "Начать чат с ИИ"):
ТЫ — инженер промтов и дизайнер интерьеров. По ОДНОМУ фото комнаты и текстовым данным сгенерируй ОДИН ГОТОВЫЙ промт (для генерации изображения) для нейросети Banana. ТРЕБОВАНИЯ К ВЫВОДУ: — Верни только финальный промт для Banana в ОДНОМ код-блоке, без комментариев. — Язык русский. Не используй угловые скобки. Не указывай пропорции и fps. — Пиши директивами: «поставь», «расположи», «выравнивай». Запрещены расплывчатые фразы («на усмотрение», «по возможности», «желательно»). ОБЩИЕ ПРАВИЛА СОСТАВЛЕНИЯ ПРОМТОВ: — Сначала «Контекст сцены», затем «Пошаговая расстановка» (нумерация 1..N), затем «Свет и материалы», затем «Проходы и запреты». — Для каждого предмета задай: точку привязки (стена/окно/панель), ориентацию (параллельно/перпендикулярно/угол поворота), конкретные отступы (см), взаимные связи (центрировать по оси дивана, и т.п.). — Всегда указывай отступы ≥ 80 см для проходов; не перекрывай окна/двери. — Укажи: «Используй приложенное фото комнаты как основу и сохрани текущую точку съёмки». — Запрет: добавлять новые предметы, менять планировку, добавлять текст/логотипы/людей. ВХОДНЫЕ ДАННЫЕ: тип_комнаты: [..] размеры_комнаты: [ширина×длина×высота, см] особенности_фото: [окна/двери/ниши/панели/свет] стиль: [..] палитра_и_материалы: [..] функциональные_приоритеты: [..] список_мебели: 1) название[..], габариты[..], цвет_и_материал[..] 2) ...
Генерация фото товаров
Banana отлично подходит для обработки фотографий товаров разных категорий, сохраняя детали и внешний вид объекта.
С его помощью можно выделить из снимка конкретный предмет — убрать всё лишнее и оставить только его. Это работает даже тогда, когда вещь показана не полностью или сфотографирована под необычным углом. Нейросеть умеет поворачивать предмет, не портит надписи, способна размещать предмет на людях и разных фонах по текстовому описанию. Для WB и Ozon необходимо указывать пропорции 3:4. Важно учитывать, что пропорция на результате будет совпадать с последним прикрепленным фото к боту. Другими словами прикрепляйте любое "актуальное" фото последнем в пропорции 3:4, не важно что это будет, фото предмета или фона или человека, главное пропорции.
Сначала простой пример:
Запрос "Создай подходящий фон под этот предмет"
Теперь по сложнее, тут как видим Banana смогла сохранить все детали сандалей: надписи, выдавленные буквы, поменяла ракус, нет ошибок в моделях.
Запрос "Крупный план. Одень эти сандали на мужские ноги. Но фоне пляжного песка"
Коллажирование
Banana позволяет создавать изображения, объединяя множество разных деталей. Это не просто замена цвета волос или изменение позы — модель способна собрать картинку из множества элементов. Например: нужный фон, определённая модель в костюме, на фоне конкретного здания, с напитком в правой руке и собакой у левой ноги. Пример ниже:
Запрос "Создай реалистичное изображение: мужчина в элегантном тёмном костюме с бабочкой стоит на узкой европейской улочке с кафешками. В правой руке он держит поводок, на котором собака породы доберман. В левой руке мужчина держит бумажный стакан кофе.
Реставрация и колоризация фото
Мы попробовали восстановить старую фотографию своего дедушки — она была сильно испорченной, и правильные оттенки на ней почти не сохранились. В качестве референса прикрепил фото формы, чтобы нейросеть смогла подобрать подходящие цвета.
Запрос "необходима реставрация этого фото. Гипереалистичное изображение"
Основные сложности:
- если не создается нужная пропорция, продублируйте и пропишите необходимые пропорции в тексте самого запроса (внутри промта). Особенно, к примеру, если Вы прикладываете в своем запросе вертикальное фото, но просите его создать горизонтально и наоборот, нейросеть будет чаще всего присылать результат той же пропорции, что в приложеном файле, который идет последним (или единственным). Приложите изображение с нужной пропорцией последним.
- не любит генерить некоторых очень влиятельных людей, но с очередной попытки пропускает.
- не пропускает тематику 18+, ЛГБТ, насилие и тп - придерживается стандартным общемировым нормам модерации контента.
- нейросеть косвенно может расценивать Ваш запрос как запрещенный контент, который на самом деле таким не является. Пример, Вы прикладываете фото двух мужчин и просите нейросеть сгенерировать фото селфи, как мужчины фотографируются и обнимаются - тут нейросеть может иногда расценивать это как ЛГБТ тематика. Выход - перефразируйте свои запросы.
- если после обработки изображение лицо человека изменилось то приложите более качественное фото в другом ракусе. Обычно нейросеть хорошо справляется с лицами, главное подобрать удачное фото.
- при необходимости, водяной знак можно удалить тут, бесплатно, в пару кликов на сайте hama.app
Не прошло и года, как нам снова обещают «революцию» в мире редактирования изображений. На этот раз на арену выкатили некий Nano-banana (Gemini-2.5-flash-image) от Google. И, конечно же, он «уже реально текстовый фотошоп». Ну-ну, мы это уже слышали.
МОИ ПЕРВЫЕ ВПЕЧАТЛЕНИЯ
Первое, что бросается в глаза, – цена. 39$ за 1000 изображений. Это, конечно, «в два раза меньше конкурентов», но давайте будем честны, для большинства это пока что игрушка, а не рабочий инструмент. Хотя, если у вас есть американский VPN, можно пощупать бесплатно через Gemini app или Google AI Studio. Я, конечно, не удержался.
ЧТО ПО РЕЗУЛЬТАТАМ?
Заявлено, что результат «в целом лучше, чем у Qwen». И вот тут начинается самое интересное. Я прогнал несколько своих тестовых запросов, которые раньше ставили в тупик даже самые распиаренные модели. И что же? Да, местами стало лучше. Но до «текстового фотошопа» это все еще как до Луны пешком. Мелкие детали, сложные композиции – все еще хромает. ИИ по-прежнему «додумывает» за вас, а не выполняет четкие инструкции. Это не фотошоп, это скорее «умный» генератор вариаций на тему.
ГДЕ ПОДВОХ?
Мой скепсис тут не случаен. Каждый раз, когда выходит новая модель, нам обещают золотые горы. А по факту мы получаем чуть более продвинутую версию того, что уже было. Да, прогресс есть, но он не такой линейный и не такой «революционный», как нам пытаются продать. Это скорее эволюция, а не скачок. И пока что ни одна модель не заменит дизайнера с прямыми руками и Photoshop.
ВЫВОДЫ
Nano-banana – это шаг вперед, но не прыжок. Это инструмент, который может быть полезен для быстрых прототипов или для тех, кому не нужна идеальная точность. Но называть это «текстовым фотошопом» – это, мягко говоря, преувеличение. Мы все еще ждем того самого ИИ, который сможет понять и реализовать сложную задумку без десятка перегенераций и ручной доработки.
А как вы считаете, это реальный прорыв или очередной маркетинговый пузырь? Жду ваших мнений в комментах.
Редактор уже называют фотошопом, загружаете изображения или фотографии и текстом прописываете, что нужно сделать с изображением.
Как попробовать ИИ-редактор изображений от Google
Заходим в AI Studio (перед этим убедитесь, что у вас иностранный айпи) и выбираем модель Gemini 2.0 Flash Experimental там в скобках сразу будет Image Generation - не ошибетесь)
Я решила попробовать на своих сгенерированных обложках, заодно и проверить, искажает ли редактор черты лица, так как редактированием картинок уже никого не удивишь.
Мой опыт работы с ИИ-редактором изображений от Google
Что ж, фотошопом я бы его не назвала, по крайней мере пока. Да, текст на русском создает, но надо не один запрос сделать, чтобы получить результат без ошибок.
Черты лица он конечно же искажает, да и качество изображения на выходе очень сжимает, что сразу наводит на вопрос - а зачем тогда все это изначально надо было затевать, да еще и сравнивать с фотошоп
Что реально может ИИ-редактор изображений от Google Gemini
заменить человека
убрать надписи или объекты
убрать вотермарки
Кейсы применения ИИ-редактора изображений от Google Gemini:
1) Поменять прическу на фото:
Без проблем сделал мне из Павла Дурова пресонажа Николаса Кейджа из "Собиратель душ" - нормальный результат)) Лицо не исказил)
2) Сделать с человеком на фото другой снимок:
Я опять поизвращалась) И перенесла Павла в швейцарские Альпы, еще и текстом попросила название своего канала НейроProfitнаписать) Нормально справился
3) Удалить вотермарку:
4) Добавить объекты на фото:
На сей раз я оставила людей в покое и сосредоточилась на фудфото) -не путать с другим походим названием)) Попросила лдобавить шоколада на круассаны, тоже хорошо справился - не переделал фото заново, а лишь добавил необходимые детали)
5) Переодеть человека в другую одежду:
А вот тут лицо поменял, ибо это уже рандомная девушка, а не известный уже всему миру Павел Дуров, который уже везде успел отметиться)))
Мне кажется, сейчас уже многие попробовали эту модель от Google, а если нет исправляйте, модель любопытная)
Подпишитесь на НейроProfit и узнайте, как можно использовать нейросети для бизнеса, учебы и работы, не теряя свое время.
Если вам импонирует моя подача материала, присоединяйтесь ко мне в Закрытый клуб, там больше прикладной информации, чат с обратной связью и единосмышленниками, видеоуроки и проверенные нейросети для ваших задач) Платите только один раз
Волею случая понадобилось мне погуглить информацию о Днепропетровской области Украины на английском языке. И картинка в поиске меня мягко говоря обескуражила.
"Какой ультрасовременный город", - подумал я.
Но потом закрались сомнения. Сам я на Украине ни разу не был, однако такие красоты и в Европе большая редкость. Пошел проверять, что это за фотография такая.
И вуаля.
В общем, мечтать конечно не вредно. Причем если в гугле искать "Днепропетровская область" на русском, выскакивают обычные картинки, без небоскребов. Даже обидно)