Редактирование изображений через модель Gemini

Что такое Gemini и как он работает

Gemini — мультимодальная модель от Google, объединяющая возможности обработки текста и изображений в единой архитектуре. В отличие от традиционных нейросетей, специализирующихся только на классификации или генерации, Gemini умеет анализировать визуальный контент, возвращать структурированные данные (координаты, метки, confidence) и выполнять операции над изображением на основе текстовых инструкций.

Модель построена на трансформерах с интегрированными визуальными токенами. При получении изображения она разбивается на патчи, которые кодируются в эмбеддинги и совместно обрабатываются с токенами текста. Такой подход позволяет модели «понимать» взаимосвязь между визуальными элементами и запросами пользователя, что открывает широкие возможности для автоматизированного редактирования.

Обнаружение объектов в изображениях

Формат запроса

Для получения списка объектов достаточно сформулировать запрос в виде простого текста, например:

detect objects in the image

Gemini возвращает массив JSON‑объектов, каждый из которых содержит:

Поле	Описание
`label`	Название объекта (например, `cat`, `car`)
`bbox`	Координаты ограничивающего прямоугольника `[x1, y1, x2, y2]`
`score`	Доверие модели (0 – 1)
`mask`	(опционально) бинарная маска в виде base64‑строки

Тонкая настройка детекции

Gemini поддерживает параметр confidence_threshold, позволяющий отсеять менее уверенные предсказания:

response = gemini.analyze(
    image=image_bytes,
    prompt="detect objects in the image",
    temperature=0,
    top_p=1,
    max_output_tokens=512,
    confidence_threshold=0.6
)

Параметр max_output_tokens ограничивает размер ответа, что особенно полезно при работе с большими изображениями и множеством объектов.

Пример вывода

[
  {"label":"dog","bbox":[120,80,340,260],"score":0.94},
  {"label":"ball","bbox":[400,200,460,260],"score":0.88}
]

Редактирование и трансформация контента

Gemini предлагает два основных режима редактирования: inpainting (восстановление областей) и transform (преобразование объекта). Оба режима используют текстовые команды и, при необходимости, маску, полученную на этапе детекции.

Inpainting (восстановление)

Для «заполнения» поврежденного участка достаточно передать маску и инструкцию:

gemini.edit(
    image=image_bytes,
    mask=mask_bytes,
    prompt="restore the missing part of the painting",
    mode="inpaint"
)

Модель генерирует пиксели, согласованные с окружающим контекстом, что делает её полезной при реставрации старых фотографий или удалении артефактов сканирования.

Трансформация объектов

Изменить цвет, форму или даже заменить объект можно через команды вида:

change the color of the car to metallic blue
replace the cat with a small robot

Для более сложных сценариев, таких как «переместить объект в левый угол», рекомендуется уточнить позицию в запросе:

gemini.edit(
    image=image_bytes,
    mask=car_mask,
    prompt="move the car to the left side of the image, keep its orientation",
    mode="transform"
)

Модель автоматически пересчитывает координаты, генерирует новые пиксели и сохраняет согласованность с освещением и тенями.

Практические примеры кода

Ниже представлена минимальная рабочая цепочка на Python с использованием официального SDK google-generativeai:

import google.generativeai as genai
from PIL import Image
import io
import base64

# Инициализация клиента
genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel('gemini-pro-vision')

def load_image(path):
    with open(path, "rb") as f:
        return f.read()

def detect_objects(img_bytes):
    response = model.generate_content(
        [
            {"role": "user", "parts": [
                {"mime_type": "image/png", "data": img_bytes},
                "detect objects and return JSON"
            ]}
        ],
        generation_config=genai.types.GenerationConfig(
            temperature=0,
            max_output_tokens=512
        )
    )
    return response.text

def edit_image(img_bytes, mask_bytes, instruction, mode):
    response = model.generate_content(
        [
            {"role": "user", "parts": [
                {"mime_type": "image/png", "data": img_bytes},
                {"mime_type": "image/png", "data": mask_bytes},
                instruction
            ]}
        ],
        generation_config=genai.types.GenerationConfig(
            temperature=0.7,
            max_output_tokens=1024
        ),
        generation_config=genai.types.GenerationConfig(
            # mode is passed via prompt; SDK does not expose explicit flag
        )
    )
    edited = response.parts[0].blob
    return edited

# Пример использования
image = load_image("photo.png")
objects_json = detect_objects(image)
print(objects_json)  # JSON со списком объектов

# Предположим, что мы получили маску для первого объекта
mask = base64.b64decode(json.loads(objects_json)[0]["mask"])
edited_image = edit_image(image, mask, "change the color to crimson", mode="transform")

# Сохранить результат
Image.open(io.BytesIO(edited_image)).save("photo_edited.png")

Ключевые моменты:

Токенизация — изображение передаётся в виде бинарных данных, маска — в base64.
Температура — 0 для детекции (детерминированный результат), 0.7 для креативного редактирования.
Ограничения — максимальный размер входного изображения 2 МБ, выходные токены ограничены 1024 (можно увеличить, если требуется более детальная генерация).

Лучшие практики и ограничения

Предобработка изображений – уменьшайте разрешение до 1024 px по длинной стороне, чтобы снизить latency и избежать превышения лимита токенов.
Явное указание формата вывода – добавляйте к запросу фразу «return JSON», иначе модель может выдать свободный текст.
Контроль качества масок – автоматическая генерация маски иногда содержит шум; рекомендуется пост‑обрабатывать её (медианный фильтр, морфологические операции) перед передачей в режим transform.
Ограничения контекста – Gemini учитывает только текущий запрос и изображение; для последовательных правок храните промежуточные результаты и передавайте их в последующие вызовы.
Этические аспекты – при замене объектов убедитесь, что результат не нарушает авторские права и не вводит в заблуждение конечных пользователей.

Gemini открывает простой и мощный путь от «что находится на картинке» к «как изменить эту картинку» без необходимости встраивать отдельные модели детекции и генерации. При правильном построении запросов и учёте технических ограничений модель позволяет автоматизировать задачи реставрации архивных фотографий, создания кастомных рекламных баннеров и интерактивного редактирования контента в реальном времени.

Обнаружение и редактирование визуальных объектов с помощью Gemini