Gemini API научился искать не только по тексту: теперь мультимодально

Google расширил возможности Gemini API: теперь File Search ищет не только текст, но и изображения, аудио и видео — прямо как ваш внутренний голос, когда вы не можете найти ключи.
Google решил, что текстовый поиск в файлах — это прошлый век, и обновил Gemini API: File Search теперь мультимодальный. То есть ищет не только по тексту, но и по картинкам, аудио и видео. Представьте: вы загрузили кучу скриншотов багов в JIRA, а Gemini находит нужный по описанию — без ручного перебора 47 столбцов.
Как это работает? Вы загружаете файлы (изображения, аудио, видео) через API, а Gemini индексирует их содержимое, включая визуальные и аудио-признаки. Потом можно задать вопрос вроде "Найди скриншот с ошибкой 500" — и модель вернет релевантные файлы. Это не просто OCR, а полноценное понимание контента: например, распознавание объектов на картинке или фраз в аудиозаписи.
Для разработчиков это открывает кучу сценариев: автоматизация поиска в медиатеке, анализ записей созвонов (больше не нужно слушать часовые митинги в поисках того самого решения), или даже создание RAG-систем, которые работают с неструктурированными данными. Правда, не обошлось без подводных камней: цена за токены может кусаться, если вы решите индексировать 4K-видео.
Комментарий студии METABYTE: Мультимодальный поиск — это круто, но не забывайте про оптимизацию: загружать гигабайты видео "на всякий случай" — верный способ получить счет за API, который превышает бюджет стартапа. Мы помогаем настраивать такие системы так, чтобы они искали быстро, а не разоряли вас.