METABYTE
К списку статей

Gemini API File Search: Google прокачал поиск по файлам, и теперь он видит не только текст

Google добавил мультимодальность в File Search API — теперь ищет по картинкам и видео, а не только по тексту.

12 мая 20261 мин чтения
Gemini API File Search: Google прокачал поиск по файлам, и теперь он видит не только текст

Google решил, что его Gemini API File Search скучно жить, и подкинул ему новую фичу — мультимодальность. Раньше поиск по файлам работал как старая добрая grep-утилита: только текст, только хардкор. Теперь же он научился понимать изображения и видео. В общем, перестал быть занудой.

Суть апдейта в том, что Embedding 2 теперь умеет векторизовать не только слова, но и пиксели. Это значит, что можно загрузить в базу данных кучу картинок с котиками, а потом спросить у Gemini: "Найди фото, где кот похож на моего начальника" — и он, возможно, выдаст что-то вменяемое. Шутки шутками, а для RAG-приложений это реально прорыв: теперь можно искать не только по документам, но и по визуальному контенту.

В статье на dev.to автор даже запилил open-source реализацию LINE-бота на Python, который демонстрирует эту магию в действии. Бот принимает файлы, ищет по ним и возвращает результаты. Конечно, можно было бы обойтись и без бота, но с ним как-то веселее — сразу видно, где баги.

Кстати, для разработчиков, которые уже успели привыкнуть к старому API, Google оставил обратную совместимость. Так что можно не бояться, что ваш продакшн упадёт в пятницу вечером из-за внезапного обновления. Хотя, кто мы без ночных деплоев?

СЛЕДУЮЩИЙ ШАГ

Понравилось как мыслим?

Применяем те же принципы в клиентских проектах: AI, автоматизации, продукты, которые не умирают после релиза.