Привычки печати и токены: как сэкономить

Вы когда-нибудь задумывались, сколько токенов вы тратите впустую, просто набирая текст? Оказывается, наши привычки печати — от лишних пробелов до любви к длинным словам — напрямую влияют на количество токенов, которые потребляет языковая модель. И это не просто теория, а вполне себе практическая боль для тех, кто платит за API по токенам.

Исследователь Pankaj Pipada решил заглянуть в эту чёрную дыру и проанализировал, как человеческий фактор искажает токенизацию. Спойлер: мы все — генераторы мусора. Оказывается, средний разработчик добавляет до 30% лишних токенов из-за привычки ставить пробелы перед знаками препинания или писать "i.e." вместо "то есть". Если бы за каждый лишний токен давали по копейке, вы бы уже купили остров.

Самое забавное, что модели тоже не идеальны: они по-разному токенизируют одни и те же слова в зависимости от контекста. Например, слово "debug" может быть одним токеном, а "debugging" — уже тремя. И вот ты думаешь, что пишешь коротко, а модель считает иначе. Как сборка IKEA: вроде все детали на месте, но инструкция написана на другом языке.

Что делать? Во-первых, перестать писать как в школьном сочинении. Во-вторых, использовать короткие синонимы и избегать стоп-слов. Ну и в-третьих, просто принять, что мы все — жертвы токенизации, и жить с этим. Хотя, может, пора уже ввести налог на длинные комментарии?

Комментарий студии METABYTE: Мы тоже любим писать развёрнуто, но когда речь идёт о токенах, лучше быть лаконичнее. Хотите оптимизировать свои запросы к AI? Мы знаем, как это сделать без потери смысла и с сохранением нервов.

Пальцы vs токены: почему привычки набора текста влияют на ваши расходы

Понравилось как мыслим?