Вернуться к статьям

Wordfreq уходит на покой: почему библиотека больше не обновляется

21 сентября 2024
1 мин чтения
Wordfreq уходит на покой: почему библиотека больше не обновляется

Библиотека wordfreq, популярный инструмент для анализа частотности слов, объявила о прекращении обновлений из-за проблем с лицензированием данных.

Разработчики, работающие с естественным языком, наверняка знакомы с библиотекой wordfreq — удобным инструментом для подсчёта частотности слов в разных языках. Однако, как сообщил автор проекта Роб Спир, дальше обновлений не будет. Причина — не лень и не усталость, а юридические сложности с данными.

Оказывается, многие корпуса текстов, на которых обучалась wordfreq, имеют ограничения по распространению. Собирать данные из интернета стало сложнее: сайты закрывают доступ, а лицензии становятся строже. В итоге поддерживать актуальность библиотеки без риска нарушить авторские права стало практически невозможно.

Что это значит для разработчиков? Тем, кто использует wordfreq в своих проектах, стоит задуматься о миграции. Альтернативы есть, например, spaCy или NLTK с собственными моделями. Но если ваш проект завязан на конкретные версии wordfreq, лучше зафиксировать зависимости и не обновлять их — иначе рискуете остаться без поддержки.

Комментарий студии METABYTE История wordfreq — отличный пример того, как лицензирование данных может повлиять на open-source проекты. При разработке своих продуктов мы всегда учитываем юридические аспекты использования сторонних данных, чтобы вы не столкнулись с внезапным «солнечным закатом» в самый неподходящий момент.