Wordfreq уходит на покой: почему библиотека больше не обновляется

Библиотека wordfreq, популярный инструмент для анализа частотности слов, объявила о прекращении обновлений из-за проблем с лицензированием данных.
Разработчики, работающие с естественным языком, наверняка знакомы с библиотекой wordfreq — удобным инструментом для подсчёта частотности слов в разных языках. Однако, как сообщил автор проекта Роб Спир, дальше обновлений не будет. Причина — не лень и не усталость, а юридические сложности с данными.
Оказывается, многие корпуса текстов, на которых обучалась wordfreq, имеют ограничения по распространению. Собирать данные из интернета стало сложнее: сайты закрывают доступ, а лицензии становятся строже. В итоге поддерживать актуальность библиотеки без риска нарушить авторские права стало практически невозможно.
Что это значит для разработчиков? Тем, кто использует wordfreq в своих проектах, стоит задуматься о миграции. Альтернативы есть, например, spaCy или NLTK с собственными моделями. Но если ваш проект завязан на конкретные версии wordfreq, лучше зафиксировать зависимости и не обновлять их — иначе рискуете остаться без поддержки.