Компания Яндекс выложила в открытый доступ новый метод машинного обучения, который получил название CatBoost. Он строится на возможности эффективно обучать модели, используя разнородные данные: например, историю операций пользователя, его местонахождение и тип устройства.
Чтобы запустить CatBoost, достаточно скачать его с GitHub и установить на компьютер: он поддерживает все ведущие операционные системы, в том числе Linux, и доступен на языках программирования R и Python. Для большего удобства Яндекс также предлагает систему визуализации CatBoost Viewer, которая позволяет наблюдать за обучением при помощи графиков.
Предшественником CatBoost был Матрикcнет, метод машинного обучения, который ранее использовался в Яндекс. CatBoost построен на том же принципе градиентного бустинга, что и Матрикснет. Есть и различия. Самое ключевое — CatBoost учитывает числовые и нечисловые данные, тогда как Матрикснет способен работать исключительно с числовыми. Чтобы заставить Матрикснет учитывать нечисловую информацию, её приходилось «переводить» на язык чисел. С CatBoost такой необходимости нет, поэтому обучение происходит точнее, быстрее и чище.
По словам разработчиков, новую библиотеку машинного обучения можно использовать в абсолютно любых сферах. Она уже протестирована на собственных сервисах Яндекс, например, для улучшения результатов поиска, расчёта прогнозов погоды и систематизации ленты Яндекс.Дзен. Разработчики подчеркнули, что новинка во всём превосходит своего предшественника Матрикснет.
Комментарии
Пока никто не оставлял здесь комментариев.