CatBoost — новый метод машинного обучения от Яндекса

Автор Тема: CatBoost — новый метод машинного обучения от Яндекса  (Прочитано 3523 раз)

Онлайн Владимир75Автор темы

  • Администратор
  • Бизнес оценка: (4, 100%)
  • *****
  • СПАСИБО: 7211
  • Сообщений: 10619
  • Карма: 648
  • Пол: Мужской
  • Это я такой уже старый
  • Награды Гроссмейстер поисковой оптимизации SEO Профессионал Более трех тысяч спасибо За благотворительность Почетный гражданин нашего форума
    • Просмотр профиля
    • Оптимизация и Продвижение

Онлайн Владимир75Автор темы

  • Администратор
  • *****
  • Доп. информация
    • Бизнес оценка: (4, 100%)
    • СПАСИБО: 7211
    • Сообщений: 10619
    • Карма: 648
    • Пол: Мужской
    • Это я такой уже старый
    • Награды Гроссмейстер поисковой оптимизации SEO Профессионал Более трех тысяч спасибо За благотворительность Почетный гражданин нашего форума
      • Просмотр профиля
      • Оптимизация и Продвижение
Яндекс представляет метод машинного обучения CatBoost. Он придёт на смену Матрикснету, который используется в Яндексе с 2009 года. CatBoost даёт более точные результаты в задачах ранжирования, регрессии и классификации, а также учитывает данные в нечисловой форме. Библиотека машинного обучения CatBoost выложена в общий доступ — её может использовать любой желающий.
Многие привычные нам вещи, например лента социальной сети, прогноз погоды или картинка «под Ван Гога» в чьём-нибудь инстаграме, — результат применения машинного обучения. И речь не только об интернете. Банкам машинное обучение помогает своевременно пополнять купюрами банкоматы. Магазинам — прогнозировать спрос на товары. Металлургам — выявлять дефекты проката стали и определять соотношение примесей в сплавах.


Нейронные сети в Яндексе

Яндекс тоже использует нейронные сети: например, они задействованы в распознавании голоса и поиске похожих картинок. Нейросети также поставляют факторы для Матрикснета. Они соотносят смысл поискового запроса и заголовка документа — так работает алгоритм «Палех».

Сейчас машинное обучение ассоциируется в первую очередь с нейронными сетями. И действительно, в последние годы нейросетям нашлось множество применений, вплоть до самых невероятных. Они играют в настольные игры, сочиняют музыку, рисуют картины — и поэтому регулярно попадают в заголовки новостей. Но на самом деле нейронные сети — всего лишь один из способов научить машину учиться. Существуют разные методы машинного обучения, и ни один из них нельзя считать универсальным — у каждого есть достоинства и недостатки. Какой метод выбрать, зависит от типа данных, с которыми предстоит работать, и их количества.С 2009 года Яндекс развивает собственный метод машинного обучения — Матрикснет. Он был разработан для ранжирования результатов поиска, но используется и в других сервисах Яндекса: например, в Почте — для фильтрации спама, в Картах и Навигаторе — для расчёта времени в пути, в Директе — для подбора релевантных рекламных объявлений. Матрикснет устойчив к переобучению и позволяет использовать множество факторов и их комбинаций.

В основе Матрикснета лежит механизм градиентного бустинга. Его особенность — в том, что он хорошо подходит для работы с разнородными данными. Такими данными, скажем, могут быть температура, влажность, сила ветра, снимки со спутников и сводки с наземных радаров — по ним можно предсказать, какая будет погода. Кроме того, градиентный бустинг даёт точные результаты даже там, где данных относительно мало. Этим он отличается от нейронных сетей, которым для обучения требуется огромный массив однородной информации.

Методы на основе градиентного бустинга отлично подходят для работы с разнородными даннымиСамо собой, у моделей на основе градиентного бустинга есть и недостатки. Все данные, на которых учится модель, должны быть представлены в числовом виде. Иногда это не так-то просто — например, когда мы имеем дело с типами облаков, жанрами музыки, породами собак и прочими вещами, которые понятны человеку, но которые трудно объяснить машине.


Тренируемся на кошках

Название CatBoost придумано в Яндексе. Это сокращение от categorical boosting, то есть бустинг с учётом категориальных признаков.
Сегодня Яндекс представляет преемника Матрикснета — новый метод машинного обучения CatBoost. В нём также используется градиентный бустинг, но CatBoost, во-первых, превосходит Матрикснет по точности предсказаний, а во-вторых, способен учитывать так называемые категориальные признаки — то есть признаки, которые принимают одно из конечного количества значений. Так, облака могут быть кучевыми, перистыми, перисто-кучевыми и так далее. Жанры музыки включают рок, рэп, классику, альтернативу, метал. Пудель, овчарка, спаниель и эрдельтерьер — породы собак. Подобные данные больше не нужно выражать в числах: CatBoost воспринимает их в исходном виде. Обученные с его помощью модели позволяют использовать всё многообразие доступных данных, не тратя время на их перевод в числовую форму.Мы уже опробовали CatBoost в сервисах Яндекса. В Дзене его задействовали для ранжирования ленты рекомендаций, а в Погоде — для расчёта прогноза с помощью технологии Метеум. Во всех случаях он показал себя лучше Матрикснета.

В градиентном бустинге используются деревья принятия решений (на картинке). Сама по себе модель довольно слаба, но когда они строятся последовательно и минимизируют ошибки друг друга, это даёт хорошие результаты
С разнородными данными, в том числе и выраженными в нечисловой форме, сталкиваются во всех отраслях, от финансов до сельского хозяйства. Поэтому мы решили выложить библиотеку машинного обучения CatBoost в открытый доступ. Она доступна на языках программирования Python и R. Версии библиотеки для Windows, macOS и Linux и программу визуализации CatBoost Viewer — она позволяет следить за процессом обучения на графиках — можно скачать в репозитории на GitHub. Выкладывая CatBoost в открытый доступ, мы надеемся, что сообщество оценит алгоритм по достоинству и поможет нам сделать его ещё лучше.

Метод машинного обучения CatBoost уже нашёл первое применение за пределами Яндекса — в Европейском центре ядерных исследований (ЦЕРН). CatBoost используется для обработки данных эксперимента LHCb, который проходит на одноименном детекторе Большого адронного коллайдера. Задача эксперимента — исследование асимметрии материи и антиматерии во взаимодействиях тяжёлых прелестных кварков. Детектор LHCb включает несколько субдетекторов — каждый из них реагирует на разные свойства частиц. CatBoost помогает объединить данные с разных детекторов, чтобы учёные могли получить максимально полное представление о частицах. Результаты CatBoost оказались существенно лучше результатов, получаемых с использованием других алгоритмов.
Seo-консультации по SkypeSeo и разработка сайтов, Облачный майнинг(Блокчейн)
Skype:service-advertising(без live)
Мобильный, Whatsap, Viber: 8(910)774-44-99


Оффлайн akeelow

  • Бизнес оценка: (0)
  • Постоялец
  • ***
  • СПАСИБО: 36
  • Сообщений: 207
  • Карма: 2
  • Пол: Мужской
  • Все будет хорошо!
  • Награды SEO-специалист
    • Просмотр профиля
    • Научно технический блог

Оффлайн akeelow

  • Постоялец
  • ***
  • Доп. информация
    • Бизнес оценка: (0)
    • СПАСИБО: 36
    • Сообщений: 207
    • Карма: 2
    • Пол: Мужской
    • Все будет хорошо!
    • Награды SEO-специалист
      • Просмотр профиля
      • Научно технический блог
Было бы интересно посмотреть на пример как с этим работать
★★★★★ Магазин фриланс-услуг «Всё за 500» выполняет: Разработка | Дизайн | Продвижение | Тексты | SEO | Аудиты. Выбери или создай свою услугу.

Оффлайн Skyer

  • Бизнес оценка: (0)
  • Рекрут
  • *
  • СПАСИБО: 1
  • Сообщений: 13
  • Карма: 0
  • Пол: Мужской
  • https://t.me/my_life_my_music
    • Просмотр профиля

Оффлайн Skyer

  • Рекрут
  • *
  • Доп. информация
    • Бизнес оценка: (0)
    • СПАСИБО: 1
    • Сообщений: 13
    • Карма: 0
    • Пол: Мужской
    • https://t.me/my_life_my_music
      • Просмотр профиля
Походу хорошая штука этот CatBoost, радует что яндексы подобные вещи делают.
Последнее время столько разговоров о нейронных сетях и о искусственном интеллекте. Пока что все это на уровне вспомогательных программ, но тема развивается, появляются все более умные алгоритмы, пытаются создавать человеко подобных роботов. Интересно сколько времени должно пройти когда ИИ станет автономным?

На одном вебинаре услышал что будущее за виртуальной реальностью, но думаю что ИИ + ВР - это и есть то что сейчас начнут развивать все кто в теме...
Проверенный хостинг, использую не один год: www.ukraine.com.ua [nofollow]

Оффлайн quTG

  • Бизнес оценка: (0)
  • Дебютант
  • *
  • СПАСИБО: 0
  • Сообщений: 2
  • Карма: 0
  • Награды SEO-специалист
    • Просмотр профиля

Оффлайн quTG

  • Дебютант
  • *
Я так понимаю, впереди небольшой переполох в выдаче?)

Оффлайн fredo

  • Бизнес оценка: (0)
  • Рекрут
  • *
  • СПАСИБО: 1
  • Сообщений: 13
  • Карма: 0
  • Пол: Мужской
  • SEO PRO
    • Просмотр профиля

Оффлайн fredo

  • Рекрут
  • *
Я так думаю, что впереди не только переполох, но и ранжирование с модерацией сайтов нейронными сетями) Теперь "нам" будет нужно понравится ИИ и обмануть его не так просто, как сегодняшние алгоритмы, начнется война умов живого и искусственного) Количество сео-"специалистов" сильно проредеет)


Оффлайн aababb0003

  • Бизнес оценка: (0)
  • Ветеран
  • *****
  • СПАСИБО: 332
  • Сообщений: 1029
  • Карма: 25
  • Пол: Мужской
    • Просмотр профиля
    • Чат Любовь

Оффлайн aababb0003

  • Ветеран
  • *****
А я думаю, что конкретно у Яндекса будущее не очень, как впрочем и у рунета. Потому будет он вводить ИИ или нет, может оказаться, что до этого особого дела никому  и нет.

Оффлайн plumber27

  • Бизнес оценка: (0)
  • Рекрут
  • *
  • СПАСИБО: 2
  • Сообщений: 12
  • Карма: 0
  • Пол: Мужской
  • Good boy
    • Просмотр профиля
    • Сантехнические работы в Хабаровске

Оффлайн plumber27

  • Рекрут
  • *
Яшу можно сравнить с подростком >:(, который уже, в принципе, не младенец-9 классов окончил, но ещё необходимо немало времени, чтобы стать профессионалом, в той или иной профессии.
В сравнении,естественно, с Гришей ;D.
Хотя, в нашем регионе выдача Яндекса ,вполне адекватная. Всё по-прежнему решают ссылки, как не крути. >:D
По ВК и ВЧ запросам - хоть позолоти сайт без ссылочного, максимум вторая, третья страница.
По части адекватности Яши вопрос, конечно, спoрный. Топ 10 оккупировали фар-посты, сделай-дело, презенты и тому подобные remont.ok.habarovsk.ru, с кучей ссылок с одного IP. Сетки - это хорошо, но не так в наглую. Так, что ничего нового от  Яши не ждём.

Оффлайн borzoid

  • Бизнес оценка: (2, 100%)
  • Мастер
  • *****
  • СПАСИБО: 2404
  • Сообщений: 5238
  • Карма: 142
  • Пол: Мужской
  • Награды Более одной тысячи спасибо КМС поисковой оптимизации Мастер по наращиванию ТИЦ
    • Просмотр профиля
    • sbup

Оффлайн borzoid

  • Мастер
  • *****
А я думаю, что конкретно у Яндекса будущее не очень, как впрочем и у рунета. Потому будет он вводить ИИ или нет, может оказаться, что до этого особого дела никому  и нет.
Просто безумие какое то )
Рунет просто развивается в рунете. Если вы американец, англичанин итд, то вам нет разницы.
Для остальных пользователей есть.
ей богу такое иной раз напишут, что и думай в себе человек или нет


 

Похожие темы

  Тема / Автор Ответов Последний ответ
20 Ответов
5861 Просмотров
Последний ответ 09-01-2012, 23:45:32
от Userator
2 Ответов
1833 Просмотров
Последний ответ 25-01-2013, 23:54:27
от Hamsters
0 Ответов
494 Просмотров
Последний ответ 27-04-2015, 17:30:37
от Amanzhol
0 Ответов
1145 Просмотров
Последний ответ 22-09-2015, 20:57:11
от AnnaYa
0 Ответов
836 Просмотров
Последний ответ 18-07-2017, 17:05:31
от Leekun