A-Parser 1.1 - продвинутый парсер ПС, кейвордов, контента, показателей, 70+ парс

Автор A-Parser Support, 13-12-2014, 08:03:09

« назад - далее »

A-Parser SupportTopic starter

Сборник рецептов #21: уведомления в Telegram из A-Parser, мультифильтр и парсинг IMDb

21-й сборник рецептов. В нем мы научимся отправлять сообщения в Telegram прямо из A-Parser, изучим работу с модулями Node.js в JS парсерах на примере решения задачи фильтрации по множеству признаков, а также спарсим весь IMDb. Поехали!

Уведомления в Telegram из A-Parser

Telegram является одним из самых популярных мессенджеров благодаря своей простоте, и в то же время большому функционалу. Среди прочего, в Телеграме можно создавать ботов, с помощью которых можно делать чаты более интерактивными. Взаимодействие с ботом на на стороне сервера происходит через Telegram Bot API. Используя эти возможности, можно легко и буквально за несколько минут настроить уведомления себе в Telegram прямо из парсера. О том, как это сделать, а также несколько реальных примеров - по ссылке выше.




Фильтрация по множеству признаков

Как известно, для фильтрации в А-Парсере используется встроенный функционал фильтров. Но бывают ситуации, когда список признаков, наличие которых нужно проверять, очень большой и его сложно вписать в строку стандартного фильтра.
Начиная с версии 1.2.127 в A-Parser добавлена поддержка модулей Node.js. Благодаря этому появилась возможность читать список признаков из файла и использовать его для проверки страниц. О том, как это сделать, а также готовый парсер с мультифильтром - по ссылке выше.



Парсинг рекомендаций фильмов из IMDb

Пример решения задачи по сбору данных о фильмах и их рекомендаций на IMDb. Данная статья показывает, как можно решать задачи, которые на первый взгляд требуют много времени и ресурсов, буквально за несколько часов. Узнать о том, как спарсить весь IMDb за 1,5 часа, а также посмотреть пресет и забрать готовую базу можно по ссылке выше.



Еще больше различных рецептов в нашем обновленном Каталоге!
Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Сборники статей:
A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •  


A-Parser SupportTopic starter

1.2.160 - поддержка SQLite, проверка доменов на клей, Parse all results в SE::Yahoo


Улучшения

  • Добавлена поддержка SQLite в JavaScript парсерах и шаблонизаторе, пример использования здесь
  • Добавлена защита от случайного закрытия окна парсера
  • В SE::Yahoo добавлены Parse all results и Parse related to level
  • SE::Yandex::TIC полностью переписан, добавлена возможность проверять домены на клей
  • В Rank::MegaIndex добавлена поддержка ReCaptcha2
  • Улучшен парсинг сниппетов в SE:: DuckDuckGo
  • Улучшен сбор почт в HTML::EmailExtractor
Исправления в связи с изменениями в выдаче

  • Обновлен алгоритм Bypass Cloudflare
  • SE::Bing::Translator почти полностью переписан в связи с изменением логики работы переводчика Bing
  • Исправлена работа SE::Seznam с некоторыми видами запросов
  • Исправлен парсинг related keywords, а также мобильной выдачи в SE::Google::Modern
  • Исправлен парсинг related keywords в SE::Bing
  • Исправлена работа SE::IxQuick при работе с русскоязычными запросами
  • SE::Yandex:: Direct, SE::Google::ByImage, SE::Yandex::WordStat
Исправления

  • Исправлена работа SE::Google::Modern на IPv6 прокси
  • Исправлена ошибка, из-за которой SE::Google::Modern собирал ссылки с пометкой опасных сайтов в общий массив ссылок
  • Исправлена работа с оператором поиска + в SE::Bing
  • Исправлен парсинг запросов со спецсимволами в SE:: DuckDuckGo
  • Исправлена работа Rank::MajesticSEO
  • Исправлен баг с overrideOpts в JS парсерах
  • Исправлена работа с переменными при их создании в Parse custom results, а также при использовании нижнего подчеркивания в именах в Конструкторе результатов
  • Исправлена работа tools.js, баг появился в одной из предыдущих версий
  • Исправлен баг, из-за которого А-Парсер падал на некоторых ОС, появился в одной из предыдущих версий
A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •  


A-Parser SupportTopic starter

Видео урок: Создание JS парсеров. Работа с CAPTCHA

Третье видео в цикле уроков по созданию JavaScript парсеров. Здесь рассказано о том, как написать JS парсер, в котором будет поддержка антигeйта для разгадывания каптч на страницах.



В уроке рассмотрено:

  • Создание JS-парсера для разгадывания капчи
  • Работа с объектом this.captcha внутри JavaScript кода
  • Описание процесса разгадывания каптчи, реализованного в A-Parser
Статья и готовый парсер: https://a-parser.com/resources/257/

Оставляйте комментарии и подписывайтесь на наш канал на YouTube!
A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •  

A-Parser SupportTopic starter

Сборник рецептов #22: проверка индексации в нескольких ПС, многоуровневый парсинг и поиск сабдоменов

22-й сборник рецептов. В нем мы разберемся, как проверять индексацию всех страниц сайта одновременно в нескольких поисковиках, научимся парсить данные по ссылкам из выдачи одним заданием и будем искать сабдомены на сайтах. Поехали!

Получение страниц сайта и проверка индексации в Google и Яндекс

Данный пресет позволяет спарсить ссылки на все страницы сайта и одновременно проверить их на предмет индексации поисковиками (в примере Google и Яндекс, можно по аналогии добавить другие ПС). Готовый пресет и описание по ссылке выше.


Парсим title и description для TOP10 поисковой выдачи по ключевому слову

Пример использования tools.query.add в JavaScript парсерах. Данный парсер получает ссылки из выдачи, после чего собирает из каждой страницы title и description. И все это одним заданием с максимальной производительностью, благодаря многопоточному парсингу. Парсер с описанием доступны по ссылке выше.


Поиск сабдоменов сайта

Небольшой пример, который демонстрирует, как собрать поддомены одного или нескольких сайтов. Используется HTML::LinkExtractor и Parse to level для прохода вглубь по страницам сайта. При этом Конструктором результатов извлекаются из внутренних ссылок домены и выводятся с уникализацией по строке. Готовый пресет - по ссылке выше.


Кроме этого:
Еще больше различных рецептов в нашем Каталоге!
Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Предыдущие сборники рецептов:
A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •  

A-Parser SupportTopic starter

1.2.185 - увеличение скорости в SE::Google::Modern, новые возможности Net:: DNS, множество улучшений


Улучшения

  • SE::Google::Modern - многократно увеличена скорость парсинга
  • Множество улучшений в Net:: DNS:

    • Возможность указать несколько DNS и задать метод выбора
    • Бан нерабочих/плохих DNS по специальному эвристическому алгоритму
    • Возможность вывести в результат использованный DNS сервер при удачном запросе
  • В SE::Google::Modern добавлена опция Use sessions
  • В SE::Yandex::WordStat добавлена настройка пресета антигeйта для логина
  • Также в SE::Yandex::WordStat удалены настройки Use logins/Use sessions, теперь они включены всегда
  • Добавлена возможность автоматического удаления задания из Завершенных
  • В макросе подстановок {num} добавлена поддержка обратного отсчета
  • В JavaScript парсерах добавлена возможность сохранения произвольных данных в сессии
  • В JavaScript парсерах добавлена возможность прямого сохранения в файл
  • В API методе oneRequest/bulkRequest добавлена возможность указать configPreset
  • В связи с неактуальностью удалены парсеры SE::Google::Mobile и SE::Yandex::Catalog
Исправления в связи с изменениями в выдаче
Исправления

  • Количество неудачных больше не обнуляется при постановке на паузу
  • Исправлена проблема с подключением Node.js модулей на Linux
  • Исправлено падение парсера в редких ситуациях при использовании JS парсеров
  • Решена проблема с подключением Node.js модулей lodash, sequelize
  • Исправлена ошибка итератора при равных границах в макросе {num}
A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •  


A-Parser SupportTopic starter


Видео урок: Создание JS парсеров. Работа с ReCaptcha2


Очередное видео в цикле уроков по созданию JavaScript парсеров. Здесь показано, как реализовать разгадывание рекаптч в JS парсере.



В уроке рассмотрено:

  • Описание и настройка парсера Util::ReCaptcha2
  • Описание принципа работы ReCaptcha2
  • Создание кастомного JavaScript парсера с поддержкой разгадывания рекаптч
Ссылки:
Оставляйте комментарии и подписывайтесь на наш канал на YouTube!
A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •  

A-Parser SupportTopic starter

Сборник рецептов #23: категории сайтов, парсинг в YML и преобразование дат

23-й сборник рецептов. В нем мы будем парсить категории сайтов из Google, научимся формировать файлы YML, а также разберемся, как парсить даты и преобразовывать их в единый формат. Поехали!

Получение категорий сайтов из Google

Категоризация сайтов - довольно актуальная задача, но существует немного сервисов, которые могут ее решить. Поэтому, по ссылке выше можно взять небольшой парсер, который позволяет получать категории сайтов из Google.


Выгрузка товаров в формате YML

YML - это стандарт, разработанный Яндексом для работы с Маркетом. По своей сути, это файлы, схожие с XML, в которых содержится информация о товарах в интернет-магазине. Данный формат обеспечивает регулярное автоматическое обновление каталога на Яндекс.Маркет и позволяет отражать все актуальные изменения (наличие, цена, появление новых товаров). Пример парсинга интернет-магазина и сохранения собранных данных в YML можно посмотреть по ссылке выше.


Парсим Google новости с датой и преобразуем ее

В поисковой выдаче Google возле новостей публикуется дата. Как правило, это могут быть метки "10 ч. назад" или "26 мая 2018 г.". Иногда может возникнуть задача спарсить все даты и привести их к единому виду. Как именно это сделать, можно узнать по ссылке выше.


Кроме этого:
Еще больше различных рецептов в нашем Каталоге!

Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Предыдущие сборники рецептов:
A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •  

A-Parser SupportTopic starter

1.2.216 - улучшения в SE::Google::Modern и JS парсерах, а также множество других



Улучшения

  • Зависимая задача в Цепочке заданий теперь запускается только когда файл результатов не пустой
  • Добавлен повтор без смены прокси при неудачной отправке рекаптчи в SE::Google::Modern
  • Добавлен бан прокси при получении 403 кода ответа в SE::Google::Modern
  • Процент неудачных запросов теперь отображается относительно числа выполненных запросов
  • Добавлена возможность вызвать URL после выполнения задания
  • Улучшен обзор каталогов при выборе файлов запросов
  • Добавлена поддержка setInterval в JavaScript парсерах
  • Уменьшено Wait between get status и улучшено логгирование в Util::ReCaptcha2
  • Улучшена обработка редиректов
  • Добавлена защита от бесконечного выполнения в JavaScript парсерах
  • Значительно увеличены возможности check_content в JS парсерах
  • В ответе API метода info добавлены параметры workingTasks, activeThreads, activeProxyCheckerThreads
Исправления в связи с изменениями в выдаче
Исправления

  • Исправлено ведение лога при нескольких паузах задания
  • Исправлена ошибка, из-за которой запрос считался неудачным при пустой выдаче в SE::Google::Modern
  • Исправлена работа с url, содержащими фрагмент # в Net::HTTP
  • Исправлен парсинг ссылок в HTML::LinkExtractor
  • Исправлена работа опции Pages count в SE::Yandex
  • Исправлен выбор файлов запросов на Windows 10
  • Исправлена ошибка, из-за которой иногда нельзя было удалить файл с запросами
  • Исправлено отображение проксичекера в конфиге потоков
  • Исправлена кодировка некоторых результатов в SE::Google::Suggest
  • Исправлена ситуация, когда не читались настройки из config.txt
A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •  


A-Parser SupportTopic starter

Сборник рецептов #24: уведомление в Telegram об экспайре доменов, чекер РКН и работа с SQLite

24-й сборник рецептов. В нем мы научимся мониторить окончание срока регистрации доменов с уведомлением в Телеграм, сделаем альтернативный чекер сайтов в базе РКН, а также на простом примере парсера курсов валют изучим работу с базами данных. Поехали!

Получаем уведомления в Telegram об окончании срока регистрации доменов

Мониторинг сроков регистрации доменов - это довольно распространенная задача. A-Parser позволяет легко автоматизировать этот процесс. Более того, можно настроить получение прямо в Телеграм уведомлений о доменах, срок регистрации которых скоро закончится. Готовое решение для автоматической проверки с уведомлением - по ссылке выше.


Проверка блoкировки РосКомНадзора через GitHub

В А-Парсере есть стандартный парсер Check::RosKomNadzor, который позволяет проверять наличие сайтов в базе РКН. Данные получаются напрямую из официального сервиса, для работы обязательно нужно подключать антигeйт. Кроме того, официальный сервис РКН часто подвергается атакам, в связи с чем может быть недоступен. Но существуют альтернативные источники данных, доступность которых значительно выше и к тому же не требующие проверки в виде каптчи. Парсинг одного из таких источников и реализован в пресете по ссылке выше.


Простой парсер обменника с записью в БД SQLite

Как известно, в A-Parser есть возможность чтения/записи данных в БД SQLite. В этом рецепте показано использование этого функционала на примере парсинга курсов валют. Готовый парсер доступен по ссылке выше.


Еще больше различных рецептов в нашем Каталоге!

Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Предыдущие сборники рецептов:
A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •  


A-Parser SupportTopic starter

1.2.246 - обновление базы Rank::CMS и новые функции в парсерах Baidu и MajesticSEO


Улучшения

  • В Rank::CMS обновлена база определяемых движков, теперь поддерживается одновременно старый и новый формат apps.json (при обновлении рекомендуется также обновить apps.json)
  • SE::Baidu полностью переписан:

    • добавлен парсинг related keywords
    • убран $cachedate из $serp, т.к. его похоже больше нет в выдаче
    • добавлена опция Get full link, преобразующая обрезанные ссылки в полные
    • исправлены некоторые регулярные выражения и баг с двoйным http в ссылках
  • Изменения в Rank::MajesticSEO:

    • Добавлен параметр Check type, позволяет выбрать тип проверки: Root Domain/Subdomin/URL
    • Убран параметр Extract domain
    • Исправлена работа в некоторых случаях
  • Улучшена отзывчивость в редакторе JavaScript парсеров
  • Улучшена работа HTML::EmailExtractor, устранены зависания, которые возникали на определенных страницах
  • Обновлен список регионов в парсерах Яндекс
  • Пустой результат в SE::Google::Trends больше не считается неудачным запросом
  • Улучшена работа с сессиями в SE::Yandex::WordStat
Исправления в связи с изменениями в выдаче

  • Исправлен парсинг рекламы в SE::Yandex
  • Исправлена работа, а также улучшен алгоритм парсинга в SE:: DuckDuckGo
  • Исправлено указание региона в парсерах Яндекс
  • Исправлен парсинг $ads.$i.visiblelink в SE::Google::Modern
  • Исправлен парсинг $totalcount в SE::Yandex:: Direct
Исправления

  • Исправлена ошибка, из-за которой процент обработанных запросов мог быть больше 100
  • Исправлены ошибки, из-за которых парсинг мог зависать при снятии с паузы, а также сбивался перебор в макросах подстановок
  • Исправлено отображение кириллицы в $headers в Net::HTTP
  • Исправлена ошибка в Конструкторе результатов, из-за которой в редких случаях парсер мог падать
  • Устранена проблема с кодировкой при работе с SQLite
  • Исправлена ошибка со сменой прокси в JavaScript парсерах
A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •