A-Parser 1.1 - продвинутый парсер ПС, кейвордов, контента, показателей, 70+ парс

Автор A-Parser Support, 13-12-2014, 08:03:09

« назад - далее »

A-Parser SupportTopic starter

1.1.532 - парсинг регистратора в Whois, множество исправлений

Улучшения


  • В парсере Net::Whois добавлен парсинг названия регистратора домена
Исправления в связи с изменениями в выдачи


  • SE::YouTube, SE::AOL, SE::Dogpile, SE::Yandex
Исправления


  • Исправлено падение при использовании JavaScript(tools.js) на Windows, также исправлена некорректная работа на Linux
  • Исправлена проблема с логином на некоторых аккаунтах Яндекса
  • Исправлено определение ранка в парсере Rank::Alexa для доменов с www.
  • Исправлена работа с некоторыми доменными зонами в парсере Net::Whois, а также отображение статуса для некоторых зон
  • Исправлено падение Rank::CMS при использовании опции -nofork
  • Исправлены проблемы в работе нового прокси чекера: отключение чекера при изменении настроек, переопределение чекера в задании, а также проблема с отображением в некоторых браузерах
  • Исправлена работа опции Prepend/Append text в некоторых случаях
A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •  


A-Parser SupportTopic starter

A-Parser - 1.1.566 - кэширование запросов, удобная работа с настройками, множество улучшений

 
Улучшения

  • Теперь для парсеров Net::HTTP, HTML::TextExtractor, HTML::LinkExtractor, Rank::CMS кэшируются одинаковые HTTP  запросы при использовании любой комбинации из этих парсеров в одном задании, что исключает выполнение повторных запросов к одному URL, как следствие растет скорость, уменьшается нагрузка на целевые сайты
  • Добавлена опция Max connections per host позволяющая ограничить максимальное число одновременных подключений к одному домену/IP
  • Добавлена опция Global proxy ban позволяющая расшарить статистику по бану проксей между заданиями
  • В парсере HTML::LinkExtractor улучшено отображение табличных данных и списков
  • В парсере SE::Yandex::WordStat добавлена возможность указать минимальную частотность для добавления запроса на вложенный парсинг
  • В парсере SE::Yandex добавлена опция Parse all results позволяющая автоматически обходить ограничение на размер выдачи и собирать гораздо больше результатов
  • В редакторе заданий добавлена функция Copy overrides позволяющая копировать настройки из одного парсера в другой
  • В редакторе заданий добавлена функция Save overrides to preset позволяющая создать новый пресет на основе переопределенных значений
  • При просмотре логов с опцией "Только неудачные" теперь отображаются только те потоки, в которых были неудачные запросы
  • При использовании xPath совместно с сохранением отдельных запросов в один массив данные заполняются равномерно
  • В очереди заданий добавлена дата последнего изменения задания при отображении в компактном виде
  • В очереди заданий добавлена возможность скачать файл результатов при незавершенном парсинге
  • При использовании опции "Сохранять неудачные запросы" теперь дополнительно сохраняются оригинальные запросы для всего задания
  • Добавлена опция Report captcha - распознанные Google каптчи отправляются на наш сервер для анализа, включена по умолчанию
Исправления в связи с изменениями в выдаче

  • SE::Yandex, Rank::DMOZ, SE::AOL
Исправления

  • Исправлена проблема с большим потреблением памяти на ОС Windows
  • Исправлено неверное сохранение параметра уникализации в некоторых случаях
  • Не работала замена на группы в регулярных выражениях в Конструкторе запросов
  • В парсер HTML::LinkExtractor исправлен парсинг ссылок с пробелами
  • Исправлена проблема с отображением заданий в очереди с большим числом запросов добавленных через текстовое поле
A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •  


A-Parser SupportTopic starter

A-Parser: видео урок - парсим Rambler с XPath

Денис Бартаев рассказывает, как в несколько кликов создать парсер любой поисковой системы на примере Rambler.ru. Мы получим всю необходимую информацию: ссылки, анкоры, сниппеты, число результатов, связанные ключевые слова и проверку на опечатку в запросе.



В уроке рассмотрены

  • Использование XPath для создания кастомного парсера
  • Обход капчи без использования Antigate
  • Использование Template toolkit для форматирования результата
  • Объединение результатов парсинга в массив объектов с полями, связанными по индексу
Подписывайтесь на наш канал!

Оставляйте в комментариях свои идеи и пожелания для будущих видео
A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •  

A-Parser SupportTopic starter

A-Parser - 1.1.594 - Улучшение скорости парсинга Google в 10-20 раз



После ужесточения парсинга со стороны гугла A-Parser стал парсить его быстрее чем раньше, результаты тестирования парсинга в 1000 потоков, 1 страница по 100 результатов - более 4000 запросов в минуту



Улучшения

  • Переработан парсер SE::Google - увеличена скорость парсинга в 10-20 раз
  • Названия пресетов заданий теперь сортируются при добавлении
Исправления

  • SE::Google - исправлена обработка каптчи в связи с изменением выдачи
  • Net::Whois - исправлена работа с некоторыми зонами
  • SE::Yandex::Register - исправлена работа с каптчей при регистрации аккаунта
  • Исправлено отображение дебаг информации для прокси чекеров
A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •  

A-Parser SupportTopic starter

A-Parser - 1.1.619 - большая оптимизация потребления памяти, увеличение скорости парсинга Яндекса



В этой версии проделана большая работа по оптимизации потребления памяти, а также стабильной работе парсера 24/7 с множеством числом заданий

Улучшения

  • Уменьшение потребления памяти
  • Оптимизация парсера SE::Yandex - увеличение предельной скорости парсинга в 2.5 раза(~1500 запросов минуту, i7-4770)
Исправления в связи с изменениями в выдаче

  • SE::Google, SE::AOL, SE::Yandex, SE::Dogpile, SE::YouTube, SE::Bing
Исправления

  • Исправлен SE::Google при работе с антигeйтом: неверная обработка запросов со скобками и очень длинных запросов
  • Исправлен Net::HTTP - при выполнении цепочки редиректов теперь передается оригинальный реферер
  • Исправлена работа с сессиями в SE::Yandex::WordStat
A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •  


A-Parser SupportTopic starter

A-Parser - 1.1.626 - парсер Яндекс картинок, поддержка каптчи при логине в Яндекс, удаление нерабочих аккаунтов



В версии 1.1.626 добавлена поддержка каптчи при логине в Яндекс аккаунт в парсерах SE::Yandex, SE::Yandex::WordStat и SE::Yandex::Direct::Frequency:



Также для этих парсеров добавлена настройка Remove bad accounts, которая автоматически удаляет аккаунты с неверным логин/паролем или требующие подтверждения по телефону. Опция включена по умолчанию

Добавлен новый парсер картинок SE::Yandex::Images, поддерживает все фильтры(размер, ориентация, тип, цвет, тип файла...). Как известно Яндекс отлично индексирует все картинки для взрослых - отличный способ набрать контента для своих доров/тюбов. В дополнении есть возможность выставить безопасный поиск



Парсер Яндекс картинок также поддерживает работу с антигeйтом(anti-captcha, rucaptcha, CapMonster - любой сервис с поддержкой API антигeйта)

Исправления в связи с изменениями в выдачи

  • SE::DuckDuckGo
A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •  

A-Parser SupportTopic starter

Сборник рецептов #15: анализируем скорость и юзабилити сайтов, парсим Яндекс.Картинки и Baidu

15-й выпуск Сборника рецептов. В нем мы будем парсить Google PageSpeed Insights, который позволяет оценивать скорость загрузки, юзабилити сайтов и даже получать их скриншоты; сделаем кастомный парсер Яндекс.Картинок и научимся получать полные ссылки из выдачи Baidu. Поехали!

Анализ скорости загрузки и юзабилити сайтов
У Google есть довольно неплохой сервис PageSpeed Insights, который измеряет скорость загрузки веб-страниц, оценивает их юзабилити и даже делает скриншоты страниц. При этом оценивается обычная и мобильная версия парсера. Поэтому мы не могли обойти стороной такой сервис и не сделать для него парсер. О том, что получилось - читайте по ссылке выше.
 

Кастомный парсер Яндекс Картинок
На форуме неоднократно спрашивали когда в А-Парсер будет добавлен парсер картинок Яндекса. На данный момент такой парсер уже есть: SE::Yandex::Images. Но в данной статье будет показан пример кастомного парсера Яндекс.Картинок, который довольно хорошо демонстрирует возможности Net::HTTP. Подробности - по ссылке выше.


Как получить полные ссылки из Baidu
Также довольно часто спрашивают как получить полные ссылки из Baidu. Дело в том, что этот поисковик обрезает ссылки в выдаче, и на выходе получаются ссылки такого вида:
Цитироватьhttp://www.51testing.com/html...
http://baike.baidu.com/link?u...
http://en.wikipedia.org/wiki....
Поэтому в данной статье будет показан способ получения полных ссылок с помощью A-Parser.


Кроме этого:
Еще больше различных рецептов в нашем Каталоге примеров!

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Предыдущие сборники:
A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •  

A-Parser SupportTopic starter

#37
A-Parser - 1.1.652 - динамический лимит потоков, поддержка цифровой каптчи для Google



В версии 1.1.652 добавлена поддержка динамического лимита потоков, позволяющая распределить лимит между всеми запущенными заданиями, тем самым увеличивается общая скорость выполнения заданий в очереди

Помимо этого парсер SE::Google теперь поддерживает работу с цифровыми каптчами, а сервис Cheap-Captcha предоставил пользователям A-Parser уникальную скидку: всего 25 центов за 1000 распознанных каптч

Улучшения

  • Теперь A-Parser пропускает пустые запросы, это улучшение расширяет логику обработки запросов
  • В парсере Net::HTTP не передаются пустые хедеры
  • В парсере SE::Yandex::WordStat теперь корректно определяются аккаунты с заблoкированной функцией парсинга вордстата
Исправления в связи с изменениями в выдачи

  • SE::Yandex, SE::AOL
Исправления

  • В парсере SE::Yandex::WordStat исправлена работа при редиректе на региональный домен, а также исправлена работа с устаревшими сессиями
  • Net::Whois не корректно работал с зоной .tr
  • В парсере SE::Google невозможно было получить исходник страницы($data) при использовании антигeйта
  • В парсере SE::Yandex не сохранились сессии при использовании аккаунтов
A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •  


A-Parser SupportTopic starter

A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •  


A-Parser SupportTopic starter

A-Parser - 1.1.669 - 64 битная Linux версия, проверка позиций по множеству доменов



Начиная с версии 1.1.669 A-Parser доступен в 64 битной версии для Linux, основные преимущества:

  • уменьшение потребления памяти
  • больше нет ограничений на максимальное потребление памяти в 4Гб, что позволит запускать больше заданий одновременно и в большее число потоков
Напоминаю что A-Parser одинаково хорошо работает на Windows, Linux и FreeBSD

Другая хорошая новость - сервис Cheap-Captcha.com дарит всем пользователям A-Parser'а $5 на разгадывание 20000 каптч для Google или Яндекса

Улучшения

  • Все парсеры позиций в поисковых системах( SE::Google::position, SE::Yandex::position, ...) теперь поддерживают съем позиций сразу по нескольким доменам
  • Для парсера SE::Yandex добавлена возможность указать язык результатов поиска
Исправления в связи с изменениями в выдаче

  • SE::Google, SE::Yandex, SE::DuckDuckGo, SE::Yandex::Direct::Frequency
Исправления

  • В предыдущий версии появилась ошибка в обработке нескольких ключевых слов за один запрос в парсере SE::Yandex::Direct::Frequency
  • Очистка очереди заданий работала некорректно
A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •