A-Parser 1.1 - продвинутый парсер ПС, кейвордов, контента, показателей, 70+ парс

Автор A-Parser Support, 13-12-2014, 08:03:09

« назад - далее »

A-Parser SupportTopic starter

Сборник статей #12: скорость работы парсеров, debug режим и работа с куками

В 12-м сборнике статей рассказывается о принципах работы парсеров и факторах, влияющих на их скорость, показаны возможности debug режима в Тестовом парсинге по отладке запросов, а также на реальном примере разбирается работа с куками.

Скорость и принцип работы парсеров

В этой статье подробно рассказано об основном принципе работы парсеров и скорости их работы, а также рассмотрены основные факторы, влияющие на скорость парсинга.



Использование Debug режима

В этой статье рассказывается об одном из методов отладки парсеров, а также об анализе получаемых данных - debug режиме в Тестовом парсинге. С его помощью можно прямо в парсере анализировать и экспериментировать с заголовками и изучать приходящие в ответ данные.



Работа с куками и заголовками на примере соглашения с правилами сайта auto.ru

А в этой статье на реальном примере показана работа с куками сайта: рассказано как определять необходимость передавать куки и как искать только необходимые для запроса куки. При этом показаны два варианта: простые запросы средствами А-Парсера и использование NodeJS модуля puppeteer.



Если вы хотите, чтобы мы более подробно раскрыли какой-то функционал парсера, у вас есть идеи для новых статей или вы желаете поделиться собственным опытом использования A-Parser (за небольшие плюшки ) - отписывайтесь здесь.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Все сборники статей

A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •  


A-Parser SupportTopic starter

Видео урок: просмотр результатов парсинга, настройка прокси с авторизацией, опция Extra query string

В этом видео уроке рассмотрены ответы на 3 часто задаваемых вопроса от новых пользователей А-Парсера



  • Где и как можно посмотреть результаты парсинга?
  • Как подключить прокси с авторизацией?
  • Extra query string, что это такое и как применять эту опцию?
В уроке рассмотрено:

  • Просмотр результатов парсинга 3-мя способами:

    • Способ первый. "Из очереди заданий, если задание на паузе".
    • Способ второй. "Из очереди заданий, если задание завершено".
    • Способ третий. "Забираем результат из папки results".
  • Подключение прокси с авторизацией.
  • Примеры использования опции Extra query string.
Полезные ссылки:
Оставляйте комментарии и подписывайтесь на наш канал на YouTube!

A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •  


A-Parser SupportTopic starter

Сборник рецептов #43: освобождающиеся домены, категории сайтов и парсинг PDF

43-й сборник рецептов, в который вошли пресет для парсинга освобождающихся доменов, парсер категорий сайтов и пример сбора данных из PDF документов.

Аукцион доменов REG.RU

Пресет, позволяющий парсить домены с аукциона Reg.ru. В пресете реализована возможность указывать количество страниц пагинации и использовать фильтр по ключевому слову.



Определение категорий сайта

Парсер, собирающий категории сайтов из MegaIndex.



Парсинг PDF

Пример парсинга данных из документов в формате PDF. Для работы используется Node.js модуль pdf-parse.



Кроме этого:
Еще больше различных рецептов в нашем Каталоге!
Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Все сборники рецептов

A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •  

A-Parser SupportTopic starter

Сборник рецептов #44: категории сайтов от Cloudflare Radar, парсер Rozetka и kufar.by

44-й сборник рецептов, в который вошли парсер, определяющий категории сайтов (используя сервис Cloudflare Radar), парсер Rozetka через API и парсер интернет-магазина kufar.by с проходом по списку результатов.

Парсер Cloudflare Radar

Парсер для сбора категорий сайтов из Cloudflare Radar



Rozetka - получение данных по API

Парсер, собирающий данные о товарах на торговой площадке Rozetka через API.



Парсинг объявлений kufar.by

Парсер объявлений на сайте kufar.by с проходом по списку результатов. Собираются заголовки объявлений, цены, имена и телефоны авторов.



А также, обновлены следующие ресурсы:

Еще больше различных рецептов в нашем Каталоге!
Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Все сборники рецептов

A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •  

A-Parser SupportTopic starter


    1.2.1076 - 3 новых парсера, завершение перехода на Node.js, интеграция puppeteer в сборку



    Улучшения


         
    • В связи с переводом основных встроенных парсеров на новую платформу Node.js, полностью переписаны и обновлены парсеры:
    •    
    • Основные улучшения от перевода данных парсеров на Node.js:

      •          
      • увеличение производительности в ~1.5 раза
      • унификация HTTP движка с JavaScript парсерами, единый обход CloudFlare
         
    • Добавлены новые парсеры:
    •    
    • В HTML::EmailExtractor добавлена опция Skip non-HTML blocks, позволяющая отключить сбор почт внутри тегов script, style и т.п.
    • В SE::Google::Translate добавлены новые переменные:

      •          
      • $translit_orig - оригинальный текст транслитом
      • $translit_translated - переведенный текст транслитом
      • $variants.$i.text - список вариантов перевода оригинального текста
         
    • В SE::Bing обновлен список регионов и языков
    • В Social::Instagram::Profile и Social::Instagram::Post добавлена возможность собирать кол-во видеопросмотров
    • В SE::Yandex::Translate добавлена возможность отключать использование сессий
    • В Net::HTTP добавлена возможность указывать user-agent для Chrome
    • В парсере Rank::MOZ исправлена ошибка, возникающая при вызове парсера из JS методом this.parser.request().
    • В Rank::CMS добавлена поддержка нового apps.json и возможность использовать Net::HTTP
    • В Net::Whois обновлена поддержка всех зон
    • Для проксичекеров добавлена опция Exclude from "All", а также сделаны изменения в логике:

      •          
      • "All" - использует все прокси выбранные для задании
      • конкретный проксичекер - использует его, даже если он не выбран в задании
         
    • Добавлена поддержка устаревших версий SSL
    • JS парсеры: Добавлена опция tlsOpts для this.request(), позволяет передавать настройки для https соединений
    • JS парсеры: обновление Node.js с 14.2.0 до 14.15.0
    • JS парсеры: модуль puppeteer включен в сборку А-Парсера и не требует отдельной установки

    Исправления в связи с изменениями в выдаче

    Исправления

         
    • В SE::Yandex исправлена работа Extra query string
    • Исправлено регулярное выражение в HTML::EmailExtractor для устранения ошибок в некоторых случаях
    • Исправлено поведение парсера SE::Google::KeywordPlanner при отсутствии результатов по запросу
    • Maps::Yandex исправлен и переведен на puppeteer
    • Исправлена ошибка в приоритетах выбора проксичекера
    • JS парсеры: исправлен follow_meta_refresh
    • API: исправлена работа параметра rawResults

    [/list][/list][/list]
    A-Parser - парсер для профессионалов SEO
    SpySerp.com - бесплатный сервис отслеживания позиций
    •  


    A-Parser SupportTopic starter

    Сборник рецептов #45: парсеры Google Places и prom.ua, получение характеристик картинок "на лету"

    45-й сборник рецептов, в который вошли парсер результатов поиска на Google Places, парсер для prom.ua и пример скачивания картинок с одновременным определением их характеристик.

    Парсер Google Places

    Парсер для поиска заведений по ключевым словам в Google Places. В отличие от парсера Google Maps здесь не нужно задавать координаты поиска, а достаточно вместе с ключевым словом написать нужный город.



    Парсер prom.ua

    Парсинг товарных позиций для одной из крупнейших в Укрaине торговых площадок prom.ua. Кроме собственно названий товаров и их цен, позволяет собирать такие данные продавцов, как телефоны и электронные почты.



    Скачивание картинок

    В этом примере показан способ решения задачи по скачиванию картинок и одновременному получению их характеристик, а именно размера и ориентации. Для получения характеристик используется NodeJS модуль.



    Еще больше различных рецептов в нашем Каталоге!
    Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

    Все сборники рецептов

    A-Parser - парсер для профессионалов SEO
    SpySerp.com - бесплатный сервис отслеживания позиций
    •  

    A-Parser SupportTopic starter

    1.2.1148 - накопительное обновление встроенных парсеров и исправление Bypass Cloudflare

     

    Улучшения

         
    • В HTML::LinkExtractor добавлена опция Skip comment blocks, которая позволяет исключить из парсинга блоки html комментариев
    • Повышена производительность Shop::Yandex::Market
    • В Check::RosKomNadzor добавлена возможность выбирать источник для проверки
    • Maps::Yandex переписан на TypeScript, добавлена возможность подключения сервисов разгадывания каптч
    • В Rank::Alexa::API добавлена возможность получать название страны вместо ее кода
    • В Rank::Ahrefs расширен перечень собираемых данных
    • В SE::Seznam добавлена поддержка сессий и возможность разгадывать каптчи
    • Реализована возможность использовать прокси с одним IP:port, но с разными логинами
    Исправления в связи с изменениями в выдаче
    Исправления

         
    • Исправлен экспериментальный обход защиты Cloudflare с помощью Chrome
    • Исправлена ошибка в Maps::Yandex, из-за которой не собиралось больше 1 страницы, а также исправлена проблема с получением исходного кода страниц
    • В SE::Youtube исправлено игнорирование настроек поиска, проход по пагинации, а также в некоторых случаях не делались повторные попытки
    • В SE::Google::KeywordPlanner исправлена авторизация
    • Исправлена утечка памяти, которая проявлялась при долго работающих заданиях с большим числом запросов
    • Исправлена ошибка с Buffer, проблема появилась в одной из предыдущих версий
     
    A-Parser - парсер для профессионалов SEO
    SpySerp.com - бесплатный сервис отслеживания позиций
    •  

    A-Parser SupportTopic starter

    Обновление документации и курс по заработку на PBN используя A-Parser

    Обновленная документация

    Мы не стоим на месте: постоянно совершенствуем наш продукт, расширяем его функционал, ориентируясь на сегодняшние потребности пользователей и на удобство использования A-Parser. В соответствии с этим мы полностью обновили нашу техническую документацию, в первую очередь изменили интерфейс, создали логичную структуру разделов, предусмотрели удобную навигацию и поиск.

    Кроме дополнения и обновления существующей документации добавлены новые, ранее не публиковавшиеся разделы:

         
    • настройка и работа с Docker
    • новое API v2 для написания JS парсеров с использованием TypeScript
    • использование Chrome с прокси с помощью Puppeteer
    • взаимодействие с A-Parser через Redis API
    • использование Node.js модулей
    Также, для всех встроенных парсеров добавили блоки с примерами их использования. Вся документация сопровождается скриншотами и различными примерами, большинство из которых можно импортировать в свой А-Парсер и изучить.

    Обновленная документация еще будет расширяться и дополняться, но Вы уже сейчас можете ознакомиться с ней, перейдя по ссылке: https://a-parser.com/docs/

    Курс по заработку на PBN используя A-Parser(+включает лицензию)

    Наш хороший друг Николай Кодий запускает второй набор на курсы по подбору дропов и построению качественных сеток PBN, с применением A-Parser в качестве одного из основных инструментов. Каждый из студентов бесплатно получает весь лицензионный софт (в том числе и A-Parser), необходимый для подбора дропов. Данный курс без "воды" —  вы получите концентрат опыта и алгоритмы наработок, которые никто другой не показывает. Курс насыщен практикой на реальных задачах. Каждый выпускник сможет в дальнейшем сотрудничать с Николаем или получить рекомендацию от него и контакты компаний, которые часто ищут специалистов по PBN. Подробнее о курсе читайте в его телеграм-канале https://t.me/mypbn/1113

    A-Parser - парсер для профессионалов SEO
    SpySerp.com - бесплатный сервис отслеживания позиций
    •  


    A-Parser SupportTopic starter

    Сборник рецептов #46: парсинг сообщений из Viber, корейский поисковик и сбор контактов организаций

    46-й сборник рецептов, в который вошли парсер сообщений Viber, парсер корейского поисковика и пресет для сбора контактов организаций из каталога.

    Парсер Viber - сбор сообщений из публичных групп вайбер
    В А-Парсере уже довольно давно существует парсер для сбора сообщений из публичных групп в Telegram. Представляем аналогичное решение для не менее популярного мессенджера - Viber.


    Парсер корейского поисковика Daum.net
    Еще один парсер поисковых систем, на этот раз корейской daum.net


    Парсинг контактов организаций из ua-region.info
    Пресет для сбора телефонов, почт, сайтов, адресов и прочей информации из каталога организаций ua-region.info



    Еще больше различных рецептов в нашем Каталоге!

    Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

    Все сборники рецептов



    A-Parser - парсер для профессионалов SEO
    SpySerp.com - бесплатный сервис отслеживания позиций
    •  


    A-Parser SupportTopic starter

      1.2.1239 - обновление Node.js, поддержка ReCaptcha v3 и Smart captcha, исправление ошибок



      Улучшения
      - Node.js обновлен до версии 15.14.0
      - Добавлена возможность разгадывать Google ReCaptcha v3 в виде нового парсера - Util::ReCaptcha3
      В SE::Yandex, а также в некоторых других парсерах Яндекса реализована обработка новой Smart captcha
      - В Rank::MajesticSEO добавлен режим парсинга через Chrome
      - В SE::DuckDuckGo актуализированы языки и регионы
      - В SE::Google::Cache добавлена возможность использовать сервисы разгадывания рекаптч
      - В SE::YouTube добавлен сбор ссылок на канал
      - Актуализирован список языков в DeepL::Translator
      - Теперь в SE::Bing при обнаружении бана, прокси банится парсером вместо простой смены
      - В Shop::Amazon обновлен юзер-агент, за счет чего выросла производительность

      Исправления в связи с изменениями в выдаче
      - Множество адаптаций SE::Google и SE::Yandex к изменениям в верстке страниц с выдачей
      - Исправлен постоянный бан запросов в SE::Google::Cache и SE::Bing
      - Исправлен проход по пагинации в SE::DuckDuckGo
      - В SE::Youtube исправлен подсчет кол-ва результатов и определение существования следующей страницы
      - Исправлена работа с каптчей в Shop::Amazon
      - Исправлена разбивка на блоки больших запросов в SE::Yandex::Translate
      - Исправлены SE::Bing, SE::MailRu, SE::MailRu::Position, SE::Google::Compromised, Rank::MajesticSEO, Rank::KeysSo, SE::Yandex::Direct, SecurityTrails::IP, Net::Whois, SE::Bing::Translator, SE::DuckDuckGo, Social::Instagram::Profile, Shop::Yandex::Market, Rank::Ahrefs::KeywordGenerator, Rank::Ahrefs::KeywordDifficulty, SE::Seznam, Shop::Amazon, Rank::Linkpad

      Исправления
      - Исправлен баг в HTML::LinkExtractor, из-за которого парсинг по запросу останавливался с ошибкой
      - В Rank::MOZ исправлено отсутствие повторных попыток, а также изменена логика определения неудачных запросов
      - Исправлена ошибка проверки прокси, если в пароле был символ "*"
      - Исправлен баг, из-за которого при использовании шаблонизатора в Additional headers переставал работать Check content
      - Исправлена логика проверки результатов в SE::Bing::Images
      - Исправлена работа XPath
      - Исправлена утечка памяти: при длительной работе процесс node.js постепенно заполнял всю доступную оперативную память
      - Исправлена работа с прокси на некоторых сайтах, баг появился в одной из предыдущих бета-версий


      [/list]
      A-Parser - парсер для профессионалов SEO
      SpySerp.com - бесплатный сервис отслеживания позиций
      •