A-Parser 1.1 - продвинутый парсер ПС, кейвордов, контента, показателей, 70+ парс

Автор A-Parser Support, 13-12-2014, 08:03:09

« назад - далее »

A-Parser SupportTopic starter

A-Parser - 1.1.370 - планировщик заданий, улучшения в парсерах Google и Яндекса

В новой версии добавлен планировщик заданий, позволяющий легко запланировать выполнение задач, требующих периодичного исполнения, например такие как анализ позиций сайтов или ссылочных показателей



Другие улучшения


  • В опции Check next page для парсера Net::HTTP добавлен параметр Limit, позволяющий ограничивать максимальное число переходов на следующую страницу
  • В парсере SE::Google улучшена работа с сессиями
  • Парсеры SE::Google и SE::Yandex оптимизированы при работе без антигeйта
  • Для парсера SE::Bing::Translator добавлены все новые языки
  • В API при добавлении задания появилась возможность указать флаг removeOnRestart, при указании которого задания будут автоматически удалены при перезапуске парсера
Исправления в связи с изменениями в выдачи


  • SE::Ask - парсилась только первая страница
  • SE::Google - исправлен парсинг сниппетов
  • Исправлены SE::MailRu, SE::Dogpile, SE::Google::pR, SE::QIP и SE::QIP::position
Исправления


  • При использовании нескольких форматов запросов и опции Parse to level парсер мог вылетать с ошибкой
  • В парсере SE::Google могла повторно отправляться каптча при использовании антигeйта
  • Исправлен баг с отображением формата результата после импорта пресета
  • Исправлен баг с отображением переменных в Конструкторе результатов
A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •  


A-Parser SupportTopic starter

A-Parser - 1.1.388 - новый парсер disconnect.me, улучшения в экспорте заданий

Улучшения

  • Добавлен парсер SE::DisconnectMe - поисковая система от бывших сотрудников Google, можно выбирать один из трех вариантов выдачи: Google, Bing, Yahoo
  • Теперь при сохранении пресета задания, сохраняется название файла запросов или сам список запросов
  • При экспорте задания, появилась возможность указать включать или нет запросы в код пресета, а также теперь отображается список настроек парсеров которые будут включены в код
  • В очереди заданий добавлена возможность свернуть\развернуть одновременно все задания на странице
  • В очереди заданий для свернутых заданий теперь отображается время выполнения
  • Увеличена скорость парсинга SE::Google
Исправления в связи с изменениями в выдачи

  • В SE::Google::Images больше не парсится параметр size
  • Исправлены SE::Google, SE::Google::TrustCheck, SE::Google::Compromised, SE::Ask, SE::Dogpile, Rank::Mustat, Rank::Category, SE::AOL
Исправления

  • A-Parser мог падать при использовании парсеров SE::Yandex::WordStat, SE::Dogpile, а также при использовании Просмотра логов после перезапуска парсера
  • В парсере Net::Whois не определялась дата экспайра для некоторых доменов
  • В парсере SE::Bing не корректно обрабатывались ссылки содержащие символ &
Обновление партнерской программы

Участвуйте в нашей партнерской программе рекламируя A-Parser в своих блогах и на форумах! Размер комиссии - 15%:

  • A-Parser Lite: $18
  • A-Parser Pro: $30
  • A-Parser Enterprise: $42


В обновленном интерфейсе доступна удобная статистика заработанных средств и выплат, а также список привлеченных пользователей

Подробнее про условия участия в партнерской программе читайте в соответствующем разделе
A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •  


A-Parser SupportTopic starter

A-Parser: видео урок по парсингу 2ГИС

Денис Бартаев рассказывает о парсинге информации о компаниях и их телефонов из базы 2ГИС



В выпуске рассматриваются

  • Использование парсера-паука HTML::LinkExtractor и его настройка для фильтрации ссылок
  • Работа с параметром Parse To Level
  • Использование парсера Net::HTTP и его настройка для выборки данных со страницы с помощью регулярных выражений
  • Создание Excel-таблицы из результатов парсинга
Подписывайтесь на наш канал!

Оставляйте в комментариях свои идеи и пожелания для будущих видео
A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •  

A-Parser SupportTopic starter

Сборник рецептов #12: парсим Instagram, собираем статистику и делаем свои парсеры подсказок

12-й выпуск Сборника рецептов. В нем мы рассмотрим пример парсинга Instagram, проверим новую возможность вывода статистики и научимся составлять кастомные парсеры подсказок. А также:

  • Обзор вариантов представления результатов
  • Универсальный чекер страниц
  • Парсинг трафика и стоимости по ключевым словам из SEMrush
  • Обновление и улучшение пресетов для парсинга Авито и 2GIS
Парсинг Instagram
Instagram на сегодня является одним из самых популярных приложений для обмена фото с элементами социальной сети (осенью 2015 года аудитория превысила 400 млн пользователей). Такая популярность делает данный сервис привлекательным для парсинга, с целью получения различной информации. Как парсить Инстаграм с помощью А-Парсера - по ссылке выше.


Статистика по результатам парсинга
Начиная с версии 1.1.336 в А-Парсере появилась возможность вести и обрабатывать статистику парсинга, благодаря поддержке шаблонизатора в Начальном и Конечных текстах. Теперь в выдаче можно подсчитать количество ссылок на каждом домене, количество сабдоменов для каждого домена, частоту каждого сабдомена; получить списки доменов, имеющих сабдомены и многое другое... Несколько примеров показаны по ссылке выше.


Как сделать свой парсер подсказок?
В A-Parser уже существуют парсеры подсказок для Google, Yandex, AOL, Bing и Yahoo. Но есть и другие сервисы, которые также выдают подсказки. О том, как сделать свой парсер подсказок, а также примеры для Baidu, Rambler, Mail.Ru, LiveInternet, DuckDuckGo и GooglePlay смотрите по ссылке выше.


Кроме этого еще несколько рецептов:

Еще больше различных рецептов в нашем Каталоге примеров!


A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •  

A-Parser SupportTopic starter

A-Parser - 1.1.434 - парсинг частотности Яндекс.Директ с большой скоростью, улучшения использования памяти

В этой версии проделана большая работа по добавлению поддержки агрегации запросов. Теперь парсер частотности ключевых слов SE::Yandex::Direct::Frequency может получать данные со скоростью 20000-50000 слов\минуту

Улучшения

  • Уменьшено потребление памяти при использовании большого числа потоков и\или нескольких парсеров в одном задании
  • Уменьшено потребление памяти при большой очереди завершенных заданий
  • В парсере SE::Yandex::Direct::Frequency добавлена возможность выбрать все регионы или выбрать несколько определенных
  • В парсере SE::Yandex::Direct::Frequency добавлена поддержка Яндекс аккаунтов,  а так же поддержка AntiGate и парсинг по 500 ключевых слов за один запрос
  • В парсере SE::Yandex::Direct::Frequency добавлена возможность выбора периода за последний месяц, за определенный месяц, за квартал или за год

  • Для Windows и Linux улучшена поддержка юникода в именах файлах, независимо от языка интерфейса ОС
  • Добавлена возможность просматривать логи только неудачных запросов
  • В API добавлена возможность указать флаг removeOnComplete при добавлении задания, тем самым задания будут автоматически удалятся после завершения
  • В просмотре логов теперь можно выделить данные для копирования
  • В парсере Net::HTTP добавлен параметр Max cookies count, ограничивающий число Cookie для сохранения
  • В парсере Net::HTTP расширен список кодов ответов, а также добавлена возможность указать регулярное выражения для проверки кода ответа
  • В очереди заданий теперь можно искать необходимые задания по названию, номеру, подстроке в запросах, имени файлов запросов и результатов
  • В парсере HTML::LinkExtractor добавлена опция Check next page, позволяющая расширить логику перехода по ссылкам
  • Добавлена опция Page as new query, которая передает переход на следующую страницу как новый запрос, тем самым позволяя убрать ограничение на количество страниц для перехода
Исправления в связи с изменениями выдачи

  • В парсере SE::Yandex исправлен парсинг связанных ключевых слов
  • В парсере SE::Youtube исправлен парсинг количества видео по запросу
  • Исправлен парсинг Google Blogs в парсере SE::Google
  • Исправлены SE::AOL, SE::Ask, SE::Baidu, SE::Google, SE::Google::pR, SE::DisconnectMe, SE::QIP, SE::Yandex
Исправления

  • Исправлено отображение длинных выпадающих меню
  • Исправлена кодировка запросов в просмотре логов
  • Исправлено падение при использовании опции Parse to level в некоторых ситуациях
  • Исправлено падение в парсере SEO::ping
  • Прокси с авторизацией теперь сохраняются корректно в файл живых прокси alive.txt
  • Исправлена работа с прокси при указании пустой пары логин\пароль для авторизации
  • В парсере SE::Yandex::WordStat теперь при использовании опции Remove + from keywords плюсы удаляются также для фраз правого столбика
  • Исправлено экранирование символа + в HTTP запросах
Все изменения и описания новых возможностей скоро будут доступны в документации
A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •  


A-Parser SupportTopic starter

A-Parser: видео урок - генерация sitemap.xml используя возможности JavaScript

Денис Бартаев рассказывает об использовании JavaScript в A-Parser:




  • Использование LinkExtractor
  • Показан пример разбора заголовков ответов
  • Введение в основы JavaScript
  • Использование возможностей tools.js для решения практической задачи
Подписывайтесь на наш канал!

Оставляйте в комментариях свои идеи и пожелания для будущих видео
A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •  

A-Parser SupportTopic starter

A-Parser - 1.1.462 - цепочки заданий, сохранение JavaScript функций в пресете задания

Улучшения

  • Добавлена возможность использовать цепочки заданий - запускать определенное задание после завершение текущего, с возможностью указать файл результатов первого задания, как файл запросов для следующего
  • Теперь JavaScript функции можно сохранять в настройках задания, что позволяет включать их при экспорте задания
  • При форматировании элементов массивов через метод .format теперь можно использовать все простые(Flat) переменные, которые выдает парсер или которые формируются используя Конструктор результатов
  • В прокси чекер добавлена опция Load limit count, позволяющая задать максимальное число прокси для загрузки с источников
  • В парсере Net::HTTP для опции Check content добавлен переключатель Match / Not Match позволяющий проверять не только наличие, но и отсутствие определенного контента на странице
  • Теперь файл задания не перезаписывается при отсутствии свободного места на диске
  • В лог добавлена информация о версии парсера, количество свободной памяти и другая полезная информация
Исправления в связи с изменениями выдачи

  • Исправлены SE::Yandex, SE::Google

Исправления


  • В парсере SE::Google сниппеты и анкоры парсились с некорректной кодировкой при использовании Антигeйта
  • При использовании опции Конечный текст и кириллического имени файла результата конечный текст сохранялся в файл с неверной кодировкой в имени
  • При использовании лога после постановки задания на паузу и продолжении работы лог переставал писаться, также при отключении логирования и попытке просмотра лога парсер мог упасть
  • В Тестировщике заданий при закрытии окна с активным заданием появлялась ошибка
  • В парсере SE::Yandex::Direct::Frequency некоторые фразы не обрабатывались при использовании аккаунтов, а также некорректно передавалось гео без использования аккаунтов
  • Макрос $pagenum в парсере Net::HTTP переставал работать если после него были указаны символы
  • Парсер SE::Google::TrustCheck не работал совместно с антигeйтом
A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •  

A-Parser SupportTopic starter

A-Parser - 1.1.481 - множество оптимизаций скорости, использование пресетов в цепочках и планировщике



В этой версии был внедрен ряд качественных улучшений, призванных увеличить предельную скорость парсинга:

  • Быстрая обработка UTF-8, прирост скорости на некоторых задачах до 1.5х
  • Внедрен механизм анализа используемых переменных в результатах, что позволяет оптимизировать скорость извлекая только требуемые данные. Первым оптимизированным парсером стал SE::Google: двукратный прирост предельной скорости парсинга при сборе только ссылок(7000-10000 запросов в минуту, по 100 результатов на запрос, другими словами теперь можно получить 1 миллион ссылок за 1-1.5 минуты)
  • Теперь информация о запросах $response формируется только по требованию
  • Оптимизирована работа шаблонизатора при использовании множества парсеров в одном задании
Другие улучшения:

  • Теперь при использовании опции "Запустить задание по завершению" используется имя пресета вместо номера задания из очереди
  • В планировщике заданий также используется имя пресета, что позволяет очищать очередь без риска потерять сохраненные задания для планировщика
Исправления в связи с изменениями в выдачи:

  • SE::Google - поиск по блогам, также увеличена скорость парсинга за счет изменения запросов
  • SE::Yahoo, SE::DuckDuckGo, SE::AOL
Исправления:

  • В парсере Rank::Archive исправлена логика при обработке ошибки 403 Forbidden
  • Исправлено падение при изменении числа потоков в задании
  • Исправлена поддержка TLS для некоторых сайтов
  • Исправлено зависание задания при падении воркера
  • Теперь задание можно остановить если оно находится в режиме ожидания слота
  • Исправлена работа опции "Сохранять размер окна"
  • Исправлена ошибка в HTML::LinkExtractor при работе опции Parse to level в случаях когда сайт отдал редирект на другую страницу
A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •  


A-Parser SupportTopic starter

Сборник рецептов #13: сохраняем результат в файл дампа SQL и знакомимся с $tools.query

13-й выпуск Сборника рецептов. В нем мы научимся сохранять результат в файл дампа SQL, который будет сразу готов для импорта в базу данных; познакомимся с очень полезным инструментом $tools.query, с помощью которого можно объединять несколько заданий в одно и делать другие интересные вещи; а также увидим еще несколько полезных рецептов.

Вывод результата в формате дампа SQL
С вопросом "можно ли сохранять результаты сразу в базу данных" очень часто обращаюся пользователи в техподдержку. И так, как на данный момент напрямую сохранять результаты в БД нет возможности (но планируется), то предлагаю вариант выводить их в файл дампа, а потом импортировать в базу данных. Как это делается - показано по ссылке выше.


Обзор инструмента $tools.query
$tools.query довольно часто встречается в примерах на форуме. В А-Парсере этот инструмент появился уже больше года назад, но обзора по нему до этого времени не было выпущено. Поэтому мы исправляемся и по ссылке выше вы сможете ознакомиться с некоторыми его возможностями.


Еще несколько рецептов:
Еще больше различных рецептов в нашем Каталоге примеров!

Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

Предыдущие сборники
A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •  


A-Parser SupportTopic starter

A-Parser - 1.1.500 - использование разных источников прокси в разных заданиях и парсерах

В этой версии проделана большая работа по улучшению проверки прокси и добавлению возможности использования разных источников прокси:


  • Появилась возможность запускать сразу несколько прокси чекеров, каждый поддерживает собственные настройки и собственный рабочий каталог с возможностью указать различные источники проксей
  • В настройках задания, появилась возможность указать прокси от каких чекеров должны использоваться(выбор между всеми или перечисление конкретных)
  • Более того в одном задании каждый парсер может использовать различные источники прокси
  • Добавлен график живых прокси и статистика по обработке источников
  • Уменьшено потребление памяти при большом числе живых прокси
  • В API теперь возможно получить список всех живых прокси, а также список прокси для конкретных прокси чекеров
Благодаря этим нововведениям появилась возможность раздельной работы с разными прокси серверами, когда одни прокси подходят для парсинга сайтов, другие лучше для парсинга выдачи поисковых систем, а третьи могут быть "заточены" под определенный сервис

Другие улучшения:

  • Для парсера Rank::CMS добавлена опция эмуляции браузера, она включена по умолчанию и повышает процент распознавания многих CMS
  • В редакторе заданий появилась возможность сворачивать парсеры, что позволяет удобнее работать с большими заданиями
Исправления в связи с изменениями в выдачи:

  • Rank::MajesticSEO, SE::Yandex, Rank::Archive, SE::Google::Images, SE::Google::TrustCheck, SE::Yandex::Catalog
Печальная новость коснулась SE::Google::pR - Google прекратил отображать PageRank для сайтов, но у нас в арсенале есть множество парсеров для гораздо более точной оценки рейтинга домена!
A-Parser - парсер для профессионалов SEO
SpySerp.com - бесплатный сервис отслеживания позиций
  •