Порекомендуйте, пожалуйста, инструмент для пакетного анализа наличия контента

Автор Тема: Порекомендуйте, пожалуйста, инструмент для пакетного анализа наличия контента  (Прочитано 1740 раз)

Оффлайн redcommieАвтор темы

  • Бизнес оценка: (0)
  • Дебютант
  • *
  • СПАСИБО: 0
  • Сообщений: 6
  • Карма: 0
    • Просмотр профиля

Оффлайн redcommieАвтор темы

  • Дебютант
  • *
Есть готовый список из 46 тыс УРЛов, на которых нужно проверить наличие контента. То есть ли текст на них или нет. Порекомендуйте какой-либо софт ил сервис.


Оффлайн Sky-fi

  • Глобальный модератор
  • Бизнес оценка: (9, 100%)
  • *****
  • СПАСИБО: 3777
  • Сообщений: 5396
  • Карма: 333
  • Пол: Мужской
  • Раскрутка сайтов
  • Награды Мастер поисковой оптимизации Более одной тысячи спасибо
    • Просмотр профиля
    • Частный SEO оптимизатор Sky-fi

Оффлайн Sky-fi

  • Глобальный модератор
  • *****
  • Доп. информация
    • Бизнес оценка: (9, 100%)
    • СПАСИБО: 3777
    • Сообщений: 5396
    • Карма: 333
    • Пол: Мужской
    • Раскрутка сайтов
    • Награды Мастер поисковой оптимизации Более одной тысячи спасибо
      • Просмотр профиля
      • Частный SEO оптимизатор Sky-fi
Есть программка Screaming Frog. Она может просканировать все урлы, и показать, сколько слов на страницах размещено. С таких данных уже самостоятельно можно делать выводы, где есть контент, а где нет.

Оффлайн redcommieАвтор темы

  • Бизнес оценка: (0)
  • Дебютант
  • *
  • СПАСИБО: 0
  • Сообщений: 6
  • Карма: 0
    • Просмотр профиля

Оффлайн redcommieАвтор темы

  • Дебютант
  • *
А не подскажите, какие у нее лимиты по количеству УРЛ? Не хотелось бы тратить деньги на лицензию зря... Я так понял, что это аналог Visual SEO? У нее тоже есть фишка показывать количество символов на странице. Но у нее ограничение на 75000 страниц + плюс сканирует она часов 19. К тому же часто зависает в конце проверки >:(

Оффлайн Sky-fi

  • Глобальный модератор
  • Бизнес оценка: (9, 100%)
  • *****
  • СПАСИБО: 3777
  • Сообщений: 5396
  • Карма: 333
  • Пол: Мужской
  • Раскрутка сайтов
  • Награды Мастер поисковой оптимизации Более одной тысячи спасибо
    • Просмотр профиля
    • Частный SEO оптимизатор Sky-fi

Оффлайн Sky-fi

  • Глобальный модератор
  • *****
  • Доп. информация
    • Бизнес оценка: (9, 100%)
    • СПАСИБО: 3777
    • Сообщений: 5396
    • Карма: 333
    • Пол: Мужской
    • Раскрутка сайтов
    • Награды Мастер поисковой оптимизации Более одной тысячи спасибо
      • Просмотр профиля
      • Частный SEO оптимизатор Sky-fi
redcommie, Screaming Frog сканирует очень быстро, про лимиты не слышал. Я сканировал до 100 000 страниц, полет нормальный. Я не помню, сколько сканирование таких сайтов занимает, но средний сайт на 3-5 К страниц сканирует несколько минут.

Оффлайн artproma

  • Бизнес оценка: (1, 100%)
  • Ветеран
  • *****
  • СПАСИБО: 210
  • Сообщений: 690
  • Карма: 45
  • Пол: Мужской
  • Ура!!! я счастливый человек!!! :)
    • Просмотр профиля

Оффлайн artproma

  • Ветеран
  • *****
  • Доп. информация
    • Бизнес оценка: (1, 100%)
    • СПАСИБО: 210
    • Сообщений: 690
    • Карма: 45
    • Пол: Мужской
    • Ура!!! я счастливый человек!!! :)
      • Просмотр профиля
Теперь я по порядку.
1. Screaming Frog работает очень быстро ну и есть бесплатный. Пользуйтесь поисковиками ;)

2. Вопрос. А как она смотрит кол-во контента? Просто отключает теги и считает? Или берет динамический участок (текстовый блок) и уже там считает.
А учитывает ли она в этом участке ссылки. Я до сих пор не нашел нормального сервиса. Кто-то считает весь текст, кто-то отрубает часть навигации.... и т.д.

3. При парсинге Вы создаете нагрузку на сервер клиента, а тут бывает по-разному.
Чей-то сервер банит, чей-то нет. Иногда банят раз и навсегда. Мне по работе надо парсить. Так вот есть сайты, где ты должен делать в один поток и с паузой 500мс. Но правда редко такие встречаются. Будете часто парсить, так ваш IP просто забанят и все :)

4. Ну и самый главный вопрос. А НАФИГА ВАМ ЭТО?
Запросы вы не определите, Наличие текста? ХМ.. тоже странно. Представьте страницу каталог, в ней куча товара с подписями. Ну спарсите Вы эти названия, ну посчитаете и получится, допустим, 2000 симв. и что? Типа хорошая статья?

Точно опишите, что хотите?!
Мрамор и гранит, а так же изделия из них imperiastone.ru.


Оффлайн Sky-fi

  • Глобальный модератор
  • Бизнес оценка: (9, 100%)
  • *****
  • СПАСИБО: 3777
  • Сообщений: 5396
  • Карма: 333
  • Пол: Мужской
  • Раскрутка сайтов
  • Награды Мастер поисковой оптимизации Более одной тысячи спасибо
    • Просмотр профиля
    • Частный SEO оптимизатор Sky-fi

Оффлайн Sky-fi

  • Глобальный модератор
  • *****
  • Доп. информация
    • Бизнес оценка: (9, 100%)
    • СПАСИБО: 3777
    • Сообщений: 5396
    • Карма: 333
    • Пол: Мужской
    • Раскрутка сайтов
    • Награды Мастер поисковой оптимизации Более одной тысячи спасибо
      • Просмотр профиля
      • Частный SEO оптимизатор Sky-fi
Вопрос. А как она смотрит кол-во контента? Просто отключает теги и считает? Или берет динамический участок (текстовый блок) и уже там считает.
А учитывает ли она в этом участке ссылки
Думаю, программа считает полностью весь контент на странице. Я много сайтов анализировал, обычно видно, где есть текст, а где нет, по разнице. Например, магазин. Описаний нигде нет, только главная, статьи и категории. В проге видно, что такие страницы по 1000 слов имеют, а остальные меньше, по 200, к примеру. Собственно, по этому и делается вывод - есть контент или нет.

Оффлайн artproma

  • Бизнес оценка: (1, 100%)
  • Ветеран
  • *****
  • СПАСИБО: 210
  • Сообщений: 690
  • Карма: 45
  • Пол: Мужской
  • Ура!!! я счастливый человек!!! :)
    • Просмотр профиля

Оффлайн artproma

  • Ветеран
  • *****
  • Доп. информация
    • Бизнес оценка: (1, 100%)
    • СПАСИБО: 210
    • Сообщений: 690
    • Карма: 45
    • Пол: Мужской
    • Ура!!! я счастливый человек!!! :)
      • Просмотр профиля
По идее да....
Но у меня есть магазы, где разняться навигация и ассортимент.
На одной странице большое меню навигации, на другой навигации мало, но большой ассортимент. И я уверен, что по символам они приблизительно равны....

Я понимаю, что прог даст хоть что-то и это гуд. Но в целом, я не понимаю зачем это нужно?

На месте redcommie я бы просто написал парсер и спарсил нужный участок кода. А потом в таблице все посмотрел и посчитал.
Для парсинга использую http://sbfactory.ru/?p=600, чего и Вам советую. Это не реклама, но прога стоит недорого, разработчик наш и помогает мне постоянно.
Мрамор и гранит, а так же изделия из них imperiastone.ru.

Оффлайн Yama

  • Бизнес оценка: (0)
  • Старожил
  • ****
  • СПАСИБО: 194
  • Сообщений: 459
  • Карма: 14
    • Просмотр профиля
    • Товары для охоты и рыбалки

Оффлайн Yama

  • Старожил
  • ****
В SEOquake Diagnosis можно посмотреть Text/HTML ratio - если больше 20% то уже не так плохо... для Гоши это важный параметр

Оффлайн artproma

  • Бизнес оценка: (1, 100%)
  • Ветеран
  • *****
  • СПАСИБО: 210
  • Сообщений: 690
  • Карма: 45
  • Пол: Мужской
  • Ура!!! я счастливый человек!!! :)
    • Просмотр профиля

Оффлайн artproma

  • Ветеран
  • *****
  • Доп. информация
    • Бизнес оценка: (1, 100%)
    • СПАСИБО: 210
    • Сообщений: 690
    • Карма: 45
    • Пол: Мужской
    • Ура!!! я счастливый человек!!! :)
      • Просмотр профиля
Пошаговые действия на мой взгляд таков?
Опять же использую Content Downloader (Я просто его каждый день использую. Даже если не для парсинга, то для автозамен в файлах точно).

1. Смотрю структуру сайта и нахожу ненужные страницы или только нужные (нафига все парсить? Указываю нужный раздел и все)
2. Получаю все нужные ссылки
3. Указываю парсинг нужного кода
4. сканирую  и получаю готовый csv

Если уж так горит, то давай я сделаю (бесплатно). Только скажи, что именно парсить. Для меня это не сложно.
В отчете будет (по столбикам) ссылка - title - H1 - текст -текст 2 (если нужен). Если надо, то и другие данные сделаю :)
« Последнее редактирование: 28-08-2015, 11:37:55 от artproma »
Мрамор и гранит, а так же изделия из них imperiastone.ru.


 

Похожие темы