Проверка уникальности текста

Автор chrome, 24-05-2010, 21:47:51

« назад - далее »

qazar

Ну как-то об расходовании трафика через Advego я не задумывался, хотя конечно и на работе интернет бесплатный и из дома безлимитный. Главное по-моему, все-таки результат работы, чтобы четко показывались уникальность, частота "ключевиков", и "тошнота" переписанного текста. Мне,как зарабатывающему именно на этой бирже, вполне хватает предоставляемых ей инструментов.


zenner

Не все так осчастливлены безлимитом, поэтому приходится учитывать также расходывание трафика. Особенно когда еще и торрент "працюе" почти на полную катушку... А на работе еще есть тошнопротивное начальство, да и нет смысл там ночевать))))

Согласно изысканиям народа в Сети имеем такой общий результат:
основной список сервисов, для проверки текста (на уникальность!)  выглядит следующим образом:

1. www.miratools.ru

2. www.copy-scape.ru

3. www.copyscape.com

4. www.advego.ru/plagiatus/

Кстати, также не забываем о фаерволе!
Он тоже может блoкировать или сильно тормозить работу сервиса.

Еще также люди советуют 15 основных инструментов для мониторинга популярности сайта. Может и пригодится, "нехай жыве и пасеться!".
Вот оно:
1. Yahoo! Site Explorer
2. Compete
3. Quantcast
4. Alexa
5. Feed Compare
6. Popuri.us
7. Socialmeter
8. TweetVolume
9. Quarkbase
10. BlogPulse Profiles
11. Technorati Blogging Central
12. Statbrain.com
13. Cubestat
14. DnScoop
15. WebsiteOutlook

А теперь вернемся к нашим баранам, то есть к проверке уникальности текста...
наилучшие способы, вероятнее всего - копирайт и перевод (Америку открыл!))))) :))
Неплохо также скан+программа синонимайзер.

А вообще-то работать надо! И еще...
Список для переваривания на ночь:
законы Зипфа (Джордж Кингсли Зипф)
стоп-слова, алгоритм шинглов («чешуйки» - цепочки из определенного количества слов), рассчет контрольной суммы (сигнатуры); сложность выделения из общего текста фразеологизмов.

Спокойной ночи! :)

Луну первыми покорили викинги.
  •  


Sevab


zenner

Доброе утро!
Или как говорили великие и ужасные Бивис и Батхэд: - Ми вернулись!
Да именно так, с буквой "и" вместо "ы".

По поводу законов Зипфа (Джорджа Кингсли Зипфа).
Этот самый Зипф есть не танкист или летчик, а гарвардский профессор-лингвист. Более 60 лет назад йон обнаружил эмпирические закономерности частоты употребления слов человеческого языка в любом тексте.

Согласно первому закону Зипфа, произведение вероятности обнаружения слова в тексте на его ранг частоты - величина постоянная (константа). Ранг частоты наиболее часто употребляемого слова принимается как единица.

Второй закон Зипфа гласит, что для всех текстов форма кривой зависимости частоты и количества слов, входящих в текст с этой частотой, одинакова.

При проверке уникальности текста вышеуказанные законы Зипфа позволяют учитывать только полезные слова (несущие смысловую нагрузку) и не учитывать знаки препинания, союзы, предлоги, междометия. Избавление текста от этих «лишних» слов (так называемые стоп-слова и случайные слова) является процессом "канонизации текста". Фактически говоря этими полезными словами есть ключевые слова.

Вот, в сжатой форме пока и все.
Луну первыми покорили викинги.
  •  

semester

Очень позновательно. Спасибо.


Teresa

Я пользуюсь Адвего и Etxt. Делайте глубокий анализ или настройки поменяйте. Хотя на вкус и цвет...


zenner

Сапасиба! Итоги подведем...
ПС проверяет уникальность текстов на основе различных алгоритмов. Один из таковых - "чешуйчатый" алгоритм (от английского shingle – чешуйка, откуда и пошло название "алгоритм шинглов).
Так, значит текст разбивается на небольшие «чешуйки» - цепочки из определенного количества слов (длина шингла). Второе слово первого шингла является первым словом для второго, второе слово второго – первым для третьего и т.д. Благодаря таком принципу построения цепочек ни единое слово не останется непроверенным.

Для каждой чешуйки определяется сигнатура – уникальное число, которое ставится в соответствие некоторому участку текста (в данном случае шингла). Процесс расчета сигнатуры происходит по одному из заранее известных алгоритмов.

У двух разных кусочков текста не может быть одинаковой контрольной суммы - в этом и заключается суть алгоритма шинглов. Из множества сигнатур всего текста (их число равно количеству слов в тексте за вычетом длины чешуйки, уменьшенной на единицу) выбираются только те, которые отвечают некоему критерию.

Сигнатуры двух текстов сравниваются. Все определенные совпадения означают неуникальность текста. Чем больше совпадений, тем выше вероятность, что тексты являются копиями. Очевидно, что при таком способе проверки уникальности текста точность результатов возрастает при уменьшении длины чешуек.
Пока хватит, самому надо переварить что написал)))))


[mergedate]1290365226[/mergedate]
И паследнее слово партизана на сегодня...

Высокая уникальность (от 95%) соответствует стандартам качества ПС (поисковых систем).
Теперь очень кратко о плюсах и минусах.

Проверка уникальности (по алгоритму чешуек) позволяет находить полные копии документов и их дубликаты (слегка измененные тексты).
Это делает данный алгоритм  весьма популярным и на его основе создаются разнообразные приложения проверки уникальности (как онлайн-, так и десктоппроги).

Но весьма серьезным минусом (сего алгоритма) есть сложность выделения из текста фразеологизмов и популярных цитат (очень широко используемых словосочетаний). При наличии  совпадений алгоритм выдаст низкую степень уникальности.
Этот момент стоит учитывать и заменять их (фразеологизмы и популярные цитаты) либо иностранными словами, либо славянизмами (смотрите творчество Велемира Хлебникова!). Эффект поразительный...
Луну первыми покорили викинги.
  •  

KaZaK

Скачайте программу etxt .....iat  всё точно показывает.


hoie

Такие программы всегда будут находить сходства пусть даже небольшие, потому что невозможно наисать простую фразу так чтоб ее никогда никто не повторил - это большая редкость. Уникальность 95% вполне приемлема. Проверять лучше несколькими программами, попробовав раные - некоторые приглянуться вам или подойдут под ваши требования. Пробуйте и обязятельно выберете себе подходящий софт.
  •  


maksimka

Ну даже не знаю что и говорить тут так много знающих людей.
А я недавно только начел и считаю что адвего плагиат вполне хороший, так как уже говорили выше не может быть такого, чтоб кто-то не написал данное слово и его не было в сети.
Я считаю, что проверка идет по какому либо сайту, который ты указуеш в проверке на уникальность текста, поэтому могут быть уникальные статьи.
И смысл загружать кучи проги когда и одна может это сделать.
  •