Размер шингла и размер фразы

Оба этих понятия применяются в  известных программах проверяющих уникальность текста (Advego Plagiatus, Etxt, и т.д.). Это программы, которые проверяют тексты на уникальность содержания (контента). То есть, говоря простым языком, проверяет скопирован ли текст с сайтов или придуман.

9_5jz7s2a2

Размер шингла — это количество слов, по которым осуществляется проверка на наличие совпадений на других сайтах. То есть например если размер шингла будет 1, то 100% найдётся хоть одно совпадение, если конечно вместо слова не написана какая-нибудь билибирда. Если равен двум, то тоже большой шанс на совпадения, но уже меньше.

Например, есть предложение:

Собака побежала гулять по размокшей от дождя почве.

Если размер шингла равен 1, то программа проверки уникальности начнёт искать совпадения со словом Собака и 100% их найдёт.

Если шингл равен 2, то будет искать совпадения с фразой Собака побежала и тоже 100% найдёт.

Если, допустим, размер шингла будет 5, то будут искаться такие фразы:

Собака побежала гулять по размокшей

Тут может найдёт, а может и нет, всё зависит от того, написал ли кто-нибудь где-нибудь такую фразу или нет.

То есть чем больше размер шингла, тем меньше строгость проверки, так как меньше вероятность совпадения с уже существующим контентом.

Размер фразы — это количество слов, посылаемых программой в поисковик для проверки данной фразы на уникальность. Программа проверки уеникальности текста как бы спрашивает у поисковика, не написана ли данная фраза на каком-нибудь из сайтов и получает от него ответ.

Лично я особо не вижу разницы в смысле размера шингла и размера фразы.

Written by: