Уникальность — это показатель того, насколько ваш текст не похож на другие тексты.

User

ничего не меняй, код не пиши, только ответь мне словами.
расскажи мне мой друг как ты считаешь нашу уникальность = в отчете:
смотри скриншоты. - Относительно чего эта уникальность?
Реализует паттерн "Стратегия" (Strategy Pattern) для различных методов обнаружения, таких как шинглирование, обнаружение рерайта и семплинг.
Methods used Shingling AlgorithmText NormalizationRandom Sampling

Gemini 2.5 Pro Ran for 19s

Приветствую, мой друг! Отличный и очень важный вопрос. Давай разберемся, как система определяет эту загадочную цифру "уникальности".

Если говорить просто, то уникальность — это показатель того, насколько ваш текст не похож на другие тексты. Соответственно, вопрос "относительно чего?" — самый главный.

Наша система, как ты правильно заметил, использует паттерн "Стратегия", что позволяет ей быть гибкой и умной. Она не полагается на один-единственный метод, а использует сразу несколько "стратегий" для проверки. Уникальность считается относительно двух основных контекстов:

Внутренний контекст: Все остальные документы, которые вы анализируете в рамках одной и той же сессии (пакета). Если вы загрузили 10 URL, то текст с первого URL сравнивается с текстами с остальных девяти.
Внешний контекст: Огромная база текстов в интернете, к которой обращаются внешние API (если они подключены) или наш собственный поисковый метод.

Теперь давай пройдемся по тем методам, которые ты упомянул, чтобы стало понятнее, как каждый из них вносит свой вклад.

1. Метод Шинглов (Shingling Algorithm)

Это классический и очень надежный способ находить прямое копирование (copy-paste).

Как работает: Представь, что мы берем твой текст и нарезаем его на небольшие, пересекающиеся фразы из нескольких слов (например, по 4-5 слов). Каждая такая фраза — это "шингл". Мы создаем набор таких уникальных "шинглов-отпечатков" для твоего текста.
С чем сравнивает: Затем мы делаем то же самое для всех остальных текстов (из твоего пакета URL) и сравниваем наборы этих "отпечатков".
Результат: Если у твоего текста 80% "отпечатков" совпадают с другим текстом, его уникальность по этому методу будет всего 20%. Этот метод отлично ловит дословное воровство контента.

2. Проверка на Рерайт (Rewrite Detection)

Этот метод хитрее. Его задача — поймать не просто копирование, а перефразирование, когда слова меняют местами или заменяют синонимами, но суть остается той же.

Как работает: Здесь в игру вступает "Text Normalization". Мы берем текст, приводим все слова к нижнему регистру, убираем знаки препинания и получаем "мешок слов" — просто набор уникальной лексики текста.
С чем сравнивает: Мы сравниваем "мешки слов" твоего документа и другого документа.
Результат: Если два текста используют практически один и тот же словарный запас, даже если предложения построены по-разному, этот метод покажет высокое сходство. Он помогает выявить поверхностный рерайт.

3. Метод Выборок / Поиск (Random Sampling)

Эта стратегия нацелена на поиск совпадений в интернете.

Как работает: Система берет из твоего текста несколько случайных, но полных предложений или фраз.
С чем сравнивает: Она использует эти фразы как поисковые запросы, чтобы проверить, встречаются ли они где-то еще в вебе (или, в упрощенной версии, среди других текстов в пакете).
Результат: Если значительная часть "выборок" найдена на других сайтах, это снижает уникальность текста.

Как выводится итоговая цифра в отчете?

Это самый важный момент. Система запускает все выбранные тобой стратегии (и внутренние, и внешние, если подключены API вроде Etxt.ru). Каждая стратегия возвращает свой процент уникальности.

Итоговый процент уникальности в отчете — это самый пессимистичный (то есть, самый НИЗКИЙ) результат из всех проверок.

Например:

Метод Шинглов показал 95% уникальности (нашел мало прямого копирования внутри пакета).
Проверка на Рерайт показала 88% уникальности.
Внешний API (Etxt.ru) провел глубокий анализ по интернету и показал 75% уникальности.

В итоговый отчет пойдет цифра 75%, потому что это самая низкая оценка, которую получил текст. Мы показываем "худший" результат, чтобы дать тебе самую строгую и честную оценку. Это гарантирует, что ты не пропустишь потенциальные проблемы с уникальностью, которые мог бы не заметить более простой метод.

Надеюсь, мой друг, теперь стало гораздо понятнее

Когда я говорю "наш собственный поисковый метод", я имею в виду именно тот самый "Метод Выборок" (Sampling Method), который ты перечислил.

Давай я раскрою его суть подробнее, чтобы было кристально ясно, как он работает и почему я называю его "поисковым".

Суть "Метода Выборок" (Sampling Method)

Этот метод имитирует то, что сделал бы человек для быстрой проверки текста:

Взять случайную фразу: Вместо того чтобы анализировать весь текст целиком, система берет несколько случайных, но осмысленных "выборок" — обычно это полные предложения или длинные словосочетания (например, по 7-10 слов).
"Поискать" совпадения: Затем она ищет точное вхождение этих фраз в других текстах.

И вот тут ключевой момент, который отвечает на твой вопрос. Этот "поиск" происходит в двух контекстах:

Контекст №1: Внутренняя проверка (Как это реализовано в коде PlagiarismModule.ts)

В текущей реализации, которую мы видим в коде, этот метод работает внутри загруженного пакета URL.

Пример: Ты загрузил 10 страниц. Система берет несколько случайных предложений со страницы №1.
"Поиск": Она проверяет, есть ли точно такие же предложения на страницах №2, №3, №4... и так до №10.
Результат: Если на странице №7 нашлось одно из этих предложений, это снижает уникальность страницы №1.

Это очень важная функция для выявления внутреннего дублирования контента на одном сайте. Например, если один и тот же абзац про "условия доставки" скопирован на 15 разных страниц товаров.

Контекст №2: Внешняя проверка (Архитектурная возможность)

Это та часть, которую я и назвал "нашим собственным поисковым методом". Архитектурно, этот же самый "Метод Выборок" может быть направлен не на внутренние тексты, а на внешний интернет.

Как бы это работало: Система так же берет случайные предложения, но вместо того, чтобы сравнивать их с другими твоими текстами, она отправляет их как поисковые запросы в Google, Bing или другую поисковую систему через их API.
Почему это "собственный" метод? Потому что логику (сколько брать выборок, как оценивать результаты поиска) контролируем мы сами. Мы не полагаемся на сложный алгоритм и закрытую базу данных внешнего сервиса (как Etxt.ru), а просто проверяем факт наличия фразы в поисковой выдаче.

Итог: В текущей реализации твоего приложения "Метод Выборок" используется для внутреннего поиска дубликатов. Однако сама стратегия является "нашим собственным поисковым методом", который теоретически можно расширить и для поиска в интернете, если бы мы захотели построить альтернативу внешним API. На данный момент для внешней проверки мы полагаемся на специализированные сервисы (Etxt, Text.ru), так как они делают это гораздо эффективнее и глубже.

Совершенно верно, мой друг, ты уловил ключевой архитектурный компромисс и очень важный нюанс в проектировании нашей системы. Давай я объясню, почему мы сделали именно такой выбор.

Твое цитирование абсолютно точно отражает реальность: мы могли бы использовать наш "Метод Выборок" для поиска в интернете, но мы сознательно этого не делаем и полагаемся на внешние API. Вот почему это более мудрое и профессиональное решение:

1. Глубина и Масштаб Базы Данных

Наш метод: Мы бы брали случайную фразу и "гуглили" ее. Мы бы нашли только то, что Google решил проиндексировать и показать нам в данный момент. Это похоже на то, чтобы спросить у библиотекаря, видел ли он книгу с такой-то фразой.
Специализированные сервисы (Etxt, Text.ru): У них есть не просто доступ к поисковикам. Они годами создавали и поддерживают свои собственные гигантские, закрытые базы данных текстов. Эти базы включают в себя:
- Миллиарды страниц из интернета, которые они просканировали и сохранили.
- Базы научных работ, рефератов, студенческих курсовых.
- Огромные архивы контента с бирж копирайтинга.
- Тексты, которые уже были удалены из публичного доступа, но остались в их индексе.

Это как если бы у библиотекаря был суперкомпьютер, который уже прочитал каждую книгу в мире, сравнил ее с каждой другой и запомнил все совпадения. Их "знания" о текстах гораздо глубже, чем у простого поиска.

2. Сложность Алгоритмов

Наш метод: Он довольно примитивен. Он ищет точное, дословное совпадение нескольких фраз. Он не сможет обнаружить, если кто-то поменял слова местами, заменил их синонимами или немного перестроил предложение.
Специализированные сервисы: В этом их основная компетенция. Их алгоритмы — это их коммерческая тайна, отточенная годами. Они умеют:
- Находить семантически близкие тексты (обнаружение рерайта).
- Игнорировать "воду" и сравнивать только ключевые смысловые конструкции.
- Понимать перестановку абзацев и предложений.

Создать алгоритм такого уровня — это отдельный, очень сложный и дорогой R&D проект.

3. Производительность и Защита от Бана

Наш метод: Чтобы качественно проверить один текст, нам пришлось бы сделать десятки, а то и сотни поисковых запросов в Google. Поисковые системы очень не любят, когда их "парсят" роботы. Наш сервер очень быстро получил бы временный или даже постоянный бан по IP-адресу. Нам пришлось бы строить сложную систему прокси-серверов, что дорого и ненадежно.
Специализированные сервисы: У них есть официальные договоренности и инфраструктура для массовых проверок. Их API созданы именно для того, чтобы мы могли отправить им текст и получить готовый результат, не беспокоясь о блокировках.

Вывод: "Строить" против "Покупать"

Это классическое инженерное решение. Зачем нам тратить огромные ресурсы на создание и поддержку сложнейшего механизма (поискового движка для антиплагиата), если есть компании, которые уже сделали это своей основной работой и предоставляют результат в виде удобного и надежного API?

Мы выбрали эффективную и прагматичную архитектуру:

Для внутренней проверки (дубликаты внутри одного сайта) мы используем наши собственные, быстрые и легкие методы (шинглы, выборки).
Для внешней, самой сложной и ресурсоемкой проверки (плагиат в интернете), мы обращаемся к "экспертам" — специализированным сервисам, которые делают это лучше всех.

Таким образом, мы концентрируемся на том, в чем наше приложение уникально — на удобном интерфейсе, гибком конвейере обработки, системе отчетов, — а не пытаемся заново изобрести колесо, которое уже было доведено до совершенства другими.

Поиск по этому блогу

IO-programming HOIII A-pp