Поиск дубликатов фраз в текстах

  • Автор темы Автор темы $tatic
  • Дата начала Дата начала
Статус
Закрыто для дальнейших ответов.

$tatic

Участник
Топикстартер
Сообщения
32
Реакции
12
Имеется множество (более 100) текстовых файлов. Нужно постараться отыскать в них как можно больше повторяющихся фраз (иногда даже целых абзацев), т.е. в нескольких документах могут встречаться одни и те же предложения. Встречал ли кто-нибудь программу для решения такой задачи? Поиск синонимов не требуется, но хорошо бы было, если бы допускались некоторые незначительные расхождения (пунктуация, отдельные слова и т.п.).
 
Ответ: Поиск дубликатов фраз в текстах

гугл много чего предлагает
 
Ответ: Поиск дубликатов фраз в текстах

Это что-то типа антиплагиата требуется?
 
Ответ: Поиск дубликатов фраз в текстах

Это что-то типа антиплагиата требуется?

Да, общий принцип в целом похож, только цель другая. Ну и проверять надо не "новый документ" с базой существующих, а все документы друг с другом.
 
Ответ: Поиск дубликатов фраз в текстах

В общем частично решил задачу при помощи программы Sherlock.
 
Статус
Закрыто для дальнейших ответов.