Задача поиска схожих документов рассмотрена с точки зрения составляющих их блоков. Предлагается алгоритм, позволяющий выделять семантические блоки из web-страниц путем анализа DOM-дерева. Предлагается метод, позволяющий поблочно определять похожесть web-документов между собой и дающий общую оценку степени схожести многоблочных документов. Показан прирост качества распознавания дубликатов на основе сравнения метода шинглирования