МЕТОД РАЗБИЕНИЯ ВЕБ-СТРАНИЦ НА СЕМАНТИЧЕСКИЕ БЛОКИ С ЦЕЛЬЮ ВЫЯВЛЕНИЯ СХОЖИХ ДОКУМЕНТОВ

Задача поиска схожих документов рассмотрена с точки зрения составляющих их блоков. Предлагается алгоритм, позволяющий выделять семантические блоки из web-страниц путем анализа DOM-дерева. Предлагается метод, позволяющий поблочно определять похожесть web-документов между собой и дающий общую оценку степени схожести многоблочных документов. Показан прирост качества распознавания дубликатов на основе сравнения метода шинглирования

Авторы

Косинов Д.И.

Тэги

web-страницы семантические блоки метод шинглирования анализ DOM-дерева.

Тематические рубрики

Общий отдел

Предметные рубрики

В этом же номере:

ИНТЕРПОЛЯЦИЯ ФУНКЦИИ, ЗАДАННОЙ СРЕДНИМИ ЗНАЧЕНИЯМИ, РАЗРЕШЕНИЕ КОНФЛИКТНЫХ СИТУАЦИЙ В ЭКОНОМИЧЕСКОМ ПОЛЕ КАК ОСНОВА ВЫБОРА ЭФФЕКТИВНЫХ ТРАЕКТОРИЙ ДВИЖЕНИЯ СИСТЕМ, ...

Резюме по документу**

** - вычисляется автоматически, возможны погрешности

Похожие документы:

Похожие документы из РУАЭСТ
|
Похожие документы из Руконт

МЕТОД РАЗБИЕНИЯ ВЕБ-СТРАНИЦ НА СЕМАНТИЧЕСКИЕ БЛОКИ С ЦЕЛЬЮ ВЫЯВЛЕНИЯ СХОЖИХ ДОКУМЕНТОВ

Помощь:

Участники: