РУсскоязычный Архив Электронных СТатей периодических изданий
Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии/2008/№ 2/

МЕТОД РАЗБИЕНИЯ ВЕБ-СТРАНИЦ НА СЕМАНТИЧЕСКИЕ БЛОКИ С ЦЕЛЬЮ ВЫЯВЛЕНИЯ СХОЖИХ ДОКУМЕНТОВ

Задача поиска схожих документов рассмотрена с точки зрения составляющих их блоков. Предлагается алгоритм, позволяющий выделять семантические блоки из web-страниц путем анализа DOM-дерева. Предлагается метод, позволяющий поблочно определять похожесть web-документов между собой и дающий общую оценку степени схожести многоблочных документов. Показан прирост качества распознавания дубликатов на основе сравнения метода шинглирования

Авторы
Тэги
Тематические рубрики
Предметные рубрики
В этом же номере:
Резюме по документу**
** - вычисляется автоматически, возможны погрешности

Похожие документы: