Анализ вопросов автоматизации поиска информации
Рассмотрены вопросы полнотекстового поиска и анализа текстовой информации для построения современных поисковых систем. Проанализированы методы оценки релевантности найденной информации поисковому запросу на естественном языке.
Авторы
Тэги
Тематические рубрики
Предметные рубрики
В этом же номере:
Резюме по документу**
Н.Э. Баумана, Москва, 105005, Россия
Рассмотрены вопросы полнотекстового поиска и анализа текстовой
информации для построения современных поисковых систем. <...> Проанализированы
методы оценки релевантности найденной информации
поисковому запросу на естественном языке. <...> Поиск информации начинается с формулирования запроса, отражающего
цель поиска. <...> Очевидно, что качество поисковой
системы с точки зрения пользователя зависит от того, насколько точно
полученные выдержки отражают содержание запроса. <...> Оценка
степени соответствия полученных документов запросу или содержательной
релевантности (адекватности) является, по своей сути, субъективной
оценкой. <...> Для автоматизации процесса поиска информации
вводится понятие формальной релевантности. <...> Процесс информационного
поиска может быть представлен последовательностью шагов,
приведенной на рис. <...> Индексируемые
документы
Индексирование
документов
Поиск
релевантных
документов
Ранжирование
результатов
Запрос
Разбор
поискового
запроса
Составление
ранжированного
списка документов
Результат
поиска
Рис. <...> Вопросы полнотекстового поиска
естественным образом связаны с анализом текста. <...> Законы Зипфа коротко можно сформулировать следующим образом: – в каждом языке есть слова, которые встречаются чаще, чем остальные, но не имеют значения; – есть слова, которые встречаются реже, но имеют намного большее смысловое значение. <...> Очевидно, что слова входят в анализируемые тексты разное число раз. <...> Если сгруппировать слова по частоте вхождения, то получается подмножество слов, встречающихся в тексте примерно одинаковое число раз. <...> Слова, которые встречаются в тексте максимальное число раз, составляют первое подмножество, и далее по убыванию частоты вхождения. <...> Вероятность встретить в тексте заданное слово определяется как отношение частоты вхождения к числу слов в тексте: Вероятность = Частота вхождения слова / Число слов Дж. <...> Зипфом была обнаружена интересная закономерность <...>
** - вычисляется автоматически, возможны погрешности
Похожие документы: