Анализ вопросов автоматизации поиска информации

Рассмотрены вопросы полнотекстового поиска и анализа текстовой информации для построения современных поисковых систем. Проанализированы методы оценки релевантности найденной информации поисковому запросу на естественном языке.

Авторы

Рязанова Н.Ю.

Тэги

поисковая система полнотекстовый поиск релевантность запросу

Тематические рубрики

Общий отдел

Предметные рубрики

В этом же номере:

Имитационное моделирование с применением библиотеки классов языка Java, разработанной для «облачных» сервисов, Разбиения семейства матриц Адамара, ...

Резюме по документу**

Н.Э. Баумана, Москва, 105005, Россия Рассмотрены вопросы полнотекстового поиска и анализа текстовой информации для построения современных поисковых систем. <...> Проанализированы методы оценки релевантности найденной информации поисковому запросу на естественном языке. <...> Поиск информации начинается с формулирования запроса, отражающего цель поиска. <...> Очевидно, что качество поисковой системы с точки зрения пользователя зависит от того, насколько точно полученные выдержки отражают содержание запроса. <...> Оценка степени соответствия полученных документов запросу или содержательной релевантности (адекватности) является, по своей сути, субъективной оценкой. <...> Для автоматизации процесса поиска информации вводится понятие формальной релевантности. <...> Процесс информационного поиска может быть представлен последовательностью шагов, приведенной на рис. <...> Индексируемые документы Индексирование документов Поиск релевантных документов Ранжирование результатов Запрос Разбор поискового запроса Составление ранжированного списка документов Результат поиска Рис. <...> Вопросы полнотекстового поиска естественным образом связаны с анализом текста. <...> Законы Зипфа коротко можно сформулировать следующим образом: – в каждом языке есть слова, которые встречаются чаще, чем остальные, но не имеют значения; – есть слова, которые встречаются реже, но имеют намного большее смысловое значение. <...> Очевидно, что слова входят в анализируемые тексты разное число раз. <...> Если сгруппировать слова по частоте вхождения, то получается подмножество слов, встречающихся в тексте примерно одинаковое число раз. <...> Слова, которые встречаются в тексте максимальное число раз, составляют первое подмножество, и далее по убыванию частоты вхождения. <...> Вероятность встретить в тексте заданное слово определяется как отношение частоты вхождения к числу слов в тексте: Вероятность = Частота вхождения слова / Число слов Дж. <...> Зипфом была обнаружена интересная закономерность <...>

** - вычисляется автоматически, возможны погрешности

Похожие документы:

Похожие документы из РУАЭСТ
|
Похожие документы из Руконт

Анализ вопросов автоматизации поиска информации

Помощь:

Участники: