РУсскоязычный Архив Электронных СТатей периодических изданий
Инженерный журнал: наука и инновации/2013/№ 2/

Анализ вопросов автоматизации поиска информации

Рассмотрены вопросы полнотекстового поиска и анализа текстовой информации для построения современных поисковых систем. Проанализированы методы оценки релевантности найденной информации поисковому запросу на естественном языке.

Авторы
Тэги
Тематические рубрики
Предметные рубрики
В этом же номере:
Резюме по документу**
Н.Э. Баумана, Москва, 105005, Россия Рассмотрены вопросы полнотекстового поиска и анализа текстовой информации для построения современных поисковых систем. <...> Проанализированы методы оценки релевантности найденной информации поисковому запросу на естественном языке. <...> Поиск информации начинается с формулирования запроса, отражающего цель поиска. <...> Очевидно, что качество поисковой системы с точки зрения пользователя зависит от того, насколько точно полученные выдержки отражают содержание запроса. <...> Оценка степени соответствия полученных документов запросу или содержательной релевантности (адекватности) является, по своей сути, субъективной оценкой. <...> Для автоматизации процесса поиска информации вводится понятие формальной релевантности. <...> Процесс информационного поиска может быть представлен последовательностью шагов, приведенной на рис. <...> Индексируемые документы Индексирование документов Поиск релевантных документов Ранжирование результатов Запрос Разбор поискового запроса Составление ранжированного списка документов Результат поиска Рис. <...> Вопросы полнотекстового поиска естественным образом связаны с анализом текста. <...> Законы Зипфа коротко можно сформулировать следующим образом: – в каждом языке есть слова, которые встречаются чаще, чем остальные, но не имеют значения; – есть слова, которые встречаются реже, но имеют намного большее смысловое значение. <...> Очевидно, что слова входят в анализируемые тексты разное число раз. <...> Если сгруппировать слова по частоте вхождения, то получается подмножество слов, встречающихся в тексте примерно одинаковое число раз. <...> Слова, которые встречаются в тексте максимальное число раз, составляют первое подмножество, и далее по убыванию частоты вхождения. <...> Вероятность встретить в тексте заданное слово определяется как отношение частоты вхождения к числу слов в тексте: Вероятность = Частота вхождения слова / Число слов Дж. <...> Зипфом была обнаружена интересная закономерность <...>
** - вычисляется автоматически, возможны погрешности

Похожие документы: