Алгоритмы построения инвертированного индекса для коллекции текстовых данных
Исследована временная сложность анализируемых алгоритмов построения инвертированного индекса для текстовой коллекции в зависимости от различных параметров. Инвертированный индекс обычно является слишком большим, чтобы быть загруженным полностью в оперативную память. Если объем оперативной памяти, доступный процессу индексации, является слишком маленьким, чтобы позволить индексу быть созданным полностью в оперативной памяти, то описанный способ построения индекса в памяти может быть расширен до основанного на слиянии метода, в котором текстовый набор динамически делится на поднаборы, исходя из доступного количества оперативной памяти. Проведено сравнение временной сложности анализируемых алгоритмов в зависимости от объема оперативной памяти ПК, на котором выполняется индексирование, что позволяет сделать выводы об обоснованности применения каждого из них в том или ином случае.
Авторы
Тэги
Тематические рубрики
Предметные рубрики
В этом же номере:
Резюме по документу**
А. А. Трифонов
АЛГОРИТМЫ ПОСТРОЕНИЯ ИНВЕРТИРОВАННОГО
ИНДЕКСА ДЛЯ КОЛЛЕКЦИИ ТЕКСТОВЫХ ДАННЫХ
Аннотация. <...> Кроме этого, необходимо сравнить
временную сложность анализируемых алгоритмов, что позволит сделать
выводы об обоснованности применения каждого из них в том или ином случае. <...> При построении систем информационного поиска
многие решения зависят от характеристик компьютерного обеспечения, на котором
будет развернута система, поэтому способы построения индекса могут быть
разделены на две категории: построение, основанное на памяти, и построение, основанное
на диске. <...> Данные проведенных исследований показывают, что производительность
алгоритмов построения индекса очень зависит от количества оперативной
памяти, доступной процессу индексации. <...> Учитывая специфику алгоритмов
индексирования, сравнивать их сложность имеет смысл, когда объем коллекции
больше или меньше объема M оперативной памяти ПК, на котором выполняется
индексирование. <...> Исследована временная сложность анализируемых
алгоритмов построения инвертированного индекса для текстовой
коллекции в зависимости от различных параметров. <...> Если объем оперативной памяти, доступный процессу
индексации, является слишком маленьким, чтобы позволить индексу быть созданным
полностью в оперативной памяти, то описанный способ построения
индекса в памяти может быть расширен до основанного на слиянии метода, в
котором текстовый набор динамически делится на поднаборы, исходя из доступного
количества оперативной памяти. <...> Проведено сравнение временной
сложности анализируемых алгоритмов в зависимости от объема оперативной
памяти ПК, на котором выполняется индексирование, что позволяет сделать
выводы об обоснованности применения каждого из них в том или ином случае. <...> Построение индекса, основанное на сортировке, стоит применять,
когда объем текстовой коллекции не превышает несколько гигабайт. <...> Чаще всего под информационным поиском понимается <...>
** - вычисляется автоматически, возможны погрешности
Похожие документы: