РУсскоязычный Архив Электронных СТатей периодических изданий
Известия высших учебных заведений. Поволжский регион. Технические науки/2013/№ 3/

Алгоритмы построения инвертированного индекса для коллекции текстовых данных

Исследована временная сложность анализируемых алгоритмов построения инвертированного индекса для текстовой коллекции в зависимости от различных параметров. Инвертированный индекс обычно является слишком большим, чтобы быть загруженным полностью в оперативную память. Если объем оперативной памяти, доступный процессу индексации, является слишком маленьким, чтобы позволить индексу быть созданным полностью в оперативной памяти, то описанный способ построения индекса в памяти может быть расширен до основанного на слиянии метода, в котором текстовый набор динамически делится на поднаборы, исходя из доступного количества оперативной памяти. Проведено сравнение временной сложности анализируемых алгоритмов в зависимости от объема оперативной памяти ПК, на котором выполняется индексирование, что позволяет сделать выводы об обоснованности применения каждого из них в том или ином случае.

Авторы
Тэги
Тематические рубрики
Предметные рубрики
В этом же номере:
Резюме по документу**
А. А. Трифонов АЛГОРИТМЫ ПОСТРОЕНИЯ ИНВЕРТИРОВАННОГО ИНДЕКСА ДЛЯ КОЛЛЕКЦИИ ТЕКСТОВЫХ ДАННЫХ Аннотация. <...> Кроме этого, необходимо сравнить временную сложность анализируемых алгоритмов, что позволит сделать выводы об обоснованности применения каждого из них в том или ином случае. <...> При построении систем информационного поиска многие решения зависят от характеристик компьютерного обеспечения, на котором будет развернута система, поэтому способы построения индекса могут быть разделены на две категории: построение, основанное на памяти, и построение, основанное на диске. <...> Данные проведенных исследований показывают, что производительность алгоритмов построения индекса очень зависит от количества оперативной памяти, доступной процессу индексации. <...> Учитывая специфику алгоритмов индексирования, сравнивать их сложность имеет смысл, когда объем коллекции больше или меньше объема M оперативной памяти ПК, на котором выполняется индексирование. <...> Исследована временная сложность анализируемых алгоритмов построения инвертированного индекса для текстовой коллекции в зависимости от различных параметров. <...> Если объем оперативной памяти, доступный процессу индексации, является слишком маленьким, чтобы позволить индексу быть созданным полностью в оперативной памяти, то описанный способ построения индекса в памяти может быть расширен до основанного на слиянии метода, в котором текстовый набор динамически делится на поднаборы, исходя из доступного количества оперативной памяти. <...> Проведено сравнение временной сложности анализируемых алгоритмов в зависимости от объема оперативной памяти ПК, на котором выполняется индексирование, что позволяет сделать выводы об обоснованности применения каждого из них в том или ином случае. <...> Построение индекса, основанное на сортировке, стоит применять, когда объем текстовой коллекции не превышает несколько гигабайт. <...> Чаще всего под информационным поиском понимается <...>
** - вычисляется автоматически, возможны погрешности

Похожие документы: