Использование файла в качестве избыточного словаря для препроцессинга данных на основе словарных методов сжатия
Освещаются методы словарного сжатия данных, их характеристики и особенности реализации. Приводится классификация словарных методов сжатия данных. Изложен алгоритм сжатия данных, который предполагает использование файла как избыточного словаря для сжатия данных, приведена таблица свойств методов при работе с препроцессором, который работает на основе данного алгоритма.
Авторы
Тэги
Тематические рубрики
Предметные рубрики
В этом же номере:
Резюме по документу**
А. П. Поддубный, М. А. Холуев, Н. С. Галактионов
ИСПОЛЬЗОВАНИЕ ФАЙЛА В КАЧЕСТВЕ ИЗБЫТОЧНОГО
СЛОВАРЯ ДЛЯ ПРЕПРОЦЕССИНГА ДАННЫХ
НА ОСНОВЕ СЛОВАРНЫХ МЕТОДОВ СЖАТИЯ
Аннотация. <...> Освещаются методы словарного сжатия данных, их характеристики
и особенности реализации. <...> Изложен алгоритм сжатия данных, который предполагает использование
файла как избыточного словаря для сжатия данных; приведена
таблица свойств методов при работе с препроцессором, который работает на
основе данного алгоритма. <...> Использование словаря в словарных методах сжатия
На сегодня уже существуют эффективные методы сжатия информации
и определены основные тенденции дальнейшего развития в этой сфере. <...> Обычно процесс сжатия представляет собой два действия: препроцессинг и
кодинг. <...> Выделяют несколько стратегий построения словаря:
– статическая, т.е. словарь строится заранее и полностью известен как
препроцессору, так и постпроцессору;
– полуадаптивная, когда словарь выбирается из нескольких заранее
сконструированных и известных препроцессору и постпроцессору словарей
или достраивается, при этом один из имеющихся словарей берется за основу;
– адаптивная, т.е. целиком создаваемая специально для сжимаемого
файла (блока) данных на основании его анализа. <...> Идея заключается в использовании статического
словаря, состоящего из последовательностей символов длиной от двух до небольшого
числа n (обычно 4–5). <...> В большинстве случаев размер словаря равен
примерно 100 таким фразам. <...> К достоинствам данного типа словаря можно
отнести:
– малый размер;
– обеспечение существенного прироста степени сжатия текстов;
– простоту реализации. <...> Небольшой размер словаря обусловлен двумя причинами:
– это упрощает кодирование блоков данных словаря;
– дальнейшее увеличение размера словаря улучшает сжатие лишь незначительно
(справедливо для BWT и в меньшей степени для LZ) либо даже
вредит в большинстве случаев (справедливо для РРМ). <...> Поэтому построение словаря <...>
** - вычисляется автоматически, возможны погрешности
Похожие документы: