КОНТЕКСТНО ЗАВИСИМЫЙ СПОСОБ ПОИСКА НЕЧЕТКИХ ДУБЛИКАТОВ В РЕЛЯЦИОННЫХ БАЗАХ ДАННЫХ
Постановка проблемы: одной из важных проблем в области управления данными является их неполное (нечеткое)
дублирование, ведущее к снижению качества, в частности к ошибочной интерпретации информационной системой
одного и того же объекта как нескольких разных. Реляционная модель данных, а также промышленные СУБД на осно-
ве реляционной модели, позволяют исключить ситуации полного дублирования данных, но не имеют механизмов для
распознавания и предотвращения появления нечетких дубликатов. Целью работы является разработка такого способа
обнаружения нечетких дубликатов, который мог бы быть реализован в реляционной модели данных и промышленной
реляционной СУБД. Результаты: рассмотрена общая для информационных систем проблема нечеткого дублирования,
предложены пути внесения смысловой дублирующей информации в реляционную базу данных. Определено, что для
решения проблемы неполного дублирования следует использовать механизмы нечеткого сравнения строк с учетом их
семантики. Приведен пример практической реализации способа для СУБД PostgreSQL с использованием реляционных
механизмов обработки данных. Практическая значимость: разработанный способ позволяет автоматически обнару-
живать дубликаты, исключив вмешательство человека-оператора, и тем самым повысить качество данных информаци-
онной системы. Пример практической реализации для промышленной СУБД позволяет непосредственно использовать
предложенный способ в инженерной практике разработки информационных систем. Данный способ также был исполь-
зован авторами при разработке коммерческой автоматизированной информационной системы.
Авторы
Тэги
Тематические рубрики
Предметные рубрики
В этом же номере:
Резюме по документу**
ПРОГРАММНЫЕ И АППАРАТНЫЕ СРЕДСТВА
УДК 004.6
doi:10.15217/issn1684-8853.2015.2.76
КОНТЕКСТНО ЗАВИСИМЫЙ СПОСОБ ПОИСКА
НЕЧЕТКИХ ДУБЛИКАТОВ В РЕЛЯЦИОННЫХ БАЗАХ ДАННЫХ <...> С. В. Тарасова, ведущий инженер исследований и разработки
Постановка проблемы: одной из важных проблем в области управления данными является их неполное (нечеткое)
дублирование, ведущее к снижению качества, в частности к ошибочной интерпретации информационной системой
одного и того же объекта как нескольких разных. <...> Реляционная модель данных, а также промышленные СУБД на основе
реляционной модели, позволяют исключить ситуации полного дублирования данных, но не имеют механизмов для
распознавания и предотвращения появления нечетких дубликатов. <...> Целью работы является разработка такого способа
обнаружения нечетких дубликатов, который мог бы быть реализован в реляционной модели данных и промышленной
реляционной СУБД. <...> Результаты: рассмотрена общая для информационных систем проблема нечеткого дублирования,
предложены пути внесения смысловой дублирующей информации в реляционную базу данных. <...> Определено, что для
решения проблемы неполного дублирования следует использовать механизмы нечеткого сравнения строк с учетом их
семантики. <...> Приведен пример практической реализации способа для СУБД PostgreSQL с использованием реляционных
механизмов обработки данных. <...> Одним из показателей низкого качества данных
является их дублирование, ведущее в итоге
к ошибочной интерпретации одного и того же
объекта как нескольких разных. <...> Проблема решается стандартным ограничением
уникальности значения атрибута в соответствующей
колонке таблицы: поиск дубликатов
производится системой управления базой
данных (СУБД) по точному совпадению значения. <...> Не представляется возможным
использовать стандартные ограничения
целостности, предоставляемые реляционной моделью
и соответствующими СУБД. <...> Метод n-грамм и нечеткое сравнение строк Задача поиска дубликатов может быть <...>
** - вычисляется автоматически, возможны погрешности
Похожие документы: