Концепция поиска дубликатов

Поиск и выявление дублирующихся записей является важной частью контроля качества данных. Очистка данных от дубликатов уменьшает объем хранимой информации, уменьшает количество ошибок и противоречий.

Дубликаты записей отображаются в виде кластеров, формируемых по правилам сопоставления. Правила сопоставления - это описание критериев, по которым можно определить дубликаты. Например, можно сравнивать записи по 2-3 атрибутам, при этом допуская, что остальные атрибуты могут отличаться. Важно, что дубликаты могут быть семантическими, то есть описывать одно и то же, но разными способами - и здесь важно верно определить признаки дубликатов, чтобы учитывать их в правилах сопоставления.

Примечание

Сопоставляются только простые и кодовые атрибуты, а так же можно осуществлять поиск дубликатов по связям.

В кластер попадают все записи реестра/справочника, атрибуты/связи которых имеют совпадения по заданным критериям. Пользователь может сравнить эти записи и обработать по внутренним бизнес-правилам.

Правила сопоставления объединяются в наборы правил, которые назначаются на определенный реестр или справочник. Наборы можно использовать сразу в нескольких реестрах, что помогает автоматизировать работу.

Механизмы сопоставления срабатывают и создают кластеры дубликатов при создании новой записи с признаками дубликата (в реальном времени).

Пример использования

Бизнес объединил базы данных своих внутренних подразделений. Теперь реестр "Клиенты" содержит перечень всех организаций, которым когда-либо поставлял продукцию. Проблема в том, что некоторые подразделения использовали одни и те же данные, но заполняли их по своим регламентам. Известно, что записи о клиентах могут содержать атрибуты, которые использовались в разных базах данных. Это могут быть атрибуты:

Наименование.
Контактное лицо.
Реквизиты.

Следует объединить повторные записи в кластеры для последующей обработки: превращения кластера записей в одну эталонную запись.

Чтобы решить эту задачу, администратор данных должен выполнить следующий порядок действий:

Подготовить таблицу сопоставления.
Создать правило сопоставления, в котором будет указан требуемый алгоритм обнаружения дубликатов.
Создать набор правил, в котором будет использованы правило и таблица сопоставления.
Назначить набор на реестр "Клиенты".
Запустить проверку данных на дубликаты одним из доступных способов.

Оператор данных может искать и просматривать кластеры дубликатов, сравнивать их по отличающимся атрибутам, обрабатывать записи.