Концепция поиска дубликатов¶
Поиск и выявление дублирующихся записей является важной частью контроля качества данных. Очистка данных от дубликатов уменьшает объем хранимой информации, уменьшает количество ошибок и противоречий.
Дубликаты записей отображаются в виде кластеров, формируемых по правилам сопоставления. Правила сопоставления - это описание критериев, по которым можно определить дубликаты. Например, можно сравнивать записи по 2-3 атрибутам, при этом допуская, что остальные атрибуты могут отличаться. Важно, что дубликаты могут быть семантическими, то есть описывать одно и то же, но разными способами - и здесь важно верно определить признаки дубликатов, чтобы учитывать их в правилах сопоставления.
Примечание
Сопоставляются только простые и кодовые атрибуты. Для сопоставления связей и атрибутов других типов требуется создание кастомного потока выполнения.
В кластер попадают все записи реестра/справочника, атрибуты которых имеют совпадения по заданным критериям. Пользователь может сравнить эти записи и обработать по внутренним бизнес-правилам.
Правила сопоставления объединяются в наборы правил, которые назначаются на определенный реестр или справочник. Наборы можно использовать сразу в нескольких реестрах, что помогает автоматизировать работу.
Механизмы сопоставления срабатывают и создают кластеры дубликатов при событиях:
создание новой записи с признаками дубликата (в реальном времени);
при запуске операции переиндексации данных с включенным флагом "Обновить данные таблиц сопоставления".
Пример использования¶
Бизнес объединил базы данных своих внутренних подразделений. Теперь реестр «Клиенты» содержит перечень всех организаций, которым когда-либо поставлял продукцию. Проблема в том, что некоторые подразделения использовали одни и те же данные, но заполняли их по своим регламентам. Известно, что записи о клиентах могут содержать атрибуты, которые использовались в разных базах данных. Это могут быть атрибуты:
Наименование.
Контактное лицо.
Реквизиты.
Следует объединить повторные записи в кластеры для последующей обработки: превращения кластера записей в одну эталонную запись.
Чтобы решить эту задачу, администратор данных должен выполнить следующий порядок действий:
Подготовить таблицу сопоставления.
Создать правило сопоставления, в котором будет указан требуемый алгоритм обнаружения дубликатов.
Создать набор правил, в котором будет использованы правило и таблица сопоставления.
Назначить набор на реестр «Клиенты».
Запустить проверку данных на дубликаты одним из доступных способов.
Оператор данных может искать и просматривать кластеры дубликатов, сравнивать их по отличающимся атрибутам, обрабатывать записи.