Концепция поиска дубликатов

Поиск и выявление дублирующихся записей является важной частью контроля качества данных. Очистка данных от дубликатов уменьшает объем хранимой информации, уменьшает количество ошибок и противоречий.

Дубликаты записей отображаются в виде кластеров, формируемых по правилам сопоставления. Правила сопоставления - это описание критериев, по которым можно определить дубликаты. Например, можно сравнивать записи по 2-3 атрибутам, при этом допуская, что остальные атрибуты могут отличаться. Важно, что дубликаты могут быть семантическими, то есть описывать одно и то же, но разными способами - и здесь важно верно определить признаки дубликатов, чтобы учитывать их в правилах сопоставления.

Примечание

Сопоставляются только простые и кодовые атрибуты. Для сопоставления связей и атрибутов других типов требуется создание кастомного потока выполнения.

В кластер попадают все записи реестра/справочника, атрибуты которых имеют совпадения по заданным критериям. Пользователь может сравнить эти записи и обработать по внутренним бизнес-правилам.

Правила сопоставления объединяются в наборы правил, которые назначаются на определенный реестр или справочник. Наборы можно использовать сразу в нескольких реестрах, что помогает автоматизировать работу.

Механизмы сопоставления срабатывают и создают кластеры дубликатов при событиях:

  • создание новой записи с признаками дубликата (в реальном времени);

  • при запуске операции переиндексации данных с включенным флагом "Обновить данные таблиц сопоставления".

Пример использования

Бизнес объединил базы данных своих внутренних подразделений. Теперь реестр «Клиенты» содержит перечень всех организаций, которым когда-либо поставлял продукцию. Проблема в том, что некоторые подразделения использовали одни и те же данные, но заполняли их по своим регламентам. Известно, что записи о клиентах могут содержать атрибуты, которые использовались в разных базах данных. Это могут быть атрибуты:

  • Наименование.

  • Контактное лицо.

  • Реквизиты.

Следует объединить повторные записи в кластеры для последующей обработки: превращения кластера записей в одну эталонную запись.

Чтобы решить эту задачу, администратор данных должен выполнить следующий порядок действий:

  • Подготовить таблицу сопоставления.

  • Создать правило сопоставления, в котором будет указан требуемый алгоритм обнаружения дубликатов.

  • Создать набор правил, в котором будет использованы правило и таблица сопоставления.

  • Назначить набор на реестр «Клиенты».

  • Запустить проверку данных на дубликаты одним из доступных способов.

Оператор данных может искать и просматривать кластеры дубликатов, сравнивать их по отличающимся атрибутам, обрабатывать записи.