Создание правил сопоставления

Общая информация

Правила сопоставления используются для поиска дублирующихся данных по определенным признакам и для формирования кластеров с дубликатами. Правила сопоставления имеют гибкую настройку элементов сопоставления, возможность выбора источника информации и алгоритмов сравнения данных.

Сопоставление записей может производиться:

  • По атрибутам первого уровня (простых и кодовых типов).

  • По связям. Например, если Реестр1 и Реестр2 связаны между собой связью "Многие-ко-Многим", то записи Реестра1 могут быть распознаны как дубликаты, если они имеют исходящие связи с одной и той же записью Реестра2. Соответственно, две разные записи Реестра2 могут быть распознаны как дубликаты, если они имеют входящие связи из одной и той же записи Реестра1.

В соответствии с настройками правил формируются кластеры дублирующихся записей. Список кластеров и их содержимое можно посмотреть в разделе Дубликаты, там же доступно объединение дублирующихся записей в одну.

Состав кластеров обновляется при редактировании / удалении записи в реальном времени или при запуске операции переиндексации данных (зависит от того, какие потоки выполнения настроены).

Также смотрите: Концепция поиска дубликатов.

Примечание

В текущей реализации сопоставление и объединение записей иерархических справочников недоступно

Настройка правил сопоставления

Для сопоставления записей по атрибутам:

  1. Создайте таблицу сопоставления. В параметрах колонок сопоставления в поле Тип выберите тип атрибута.

  2. Создайте правило сопоставления. Укажите алгоритм:

    • "Точное соответствие" и при необходимости включите регистронезависимый поиск.

    • "Неточное соответствие" для сопоставления по неточному соответствию значений. Выберите язык, задайте порог схожести и выберите тип объединения.

  3. Создайте набор правил. В соответствующих полях выберите ранее созданные таблицу и правило сопоставления.

  4. Настройте назначение правил. Выберите ранее созданную таблицу сопоставления, после чего выберите необходимый атрибут. При необходимости включите автоконсолидацию записей.

  5. В результате действия в системе будут созданы необходимые правила сопоставления записей. Далее настройте запуск поиска дубликатов.

Для сопоставления записей по связям:

  1. Создайте таблицу сопоставления. В параметрах колонок сопоставления в поле Тип выберите "Набор строк".

  2. Создайте правило сопоставления. Укажите алгоритм "Сопоставление наборов значений" и настройку алгоритма "Сопоставить по пересечению".

  3. Создайте набор правил. В соответствующих полях выберите ранее созданные таблицу и правило сопоставления.

  4. Настройте назначение правил. Выберите ранее созданную таблицу сопоставления. Для Входящей связи укажите поле вида relation:name_of_relation1:{}.$from_etalon_id; для Исходящей - поле вида relation:name_of_relation1:{}.$to_etalon_id.

  5. В результате действия в системе будут созданы необходимые правила сопоставления записей. Далее настройте запуск поиска дубликатов.

Запуск поиска дубликатов

Для запуска поисков дубликатов записей в системе должны быть созданы правила сопоставления данных (см. выше), а также настроены механизмы поиска.

После корректной настройки становится доступен просмотр дубликатов записей в виде кластеров в разделе "Дубликаты" .