Операция сопоставления данных (matchingJob)

Операция предназначена для поиска новых / обновления существующих дубликатов записей в выбранных наборах правил сопоставления. Операция обновляет таблицы сопоставления, формируя тем самым кластеры дубликатов.

Параметры операции

  • Имя пользователя (поле ввода). Логин учетной записи, от имени которой будут выполняться действия операции.

  • Размер блока наборов правил (поле ввода). Количество одновременно обрабатываемых наборов правил при запуске операции. По умолчанию 10.

  • Наборы правил (выпадающий список). Список наборов правил, которые следует обработать операции.

  • Размер блока обновления таблиц (поле ввода). Количество одновременно обрабатываемых записей (в таблице сопоставления) при запуске операции. По умолчанию 1024.

Примечания:

  • В операцию не входит функция консолидации кластеров, вне зависимости от того, включена автоконсолидация или нет.

  • В уведомлении о завершении операции выводится количество полученных кластеров. Можно скачать csv файл с их описанием.

Применение операции

  • При обновлении модели сопоставления данных (например, если добавлена новая колонка). В этом случае следует пересчитать и таблицы, и кластера записей.

  • При изменении алгоритма поиска (регистронезависимый --> регистрозависимый, точный --> нечеткий). В этом случае следует пересчитать кластера записей.

  • При пакетной загрузке записей с отключенным real-time matching (XLSX/REST/Custom). В результате формируются таблицы сопоставления, следует пересчитать матчинг. Затем рекомендуется включить real-time matching, чтобы поиск дубликатов работал после одиночных вставок.

Сравнение с reindexDataJob

Операцию переиндексации (reindexDataJob) стоит запускать, когда поменялась модель данных, и необходимо обновить под нее поисковые индексы; либо, когда с индексами что-то произошло, и нужно их починить.

Операцию сопоставления данных (matchingJob) стоит запускать, когда поменялась модель сопоставления данных или когда необходимо произвести массовое сопоставление.

reindexDataJob с флагом "Обновить данные таблиц сопоставления" в части индексов сопоставления:

  1. Обновляет таблицы матчинга (с ними работают алгоритмы матчинга).

  2. Вычисляет кластеры дубликатов: если включен real-time матчинг (параметр org.unidata.mdm.matching.data.real.time.matching.enabled в backend.properties).

Особенности reindexDataJob: можно выбирать, записи каких реестров/справочников будут затронуты.

matchingJob делает следующее:

  1. Обновляет таблицы матчинга (с ними работают алгоритмы матчинга).

  2. Вычисляет кластеры дубликатов вне зависимости от того, включен real-time или нет.

Особенности matchingJob:

  • Можно выбирать, по каким наборам правил сопоставления будут затронуты записи.

  • Более подробное уведомление по результату работы операции.