Операция сопоставления данных (matchingJob)¶
Операция предназначена для поиска новых / обновления существующих дубликатов записей в выбранных наборах правил сопоставления. Операция обновляет таблицы сопоставления, формируя тем самым кластеры дубликатов.
Параметры операции¶
Имя пользователя (поле ввода). Логин учетной записи, от имени которой будут выполняться действия операции.
Размер блока наборов правил (поле ввода). Количество одновременно обрабатываемых наборов правил при запуске операции. По умолчанию 10.
Наборы правил (выпадающий список). Список наборов правил, которые следует обработать операции.
Размер блока обновления таблиц (поле ввода). Количество одновременно обрабатываемых записей (в таблице сопоставления) при запуске операции. По умолчанию 1024.
Примечания:
В операцию не входит функция консолидации кластеров, вне зависимости от того, включена автоконсолидация или нет.
В уведомлении о завершении операции выводится количество полученных кластеров. Можно скачать csv файл с их описанием.
Применение операции¶
При обновлении модели сопоставления данных (например, если добавлена новая колонка). В этом случае следует пересчитать и таблицы, и кластера записей.
При изменении алгоритма поиска (регистронезависимый --> регистрозависимый, точный --> нечеткий). В этом случае следует пересчитать кластера записей.
При пакетной загрузке записей с отключенным real-time matching (XLSX/REST/Custom). В результате формируются таблицы сопоставления, следует пересчитать матчинг. Затем рекомендуется включить real-time matching, чтобы поиск дубликатов работал после одиночных вставок.
Сравнение с reindexDataJob¶
Операцию переиндексации (reindexDataJob) стоит запускать, когда поменялась модель данных, и необходимо обновить под нее поисковые индексы; либо, когда с индексами что-то произошло, и нужно их починить.
Операцию сопоставления данных (matchingJob) стоит запускать, когда поменялась модель сопоставления данных или когда необходимо произвести массовое сопоставление.
reindexDataJob с флагом "Обновить данные таблиц сопоставления" в части индексов сопоставления:
Обновляет таблицы матчинга (с ними работают алгоритмы матчинга).
Вычисляет кластеры дубликатов: если включен real-time матчинг (параметр org.unidata.mdm.matching.data.real.time.matching.enabled в backend.properties).
Особенности reindexDataJob: можно выбирать, записи каких реестров/справочников будут затронуты.
matchingJob делает следующее:
Обновляет таблицы матчинга (с ними работают алгоритмы матчинга).
Вычисляет кластеры дубликатов вне зависимости от того, включен real-time или нет.
Особенности matchingJob:
Можно выбирать, по каким наборам правил сопоставления будут затронуты записи.
Более подробное уведомление по результату работы операции.