Операция сопоставления данных (matchingJob)

Операция предназначена для поиска новых / обновления существующих дубликатов записей в выбранных наборах правил сопоставления. Операция обновляет таблицы сопоставления, формируя тем самым кластеры дубликатов.

Операция выполняет первичный поиск и формирование кластеров, но не объединяет кластера. Для объединения используется Операция консолидации данных (duplicateJob).

Параметры операции

Имя пользователя (поле ввода). Логин учетной записи, от имени которой будут выполняться действия операции.
Размер блока наборов правил (поле ввода). Количество одновременно обрабатываемых наборов правил при запуске операции. По умолчанию 10.
Наборы правил (выпадающий список). Список наборов правил, которые следует обработать операции.
Очистить кластеры (включено по умолчанию). Очищает кластеры из индекса кластеров в OpenSearch.
Пропустить хранилище PostgreSQL (флаг). Если включено, то будет пропущен расчет кластеров по данным таблиц сопоставления из хранилища PostgreSQL.
Размер блока для PostgreSQL (поле ввода). Отвечает за размер блока при расчете кластеров по данным таблиц сопоставления из хранилища PostgreSQL.
Пересоздать таблицы в PostgreSQL (выключено по умолчанию). Пересоздает таблицы в Postgres, соответствующие таблицам сопоставления, на которых есть назначения выбранных наборов правил (используется, если таблицы оказались некорректны по какой-либо причине).
Размер блока обновления таблиц (поле ввода). Количество одновременно обрабатываемых записей (в таблице сопоставления) при запуске операции. По умолчанию 1024.
Обновить данные таблицы сопоставления (включено по умолчанию). Заполняет таблицы сопоставления данными записей реестров/справочников.

Примечания:

В операцию не входит функция консолидации кластеров, вне зависимости от того, включена автоконсолидация или нет.
В уведомлении о завершении операции выводится количество полученных кластеров. Можно скачать csv файл с их описанием.

Когда применяется

Операция запускается в случаях:

Если необходимо сформировать кластера дубликатов записей (найти дубликаты в данных).
При обновлении модели сопоставления данных (например, если добавлена новая колонка). В этом случае следует пересчитать и таблицы, и кластера записей.
При изменении алгоритма поиска (регистронезависимый --> регистрозависимый, точный --> нечеткий). В этом случае следует пересчитать кластера записей.
При пакетной загрузке записей с отключенным real-time matching (XLSX/REST/Custom). В результате формируются таблицы сопоставления, следует пересчитать матчинг. Затем рекомендуется включить real-time matching, чтобы поиск дубликатов работал после одиночных вставок.

Периодичность запуска определяется администратором системы с учетом рабочих задач по обслуживанию Юниверс MDM.

С помощью триггеров можно настроить последовательное выполнение операций matchingJob > duplicateJob.

Сравнение с reindexDataJob

Операцию переиндексации (reindexDataJob) стоит запускать, когда поменялась модель данных, и необходимо обновить под нее поисковые индексы; либо, когда с индексами что-то произошло, и нужно их починить.

Операцию сопоставления данных (matchingJob) стоит запускать, когда поменялась модель сопоставления данных или когда необходимо произвести массовое сопоставление.

Особенности reindexDataJob: можно выбирать, записи каких реестров/справочников будут затронуты.

matchingJob делает следующее:

Обновляет таблицы матчинга (с ними работают алгоритмы матчинга).
Вычисляет кластеры дубликатов вне зависимости от того, включен real-time или нет.

Особенности matchingJob:

Можно выбирать, по каким наборам правил сопоставления будут затронуты записи.
Более подробное уведомление по результату работы операции.