Операция сопоставления данных (matchingJob)

Операция предназначена для поиска новых / обновления существующих дубликатов записей в выбранных наборах правил сопоставления. Операция обновляет таблицы сопоставления, формируя тем самым кластеры дубликатов.

Операция выполняет первичный поиск и формирование кластеров, но не объединяет кластера. Для объединения используется Операция консолидации данных (duplicateJob).

Параметры операции

  • Имя пользователя (поле ввода). Логин учетной записи, от имени которой будут выполняться действия операции.

  • Размер блока наборов правил (поле ввода). Количество одновременно обрабатываемых наборов правил при запуске операции. По умолчанию 10.

  • Наборы правил (выпадающий список). Список наборов правил, которые следует обработать операции.

  • Очистить кластеры (включено по умолчанию). Очищает кластеры из индекса кластеров в OpenSearch.

  • Пропустить хранилище PostgreSQL (флаг). Если включено, то будет пропущен расчет кластеров по данным таблиц сопоставления из хранилища PostgreSQL.

  • Размер блока для PostgreSQL (поле ввода). Отвечает за размер блока при расчете кластеров по данным таблиц сопоставления из хранилища PostgreSQL.

  • Пересоздать таблицы в PostgreSQL (выключено по умолчанию). Пересоздает таблицы в Postgres, соответствующие таблицам сопоставления, на которых есть назначения выбранных наборов правил (используется, если таблицы оказались некорректны по какой-либо причине).

  • Размер блока обновления таблиц (поле ввода). Количество одновременно обрабатываемых записей (в таблице сопоставления) при запуске операции. По умолчанию 1024.

  • Обновить данные таблицы сопоставления (включено по умолчанию). Заполняет таблицы сопоставления данными записей реестров/справочников.

Примечания:

  • В операцию не входит функция консолидации кластеров, вне зависимости от того, включена автоконсолидация или нет.

  • В уведомлении о завершении операции выводится количество полученных кластеров. Можно скачать csv файл с их описанием.

Когда применяется

Операция запускается в случаях:

  • Если необходимо сформировать кластера дубликатов записей (найти дубликаты в данных).

  • При обновлении модели сопоставления данных (например, если добавлена новая колонка). В этом случае следует пересчитать и таблицы, и кластера записей.

  • При изменении алгоритма поиска (регистронезависимый --> регистрозависимый, точный --> нечеткий). В этом случае следует пересчитать кластера записей.

  • При пакетной загрузке записей с отключенным real-time matching (XLSX/REST/Custom). В результате формируются таблицы сопоставления, следует пересчитать матчинг. Затем рекомендуется включить real-time matching, чтобы поиск дубликатов работал после одиночных вставок.

Периодичность запуска определяется администратором системы с учетом рабочих задач по обслуживанию Юниверс MDM.

С помощью триггеров можно настроить последовательное выполнение операций matchingJob > duplicateJob.

Сравнение с reindexDataJob

Операцию переиндексации (reindexDataJob) стоит запускать, когда поменялась модель данных, и необходимо обновить под нее поисковые индексы; либо, когда с индексами что-то произошло, и нужно их починить.

Операцию сопоставления данных (matchingJob) стоит запускать, когда поменялась модель сопоставления данных или когда необходимо произвести массовое сопоставление.

Особенности reindexDataJob: можно выбирать, записи каких реестров/справочников будут затронуты.

matchingJob делает следующее:

  1. Обновляет таблицы матчинга (с ними работают алгоритмы матчинга).

  2. Вычисляет кластеры дубликатов вне зависимости от того, включен real-time или нет.

Особенности matchingJob:

  • Можно выбирать, по каким наборам правил сопоставления будут затронуты записи.

  • Более подробное уведомление по результату работы операции.