Вкладка "Профилирование"

Вкладка "Профилирование" доступна только для активов с типом "Колонка", которые отмечены как часть физического слоя (т.е. при загрузке из краулера / сканера получили теги layer:physical и category:attribute).

На вкладке отображаются подробные результаты профилирования данных, загруженные из профилировщика (если результаты есть).

Профилирование отображает круговую диаграмму уникальности значений, распределение по типам данных значений, проценты повторяемости значений и т.д.

При клике по сектору диаграммы: подсвечивается выбранный сектор. По умолчанию выбран сектор с наибольшим значением. Повторный клик снимает выделение.

При клике по столбцу с процентом повторяемости значений: подсвечивается выбранный столбец и соответствующая строка в столбце ниже. Повторный клик снимает выделение.

Механизм работы

По умолчанию, в рамках системы выполняется процесс, который включает сопоставление объекта UDG и загруженных результатов профилирования. Сопоставление осуществляется по уникальному идентификатору актива (external_id) и данным из таблицы org_unidata_mdm_timelog_core.dg_profiling (поля column_path и information_system). Однако, возникала проблема при работе с источниками данных типа Postgres, где формат external_id не совпадал с форматом пути до актива (column_path), что делало невозможным корректное отображение результатов профилирования.

Для решения этой проблемы было реализовано улучшение, которое обеспечивает гибкость при сопоставлении данных и расширяет возможности настройки краулеров.

Исходное поведение системы

  • Сопоставление результатов профилирования выполняется по уникальному идентификатору - external_id.

  • Для источников данных типа Postgres используется сканер, который генерирует уникальный external_id (например, 8f5d5ec7ea25ac4ac23e1fbf812784de).

  • Путь до актива (column_path) представляет собой строку вида: hst_corp_s1c_eson/doc_consignment_note_carriage/doc_consignment_note_key.

Стандартный способ

  • Поиск результатов профилирования выполняется по уникальному идентификатору актива (external_id).

Альтернативный способ

  • Если стандартный поиск по external_id не дал результатов, система автоматически переходит к альтернативному методу сопоставления.

  • Используется путь до актива (column_path), который указан в результатах профилирования, и сравнивается с полем "Путь до актива" (Рисунок 2).

  • Поле "Путь до актива" должно совпадать с column_path, что позволяет корректно сопоставить данные.

Дополнительный способ значительно улучшает процесс сопоставления результатов профилирования данных, обеспечивая гибкость настройки краулеров и корректное отображение данных даже в сложных случаях. Это решение направлено на повышение удобства работы с различными источниками данных и минимизацию ошибок при интеграции.

Вкладка "Профилирование"

Рисунок 1 – Вкладка "Профилирование"

Поле "Путь до актива" в карточке записи

Рисунок 2 – Поле "Путь до актива" в карточке записи