Custom краулер

Извлекаемые объекты

Custom подключение позволяет извлекать метаданные из любых систем, для которых не предусмотрено специализированное подключение, путём загрузки метаданных через универсальные плоские файлы.

Извлечение метаданных из плоских файлов производится на основе модели типов активов, которую необходимо предварительно создать в DG. Модель определяет структуру объектов, их свойств и связей, извлекаемых из источника. Для создания модели обратитесь к документации Руководство пользователя DG, раздел «Управление моделью данных».

При создании модели необходимо указывать атрибуты «name» и «description» для всех AssetType.

Плоские файлы позволяют структурированно описать метаданные объектов и связей в источнике в соответствии с созданной моделью. Файлы должны быть сформированы с учётом следующих требований:

  • Можно сформировать несколько файлов одного формата и загрузить их в одном архиве. При этом имена файлов должны соответствовать маскам: links*.csv и objects*.csv, где * — любые символы, допустимые в именах файлов.

  • В первой строке файлы должны содержать имена колонок в строгой последовательности.

Файл objects*.csv наполняется метаданными об объектах из источника, таких как таблицы, поля, отчеты, показатели и проч. Файл должен содержать в первой строке шапку с обязательными полями и списком всех атрибутов, описывающих объекты.

Файл links*.csv наполняется метаданными о связях объектов из источника. Связи указываются парами идентификаторов объектов и типом связи. Файл должен содержать в первой строке фиксированную шапку.

Подробнее структура файлов objects*.csv и links*.csv описана в таблицах 1–2.

Структура файла objects*.csv

Таблица 1 – Структура файла objects.csv*

В шапке указываются атрибуты объектов в соответствии с моделью DG. Например, имя колонки указывается Atr1 для simpleAttribute name="Atr1".

Пример описания типов активов и наполнения файлов

Пример описания типов активов Таблица и Колонка в модели DG и наполнения файлов:

<assetTypes>
    <assetType name="Table" displayName="Таблица">
        <simpleAttribute name="name" displayName="Название" .../>
        <simpleAttribute name="description" displayName="Описание" .../>
        <simpleAttribute name="attr1" displayName="Абрибут1"/>
        <simpleAttribute name="attr2" displayName="Абрибут2"/>
    </assetType>
    <assetType name="Column" displayName="Колонка">
        <simpleAttribute name="name" displayName="Название" .../>
        <simpleAttribute name="description" displayName="Описание" .../>
        <simpleAttribute name="type" displayName="Тип" .../>
        <simpleAttribute name="attr3" displayName="Абрибут3" .../>
    </assetType>
    <relationTypes>
        <relationType name="linkType1" .../>
        <relationType name="linkType2" .../>
    </relationTypes>
    <relations>
        <relation relationType="linkType1" fromAssetType="Table" toAssetType="Column" .../>
        <relation relationType="linkType2" fromAssetType="Column" toAssetType="Column" .../>
    </relations>

Пример файла objects1.csv:

objectid,objectclass,name,description,attr1,attr2,type,attr3
t_1,Table,Продукты,"Таблица продуктов хранит информацию о продуктах",test1,test2,,
t_2,Table,Заказы,,test1,test2,,
c_11,Column,Тип продукта,тип продукта по справочнику продуктов,,,string,20
c_12,Column,Цена продукта,,,,integer,
c_21,Column,Номер заказа,,,,,
c_22,Column,Дата заказа,,,,,10

Пример файла links1.csv:

fromobjectid,toobjectid,association
t_1,c_11,linkType1
t_1,c_12,linkType1
t_2,c_21,linkType1
t_2,c_22,linkType1
c_12,c_22,linkType2

Загрузка файлов и библиотек

Загрузка дополнительных файлов и библиотек не требуется.

Настройка проверок качества для загружаемых файлов

Настройка параметров включения и отключения проверок выполняется в конфигурационном файле sys.conf.

  • "checks":[0,0,0,0,0,0,0,0] — включение и отключение проверок качества, где 0 — отключить проверку, 1 — включить проверку.

Описание позиций параметра checks:

1 — валидация объектных файлов 2 — валидация файлов связей 3 — проверка обязательности заполнения атрибутов 4 — проверка уникальности записей 5 — проверка на соответствие objectclass модели 6 — проверка на соответствие типов связей согласно модели 7 — проверка обязательности записи и наличия её в файлах связи 8 — проверка координальности связей

  • "crash_on_error_check":[0,0,0,0,0,0,0,0] — признак остановки работы сканера в случае наличия ошибок (0 — не критично, 1 — критично).

  • "max_all_attempts":100 — максимальное количество ошибок, выводимых в лог.

Параметры подключения к источнику

Таблица 3 – Параметры Custom краулера

Название

Описание

Название

Уникальное название подключения к источнику, обязательный параметр.

Файлы

Архив zip с файлами метаданных. Загружаемые файлы должны иметь фиксированные имена (маски имен): - links*.csv, где * — любые символы (или их отсутствие) допустимые в именах файлов. - objects*.csv, где * — любые символы (или их отсутствие) допустимые в именах файлов. Обязательный параметр.

Top Level Asset Types

Имя верхнеуровнего типа актива модели. Указанный тип актива будет автоматически связан с Информационной системой. Для указания нескольких значений используется запятая. Пример: Table

Включить проверку по модели

Признак синхронизации модели системы управления качеством с модулем сканирования и включения проверок данных файлов с моделью. Принимает значения: - True — включить проверку - False — отключить проверку

URL

Необязательный, заполняется в случае включенной проверки по модели. URL подключения к системе управления данными.

Local

Необязательный, заполняется в случае включенной проверки по модели. Локаль системы управления данными.

Пользователь

Необязательный, заполняется в случае включенной проверки по модели. Пользователь системы управления данными (должен иметь права чтения модели).

Пароль

Необязательный, заполняется в случае включенной проверки по модели. Пароль пользователя системы управления данными.

Debug

Указывает, следует ли включить расширенное логирование. - 'False': отключить расширенное логирование - 'True': включить расширенное логирование Используется только для отладки сканера