Nifi краулер¶
Извлекаемые объекты¶
В результате сканирования из источника Nifi извлекаются метаданные следующих типов объектов:
Nifi Flow;
Process Group.
Cвязи (поток данных) на основании следующих типов объектов:
PublishKafka_2_6;
PublishKafkaRecord_2_6;
PutDatabaseRecord;
PutS3Object;
PutFile;
PutCassandraRecord;
PutMongoRecord;
PutMongo;
PutHDFS;
PutFTP;
PutSFTP;
PutSmbFile;
FetchS3Object;
ConsumeKafkaRecord_2_6;
ConsumeKafka_2_6;
QueryDatabaseTable;
QueryDatabaseTableRecord;
LookupRecord;
GetMongoRecord;
GetMongo;
GetFile;
GetHDFS;
GetFTP;
GetSFTP;
GetSmbFile.
Настройка разрешений для учетной записи¶
Для учетной записи пользователя необходимо настроить разрешение на чтение сканируемых файлов и директорий.
Загрузка файлов и библиотек¶
Сканирование источника nifi осуществляется путем сканирования файла configuration.archive, поэтому предварительно в настройках nifi необходимо настроить параметр nifi.flow.configuration.archive.enabled = True
. Для настройки параметра nifi.flow.configuration.archive.enabled
обратитесь к администратору системы источника.
После настройки параметра, на сервере источника будет создан архив «flow.xml.gz», который необходим для проведения сканирования.
Сканирование может быть настроено непосредственно на оригинальный файл, создаваемый на сервере источника, либо файл архива может быть скопирован с сервера источника и размещен для сканирования на любом linux сервере. Сканирование файла архива осуществляется через ssh протокол, название файла архива должно быть «flow.xml.gz».
Параметры подключения к источнику¶
Таблица 1 – Параметры Nifi краулера
Название |
Описание |
---|---|
Название |
Уникальное название подключения к источнику, обязательный параметр. |
Имя хоста или IP-адрес |
Имя хоста или IP-адрес, на котором размещается архив. |
Директория |
Указывается путь до директории с архивом flow.xml.gz Пример: /dir1/myFiles/test_files |
Пользователь |
Имя пользователя, от имени которого выполняется подключение к файлу на удаленном хосте. |
Пароль |
Пароль пользователя, от имени которого выполняется подключение к файлу на удаленном хосте. |
Группа процессоров |
Параметр используется для ограничения сканируемых групп процессоров. Допустимые значения: - empty (пусто) - сканируются все группы процессоров - processGroup(s) - сканируется только указанная группа (группы) - NOT processGroup(s) - сканируется все группы, кроме указанных Для перечисления нескольких групп используется запятая в качестве разделителя. |