Nifi

Извлекаемые объекты

В результате сканирования из источника Nifi извлекаются метаданные следующих типов объектов:

  • Nifi Flow

  • Process Group

Связи (поток данных) формируются на основании следующих типов объектов:

  • PublishKafka_2_6

  • PublishKafkaRecord_2_6

  • PutDatabaseRecord

  • PutS3Object

  • PutFile

  • PutCassandraRecord

  • PutMongoRecord

  • PutMongo

  • PutHDFS

  • PutFTP

  • PutSFTP

  • PutSmbFile

  • FetchS3Object

  • ConsumeKafkaRecord_2_6

  • ConsumeKafka_2_6

  • QueryDatabaseTable

  • QueryDatabaseTableRecord

  • LookupRecord

  • GetMongoRecord

  • GetMongo

  • GetFile

  • GetHDFS

  • GetFTP

  • GetSFTP

  • GetSmbFile

Настройка разрешений для учётной записи

Для учётной записи пользователя необходимо настроить разрешение на чтение сканируемых файлов и директорий.

Загрузка файлов и библиотек

Сканирование источника Nifi осуществляется путём сканирования файла configuration.archive. Необходимо предварительно в настройках Nifi включить параметр: nifi.flow.configuration.archive.enabled = True

После включения параметра на сервере источника будет создан архив flow.xml.gz, необходимый для проведения сканирования.

Сканирование может выполняться:

  • непосредственно на оригинальном файле на сервере источника,

  • либо на копии архива, размещённой на любом Linux сервере.

Сканирование файла архива осуществляется через SSH-протокол. Название файла архива должно быть flow.xml.gz.

Параметры подключения к источнику

Название

Уникальное название подключения к источнику, обязательный параметр.

Имя хоста или IP-адрес

Имя хоста или IP-адрес, на котором размещается архив.

Директория

Путь до директории с архивом flow.xml.gz. Пример: /dir1/myFiles/test_files

Пользователь

Имя пользователя, от имени которого выполняется подключение к файлу на удалённом хосте.

Пароль

Пароль пользователя для подключения к файлу на удалённом хосте.

Группа процессоров

Параметр используется для ограничения сканируемых групп процессоров. Допустимые значения: - empty — сканируются все группы процессоров - processGroup(s) — сканируется только указанная группа (несколько через запятую) - NOT processGroup(s) — сканируются все группы, кроме указанных