Kafka краулер

Извлекаемые объекты

В результате сканирования из источника извлекаются метаданные следующих типов объектов:

  • Kafka topic

  • Атрибуты

Для сообщений следующих форматов извлекаются метаданные о структуре (атрибуты):

  • JSON

Настройка разрешений для учетной записи

Для учетной записи пользователя необходимо настроить разрешение на чтение сканируемых топиков kafka.

Загрузка файлов и библиотек

Если на источнике настроен SSL, необходимо разместить сертификат (с раcширением .pem) на сервере, где располагается модуль сканирования. Полный путь и имя размещаемого сертификата необходимо указать в параметре «Сертификат» в настройке подключения ИС.

Если на источнике настроена SASL аутентификация, необходимо разместить keytab файл на сервере, где располагается модуль сканирования. Полный путь и имя размещаемого сертификата необходимо указать в параметре «Keytab файл» в настройке подключения ИС.

Для размещения файлов обратитесь к системным администраторам.

Параметры подключения к источнику

Таблица 1 – Параметры Kafka краулера

Название

Описание

Название

Уникальное название подключения к источнику, обязательный параметр.

Брокер

Имя брокера Kafka. Обязательный параметр. Для перечисления нескольких значений используется запятая в качестве разделителя. Пример: hostname1:9092, hostname2:9092

Топик

Параметр используется для ограничения сканируемых топиков kafka. Допустимые значения: - empty -сканируются все топики. - topicName(s) - сканируется только указанный топик (топики) Для перечисления нескольких топиков используется запятая в качестве разделителя.

Группа

Идентификатор консьюмер группы. Обязательный параметр. Если в kafka настроены ограничения доступа по консьюмер группам, то необходимо указать группу, имеющую доступ к сканируемым топикам. Если в kafka нет ограничений, то группа указывается любая.

Сертификат

Полный путь до файла SSL сертификата с раширением*.pem. Сертификат должен быть заверенным УЦ, в случае если сертификат самозаверенный, нужно использовать корневой. Пример: /opt/python_scanner/kafkafiles/carootCert.pem

Имя пользователя/principal name

Уникальное имя клиента, для которого разрешается аутентификация в Kerberos. Пример: test@default_realm

Keytab файл

Полный путь до файла Keytab. Параметр указывается, если на источнике настроена Kerberos аутентификация. Пример: /opt/python_scanner/kafkafiles/ro.keytab

Имя kerberos service

Имя kerberos-service-name, по умолчанию "kafka"

Сообщения

Количество сообщений, вычитываемых из каждого топика kafka. Значение по умолчанию – 10. При установке значения 0 вычитываются все сообщения из сканируемых топиков* *Не рекомендуется устанавливать значение 0 при сканировании топика(ов) с большим количеством сообщений.