Kafka краулер

Извлекаемые объекты

В результате сканирования из источника извлекаются метаданные следующих типов объектов:

  • Kafka topic

  • Атрибуты

Для сообщений следующих форматов извлекаются метаданные о структуре (атрибуты):

  • JSON

Настройка разрешений для учётной записи

Для учётной записи пользователя необходимо разрешение на чтение сканируемых топиков Kafka.

Загрузка файлов и библиотек

  • Если на источнике настроен SSL, необходимо разместить сертификат (*.pem) на сервере модуля сканирования. Полный путь и имя сертификата указываются в параметре «Сертификат» подключения.

  • Если на источнике настроена SASL/Kerberos аутентификация, необходимо разместить keytab файл на сервере модуля сканирования. Полный путь и имя файла указываются в параметре «Keytab файл» подключения.

Для размещения файлов обратитесь к системным администраторам.

Параметры подключения к источнику

Таблица 1 – Параметры Kafka краулера

Название

Описание

Название

Уникальное название подключения к источнику, обязательный параметр.

Брокер

Имя брокера Kafka. Обязательный параметр. Для перечисления нескольких значений используется запятая. Пример: hostname1:9092, hostname2:9092

Топик

Параметр используется для ограничения сканируемых топиков Kafka. Допустимые значения: - empty — сканируются все топики - topicName(s) — сканируется только указанный топик (топики). Для нескольких значений используется запятая.

Группа

Идентификатор консьюмер-группы. Обязательный параметр. Если настроены ограничения доступа по консьюмер-группам, необходимо указать группу с доступом к топикам. Если ограничений нет — любая.

Сертификат

Полный путь до SSL сертификата (*.pem). Сертификат должен быть заверенным УЦ. Для самозаверенного сертификата необходимо указать корневой. Пример: /opt/python_scanner/kafkafiles/carootCert.pem

Имя пользователя / principal name

Уникальное имя клиента для Kerberos аутентификации. Пример: test@default_realm

Keytab файл

Полный путь до файла Keytab. Указывается, если настроена Kerberos аутентификация. Пример: /opt/python_scanner/kafkafiles/ro.keytab

Имя kerberos service

Имя kerberos service-name, по умолчанию "kafka".

Сообщения

Количество сообщений, вычитываемых из каждого топика. Значение по умолчанию – 10. Если указано 0 — вычитываются все сообщения (*не рекомендуется для больших топиков).