HDFS краулер

Извлекаемые объекты

В результате сканирования из источника извлекаются метаданные следующих типов объектов:

  • Файл

  • Директория

Для файлов следующих форматов извлекаются метаданные о структуре файла:

  • AVRO

  • Delimited

  • Text

  • JSON

  • Parquet

  • XML

Настройка разрешений для учетной записи

Для учетной записи пользователя необходимо настроить разрешение на чтение сканируемых файлов и директорий.

Загрузка файлов и библиотек

Если на стороне источника настроена Kerberos аутентификация, то на сервере сканирования необходимо разместить соответствующие файлы krb5.conf и keytab. Файлы могут быть размещены в директории /opt/rem_scanners/. Для размещения файлов обратитесь к системным администраторам.

Параметры подключения к источнику

Название

Описание

Название

Уникальное название подключения к источнику, обязательный параметр.

Описание

Описание создаваемого подключения.

HDFS NameNode URI

URI активной NameNode, обязательный параметр.

High availability кластер

Указывает, настроен ли на кластере High Availability.

HDFS NameNode2 URI

URI второй активной NameNode, обязателен если High availability кластер = true.

HDFS ServiceName

HDFS ServiceName, обязателен если High availability кластер = true.

Имя пользователя/principal name

Имя пользователя, от имени которого осуществляется подключение к HDFS. Указывается Kerberos Principal, если на кластере включен Kerberos, обязательный параметр.

Путь

Путь до директории, в которой размещаются файлы, обязательный параметр.

HDFS Transparent Encryption

Указывает, включено ли шифрование HDFS.

Key Management Server URI

Key Management Server URI, заполняется если HDFS Transparent Encryption = true.

Kerberos кластер

Указывает, включен ли Kerberos.

Hadoop RPC Protection

Hadoop RPC Protection, обязателен если Kerberos кластер = true.

HDFS Service Principal

Имя service principal, обязателен если Kerberos кластер = true.

Kerberos файл

Полный путь до конфигурационного файла Kerberos. Параметр указывается, если на источнике настроена Kerberos аутентификация. Обязателен, если Kerberos кластер = true. Пример: /etc/krb5.conf

Keytab файл

Полный путь до файла Keytab. Параметр указывается, если на источнике настроена Kerberos аутентификация. Обязателен, если Kerberos кластер = true. Пример: /etc/hive.service.keytab.

Каталоги

Указывается каталог или список каталогов в исходном каталоге, указанном в параметре Путь. Если оставить этот параметр пустым, все файлы из указанного исходного каталога будут импортированы. Для перечисления нескольких каталогов используется точка с запятой (;) в качестве разделителя.

Рекурсивное сканирование

Рекурсивно сканирует подкаталоги в исходном каталоге первого уровня.

Чувствительность к регистру

Указывает, что источник чувствителен к регистру.

Объем памяти

Определяет количество памяти, выделяемой для процесса сканирования. Допустимые значения: - Low – максимально до 1 тысячи файлов источника. - Medium – максимально до 10 тысячи файлов источника - High – максимально до 100 тысяч файлов источника

Custom JVM options

Позволяет задаваться дополнительные параметры сканирования. Например, уровень детализации логирования: -Dscannerloglevel=<DEBUG/INFO/ERROR>