HDFS краулер
Извлекаемые объекты
В результате сканирования из источника извлекаются метаданные следующих типов объектов:
Файл
Директория
Для файлов следующих форматов извлекаются метаданные о структуре файла:
AVRO
Delimited
Text
JSON
Parquet
XML
Настройка разрешений для учётной записи
Для учётной записи пользователя необходимо настроить разрешение на чтение сканируемых файлов и директорий.
Загрузка файлов и библиотек
Если на стороне источника настроена Kerberos аутентификация, то на сервере сканирования необходимо разместить соответствующие файлы krb5.conf и keytab.
Файлы могут быть размещены в директории /opt/rem_scanners/. Для размещения файлов обратитесь к системным администраторам.
Параметры подключения к источнику
Таблица 1 – Параметры HDFS краулера
Название |
Описание |
|---|---|
Название |
Уникальное название подключения к источнику, обязательный параметр. |
Описание |
Описание создаваемого подключения. |
HDFS NameNode URI |
URI активной NameNode, обязательный параметр. |
High availability кластер |
Указывает, настроен ли на кластере High Availability. |
HDFS NameNode2 URI |
URI второй активной NameNode, обязателен если High availability кластер = true. |
HDFS ServiceName |
HDFS ServiceName, обязателен если High availability кластер = true. |
Имя пользователя/principal name |
Имя пользователя, от имени которого осуществляется подключение к HDFS. Указывается Kerberos Principal, если на кластере включен Kerberos, обязательный параметр. |
Путь |
Путь до директории, в которой размещаются файлы, обязательный параметр. |
HDFS Transparent Encryption |
Указывает, включено ли шифрование HDFS. |
Key Management Server URI |
Key Management Server URI, заполняется если HDFS Transparent Encryption = true. |
Kerberos кластер |
Указывает, включен ли Kerberos. |
Hadoop RPC Protection |
Hadoop RPC Protection, обязателен если Kerberos кластер = true. |
HDFS Service Principal |
Имя service principal, обязателен если Kerberos кластер = true. |
Kerberos файл |
Полный путь до конфигурационного файла Kerberos. Параметр указывается, если на источнике настроена Kerberos аутентификация. Пример: /etc/krb5.conf. Обязателен если Kerberos кластер = true. |
Keytab файл |
Полный путь до файла Keytab. Параметр указывается, если на источнике настроена Kerberos аутентификация. Пример: /etc/hive.service.keytab. Обязателен если Kerberos кластер = true. |
Каталоги |
Указывается каталог или список каталогов в исходном каталоге, указанном в параметре Путь. Если оставить этот параметр пустым, все файлы из указанного исходного каталога будут импортированы Для перечисления нескольких каталогов используется точка с запятой (;) в качестве разделителя. |
Рекурсивное сканирование |
Рекурсивно сканирует подкаталоги в исходном каталоге первого уровня. |
Чувствительность к регистру |
Указывает, что источник чувствителен к регистру. |
Объём памяти |
Определяет количество памяти, выделяемой для процесса сканирования. Допустимые значения: - Low — максимально до 1 тысячи файлов источника - Medium — максимально до 10 тысяч файлов источника - High — максимально до 100 тысяч файлов источника |
Custom JVM options |
Позволяет задаваться дополнительные параметры сканирования. Например, уровень детализации логирования: -Dscannerloglevel=<DEBUG/INFO/ERROR>
|