Hive краулер

Извлекаемые объекты

В результате сканирования из источника извлекаются метаданные следующих типов объектов:

  • Таблица

  • Представление

  • База данных

  • Схема

Настройка разрешений для учетной записи

Для учетной записи пользователя Hive, необходимо настроить привилегию SELECT на соответствующий ресурс для его сканирования.

Загрузка файлов и библиотек

Если на стороне источника настроена Kerberos аутентификация, то на сервере сканирования необходимо разместить соответствующие файлы krb5.conf и keytab. Файлы могут быть размещены в директории /opt/rem_scanners/. Для размещения файлов обратитесь к системным администраторам.

Параметры подключения к источнику

Таблица 1 – Параметры Hive краулера

Название

Описание

Название

Уникальное название подключения к источнику, обязательный параметр.

Описание

Описание создаваемого подключения.

Поставщик hadoop

Поставщик hadoop, обязательный параметр.

Mapr home

Директория установки mapR.

URL

JDBC URL для подключения к БД, обязательный параметр.

Пользователь

Имя пользователя базы данных, от имени которого выполняется подключение.

Пароль

Пароль пользователя базы данных, от имени которого выполняется подключение.

Kerberos файл

Полный путь до конфигурационного файла Kerberos. Параметр указывается, если на источнике настроена Kerberos аутентификация. Пример: /opt/rem_scanners/krb5.conf.

Keytab файл

Полный путь до файла Keytab. Параметр указывается, если на источнике настроена Kerberos аутентификация. Пример: /opt/rem_scanners/hive.service.keytab.

Прокси пользователь

Прокси пользователь.

Kerberos debug

Флаг для включения режима Debug при Kerberos подключении.

Схема

Параметр используется для ограничения импортируемых схем базы данных Допустимые значения: - empty (пусто) - сканируются все схемы бд - shemaname(s) - сканируется только указанная схема (схемы). Для перечисления нескольких схем используется запятая в качестве разделителя.

Таблицы и представления

Параметр используется для ограничения импортируемых объектов базы данных. Допустимые значения: - empty (пусто) - сканируются все схемы бд - tableName(s) - сканируется только указанная таблица (таблицы). Для перечисления нескольких таблиц или представлений используется запятая в качестве разделителя. Доступно использование маски % и операторов AND, OR, NOT. Пример: DWH%, %ERR, %PO%, DFG, NOT %SVS, NOT VS%, NOT %WE%, NOT MK.

SerDe файл

Полный путь до jar файлов SerDe, используемых в источнике. Для перечисления нескольких файлов используется запятая в качестве разделителя.

Потоки

Количество потоков для асинхронного сканирования источника. Допустимые значения: - empty - автоматическое вычисление (по умолчанию) - ≥1 При указании некорректного значения будет установлен 1 поток.

Чувствительность к регистру

Указывает настройки источника к чувствительности регистра.

Объем памяти

Определяет количество памяти, выделяемой для процесса сканирования. Допустимые значения: - Low – максимально до 1 тысячи таблиц источника. - Medium – максимально до 10 тысяч таблиц источника - High – максимально до 50 тысяч таблиц источника

Custom JVM options

Позволяет задаваться дополнительные параметры сканирования. Например, уровень детализации логирования: -Dscannerloglevel=<DEBUG/INFO/ERROR>