Hive краулер

Извлекаемые объекты

В результате сканирования из источника извлекаются метаданные следующих типов объектов:

  • Таблица

  • Представление

  • База данных/схема

Ограничение: для версии 2.12 подключение к Hive только через JDBC, Kerberos. Не поддерживается SSL.

Настройка разрешений для учётной записи

Для учётной записи пользователя Hive необходимо настроить привилегию SELECT на соответствующий ресурс для его сканирования.

Необходимо предоставить доступ для выполнения команд в Hive:

  • SHOW DATABASES

  • DESCRIBE DATABASE

  • SHOW TABLES IN для всех сканируемых объектов

  • DESC FORMATTED для всех сканируемых объектов

  • SELECT VERSION() AS VER

  • DESCRIBE EXTENDED для всех сканируемых объектов

Загрузка файлов и библиотек

  1. Если на стороне источника настроена Kerberos аутентификация, то на сервере сканирования необходимо разместить соответствующие файлы krb5.conf и keytab.

  2. Файлы могут быть размещены в директории /opt/rem_scanners/. Для размещения файлов обратитесь к системным администраторам.

Параметры подключения к источнику

Таблица 1 – Параметры Hive краулера

Название

Описание

Название

Уникальное название подключения к источнику, обязательный параметр.

Описание

Описание создаваемого подключения.

Имя Базы данных

Любое имя. Определяет главный узел иерархии. Пример значения: metadata_store

URL

JDBC URL для подключения к БД, обязательный параметр.

Пользователь

Имя пользователя базы данных, от имени которого выполняется подключение.

Пароль

Пароль пользователя базы данных, от имени которого выполняется подключение.

Опция подключения

Определяет тип учетной записи: - CUSTOM: локальная учетная запись - LDAP: доменная учетная запись - KERBEROS: подключение через Kerberos

Загружать системные объекты

Указывает, следует ли импортировать системные объекты. - 'False': системные объекты не импортируются (по умолчанию) - 'True': системные объекты импортируются

SSL

Для версии 2.11 не используется. Значение всегда false. Указывает, следует ли использовать SSL подключение: - 'False': подключение non-SSL - 'True': подключение SSL

Полный путь до файла сертификата *.pem

Полный путь до файла сертификата .pem. Пример: /..../

Уникальное имя клиента/принципал

Уникальное имя клиента, для которого разрешается аутентификация в Kerberos

Полный путь до файла Keytab

Полный путь до файла Keytab. Параметр указывается, если на источнике настроена Kerberos аутентификация. Пример: /.../*.keytab

Имя kerberos service name

Имя kerberos service name, по умолчанию "hive"

Debug

Указывает, следует ли включить расширенное логирование: - 'False': отключить расширенное логирование - 'True': включить расширенное логирование Используется только для отладки сканера

Схема

Параметр используется для ограничения сканируемых схем базы данных. Допустимые значения: - <schema> like '%' — сканируются все схемы - <schema> not IN ('Схема1') — сканируется все схемы, кроме указанных - <schema> IN (<Схема1>, <Схема2>) — сканируются все перечисленные схемы Для ограничения схем используется SQL конструкции: NOT, IN, LIKE, =, AND, OR

Таблицы и представления

Параметр используется для ограничения импортируемых объектов базы данных. Допустимые значения: - <table> like '%' — сканируются все объекты - <table> not in('table1') — сканируются все объекты, кроме указанных - <table> IN (<table1>, <table2>) — сканируются все перечисленные объекты Для ограничения объектов используется SQL конструкции: NOT, IN, LIKE, =, AND, OR Пример: DWH%, %ERR, %PO%, DFG, NOT %SVS, NOT VS%, NOT %WE%, NOT MK.