Impala краулер

Извлекаемые объекты

В результате сканирования из источника извлекаются метаданные следующих типов объектов:

  • Таблица

  • Представление

  • База данных/Схема

Ограничение: для версии 2.13 подключение к Impala возможно с использованием драйвера Impala и Hive. Поддерживается аутентификация GSSAPI, Kerberos, NOSASL. LDAP подключение требует тестирования на стороне Заказчика.

Настройка разрешений для учётной записи

Для учетной записи пользователя Impala необходимо настроить привилегию SELECT на соответствующий ресурс для его сканирования. Необходимо предоставить доступ для выполнения следующих команд в Impala:

  • SHOW DATABASES

  • DESCRIBE DATABASE

  • SHOW TABLES IN <database> — для всех сканируемых объектов

  • DESC FORMATTED — для всех сканируемых объектов

  • SELECT VERSION() AS VER

  • DESCRIBE EXTENDED — для всех сканируемых объектов

Параметры подключения к источнику

Название

Уникальное название подключения к источнику, обязательный параметр.

Описание

Описание создаваемого подключения.

Драйвер подключения (Диалект)

Драйвер для подключения к Impala

Имя хоста или IP-адрес

Имя хоста или IP-адрес, на котором работает сервер базы данных

Порт

Номер порта службы Impala. Значение по умолчанию — 21050

Имя базы данных

Определяет главный узел иерархии. Значение по умолчанию — impala_metastore

Пользователь

Имя пользователя базы данных, от имени которого выполняется подключение

Пароль

Пароль пользователя базы данных, от имени которого выполняется подключение

Опция подключения

Определяет параметры подключения: - GSSAPI — используется API для доступа к сервисам безопасности (только драйвер Impala) - KERBEROS — подключение через Kerberos (только драйвер Hive) - NO SASL — не требуется SASL аутентификация (CUSTOM)

Полный путь до файла сертификата *.pem

Полный путь до файла сертификата .pem, пример: /..../.pem

Уникальное имя клиента/принципал

Уникальное имя клиента, для которого разрешается аутентификация в Kerberos

Полный путь до файла Keytab

Полный путь до файла Keytab. Параметр указывается при настройке Kerberos, пример: /.../*.keytab

Имя kerberos service name

Имя kerberos service name, по умолчанию "impala"

Debug

Указывает, следует ли включить расширенное логирование: - 'False' — отключить расширенное логирование - 'True' — включить расширенное логирование (только для отладки сканера)

Схема

Параметр используется для ограничения сканируемых схем базы данных. Допустимые значения: - <schema> LIKE '%' — сканируются все схемы - <schema> NOT IN ('Схема1') — сканируются все схемы, кроме указанных - <schema> IN (<Схема1>, <Схема2>) — сканируются только перечисленные схемы Для ограничения схем используются SQL конструкции: NOT, IN, LIKE, =, AND, OR

Таблицы и представления

Параметр используется для ограничения импортируемых объектов базы данных. Допустимые значения: - <table> LIKE '%' — сканируются все объекты - <table> NOT IN ('table1') — сканируются все объекты, кроме указанных - <table> IN (<table1>, <table2>) — сканируются только перечисленные объекты Для ограничения объектов используются SQL конструкции: NOT, IN, LIKE, =, AND, OR Пример: DWH%, %ERR, %PO%, DFG, NOT %SVS, NOT VS%, NOT %WE%, NOT MK