Impala краулер
Извлекаемые объекты
В результате сканирования из источника извлекаются метаданные следующих типов объектов:
Таблица
Представление
База данных/Схема
Ограничение: для версии 2.13 подключение к Impala возможно с использованием драйвера Impala и Hive. Поддерживается аутентификация GSSAPI, Kerberos, NOSASL. LDAP подключение требует тестирования на стороне Заказчика.
Настройка разрешений для учётной записи
Для учетной записи пользователя Impala необходимо настроить привилегию SELECT на соответствующий ресурс для его сканирования. Необходимо предоставить доступ для выполнения следующих команд в Impala:
SHOW DATABASES
DESCRIBE DATABASE
SHOW TABLES IN <database> — для всех сканируемых объектов
DESC FORMATTED — для всех сканируемых объектов
SELECT VERSION() AS VER
DESCRIBE EXTENDED — для всех сканируемых объектов
Параметры подключения к источнику
Название |
Уникальное название подключения к источнику, обязательный параметр. |
Описание |
Описание создаваемого подключения. |
Драйвер подключения (Диалект) |
Драйвер для подключения к Impala |
Имя хоста или IP-адрес |
Имя хоста или IP-адрес, на котором работает сервер базы данных |
Порт |
Номер порта службы Impala. Значение по умолчанию — 21050 |
Имя базы данных |
Определяет главный узел иерархии. Значение по умолчанию — impala_metastore |
Пользователь |
Имя пользователя базы данных, от имени которого выполняется подключение |
Пароль |
Пароль пользователя базы данных, от имени которого выполняется подключение |
Опция подключения |
Определяет параметры подключения: - GSSAPI — используется API для доступа к сервисам безопасности (только драйвер Impala) - KERBEROS — подключение через Kerberos (только драйвер Hive) - NO SASL — не требуется SASL аутентификация (CUSTOM) |
Полный путь до файла сертификата *.pem |
Полный путь до файла сертификата .pem, пример: /..../.pem |
Уникальное имя клиента/принципал |
Уникальное имя клиента, для которого разрешается аутентификация в Kerberos |
Полный путь до файла Keytab |
Полный путь до файла Keytab. Параметр указывается при настройке Kerberos, пример: /.../*.keytab |
Имя kerberos service name |
Имя kerberos service name, по умолчанию "impala" |
Debug |
Указывает, следует ли включить расширенное логирование: - 'False' — отключить расширенное логирование - 'True' — включить расширенное логирование (только для отладки сканера) |
Схема |
Параметр используется для ограничения сканируемых схем базы данных. Допустимые значения: - <schema> LIKE '%' — сканируются все схемы - <schema> NOT IN ('Схема1') — сканируются все схемы, кроме указанных - <schema> IN (<Схема1>, <Схема2>) — сканируются только перечисленные схемы Для ограничения схем используются SQL конструкции: NOT, IN, LIKE, =, AND, OR |
Таблицы и представления |
Параметр используется для ограничения импортируемых объектов базы данных. Допустимые значения: - <table> LIKE '%' — сканируются все объекты - <table> NOT IN ('table1') — сканируются все объекты, кроме указанных - <table> IN (<table1>, <table2>) — сканируются только перечисленные объекты Для ограничения объектов используются SQL конструкции: NOT, IN, LIKE, =, AND, OR Пример: DWH%, %ERR, %PO%, DFG, NOT %SVS, NOT VS%, NOT %WE%, NOT MK |