Hive краулер¶
Извлекаемые объекты¶
В результате сканирования из источника извлекаются метаданные следующих типов объектов:
Таблица
Представление
База данных
Схема
Настройка разрешений для учетной записи¶
Для учетной записи пользователя Hive, необходимо настроить привилегию SELECT на соответствующий ресурс для его сканирования.
Загрузка файлов и библиотек¶
Если на стороне источника настроена Kerberos аутентификация, то на сервере сканирования необходимо разместить соответствующие файлы krb5.conf и keytab. Файлы могут быть размещены в директории /opt/rem_scanners/. Для размещения файлов обратитесь к системным администраторам.
Параметры подключения к источнику¶
Таблица 1 – Параметры Hive краулера
Название |
Описание |
---|---|
Название |
Уникальное название подключения к источнику, обязательный параметр. |
Описание |
Описание создаваемого подключения. |
Поставщик hadoop |
Поставщик hadoop, обязательный параметр. |
Mapr home |
Директория установки mapR. |
URL |
JDBC URL для подключения к БД, обязательный параметр. |
Пользователь |
Имя пользователя базы данных, от имени которого выполняется подключение. |
Пароль |
Пароль пользователя базы данных, от имени которого выполняется подключение. |
Kerberos файл |
Полный путь до конфигурационного файла Kerberos. Параметр указывается, если на источнике настроена Kerberos аутентификация. Пример: /opt/rem_scanners/krb5.conf. |
Keytab файл |
Полный путь до файла Keytab. Параметр указывается, если на источнике настроена Kerberos аутентификация. Пример: /opt/rem_scanners/hive.service.keytab. |
Прокси пользователь |
Прокси пользователь. |
Kerberos debug |
Флаг для включения режима Debug при Kerberos подключении. |
Схема |
Параметр используется для ограничения импортируемых схем базы данных Допустимые значения: - empty (пусто) - сканируются все схемы бд - shemaname(s) - сканируется только указанная схема (схемы). Для перечисления нескольких схем используется запятая в качестве разделителя. |
Таблицы и представления |
Параметр используется для ограничения импортируемых объектов базы данных. Допустимые значения: - empty (пусто) - сканируются все схемы бд - tableName(s) - сканируется только указанная таблица (таблицы). Для перечисления нескольких таблиц или представлений используется запятая в качестве разделителя. Доступно использование маски % и операторов AND, OR, NOT. Пример: DWH%, %ERR, %PO%, DFG, NOT %SVS, NOT VS%, NOT %WE%, NOT MK. |
SerDe файл |
Полный путь до jar файлов SerDe, используемых в источнике. Для перечисления нескольких файлов используется запятая в качестве разделителя. |
Потоки |
Количество потоков для асинхронного сканирования источника. Допустимые значения: - empty - автоматическое вычисление (по умолчанию) - ≥1 При указании некорректного значения будет установлен 1 поток. |
Чувствительность к регистру |
Указывает настройки источника к чувствительности регистра. |
Объем памяти |
Определяет количество памяти, выделяемой для процесса сканирования. Допустимые значения: - Low – максимально до 1 тысячи таблиц источника. - Medium – максимально до 10 тысяч таблиц источника - High – максимально до 50 тысяч таблиц источника |
Custom JVM options |
Позволяет задаваться дополнительные параметры сканирования. Например, уровень детализации логирования: -Dscannerloglevel=<DEBUG/INFO/ERROR> |