Amazon S3 краулер

Извлекаемые объекты

В результате сканирования из источника извлекаются метаданные следующих типов объектов:

  • Файл

  • Директория

Для файлов следующих форматов извлекаются метаданные о структуре файла:

  • AVRO

  • Delimited

  • Text

  • JSON

  • Parquet

  • XML

Настройка разрешений для учетной записи

Для учетной записи пользователя необходимо настроить разрешение на чтение сканируемых файлов и директорий.

Загрузка файлов и библиотек

Загрузка дополнительных библиотек не требуется.

Параметры подключения к источнику

Таблица 1 – Параметры Amazon S3 краулера

Название

Описание

Название

Уникальное название подключения к источнику, обязательный параметр.

Описание

Описание создаваемого подключения.

S3-совместимый источник

Параметр указывает является ли источник данных хранилищем, совместимым с Amazon S3, например Yandex Cloud или minio. Указывается false, если источник - Amazon S3, обязательный параметр.

Amazon URL

URL веб сервиса Amazon. Пример: BucketName.s3.amazonaws.com.

URL

URL веб сервиса S3-совместимого источника. Пример: https://storage.yandexcloud.net/.

Временные учетные данные

Указывает, что учетные данные для подключения к источнику являются временными.

ID ключа доступа

Идентификатор ключа доступа (Access Key ID) к Amazon Web Services или S3-совместимому источнику для подписи отправляемых запросов.

Секретный ключ доступа

Секретный ключ доступа (Secret Access Key) к Amazon Web Services или S3-совместимому источнику для подписи отправляемых запросов.

Временный токен

Временный токен сеанса для подключения к источнику данных Amazon S3.

Имя корзины

Имя корзины (Bucket name), в которой размещаются файлы.

Каталог

Каталог, из которого должны быть извлечены метаданные.

Фильтр каталогов

Указывается каталог или список каталогов в исходном каталоге, указанном в параметре Каталог. Если оставить этот параметр пустым, все файлы из указанного исходного каталога будут импортированы. Для перечисления нескольких каталогов используется точка с запятой (;) в качестве разделителя.

Рекурсивное сканирование

Рекурсивно сканирует подкаталоги в исходном каталоге первого уровня.

Объединять партиционированные файлы

Метаданные нескольких партиционированных файлов будут загружены как единый файл.

Чувствительность к регистру

Указывает, что источник чувствителен к регистру.

Объем памяти

Определяет количество памяти, выделяемой для процесса сканирования. Допустимые значения: - Low – максимально до 5 тысяч файлов источника. - Medium – максимально до 10 тысяч файлов источника - High – максимально до 25 тысяч файлов источника

Custom JVM options

Позволяет задаваться дополнительные параметры сканирования. Например, уровень детализации логирования: -Dscannerloglevel=<DEBUG/INFO/ERROR>