Amazon S3 краулер¶
Извлекаемые объекты¶
В результате сканирования из источника извлекаются метаданные следующих типов объектов:
Файл
Директория
Для файлов следующих форматов извлекаются метаданные о структуре файла:
AVRO
Delimited
Text
JSON
Parquet
XML
Настройка разрешений для учетной записи¶
Для учетной записи пользователя необходимо настроить разрешение на чтение сканируемых файлов и директорий.
Загрузка файлов и библиотек¶
Загрузка дополнительных библиотек не требуется.
Параметры подключения к источнику¶
Таблица 1 – Параметры Amazon S3 краулера
Название |
Описание |
---|---|
Название |
Уникальное название подключения к источнику, обязательный параметр. |
Описание |
Описание создаваемого подключения. |
S3-совместимый источник |
Параметр указывает является ли источник данных хранилищем, совместимым с Amazon S3, например Yandex Cloud или minio. Указывается false, если источник - Amazon S3, обязательный параметр. |
Amazon URL |
URL веб сервиса Amazon. Пример: BucketName.s3.amazonaws.com. |
URL |
URL веб сервиса S3-совместимого источника. Пример: https://storage.yandexcloud.net/. |
Временные учетные данные |
Указывает, что учетные данные для подключения к источнику являются временными. |
ID ключа доступа |
Идентификатор ключа доступа (Access Key ID) к Amazon Web Services или S3-совместимому источнику для подписи отправляемых запросов. |
Секретный ключ доступа |
Секретный ключ доступа (Secret Access Key) к Amazon Web Services или S3-совместимому источнику для подписи отправляемых запросов. |
Временный токен |
Временный токен сеанса для подключения к источнику данных Amazon S3. |
Имя корзины |
Имя корзины (Bucket name), в которой размещаются файлы. |
Каталог |
Каталог, из которого должны быть извлечены метаданные. |
Фильтр каталогов |
Указывается каталог или список каталогов в исходном каталоге, указанном в параметре Каталог. Если оставить этот параметр пустым, все файлы из указанного исходного каталога будут импортированы. Для перечисления нескольких каталогов используется точка с запятой (;) в качестве разделителя. |
Рекурсивное сканирование |
Рекурсивно сканирует подкаталоги в исходном каталоге первого уровня. |
Объединять партиционированные файлы |
Метаданные нескольких партиционированных файлов будут загружены как единый файл. |
Чувствительность к регистру |
Указывает, что источник чувствителен к регистру. |
Объем памяти |
Определяет количество памяти, выделяемой для процесса сканирования. Допустимые значения: - Low – максимально до 5 тысяч файлов источника. - Medium – максимально до 10 тысяч файлов источника - High – максимально до 25 тысяч файлов источника |
Custom JVM options |
Позволяет задаваться дополнительные параметры сканирования. Например, уровень детализации логирования: -Dscannerloglevel=<DEBUG/INFO/ERROR> |