Amazon S3 краулер
Извлекаемые объекты
В результате сканирования из источника извлекаются метаданные следующих типов объектов:
- Файл 
- Директория 
Для файлов следующих форматов извлекаются метаданные о структуре файла:
- AVRO 
- Delimited 
- Text 
- JSON 
- Parquet 
- XML 
Настройка разрешений для учетной записи
Для учетной записи пользователя необходимо настроить разрешение на чтение сканируемых файлов и директорий.
Загрузка файлов и библиотек
Загрузка дополнительных библиотек не требуется.
Параметры подключения к источнику
Таблица 1 – Параметры Amazon S3 краулера
| Название | Описание | 
|---|---|
| Название | Уникальное название подключения к источнику, обязательный параметр. | 
| Описание | Описание создаваемого подключения. | 
| S3-совместимый источник | Параметр указывает является ли источник данных хранилищем, совместимым с Amazon S3, например Yandex Cloud или minio. Указывается false, если источник - Amazon S3, обязательный параметр. | 
| Amazon URL | URL веб сервиса Amazon. Пример: BucketName.s3.amazonaws.com. | 
| URL | URL веб сервиса S3-совместимого источника. Пример: https://storage.yandexcloud.net/. | 
| Временные учетные данные | Указывает, что учетные данные для подключения к источнику являются временными. | 
| ID ключа доступа | Идентификатор ключа доступа (Access Key ID) к Amazon Web Services или S3-совместимому источнику для подписи отправляемых запросов. | 
| Секретный ключ доступа | Секретный ключ доступа (Secret Access Key) к Amazon Web Services или S3-совместимому источнику для подписи отправляемых запросов. | 
| Временный токен | Временный токен сеанса для подключения к источнику данных Amazon S3. | 
| Имя корзины | Имя корзины (Bucket name), в которой размещаются файлы. | 
| Каталог | Каталог, из которого должны быть извлечены метаданные. | 
| Фильтр каталогов | Указывается каталог или список каталогов в исходном каталоге, указанном в параметре Каталог. Если оставить этот параметр пустым, все файлы из указанного исходного каталога будут импортированы. Для перечисления нескольких каталогов используется точка с запятой (;) в качестве разделителя. | 
| Рекурсивное сканирование | Рекурсивно сканирует подкаталоги в исходном каталоге первого уровня. | 
| Объединять партиционированные файлы | Метаданные нескольких партиционированных файлов будут загружены как единый файл. | 
| Чувствительность к регистру | Указывает, что источник чувствителен к регистру. | 
| Объем памяти | Определяет количество памяти, выделяемой для процесса сканирования. Допустимые значения: - Low – максимально до 5 тысяч файлов источника. - Medium – максимально до 10 тысяч файлов источника - High – максимально до 25 тысяч файлов источника | 
| Custom JVM options | Позволяет задаваться дополнительные параметры сканирования. Например, уровень детализации логирования: -Dscannerloglevel=<DEBUG/INFO/ERROR> |