Sharepoint краулер¶
Извлекаемые объекты¶
В результате сканирования из источника извлекаются метаданные следующих типов объектов:
Файл
Директория
Для файлов следующих форматов извлекаются метаданные о структуре файла:
AVRO
Delimited
Text
JSON
Parquet
XML
Настройка разрешений для учетной записи¶
Для учетной записи пользователя необходимо настроить разрешение на чтение сканируемых файлов и директорий.
Загрузка файлов и библиотек¶
Загрузка дополнительных библиотек не требуется.
Параметры подключения к источнику¶
Таблица 1 – Параметры Sharepoint краулера
Название |
Описание |
---|---|
Название |
Уникальное название подключения к источнику, обязательный параметр. |
Описание |
Описание создаваемого подключения. |
SharePoint URL |
URL для доступа к SharePoint, обязательный параметр. |
Пользователь |
Имя пользователя, от имени которого выполняется подключение к SharePoint, обязательный параметр. |
Пароль |
Пароль пользователя, от имени которого выполняется подключение к SharePoint, обязательный параметр. |
Тип |
Определяет тип объектов, для которых будут извлекаться метаданные, обязательный параметр. |
Сканирование дочерних сайтов |
Сканирует дочерние сайты с сайта SharePoint. |
Сканирование вложенных дочерних сайтов |
Сканирует вложенные дочерние сайты на дочернем сайте верхнего уровня. Этот параметр применяется, когда выбран параметр «Сканирование дочерних сайтов». |
Чувствительность к регистру |
Указывает, что источник чувствителен к регистру. |
Объем памяти |
Определяет количество памяти, выделяемой для процесса сканирования. Допустимые значения: - Low – максимально до 5 тысяч файлов источника. - Medium – максимально до 10 тысяч файлов источника. - High – максимально до 25 тысяч файлов источника. |
Custom JVM options |
Позволяет задаваться дополнительные параметры сканирования. Например, уровень детализации логирования: -Dscannerloglevel=<DEBUG/INFO/ERROR> |