Sharepoint краулер

Извлекаемые объекты

В результате сканирования из источника извлекаются метаданные следующих типов объектов:

  • Файл

  • Директория

Для файлов следующих форматов извлекаются метаданные о структуре файла:

  • AVRO

  • Delimited

  • Text

  • JSON

  • Parquet

  • XML

Настройка разрешений для учетной записи

Для учетной записи пользователя необходимо настроить разрешение на чтение сканируемых файлов и директорий.

Загрузка файлов и библиотек

Загрузка дополнительных библиотек не требуется.

Параметры подключения к источнику

Таблица 1 – Параметры Sharepoint краулера

Название

Описание

Название

Уникальное название подключения к источнику, обязательный параметр.

Описание

Описание создаваемого подключения.

SharePoint URL

URL для доступа к SharePoint, обязательный параметр.

Пользователь

Имя пользователя, от имени которого выполняется подключение к SharePoint, обязательный параметр.

Пароль

Пароль пользователя, от имени которого выполняется подключение к SharePoint, обязательный параметр.

Тип

Определяет тип объектов, для которых будут извлекаться метаданные, обязательный параметр.

Сканирование дочерних сайтов

Сканирует дочерние сайты с сайта SharePoint.

Сканирование вложенных дочерних сайтов

Сканирует вложенные дочерние сайты на дочернем сайте верхнего уровня. Этот параметр применяется, когда выбран параметр «Сканирование дочерних сайтов».

Чувствительность к регистру

Указывает, что источник чувствителен к регистру.

Объем памяти

Определяет количество памяти, выделяемой для процесса сканирования. Допустимые значения: - Low – максимально до 5 тысяч файлов источника. - Medium – максимально до 10 тысяч файлов источника. - High – максимально до 25 тысяч файлов источника.

Custom JVM options

Позволяет задаваться дополнительные параметры сканирования. Например, уровень детализации логирования: -Dscannerloglevel=<DEBUG/INFO/ERROR>