コンテンツにスキップ

データソースの接続

このセクションでは、Gleanがクロールして検索のためにインデックスするデータのソースを接続する方法を学びます。


データソースとコネクタについて

データソース

データソースは、データが存在するプラットフォーム、サービス、またはクラウドアプリです。以下のようなものがあります:

カテゴリー サンプルアプリ
クラウドストレージ Box、OneDrive
メール Outlook、Gmail
コミュニケーション Slack、Teams
ドキュメンテーション Confluence、Docusign
チケットとサポート Jira、Zendesk
コードとエンジニアリング GitHub、BitBucket
人事 Workday、Lattice
営業とマーケティング Salesforce、Marketo
プロジェクト管理 Asana、Monday
…その他!

コネクタ

コネクタは、Gleanがデータソースに接続し、データをクロールするために使用するツールです。現在、Gleanは80以上のコネクタをさまざまなデータソースに対応しています。

コネクタは通常、API経由でデータソースからデータを安全に取得しますが、データソースからのデータをWebフック経由で受け取ることもあります。

接続するデータソースを選択する

GleanのUIから、 ワークスペースの設定 > セットアップ > アプリに移動し、右上のアプリを追加ボタンをクリックします。

glean-1700789248269-2x

Gleanを接続したいデータソースを選択し、画面に表示される手順に従ってください。

glean-1700873802158-2x

コネクタの設定は、通常、OAuthを介して行われ、またはクラウドアプリのマーケットプレイス/ストア(例:Atlassian Marketplace)を介してGleanをインストールすることで行われます。

各コネクタのセットアップフローの一環として、APIの認証情報とアクセス許可が検証されます。

エラーの予防

セットアップドキュメントでAPIアクセス許可を正確に適用する必要があります。

データソース内の各アイテムについて、Gleanは次の3つの情報をクロールします:

  1. アイテム自体(スプレッドシート、ドキュメント、メッセージ、メール、イベントなど)
  2. アイテムへのアクセス許可(アイテムにアクセスできるユーザー)
  3. アイテムで実行されたアクティビティ(アイテムの作成/投稿/変更/表示などはいつ、どのユーザーによって行われましたか?)

Gleanは上記の操作を実行するために最小限のアクセス許可のみを要求しますが、これはクラウドサービスが提供するAPIの機能に基づいてデータソースごとに異なります。たとえば、一部のクラウドサービスはReadOnlyのAPIスコープではなく、ReadWriteまたはFullControlを介してドキュメントのアクセス許可のみを公開します。

正しいAPIアクセス許可を設定しないと、Gleanのクロールが失敗します。

クロールの開始

データソースを接続した後、それをクロールすることができます。これは、Gleanが接続されたデータソースのデータを処理し、検索のためにインデックスするプロセスです。

Info

Gleanテナントがプロビジョニングされるまで、このステップを完了することはできません。前のセクションでマジックリンクからSSOに切り替えることができなかった場合は、後でこのステップに戻る必要があります。

Warning

Gleanがクロールするコンテンツを制限したい場合は、クロールを開始しないでください。クロールの制限は、データソースの初期設定が保存された後、 ワークスペースの設定 > セットアップ > アプリから適用できます。

サポートされる制限はアプリによって異なりますが、ほとんどのデータソースは次の制限のうち少なくとも2つをサポートしています:

  1. 時間ベースの制限(例:過去6ヶ月に作成またはアクセスされたもののみをクロール)
  2. ユーザーベースの制限(例:指定されたユーザーのコンテンツのみをクロール)
  3. グループベースの制限(例:指定されたADグループのコンテンツのみをクロール)
  4. サイト/チャネルベースの制限(例:指定されたサイトまたはチャネルのコンテンツのみをクロール)
  5. フォルダベースの制限(例:指定されたフォルダ内のコンテンツのみをクロール)

ほとんどのアプリでは、グリーンリスト(明示的な含み)とレッドリスト(明示的な除外)の両方が通常サポートされています。

UIで利用できないクロールの制限もあります。これらはGleanによってのみ適用できます。詳細な情報については、GleanのアカウントチームまたはGleanサポートにお問い合わせください。

クロールを開始するには、クロールを開始ボタンをクリックします。

また、 ワークスペースの設定 > セットアップ > アプリの下でアプリを選択し、クロールを開始を選択することでもクロールを開始できます。

glean-1700878392608-2x

クロールにはどれくらい時間がかかりますか?

任意のデータソースの初回クロールには常に時間がかかります。その合計時間は次の2つの主要な要素に依存します:

  1. データソースのサイズ(ドキュメント/メッセージの数、および各ドキュメントのサイズなど)。
  2. データソースのAPIのレート制限。

APIのレート制限が低い場合、Gleanがアイテムをクロールする速度に影響を与えます。同様に、大量のドキュメント、ファイル、またはメッセージを含むデータソースもクロールに時間がかかります。

典型的なエンタープライズデータソースの場合、初回クロールには3日から10日かかることがあります。これは、APIのレート制限が低い大規模なデータソースの場合にはさらに長くなることもあります。

クロールのステータスの確認

いつでも、 ワークスペースの設定 > セットアップ > アプリに移動し、設定されたアプリのテーブルを確認することで、クロールのステータスを確認できます。

ここでは、インデックスされたドキュメントの数や発生したエラーなど、クロールの進行状況に関する情報が表示されます。

glean-1700876245644-2x

Tip

大規模なデータソースやレート制限の低いデータソースのクロールでは、最初の段階ではドキュメント数が低くなり、数日後に指数関数的に増加するのは正常です。

数日後もドキュメント数が低い場合は、Gleanコネクタに付与されたアクセス許可を確認し、Gleanサポートに連絡してください。

FAQ

クロールに関する一般的な質問と回答のリストについては、Crawling FAQを参照してください。