正規表現を使用する際のガイドライン

正規表現を使用して、コンテンツ コンプライアンス設定を行うことができます。正規表現は、ルーティング設定など、Gmail の他の高度な設定にも役立ちます。

正規表現(regex とも呼ばれます)とは、パターンに一致するテキストを見つけるための手段です。たとえば、正規表現では、メールアドレス、URL、電話番号、従業員 ID 番号、社会保障番号、クレジット カード番号のパターンなどを表すことができます。

正規表現の使用は、多くのシステムやスクリプト言語で標準的なツールです。簡単に使用することも、非常に複雑な形で使用することもできます。この記事では、コンテンツ コンプライアンス ポリシーを作成する際に正規表現を使用する方法について説明します。チュートリアルや例などの詳細については、以下のウェブサイトをご覧ください。

正規表現の用途

正規表現を使用すると、次のものを検出できるコンテンツ フィルタを作成できます。

テキスト パターン: このオプションを使用すると、メッセージ内の文字、数字、またはその両方の組み合わせのパターンをスキャンできます。たとえば、電話番号、住所、社員番号、口座番号に一致する正規表現を作成できます。また、football、footb@ll、fo0tb@ll など、単語のさまざまなバリエーションを検出できる正規表現を 1 つ作成することもできます。

完全一致: より具体的なフィルタを作成する場合に使用します。たとえば、foot という単語には一致するが、football には一致しない正規表現を作成できます。この場合、正規表現を使用すると、フィルタがキャプチャする正当なメッセージの数を減らすことができます。

可変文字を含むテキスト: このオプションを使用すると、特定のテキストと可変テキストを含むパターンについてメッセージをスキャンできます。たとえば、www.abc1.com、www.abc2.com、www.abc3.com など、www.[変数].com というパターンに一致する URL を 1 つの正規表現で作成できます。

正規表現を作成する際のベスト プラクティス

非効率的な正規表現を作成すると、コンテンツ コンプライアンス フィルタの実行速度が遅くなることがあります。宛先が 1 つだけのメッセージの場合、メッセージの配信が数秒遅れることがあります。ただし、メッセージの受信者が複数の場合は、影響が拡大し、メッセージの遅延(メッセージがタイムアウトし、目的の受信者に配信されない)が発生する可能性があります。

実行速度の遅い正規表現を作成しないようにするには、次のことをおすすめします。

  • 個々の単語のリストに正規表現を使用しないでください。代わりに、不適切なコンテンツに関するポリシーを使用してください。
  • 繰り返される要素を統合して、正規表現をできるだけ短くシンプルにします。たとえば、複数のフレーズに基づいてフィルタを作成するには、次の正規表現を変更します。

    (\W|^)フレーズ 1(\W|$)|(\W|^)フレーズ 2(\W|$)|(\W|^)フレーズ 3(\W|$)

    次のように変更します。

    (\W|^)(フレーズ 1|フレーズ 2|フレーズ 3)(\W|$)

詳細な手順とガイドラインについては、RE2 構文正規表現の例をご覧ください。コンテンツ コンプライアンスの設定についてのページもあわせてご確認ください。