使用 AI 分类自动为 Google 云端硬盘文件加标签

此功能在 Frontline Plus 和企业 Plus 版中提供。此功能也随 Gemini Enterprise(旧版)、Gemini Education Premium 和 AI Security 加购项提供。 比较加购项

AI 分类功能可以使用贵组织训练的自定义 AI 模型,自动为 Google 云端硬盘中的敏感内容加标签,而无需进行编程。作为管理员,您可以控制模型使用哪些数据进行训练,因此每个模型都是贵组织独有的,并且只能由贵组织使用。您可以为组织创建最多 5 个独特的 AI 分类模型。

您可以在数据保护规则、保险柜等安全政策中利用 AI 分类的文件。

注意:如需由 AI 分类添加标签,文件必须位于共享云端硬盘中,或者归具有支持分类标签的许可的用户所有。

AI 分类概览

以下是设置 AI 分类功能以自动为云端硬盘中的新文件和现有文件添加标签的基本步骤。

1. 创建模型:首先,选择或创建分类标签,AI 模型将在训练完成后自动为文件加标签。您还可以创建训练标签,用于训练模型以识别组织的敏感内容。然后,您创建一个 AI 模型来使用这些标签。

2. 训练模型:创建标签后,指定的标签添加者会使用训练标签对云端硬盘文件进行分类,以创建训练数据集。然后,模型会使用该数据集来学习如何对敏感文件进行分类。

3. 开启 AI 分类:模型训练完成后,您可以设置自动文件标签添加功能,即自动应用。在设置过程中,您可以选择要启用的标签选项,以及您希望 AI 分类功能应用标签的文件归哪些用户所有。然后,模型便会开始自动为敏感文件添加标签。

4. 监控模型:您可以使用云端硬盘事件日志来监控已分类的文件数量,以及有多少用户接受或修改了自动应用的标签(如果他们拥有相应权限)。

准备工作

  • 了解分类标签的运作方式以及如何创建分类标签。有关详情,请参阅分类标签管理员使用入门
  • 选择指定的标签添加者:贵组织中能够正确地手动将训练标签应用于敏感文件的一组用户。
  • 专门为指定的标签添加者创建一个配置群组。有关说明,请参阅通过配置群组来自定义服务设置
  • 在管理员账号中启用以下权限:“管理分类标签”“管理 DLP 规则”和“查看 DLP 规则”。

创建模型

若要创建模型,您首先需要选择现有分类标签或创建新标签。接下来,您需要创建匹配的训练标签(建议自动创建),或者使用标签管理器手动创建,供指定的标签添加者使用。

选择或创建分类标签

您必须为云端硬盘和 Google 文档启用分类功能。训练完成后,AI 模型会自动为云端硬盘中的敏感文件应用分类标签。模型基于每个标签仅使用一个字段进行训练,该字段必须是标记列表选项列表

我们建议您使用带标记的敏感度标签,因为此类标签会在文档上突出显示:

当您将选项列表字段或标记列表字段用作分类标签时,该字段必须满足以下条件:

  • 选项数量至少为 2 个,最多为 7 个
  • 已发布

如果您已有符合上述要求的标签,便可以将其用作分类标签。否则,请使用标签管理器在设置模型之前或设置模型时(本页稍后会介绍)创建标签。如需了解详情,请参阅为组织创建分类标签

创建训练标签

训练标签与分类标签几乎完全相同,仅供指定的标签添加者用于训练目的。创建模型时(本页稍后会介绍),您可以自动创建训练标签,以确保该标签与分类标签一致。

您还可以选择使用标签管理器手动创建自己的训练标签,无论是在设置模型之前还是设置模型时都可以这样做。有关详情,请参阅本页稍后的如何手动创建训练标签?部分。

创建模型

  1. 在 Google 管理控制台中,依次前往“菜单”图标 然后 安全性然后访问权限和数据控件然后数据分类

    需要拥有管理分类标签管理员权限。

  2. AI 分类部分中,点击创建模型
  3. 分类标签列表中,选择要用于训练模型的现有分类标签和字段,或点击创建标签以使用标签管理器创建一个标签。

    如果您已在标签管理器中创建标签,请返回到创建模型页面。您可能需要刷新页面才能在列表中看到新标签。

  4. 对于分类标签,请在字段名称列表中选择要使用的符合条件的字段。
  5. 点击继续
  6. (可选)自动创建并发布与分类标签匹配的训练标签:
    1. 点击创建训练标签
    2. 在随即显示的消息中,点击更新标签权限。系统应该会在一个单独的标签页中打开标签管理器并且已经以修改模式打开了标签。
    3. 依次点击权限然后修改,然后向包含标签添加者的配置群组授予可以应用标签及设置标签的值权限。
    4. 点击保存,然后关闭“标签管理器”标签页。

      注意:您也可以稍后设置标签权限。但请务必确保只有标签添加者才能访问训练标签。

  7. (可选)如果您已创建训练标签,请在训练标签列表中选择该标签。
  8. (可选)如需立即创建自己的训练标签,请点击前往标签管理器

    重要提示:请确保您的标签符合训练标签条件,并设置标签权限,以便只有标签添加者才能访问该标签。如需了解详情,请参阅本页下文中的训练标签指南

    返回到创建模型页面。您可能需要刷新页面才能在列表中看到新的训练标签。

  9. 创建模型页面上,点击继续
  10. 为模型输入描述性名称。
  11. 点击创建模型

创建模型后,模型详情页面会显示您选择的训练标签和分类标签。

训练模型

如需训练 AI 模型,您需要创建训练数据集,然后开始初始训练。在训练期间,模型会从数据集中的示例中学习。

重新训练是自动进行的:在初始训练后,模型每 2 周会重新训练一次,以帮助提高或保持其准确率。您可以随时手动重新训练模型。每次训练完成后,系统都会发布新模型,2 周一次的自动重新训练时间表也会重置。

创建训练数据集

如需创建训练数据集,指定的标签添加者需要为每个标签选项的至少 100 个文件应用训练标签。例如,如果您的标签有 3 个选项(例如“需要了解”“保密”和“公开”),则至少需要 300 个训练文件。不过,最好为每个标签选项提供 100 多个文件,因为很可能有些文件不适用于训练数据集。了解如何为训练数据添加优质示例标签

注意:您的训练数据集最多可以包含 100 万个文件。

创建模型后,系统会在大约 24 小时内自动检查有多少文件已加标签,可用于训练。之后,系统会全天持续检查。

如需查看已加标签的文件数量,请执行以下操作:

  1. 在 Google 管理控制台中,依次前往“菜单”图标 然后 安全性然后访问权限和数据控件然后数据分类

    需要拥有管理分类标签管理员权限。

  2. AI 分类部分中,点击查看 nn 模型
  3. 在相应模型的操作下,选择查看详情
  4. 在页面顶部的面板中,查看活跃模型的训练文件下已加标签的文件数量。

如果模型拥有足够的文件,可以进行训练,则显示“准备就绪,可以训练”

开始训练

训练通常需要 4 到 6 小时,但对于较大型的数据集,可能需要更长时间。模型可能需要进行多次训练,才能学会如何准确标记文件。

在训练期间,模型会将为文件选择的分类与应用于文件的训练标签进行比较,以生成得分。如需了解详情,请参阅得分是如何计算出来的

训练结束后,您可以查看模型的准确率。

如需开始训练,请执行以下操作:

  1. 在 Google 管理控制台中,依次前往“菜单”图标 然后 安全性然后访问权限和数据控件然后数据分类

    需要拥有管理分类标签管理员权限。

  2. AI 分类部分中,点击查看 nn 模型
  3. 模型详情页面上,选择相应模型操作下的查看详情
  4. 在页面顶部的训练面板中,点击开始训练

    注意:只有当您的标签添加者标记的训练文件数量达到最低要求时,此按钮才会显示。

训练后:检查模型得分

训练完成后,系统会发布模型,并显示每个标签选项的百分比得分。每个得分(称为召回率)都是模型在完成测试后能够正确分类的训练样本的百分比:

  • 低于 50% - 准确度低。模型需要用更优质的数据进一步训练,且尚未准备就绪。
  • 50-80% - 中等准确度。模型只能称之为在一定程度准备就绪。
  • 高于 80% - 准确率高。模型已准备就绪,可用来对贵组织的文件进行分类。

如需在训练后检查模型的准确性,请执行以下操作:

模型详情页面上,您可以查看模型得分:

  • 在页面顶部的训练结果面板中,找到当前使用的文件和分数
  • 当前训练数据集面板中

开启 AI 分类

当 AI 模型经过训练、准确率得分达到最低水平(至少 50%)之后,您就可以选择标签选项并启用自动文件加标签功能,即自动应用。不过,为获得最佳效果,建议等到所有标签选项的模型得分都达到至少 80% 后再发布模型。

启用自动应用

  1. 在 Google 管理控制台中,依次前往“菜单”图标 然后 安全性然后访问权限和数据控件然后数据分类

    需要拥有管理分类标签管理员权限。

  2. AI 分类部分中,点击查看 nn 模型
  3. 模型详情页面上,选择相应模型操作下的查看详情
  4. 在训练面板中,点击设置自动应用

    注意:只有当至少 1 个标签选项的准确率达到 50% 时,此按钮才会显示。

    或者,如果您之前已设置自动应用,请在 AI 标记的文件下点击修改自动应用

  5. 勾选您希望允许 AI 模型自动应用的标签选项对应的复选框。
  6. 点击保存并继续,选择哪些组织部门或群组拥有模型应自动应用标签的文件。默认设置为您的顶级父组织。

    或者,点击保存,以便稍后选择用户。

  7. 如果您选择选择用户,请在侧边选择一个组织部门或配置群组

    群组设置会覆盖组织部门的设置。了解详情

  8. 点击开启 - 系统会自动应用标签并采用以下选项之一
  9. 点击保存

    模型详情页面上,规则的当前自动应用状态启用

注意:您可以使用云端硬盘事件日志监控 AI 分类。如需了解详情,请参阅本页下文中的监控 AI 分类标签事件

AI 分类功能扫描文件的时间

为用户拥有的文件和共享云端硬盘启用自动应用功能后,AI 分类功能会在 1 到 2 周内至少扫描一次这些文件(静态文件)。AI 分类功能还会在文件上传或修改时对文件进行扫描,如果文件内容发生更改,则 AI 分类功能可能会更改应用的标签。

如何处理自动采纳冲突

数据保护规则

数据保护规则设置的标签值优先于 AI 分类,并且两者都优先于默认分类。

多条规则

当 2 条或更多同一类型的规则尝试对同一文件应用不同的标签选项时,系统会应用标签选项列表中位置更高的选项。例如,您可能有一个标签,其中的某个字段在标签管理器中具有 3 个选项:

  1. 机密
  2. 内部
  3. 公开

如果规则 1 尝试将标签设为机密,而规则 2 尝试将同一文件的标签设为公开,则系统会应用机密。设置规则之前,请确保标签的字段选项按您偏好的优先级顺序列出。

用户应用的标签

用户应用于文件的标签优先于 AI 应用的标签,也就是说,AI 分类功能不会修改用户之前设置的标签。

监控模型

在云端硬盘事件日志中详细了解 AI 分类为文件添加标签的具体情况。对于每个标签选项,日志会显示有多少文件是使用自动应用功能进行分类的,以及有多少用户接受或修改了自动应用的标签。用户需要获得权限才能对自动应用的标签执行操作。

用户与自动应用的标签互动所需的权限

用户需要拥有文件和标签权限才能与自动应用的标签互动。您可以在标签管理器中为分类标签设置权限。如需了解详情,请参阅为组织创建分类标签

  • 如需查看自动应用的标签,用户需要对分类标签拥有可以查看此标签权限。
  • 如需接受和修改自动应用的标签,用户需要对分类标签拥有可以应用标签和设置值权限,并且必须是文件的编辑者所有者

查看云端硬盘事件日志中的 AI 分类事件

  1. 在 Google 管理控制台中,依次前往“菜单”图标 然后 安全性然后访问权限和数据控件然后数据分类

    需要拥有管理分类标签管理员权限。

  2. AI 分类部分中,点击查看 nn 模型
  3. 模型详情页面上,在 AI 标记的文件下,针对要查看事件的标签选项选择查看文件

    安全调查工具会在新标签页中打开,并显示针对两个 AI 分类相关事件(已应用标签已更改标签字段值)的云端硬盘事件日志搜索结果。

  4. 点击活动说明可获取更多详细信息,例如:
    • 已加标签的文档的名称和类型
    • 分配给文档的标签字段值(例如,“机密”或“受限”)

管理模型

针对分类标签停用自动应用功能

如需停用所有标签选项或仅停用特定标签选项的自动应用功能,请执行以下操作

  1. 在 Google 管理控制台中,依次前往“菜单”图标 然后 安全性然后访问权限和数据控件然后数据分类

    需要拥有管理分类标签管理员权限。

  2. AI 分类部分中,点击查看 nn 模型
  3. 模型详情页面上,选择相应模型操作下的查看详情
  4. 已添加 AI 标签的文件下,点击修改自动应用设置
  5. 取消选中您要停用自动应用的标签选项对应的复选框。

    或者,若要彻底暂停自动应用功能,取消选中所有标签选项的复选框即可。

为特定组织部门或群组彻底停用自动应用功能

您可以为特定组织部门或群组中的用户所拥有的内容彻底停用自动应用功能。

  1. 在 Google 管理控制台中,依次前往“菜单”图标 然后 安全性然后访问权限和数据控件然后数据分类

    需要拥有管理分类标签管理员权限。

  2. AI 分类部分中,点击查看 nn 模型
  3. 模型详情页面上,选择相应模型操作下的查看详情
  4. 在页面顶部的更多操作菜单中,依次点击管理自动应用然后更新已启用自动应用的组织部门/群组
  5. 点击左侧的某个组织部门或群组以将其选中。
  6. 选择关闭 - 不自动添加标签
  7. 点击保存

删除模型

您可能需要删除某个模型,例如,因为模型准确率未提高。如果您删除模型,其所有 AI 分类设置都将被永久移除。注意:

  • 系统会从分类设置中移除仅在此模型中使用的标签,并删除此模型的所有版本。
  • 训练标签将保留在文件上。删除模型后,您可以选择将新模型配置为使用之前的训练标签(也可以使用其他的训练标签)。
  • 如果您为此模型启用了自动应用标签的功能,该功能会立即停用,但之前已经自动应用的标签会保留在文件中。
  • 如果您基于现有训练标签和训练文件进行重新训练,那么将生成相似的模型结果。
  • 如果您为新模型重新创建相同的分类标签,AI 分类功能会忽略并覆盖之前模型的分类结果。这样一来,您便可以“重新处理”贵组织的云端硬盘文件。如果您的模型自初始部署以来在质量方面有了显著改进,则上述操作可能会很有用。

要删除模型,请执行以下操作:

  1. 在 Google 管理控制台中,依次前往“菜单”图标 然后 安全性然后访问权限和数据控件然后数据分类

    需要拥有管理分类标签管理员权限。

  2. AI 分类部分中,点击查看 nn 模型
  3. 模型详情页面上,选择相应模型操作下的查看详情
  4. 在“模型详情”页面上,从右侧的操作部分中点击删除模型

    删除模型对话框将列出删除模型会产生哪些影响。

  5. 如要继续,请点击删除模型

常见问题解答

训练标签和分类标签

对训练标签和分类标签有什么要求?

分类标签和训练标签都必须符合以下条件:

  • 必须最少包含 2 个选项,最多 7 个选项。
  • 选项的顺序必须相同。

    例如,如果分类标签的选项顺序如下:

    1. 选项 1
    2. 选项 2
    3. 选项 3

    那么,训练标签的选项就不能是如下顺序:

    1. 选项 2
    2. 选项 1
    3. 选项 3
  • 必须为已发布状态。
  • 具有访问权限不相同的标签。训练标签应仅提供给可以训练模型的指定标签添加者。分类标签可以具有更广泛的访问权限。

如何手动创建训练标签?

虽然在设置模型时自动创建训练标签是最佳实践,但您也可以按照以下准则在标签管理器中手动创建训练标签:
  • 确保标签符合所要求的标签标准
  • 使用“train”(训练)或“training”(训练)一词标识训练标签,以便指定的标签添加者能够更容易地识别该标签,并在创建训练数据集时应用该标签。
  • 为训练标签添加说明字段,以进一步帮助指定的标签添加者了解其用途。
  • 请务必使用您为标签添加者创建的配置群组,将标签权限设置为仅限指定的标签添加者(即负责识别用于模型训练的文件的用户)。标签添加者需要拥有可以应用标签及设置标签的值权限。如需了解详情,请参阅为组织创建分类标签

可以将分类标签用作训练标签吗?

不可以。分类标签和训练标签必须不同。您选作分类标签的标签不适用于训练标签。

训练数据集

哪些文件适合用来训练模型?

为了在训练模型时获得最佳效果,请让指定的标签添加者遵循以下准则:

  • 确保每个文件至少包含 500 个字符。
  • 选择代表用户在组织中创建、共享和使用的内容的文件。
  • 为每个标签选项加标签的文件数量应大致相同(每个标签选项至少 100 个文件)。这有助于模型全面了解您的数据并提高得分。
  • 为每个选项类型添加具有代表性的文件。例如,如果合同也是贵组织中常见的“绝密”文件类型,那么请勿将 100 份简历标记为“绝密”文件并将其计入“绝密”样本文件总数。
  • 仅将训练标签应用于贵组织拥有的文件,无论是用户直接拥有的文件还是存储在共享云端硬盘中的文件。AI 分类功能不会处理外部用户拥有的文件或位于外部共享云端硬盘中的文件。

模型是否可以基于之前已添加标签的文件进行训练?

目前无法基于之前已添加标签的文件进行训练。模型需要训练标签作为其将自动应用于文件的标签的副本,但它们不能是同一标签。

模型能否进行多语言训练?

模型确实支持多种语言;不过,训练数据中应包含每种选项类型和语言的各种代表性样本。这会增加成功训练模型所需的文件数量。仅支持基于拉丁文字符的语言。

训练期间的分数是如何计算的?

在训练期间,AI 模型会使用 75% 的输入数据来训练自己为文件加标签的能力,并会预留 25% 的输入数据来定期测试其自身性能。换言之,有 25% 的加好标签的文件,模型在分析它们时就好像自己并不知道这些文件已经应用了什么标签。然后,AI 模型会自行选择标签,并将自己选择的标签与指定标签添加者实际应用的标签进行比对。得分显示了正确分配有合适标签的预留文件的比例。

训练模型后,我可以“冻结”模型以停止自动重新训练吗?

AI 分类模型会使用云端硬盘中的文件进行训练。当这些文件被删除(通常是根据 Google 保险柜中的保留时间表)时,相应模型也需要随后被删除,以确保文件内容不会以某种方式保留下来。因此,模型重新训练会持续循环进行,无法暂停。

用户能否更改或修正标签和字段值?

拥有相应权限的用户可以更新标签或字段值,但 AI 分类功能不会根据该更改来修订分类模型。如果您发现模型应用了错误的标签和字段值,可以要求指定的标签添加者为相应文件分配正确的训练标签。然后,AI 分类会将这些数据纳入下一个模型自训练周期。

自动应用

AI 分类功能可以评估图片、视频和音频文件吗?

AI 分类功能使用与云端硬盘数据泄露防护功能相同的可编入索引的文本处理方式。云端硬盘可以从中提取可编入索引的文本的任何文件都可以经过评估,获得 AI 分类功能应用的标签。这包括光学字符识别 (OCR),用于从图片中提取文本。不过,AI 分类功能不会评估视频或音频文件。

AI 分类是否仅适用于为敏感内容添加标签?

虽然敏感内容是 AI 分类关注的重点,不过我们可以训练任何不超过 4 个选项的标签来实现自动加标签功能。分类标签还可用于审核、易寻性和保留管理。

启用客户端加密功能 (CSE) 后,AI 分类功能是否会正常运行?

由于 Google 无法解密使用 CSE 加密的文件(只有您的私有加密密钥可以),因此 AI 分类功能无法使用使用 CSE 加密的文件进行训练,也无法自动将标签应用于这些文件。

AI 分类功能如何以及何时修改自动应用的标签?

启用自动应用功能后,AI 分类功能会扫描可提取足够文本的所有静态文件,并对其进行分类。系统会至少扫描一次这些文件。

当内容发生修改时,AI 分类功能会定期重新处理文件。内容更改可能会导致文件的预测结果不同。当 AI 分类功能针对某个文件同时提供旧预测选项和新预测选项时,它会优先使用选项列表中顺序靠前的选项。例如,如果某个字段在标签管理器中有三个选项:

  • 机密
  • 内部
  • 公开

假设 AI 分类功能将某个文件归类为内部,并且内容发生了变化,因此 AI 分类模型预测该文件为机密类别。在这种情况下,该文件的分类会更改为机密。不过,如果 AI 分类模型预测该文件为公开类别,则该文件的分类仍为内部

AI 分类功能不会修改已由用户审核或修改的自动应用的标签和字段值。

如果模型发生变化,模型是否会自动重新评估现有文件?

当您创建或修改文件时,系统会使用最新模型处理这些文件。发布新模型版本时,系统不会自动重新处理现有文件。不过,无论模型是否进行特定更新或重新训练,它都可能会定期使用最新版本重新处理您的所有文件。

当多种分类方法处于有效状态时,AI 分类是否优先于其他分类方法?

数据分类可以被覆盖。数据分类按以下顺序进行:
  1. 不包含用户覆盖的数据泄露防护规则
  2. 手动分类
  3. 包含用户覆盖的数据泄露防护规则
  4. AI 分类
  5. 默认分类
移除标签或字段后,较低级别的分类机制就会生效。例如,用户移除了标签的文件稍后可能会由 AI 分类功能自动应用相同的标签。

AI 分类功能可将标签应用于哪些类型的文件?

  • AI 分类功能使用与云端硬盘数据泄露防护功能相同的可编入索引的文本处理方式。如需了解详情,请参阅 DLP 扫描的文件类型列表。不支持音频和视频文件。
  • 文件必须包含最低限度的文本,AI 分类功能才能应用标签。因此,某些文件(例如非常简短的文档和文字较少的图片)可能无法进行分类。

如果将某选项的自动应用功能停用,那么会发生什么情况?

在扫描期间,如果系统预测某文件具有自动应用功能遭到停用的选项,则 AI 分类功能不会向该文件应用任何标签或字段值。

即使在您停用选项后,AI 分类功能之前标记的文件也会保留已应用的标签和选项值。

我可以回滚自动应用的标签吗?

您无法撤消标签应用操作。建议您先针对小部分受众群体优化和测试模型,然后再广泛部署。例如,您可以使用临时标签训练模型。然后,当模型效果令人满意时,您可以删除该模型并使用相同的训练标签(相同的训练数据集)但使用永久标签创建一个新模型,从而“重置”该模型。

许可

对于没有合格许可的用户,此功能如何运作?

如果贵组织中的管理员拥有支持 AI 分类的许可,则可以训练模型。指定的标签添加者(应用训练标签的用户)无需拥有支持 AI 分类的许可。

任何拥有支持云端硬盘分类标签的许可的用户都可以拥有带有训练标签的文件。不过,AI 分类功能只会为共享云端硬盘中的文件或归拥有支持 AI 分类功能的许可的用户所有的文件添加标签。AI 分类功能不会处理没有支持的许可的用户所拥有的文件。

如果没有任何用户拥有支持 AI 分类的许可,系统会关闭自动应用功能并删除分类模型。不过,训练标签和 AI 分类应用的标签会保留在文件上。

对于封存用户,此功能如何运作?

如果用户拥有“Google Workspace 企业 Plus 版 - 封存用户专用许可”,其文件将由 AI 分类功能添加标签。

云端硬盘标签管理员使用入门