使用 AI 分类自动为 Google 云端硬盘文件加标签

此功能在“一线员工 Plus 版”和“企业 Plus 版”中提供。此功能也随 Gemini Enterprise(旧版)、Gemini Education Premium 和 AI Security 加购项提供。比较加购项

Google 云端硬盘数据分类标签可作为文件的描述性元数据,您可将其用于各种功能,例如数据保护、审核调查和保留。Google 云端硬盘的 AI 分类功能可自动为文件添加标签,无需编程。

AI 分类方法有 2 种:

  • 自定义模型 - 基于一组组织训练数据,构建组织特有的专用机器学习模型。作为管理员,您可以控制模型用于训练的数据。您的模型是您组织独有的。
  • 使用 Gemini(Beta 版)使用 Gemini 大语言模型 (LLM) 检查文件内容,并根据您定义的自定义纯语言指令自动应用标签。这种方法不需要预先收集数据或训练模型。

您最多可以创建 5 个独特的 AI 分类自定义模型或 Gemini 指令,并且可以在此总限额内灵活地组合使用这两种方法。

注意:如需由 AI 分类添加标签,文件必须位于共享云端硬盘中,或者归具有支持分类标签的许可的用户所有。

使用 AI 分类

以下是您需要遵循的基本步骤,用于设置 AI 分类功能,以便自动为云端硬盘中的新文件和现有文件添加标签。

1. 创建自定义模型或 Gemini 指令:选择或创建要自动应用于文件的分类标签

注意:如果您要创建自定义模型,还需要创建训练标签。用于标记模型用来学习如何对数据进行分类的示例文件。

2. (仅限自定义模型)训练模型:创建标签后,指定的标签添加者会使用训练标签对云端硬盘文件进行分类,以创建训练数据集。然后,模型会使用该数据集来学习如何对敏感文件进行分类。

3. 开启 AI 分类:模型训练完成或 Gemini 指令设置完毕后,您可以设置自动文件加标签功能,即自动应用。在设置过程中,您可以选择要启用哪些标签选项,以及哪些用户拥有您希望 AI 分类功能应用标签的文件。然后,模型或指令开始为敏感文件添加标签。

4. 监控模型:您可以使用云端硬盘事件日志来监控分类的文件数量,以及有多少用户接受或修改了自动应用的标签(如果他们有相应权限)。

准备工作

  • 了解分类标签的运作方式以及如何创建分类标签。如需了解详情,请参阅分类标签管理员使用入门
  • 选择指定的标签添加者 - 贵组织中能够正确地将训练标签手动应用于敏感文件的一组用户。
  • 专门为指定的标签添加者创建一个配置群组。如需查看相关说明,请参阅通过配置群组来自定义服务设置
  • 在管理员账号中启用以下权限:“管理分类标签”“管理 DLP 规则”和“查看 DLP 规则”。

创建模型

如需创建模型,您首先需要选择现有分类标签或创建新标签。接下来,您需要创建匹配的训练标签(建议自动创建),或者使用标签管理器手动创建,供指定的标签添加者使用。

选择或创建分类标签

您必须为 Google 云端硬盘和 Google 文档启用分类功能。训练完成后,AI 模型会自动为云端硬盘中的敏感文件应用分类标签。模型基于每个标签仅使用一个字段进行训练,该字段必须是标记列表选项列表

我们建议您使用带标记的敏感度标签,因为此类标签会突出显示在文档上。

当您将选项列表字段或标记列表字段用作分类标签时,该字段必须满足以下条件:

  • 选项数量至少为 2 个,最多为 7 个
  • 已发布

如果您已有符合上述要求的标签,便可以将其用作分类标签。否则,请使用标签管理器在设置模型之前或设置模型时(本页稍后会介绍)创建标签。如需了解详情,请参阅为组织创建分类标签

创建训练标签

训练标签与分类标签几乎完全相同,仅供指定的标签添加者用于训练目的。创建模型时(本页稍后会介绍),您可以自动创建训练标签,以确保该标签与分类标签一致。

您还可以选择使用标签管理器手动创建自己的训练标签,无论是在设置模型之前还是设置模型时都可以这样做。有关详情,请参阅本页稍后的如何手动创建训练标签?

创建模型

  1. 在 Google 管理控制台中,依次点击“菜单”图标 然后 安全性 然后 访问权限和数据控件 然后 数据分类

    需要拥有查看 DLP 规则和管理 DLP 规则的管理员权限。

  2. AI 分类部分中,点击创建模型
  3. 分类标签列表中,选择要用于训练模型的现有分类标签和字段,或点击创建标签以使用标签管理器创建一个标签。

    如果您在标签管理器中创建了标签,请返回到创建模型页面。您可能需要刷新页面才能在列表中看到新标签。

  4. 对于分类标签,请在字段名称列表中选择要使用的符合条件的字段。
  5. 点击继续
  6. (可选)自动创建并发布与分类标签匹配的训练标签:
    1. 点击创建训练标签
    2. 在随即显示的消息中,点击更新标签权限。系统应该会在一个单独的标签页中打开标签管理器并且已经以修改模式打开了标签。
    3. 依次点击权限 然后 修改,然后向包含标签添加者的配置群组授予可以应用标签及设置标签的值权限。
    4. 点击保存,然后关闭“标签管理器”标签页。

      注意:您也可以稍后设置标签权限。但请务必确保只有标签添加者才能访问训练标签。

  7. (可选)如果您已创建训练标签,请在训练标签列表中选择该标签。
  8. (可选)如需立即创建自己的训练标签,请点击前往标签管理器

    重要提示:请确保您的标签符合训练标签条件,并设置标签权限,以便只有标签添加者可以访问该标签。如需了解详情,请参阅本页下文中的训练标签指南

    返回到创建模型页面。您可能需要刷新页面才能在列表中看到新的训练标签。

  9. 创建模型页面上,点击继续
  10. 为模型输入描述性名称。
  11. 点击创建模型

创建模型后,模型详情页面会显示您选择的训练标签和分类标签。

训练模型

如需训练 AI 模型,您需要创建训练数据集,然后开始初始训练。在训练期间,模型会从数据集中的示例中学习。

重新训练是自动进行的:在初始训练后,模型每 2 周会重新训练一次,以帮助提高或保持其准确率。您可以随时手动重新训练模型。每次训练完成后,系统都会发布新模型,2 周一次的自动重新训练时间表也会重置。

创建训练数据集

如需创建训练数据集,指定的标签添加者需要为每个标签选项的至少 100 个文件应用训练标签。例如,如果您的标签有 3 个选项(例如“按需知密”“保密”和“公开”),则至少需要 300 个训练文件。不过,最好为每个标签选项提供 100 多个文件,因为很可能有些文件不适用于训练数据集。了解如何为训练数据添加高质量示例标签

注意:您的训练数据集最多可以包含 100 万个文件。

创建模型后,系统会在大约 24 小时内自动检查有多少文件已加标签,可用于训练。之后,系统会全天持续检查。

如需查看已加标签的文件数量,请执行以下操作:

  1. 在 Google 管理控制台中,依次点击“菜单”图标 然后 安全性 然后 访问权限和数据控件 然后 数据分类

    需要拥有查看 DLP 规则和管理 DLP 规则的管理员权限。

  2. AI 分类部分,点击查看已保存的模型
  3. 在相应模型的操作下,选择查看详情
  4. 在页面顶部的面板中,查看活跃模型的训练文件下已加标签的文件数量。

如果模型拥有足够的文件,可以进行训练,则显示“准备就绪,可以训练”

启动训练

训练通常需要 4 到 6 小时,但对于较大型的数据集,可能需要更长时间。模型可能需要进行多次训练,才能学会如何准确标记文件。

在训练期间,模型会将为文件选择的分类与应用于文件的训练标签进行比较,以生成得分。如需了解详情,请参阅得分是如何计算出来的

训练结束后,您可以查看模型的准确率。

如需开始训练,请执行以下操作:

  1. 在 Google 管理控制台中,依次点击“菜单”图标 然后 安全性 然后 访问权限和数据控件 然后 数据分类

    需要拥有查看 DLP 规则和管理 DLP 规则的管理员权限。

  2. AI 分类部分,点击查看已保存的模型
  3. 模型详情页面上,选择相应模型操作下的查看详情
  4. 在页面顶部的训练面板中,点击开始训练

    注意:只有当您的标签添加者标记的训练文件数量达到最低要求时,此按钮才会显示。

训练后:检查模型得分

训练完成后,系统会发布模型,并显示每个标签选项的百分比得分。每个得分(称为召回率)都是模型在完成测试后能够正确分类的训练样本的百分比:

  • 低于 50% - 准确度低。模型需要用更优质的数据进一步训练,且尚未准备就绪。
  • 50-80% - 中等准确度。模型只能称之为在一定程度准备就绪。
  • 高于 80% - 高精确度。模型已准备就绪,可用来对贵组织的文件进行分类。

如需在训练后检查模型的准确性,请执行以下操作:

模型详情页面上,您可以查看模型得分:

  • 在页面顶部的训练结果面板中,当前使用的文件和分数
  • 当前训练数据集面板中

创建 Gemini 指令

如需创建一组 Gemini 指令,您首先需要选择包含指令的预定义标签,或选择现有的分类标签。在开始之前,请确保现有标签符合必要的设置条件。如需了解详情,请参阅本页面上的选择或创建分类标签

如需创建 Gemini 指令,请执行以下操作:

  1. 在 Google 管理控制台中,依次点击“菜单”图标 然后 安全性 然后 访问权限和数据控件 然后 数据分类

    需要拥有查看 DLP 规则和管理 DLP 规则的管理员权限。

  2. AI 分类部分,点击使用 Gemini
  3. 选择要让 Gemini 应用的标签页面上,选择一个选项:
    • 选择应用预定义的标签,以使用预定义的标签和模板说明(您可以修改这些说明)。
    • 选择应用您自己的标签,以使用贵组织的现有标签。
  4. 如果您需要新标签,请点击创建标签,以在新浏览器标签页中打开标签管理器。
    • 注意:在标签管理器标签页中创建并发布新标签后,请返回使用 Gemini 应用标签标签页,然后刷新页面以更新可用选项。
  5. 如果您选择应用自己的标签,请选择分类标签下拉菜单,然后选择一个标签。
  6. 点击字段名称下拉菜单,然后选择一个字段。
  7. 点击继续
  8. 查看 Gemini 指令详情页面上,为每个标签选项输入清晰全面的指令,以帮助 Gemini 对您组织的数据进行分类。请针对每个选项提供以下详细信息:
    • 相应选项所代表的内容,例如类别、类型或特征
    • Gemini 应如何识别选项,例如要寻找的线索或关键字
    • Gemini 应如何处理例外情况,例如不应应用相应选项的情况
  9. 点击继续
  10. 选择符合自动应用条件的标签选项页面上,勾选 Gemini 应自动应用的特定标签选项对应的复选框。
    • 注意:Gemini 不会将未勾选的选项应用于云端硬盘中的文件。
  11. 点击继续
  12. 查看并命名指令页面上,在名称*字段中输入指令的描述性名称。查看并验证详细信息,确保其准确无误。
  13. 点击保存保存并设置自动应用

开启 AI 分类

设置 Gemini 指令或训练自定义模型以达到最低准确率(至少 50%)后,您可以选择标签选项并启用自动文件加标签功能(即自动应用)。为了通过自定义模型获得最佳效果,建议等待所有标签选项的模型得分至少达到 80%。

启用自动应用

  1. 在 Google 管理控制台中,依次点击“菜单”图标 然后 安全性 然后 访问权限和数据控件 然后 数据分类

    需要拥有查看 DLP 规则和管理 DLP 规则的管理员权限。

  2. AI 分类部分,点击查看已保存的模型
  3. 模型详情页面上,选择相应模型操作下的查看详情
  4. 在训练面板中,点击设置自动应用

    注意:只有当至少 1 个标签选项的准确率达到 50% 时,此按钮才会显示。

    或者,如果您之前已设置自动应用,请在 AI 标记的文件下点击修改自动应用

  5. 勾选您希望允许 AI 模型自动应用的标签选项对应的复选框。
  6. 点击保存并继续,然后选择哪些组织部门或群组拥有模型应自动应用标签的文件。默认设置为您的顶级父组织。

    或者,点击保存,以便稍后选择用户。

  7. 如果您选择选择用户,请在侧边选择一个组织部门或配置群组

    群组设置会覆盖组织部门的设置。了解详情

  8. 点击开启 - 系统会自动应用标签并采用以下选项之一
  9. 点击保存

    模型详情页面上,规则的当前自动应用状态启用

注意:您可以使用云端硬盘事件日志监控 AI 分类。如需了解详情,请参阅本页下文中的监控 AI 分类标签事件

AI 分类功能扫描文件的时间

为用户拥有的文件和共享云端硬盘启用自动应用功能后,AI 分类功能会在 1 到 2 周内至少扫描一次这些文件(静态文件)。AI 分类功能还会在文件上传或修改时对文件进行扫描,如果文件内容发生更改,则 AI 分类功能可能会更改应用的标签。

注意:将 AI 分类功能与 Gemini 指令搭配使用时,必须手动开启非活跃文件扫描功能。如需启用此功能,请点击说明页面上的对闲置文件应用标签

如何处理自动采纳冲突

数据保护规则

数据保护规则设置的标签值优先于 AI 分类,并且两者都优先于默认分类。

多个自定义模型或 Gemini 指令

当 2 个或更多 AI 分类来源尝试对同一文件应用同一标签字段的不同标签选项时,系统会应用标签选项列表中位置更高的选项。例如,您可能有一个标签,其中的某个字段在标签管理器中具有 3 个选项:

  1. 机密
  2. 内部
  3. 公开

如果 AI 分类来源 1 尝试将标签设为机密,而来源 2 尝试将同一文件的标签设为公开,则系统会应用机密,因为该标签在标签的选项列表中位置更高。设置规则之前,请确保标签的字段选项按您偏好的优先级顺序列出。

用户应用的标签

用户应用于文件的标签优先于 AI 应用的标签,也就是说,AI 分类不会修改用户之前设置的标签。

注意:当用户接受或修改由 AI 添加标签的文件时,该标签会被视为“用户应用的标签”,AI 分类功能将不再修改其值。

监控模型

详细了解 AI 分类功能如何在云端硬盘事件日志中为文件添加标签。 对于每个标签选项,日志会显示有多少文件是使用自动应用功能进行分类的,以及有多少用户接受或修改了自动应用的标签。用户需要获得权限才能对自动应用的标签执行操作。

用户与自动应用的标签互动所需的权限

用户需要拥有文件和标签权限才能与自动应用的标签互动。您可以在标签管理器中为分类标签设置权限。如需了解详情,请参阅为组织创建分类标签

  • 如需查看自动应用的标签,用户需要对分类标签拥有可以查看此标签权限。
  • 如需接受和修改自动应用的标签,用户需要对分类标签拥有可以应用标签和设置值权限,并且必须是文件的编辑者所有者

查看云端硬盘事件日志中的 AI 分类事件

  1. 在 Google 管理控制台中,依次点击“菜单”图标 然后 安全性 然后 访问权限和数据控件 然后 数据分类

    需要拥有查看 DLP 规则和管理 DLP 规则的管理员权限。

  2. AI 分类部分,点击查看已保存的模型
  3. 模型详情页面上,在 AI 标记的文件下,针对要查看事件的标签选项选择查看文件

    安全调查工具会在新标签页中打开,并显示针对两个 AI 分类相关事件(已应用标签已更改标签字段值)的云端硬盘事件日志搜索结果。

  4. 点击事件说明可获取更多详细信息,例如:
    • 已加标签的文档的名称和类型
    • 分配给文档的标签字段值(例如,“机密”或“受限”)

查看 Gemini 指令的用户验收率

在 AI 分类的模型详情页面上,用户接受度图表会显示过去 180 天内根据用户反馈得出的指令效果数据。

指标包括:

  • 用户已查看:与自动标签横幅互动过的用户总数,包括接受或修改通过 Gemini 应用的标签选项的用户。
  • 用户接受 - 选择保留 Gemini 建议的特定标签的用户总数。

管理模型

针对分类标签停用自动应用功能

如需停用所有标签选项或仅停用特定标签选项的自动应用功能,请执行以下操作

  1. 在 Google 管理控制台中,依次点击“菜单”图标 然后 安全性 然后 访问权限和数据控件 然后 数据分类

    需要拥有查看 DLP 规则和管理 DLP 规则的管理员权限。

  2. AI 分类部分,点击查看已保存的模型
  3. 模型详情页面上,选择相应模型操作下的查看详情
  4. 带有 AI 标签的文件下,点击修改自动应用设置
  5. 清除您要停用自动应用的标签选项对应的复选框。

    或者,若要彻底暂停自动应用功能,请清除所有标签选项。

为特定组织部门或群组彻底停用自动应用功能:

您可以为特定组织部门或群组中的用户所拥有的内容彻底停用自动应用功能。

  1. 在 Google 管理控制台中,依次点击“菜单”图标 然后 安全性 然后 访问权限和数据控件 然后 数据分类

    需要拥有查看 DLP 规则和管理 DLP 规则的管理员权限。

  2. AI 分类部分,点击查看已保存的模型
  3. 模型详情页面上,选择相应模型操作下的查看详情
  4. 在页面顶部的更多操作菜单中,依次点击管理自动应用 然后 更新已启用自动应用的组织部门/群组
  5. 点击左侧的某个组织部门或群组以将其选中。
  6. 选择关闭 - 不自动添加标签
  7. 点击保存

删除自定义模型或 Gemini 指令

如果自定义模型或 Gemini 指令的准确度不理想,您可能需要将其删除。如果您删除自定义模型或 Gemini 指令,其所有 AI 分类设置都将被永久移除。注意:

  • 模型或 Gemini 指令中使用的标签会从 AI 分类设置中取消关联,并且模型或 Gemini 指令的历史记录会被删除。不过,标签本身不会被删除,仍可在标签管理器中进行管理。
  • (仅限自定义模型)训练标签将保留在文件上。删除模型后,您可以选择将新的自定义模型配置为使用之前的训练标签。如果您基于现有训练标签和训练文件进行重新训练,那么模型的效果会相似。
  • 为此模型启用的自动应用标签功能会立即停止。您可以选择移除或保留之前自动应用于尚未被用户接受或修改的文件的标签。
  • 如果您使用相同的分类标签重新创建新模型或 Gemini 指令,AI 分类功能会覆盖之前分类的结果。这样一来,您就可以重新处理组织的云端硬盘文件。如果模型或指令的质量自您开始使用以来有了显著改进,则此功能可能会很有用。

如需删除模型或指令,请执行以下操作:

  1. 在 Google 管理控制台中,依次点击“菜单”图标 然后 安全性 然后 访问权限和数据控件 然后 数据分类

    需要拥有查看 DLP 规则和管理 DLP 规则的管理员权限。

  2. AI 分类部分,点击查看已保存的模型
  3. 模型列表页面上,点击模型或指令旁边的操作,然后选择删除模型删除指令。该对话框会列出删除操作的影响,并让您决定是保留还是舍弃之前应用的标签:
    • 保留已应用的标签 - 此前由这些指令的任何版本应用的标签都会保留在文件中。
    • 移除已应用的标签 - 此前由这些指令的任何版本应用的标签都会从文件中移除。移除标签最多可能需要 2 周的时间。由用户、规则、另一 AI 模型或 Gemini 指令修改的标签不会移除。
  4. 选中相应复选框以确认:继续即表示您确认:此操作一经执行就无法撤消。
  5. 如要继续,请点击删除模型删除指令

常见问题解答

训练标签和分类标签

对训练标签和分类标签有什么要求?

分类标签和训练标签都必须符合以下标准:

  • 必须最少包含 2 个选项,最多 7 个选项。
  • 选项的顺序必须相同。
  • 必须为已发布状态。
  • 具有访问权限不相同的标签。训练标签应仅提供给可以训练模型的指定标签添加者。分类标签可以具有更广泛的访问权限。

如何手动创建训练标签?

虽然最佳实践是在设置模型时自动创建训练标签,但您也可以按照以下准则在标签管理器中手动创建训练标签:
  • 确保标签符合所要求的标签标准
  • 使用“train”(训练)一词标识训练标签,以便指定的标签添加者能够更容易地识别该标签,并在创建训练数据集时应用该标签。
  • 为训练标签添加说明字段,以进一步帮助指定的标签添加者了解其用途。
  • 请务必使用您为标签添加者创建的配置群组,将标签权限设置为仅限指定的标签添加者(即负责识别用于模型训练的文件的用户)。

可以将分类标签用作训练标签吗?

不可以。分类标签和训练标签必须不同。您选作分类标签的标签不适用于训练标签。

Gemini 指令是否允许 Google 使用我的私人数据来训练全球模型?

不会。所有操作都在严格的隔离边界内进行。您的内部云端硬盘内容和相关提示会安全地隔离在您授权的 Workspace 环境中,不会用于训练 Google 的模型。如需详细了解我们对隐私权和安全性的承诺,请访问隐私信息中心

训练数据集

哪些文件适合用来训练模型?

为了在训练模型时获得最佳效果,请让指定的标签添加者遵循以下准则:

  • 确保每个文件至少包含 500 个字符。
  • 选择代表用户在组织中创建、共享和使用的内容的文件。
  • 为每个标签选项加标签的文件数量应大致相同(每个标签选项至少 100 个文件)。这有助于模型全面了解您的数据并提高得分。
  • 为每个选项类型添加具有代表性的文件。例如,如果合同也是贵组织中常见的“绝密”文件类型,那么请勿将 100 份简历标记为“绝密”文件并将其计入“绝密”样本文件总数。
  • 仅将训练标签应用于贵组织拥有的文件,无论是用户直接拥有的文件还是存储在共享云端硬盘中的文件。AI 分类功能不会处理外部用户拥有的文件或位于外部共享云端硬盘中的文件。

模型是否可以基于之前已添加标签的文件进行训练?

目前无法基于之前已添加标签的文件进行训练。模型需要训练标签来复制它将自动应用于文件的标签,但它们不能是同一标签。

模型能否进行多语言训练?

模型确实支持多种语言;不过,训练数据中应包含每种选项类型和语言的各种代表性样本。这会增加成功训练模型所需的文件数量。仅支持基于拉丁字符的语言。

训练期间的分数是如何计算的?

在训练期间,AI 模型会使用 75% 的输入数据来训练自己为文件加标签的能力,并会预留 25% 的输入数据来定期测试其自身性能。换言之,有 25% 的加好标签的文件,模型在分析它们时就好像自己并不知道这些文件已经应用了什么标签。然后,AI 模型会自行选择标签,并将自己选择的标签与指定标签添加者实际应用的标签进行比对。得分显示了正确分配有合适标签的预留文件的比例。

训练模型后,我可以“冻结”模型以停止自动重新训练吗?

AI 分类模型会使用云端硬盘中的文件进行训练。当这些文件被删除(通常是根据 Google 保险柜中的保留时间表)时,相应模型也需要随后被删除,以确保文件内容不会以某种方式保留下来。因此,模型重新训练会持续循环进行,无法暂停。

用户是否可以更改或修正标签和字段值?

拥有相应权限的用户可以更新标签或字段值,但 AI 分类功能不会根据该更改来修改分类模型。如果您发现模型应用了错误的标签和字段值,可以要求指定的标签添加者为相应文件分配正确的训练标签。然后,AI 分类会将这些数据纳入下一个模型自训练周期。

自动应用

AI 分类功能可以评估图片、视频和音频文件吗?

AI 分类功能使用与云端硬盘数据泄露防护功能相同的可编入索引的文本处理方式。云端硬盘可以从中提取可编入索引的文本的任何文件都可以经过评估,获得 AI 分类功能应用的标签。这包括光学字符识别 (OCR),用于从图片中提取文本。不过,AI 分类功能不会评估视频或音频文件。

AI 分类是否仅适用于为敏感内容添加标签?

虽然敏感内容是 AI 分类关注的重点,不过我们可以训练任何不超过 4 个选项的标签来实现自动加标签功能。分类标签还可用于审核、易寻性和保留管理。

启用客户端加密功能 (CSE) 后,AI 分类功能是否会正常运行?

由于 Google 无法解密使用 CSE 加密的文件(只有您的私有加密密钥可以),因此 AI 分类无法使用 CSE 加密的文件进行训练,也无法自动将标签应用于这些文件。

AI 分类功能如何以及何时修改自动应用的标签?

启用自动应用功能后,AI 分类功能会扫描可提取足够文本的所有静态文件,并对其进行分类。系统会至少扫描一次这些文件。

当内容发生修改时,AI 分类功能会定期重新处理文件。内容更改可能会导致文件的预测结果不同。当 AI 分类功能针对某个文件同时提供旧预测选项和新预测选项时,它会优先使用选项列表中顺序靠前的选项。例如,如果某个字段在标签管理器中有三个选项:

  • 机密
  • 内部
  • 公开

假设 AI 分类功能将某个文件归类为内部,并且内容发生了变化,因此 AI 分类模型预测该文件为机密类别。在这种情况下,该文件的分类会更改为机密。不过,如果 AI 分类模型预测该文件为公开类别,则该文件的分类仍为内部

AI 分类功能不会修改已由用户审核或修改的自动应用的标签和字段值。

如果模型发生变化,模型是否会自动重新评估现有文件?

当您创建或修改文件时,系统会使用最新模型处理这些文件。新模型版本发布后,现有文件不会自动重新处理。不过,无论模型是否进行特定更新或重新训练,它都可能会定期使用最新版本重新处理您的所有文件。

当多种分类方法处于有效状态时,AI 分类是否优先于其他分类方法?

数据分类可以被覆盖。数据分类按以下顺序进行:
  1. 不包含用户覆盖的数据泄露防护规则
  2. 手动分类
  3. 包含用户覆盖的数据泄露防护规则
  4. AI 分类
  5. 默认分类
移除标签或字段后,较低级别的分类机制就会生效。例如,用户移除了标签的文件稍后可能会由 AI 分类功能自动应用相同的标签。

AI 分类功能可将标签应用于哪些类型的文件?

  • AI 分类功能使用与云端硬盘数据泄露防护功能相同的可编入索引的文本处理方式。如需了解详情,请参阅 DLP 扫描的文件类型列表。不支持音频和视频文件。
  • 文件必须包含最低限度的文本,AI 分类功能才能应用标签。因此,某些文件(例如非常简短的文档和文字较少的图片)可能无法进行分类。

如果将某选项的自动应用功能停用,那么会发生什么情况?

在扫描期间,如果系统预测某文件具有自动应用功能遭到停用的选项,则 AI 分类功能不会向该文件应用任何标签或字段值。

即使在您停用选项后,AI 分类功能之前标记的文件也会保留已应用的标签和选项值。

我可以回滚自动应用的标签吗?

您无法撤销标签应用操作。建议您先针对小部分受众群体优化和测试模型,然后再广泛部署。例如,您可以使用临时标签训练模型。然后,当模型效果令人满意时,您可以删除该模型并使用相同的训练标签(相同的训练数据集)但使用永久标签创建一个新模型,从而“重置”该模型。

Gemini 和自定义模型

使用 Gemini 指令的 AI 分类是否会完全取代现有的自定义模型?

否。Gemini 指令可作为补充替代方案。虽然经典模型会根据您的历史数据模式量身打造一个隔离的客户专用模型,但 Gemini 指令会使用我们预训练的基础模型,根据您编写的自定义文本规则来评估内容。

如何决定何时使用 Gemini 指令或经典模型?

组织不必只选择一种架构。您可以同时使用这两种模式,以根据组织的需求支持数据分类的不同阶段。

数据分类说明包含哪些要素?

分类指令是提供给 Gemini 的结构化蓝图。为了帮助 Gemini 对您的数据进行分类,请为每个标签选项输入清晰全面的指令详情,包括相应选项的含义、Gemini 应如何识别相应选项,以及如何处理例外情况。

Gemini AI 分类行为

为什么 Gemini 有时会为相同或几乎相同的文件分配不同的标签选项?

LLM 本质上是概率性的,而不是确定性的。虽然传统代码遵循固定逻辑,可针对给定输入生成相同的输出,但 LLM 会根据统计概率生成回答。此过程可能会受到“温度”等内部参数的影响,从而使模型选择具有一定的可变性。此外,一些外部变量可能会改变模型的内部推理,并导致相同或几乎相同的文件产生不同的结果。这些因素包括底层模型版本的更新、系统级指令的改进,甚至分类请求的具体日期和时间。因此,这些动态元素可确保 Gemini 在独特的上下文窗口中评估每个文件,这有时可能会导致标签分配不同。