Автоматическая маркировка файлов Google Drive с помощью классификации на основе искусственного интеллекта.

Эта функция включена в пакеты Frontline Plus и Enterprise Plus. Она также включена в дополнительные пакеты Gemini Enterprise–Legacy, Gemini Education Premium и AI Security. Сравнить дополнительные пакеты

Метки классификации данных в Google Drive служат описательными метаданными для файлов, которые можно использовать для различных целей, таких как защита данных, проведение аудита и хранение. Классификация с помощью ИИ для Google Drive автоматизирует задачу маркировки файлов без необходимости программирования.

Существует 2 метода классификации с использованием искусственного интеллекта:

  • Пользовательские модели — Создайте специализированную модель машинного обучения, уникальную для вашей организации, на основе набора обучающих данных организации. Как администратор, вы контролируете данные, на которых обучаются ваши модели. Ваша модель уникальна для вашей организации.
  • Используйте Gemini (бета-версия). Используйте большие языковые модели (LLM) Gemini для анализа содержимого файлов и автоматического присвоения меток на основе настраиваемых инструкций на простом языке, которые вы определяете. Этот метод не требует предварительного сбора данных или обучения модели.

Вы можете создать до 5 уникальных пользовательских моделей классификации ИИ или инструкций Gemini, при этом сохраняется возможность комбинировать оба метода в рамках этого общего лимита.

Примечание: Для классификации с помощью ИИ файлы должны находиться на общих дисках или принадлежать пользователям с лицензиями, поддерживающими классификацию .

Использование классификации на основе ИИ.

Вот основные шаги, которые необходимо выполнить для настройки классификации с помощью ИИ для автоматической маркировки новых и существующих файлов в Google Диск.

1. Создайте пользовательскую модель или инструкции Gemini: выберите или создайте метку классификации , которую вы хотите автоматически применять к файлам.

Примечание: При создании пользовательской модели вы также создаете метку для обучения . Она используется для обозначения файлов-примеров, которые модель использует для обучения классификации данных.

2. (Только для пользовательской модели) Обучение модели : После создания меток назначенные специалисты по разметке классифицируют файлы Google Drive с помощью обучающей метки, чтобы создать обучающий набор данных . Затем ваша модель использует этот набор данных для обучения классификации конфиденциальных файлов.

3. Включение классификации с помощью ИИ : После обучения модели или настройки инструкций Gemini можно настроить автоматическую разметку файлов, называемую автоприменением . Во время настройки вы выбираете, какие параметры разметки включить и каким пользователям принадлежат файлы, к которым вы хотите применить метки с помощью классификации ИИ. Затем ваша модель или инструкции начинают размечать конфиденциальные файлы.

4. Отслеживайте свою модель : вы можете использовать журнал событий Google Drive, чтобы отслеживать количество классифицированных файлов, а также количество пользователей, принявших или изменивших автоматически примененную метку (если у них есть соответствующие разрешения).

Прежде чем начать

Создайте модель

Для создания модели сначала необходимо выбрать существующую метку классификации или создать новую. Затем нужно создать соответствующую обучающую метку — либо автоматически (рекомендуется), либо вручную с помощью менеджера меток — которую будут использовать назначенные вами специалисты по разметке.

Выберите или создайте метку классификации.

Для работы с Google Диском и Документами необходимо включить классификацию. После обучения модель ИИ автоматически применяет вашу классификационную метку к конфиденциальным файлам Google Диска. Модель обучается только на одном поле для каждой метки, которое должно быть либо списком значков , либо списком параметров .

Мы рекомендуем использовать пометку о конфиденциальности, поскольку она хорошо видна в документах.

При использовании поля списка параметров или списка значков для обозначения классификации необходимо следующее:

  • Предложите не менее 2 и не более 7 вариантов.
  • Опубликовать

Если у вас уже есть метка, соответствующая этим требованиям, вы можете использовать ее в качестве классификационной метки. В противном случае используйте менеджер меток для создания метки либо до, либо во время настройки модели (подробнее на этой странице). Для получения более подробной информации перейдите к разделу «Создание классификационных меток для вашей организации» .

Создайте метку для обучения.

Метка для обучения практически идентична метке для классификации и используется только в целях обучения специально назначенными разметчиками. При создании модели (далее на этой странице) вы можете автоматически создать метку для обучения, чтобы убедиться, что она соответствует метке для классификации.

Вы также можете создать собственные обучающие метки вручную с помощью менеджера меток, либо до, либо во время настройки модели. Подробнее см. раздел «Как создать обучающие метки вручную?» далее на странице.

Создайте модель

  1. В консоли администратора Google перейдите в меню. а потом Безопасность а потом Контроль доступа и данных а потом Классификация данных .

    Для этого требуются права администратора «Просмотр правил DLP» и «Управление правилами DLP» .

  2. В разделе классификации ИИ нажмите «Создать модель» .
  3. В списке меток классификации выберите существующую метку классификации и поле для обучения модели или нажмите «Создать метку» , чтобы создать новую с помощью менеджера меток.

    Если вы создали метку в диспетчере меток, вернитесь на страницу «Создать модель» . Возможно, вам потребуется обновить страницу, чтобы увидеть новую метку в списке.

  4. Для обозначения области классификации выберите подходящее поле в списке «Название поля» .
  5. Нажмите «Продолжить» .
  6. (Необязательно) Автоматически создать и опубликовать обучающую метку, соответствующую вашей метке классификации:
    1. Нажмите «Создать метку для обучения» .
    2. В появившемся сообщении нажмите «Обновить разрешения для метки» . Метка откроется в режиме редактирования в диспетчере меток в отдельной вкладке.
    3. Разрешения на клик а потом Отредактируйте файл , затем предоставьте группе конфигурации, содержащей ваши метки, разрешение « Может применять метки и задавать значения» .
    4. Нажмите «Сохранить» и закройте вкладку «Менеджер этикеток».

      Примечание: Вы также можете установить права доступа к меткам позже. Но важно, чтобы доступ к обучающей метке имели только те, кто занимается разметкой.

  7. (Необязательно) Если вы уже создали метку для обучения, выберите ее в списке меток для обучения .
  8. (Необязательно) Создайте собственную метку для обучения, нажав «Перейти в менеджер меток» .

    Важно: Убедитесь, что ваша метка соответствует критериям обучающей метки, и настройте права доступа к метке так, чтобы доступ к ней имели только ваши сотрудники, занимающиеся маркировкой. Подробности см. в руководстве по использованию обучающих меток далее на странице.

    Вернитесь на страницу создания модели . Возможно, вам потребуется обновить страницу, чтобы увидеть новую метку обучения в списке.

  9. На странице «Создать модель» нажмите «Продолжить» .
  10. Введите описательное название для модели.
  11. Нажмите «Создать модель» .

После создания модели на странице сведений о модели отобразятся выбранные вами метки для обучения и классификации.

Обучите модель

Для обучения модели ИИ необходимо создать обучающий набор данных, а затем начать его первоначальное обучение. В ходе обучения модель учится на примерах из набора данных.

Переобучение происходит автоматически: после первоначального обучения ваша модель переобучается каждые 2 недели, чтобы улучшить или поддерживать уровень точности. Вы можете переобучить модель вручную в любое время. После каждого цикла обучения выпускается новая модель, и автоматический график переобучения каждые 2 недели сбрасывается.

Создайте обучающий набор данных.

Для создания обучающего набора данных назначенным вами специалистам по разметке необходимо присвоить обучающую метку как минимум 100 файлам для каждого варианта метки. Например, если у вашей метки есть 3 варианта — скажем, «Необходимо знать», «Конфиденциально» и «Общедоступно» — вам потребуется как минимум 300 обучающих файлов. Однако лучше иметь более 100 файлов на каждый вариант метки, поскольку некоторые файлы, вероятно, не подойдут для обучающего набора данных. Узнайте больше о разметке высококачественных примеров для обучения .

Примечание: ваш обучающий набор данных может содержать максимум 1 миллион файлов.

После создания модели она автоматически проверяет, сколько файлов было размечено для обучения примерно за 24 часа. После этого проверка продолжается непрерывно в течение дня.

Чтобы проверить, сколько файлов было помечено:

  1. В консоли администратора Google перейдите в меню. а потом Безопасность а потом Контроль доступа и данных а потом Классификация данных .

    Для этого требуются права администратора «Просмотр правил DLP» и «Управление правилами DLP» .

  2. В разделе классификации ИИ нажмите «Просмотреть сохраненные модели» .
  3. В разделе «Действия с моделью» выберите «Просмотреть подробности» .
  4. В верхней части страницы, в разделе «Обучающие файлы для активной модели» , отображается количество размеченных файлов.

Если для вашей модели достаточно файлов для обучения, значит, она готова к обучению.

Начать тренировочный забег

Обычно обучение занимает от 4 до 6 часов, но может занять больше времени при работе с большими наборами данных. Вашей модели, вероятно, потребуется несколько циклов обучения, чтобы научиться точно размечать файлы.

В процессе обучения модель сравнивает выбранную для файла классификацию с обучающей меткой, примененной к файлу, для генерации оценок. Подробнее см. раздел «Как рассчитываются оценки» .

После завершения тренировочного запуска вы можете проверить точность модели.

Чтобы начать тренировочный забег:

  1. В консоли администратора Google перейдите в меню. а потом Безопасность а потом Контроль доступа и данных а потом Классификация данных .

    Для этого требуются права администратора «Просмотр правил DLP» и «Управление правилами DLP» .

  2. В разделе классификации ИИ нажмите «Просмотреть сохраненные модели» .
  3. На странице сведений о модели в разделе « Действия с моделью» выберите «Просмотреть сведения» .
  4. В панели тренировок в верхней части страницы нажмите «Начать тренировочный забег» .

    Примечание: Эта кнопка доступна только в том случае, если ваши специалисты по разметке обработали минимальное количество обучающих файлов.

После обучения: проверьте результаты модели.

После завершения обучения ваша модель получает результаты в процентах для каждого варианта метки. Каждый результат, называемый показателем полноты (recall score ), представляет собой процент обучающих примеров, которые модель классифицировала правильно после самопроверки:

  • Ниже 50% — низкая точность. Модели нужны более качественные данные, и она ещё не готова.
  • От 50 до 80% — средняя точность. Модель может быть готова в ограниченном объеме.
  • Точность выше 80% . Модель готова к классификации файлов для вашей организации.

Чтобы проверить точность вашей модели после завершения обучения:

На странице с подробными сведениями о модели вы можете просмотреть оценки модели:

  • В панели результатов обучения в верхней части страницы, в разделе «Используемые файлы и оценки»
  • В панели «Текущий обучающий набор данных»

Создайте инструкции Gemini

Для создания набора инструкций Gemini сначала необходимо выбрать предопределенную метку, содержащую инструкции, или выбрать существующую классификационную метку. Прежде чем начать, убедитесь, что ваша существующая метка соответствует необходимым критериям настройки. Подробности см. на странице «Выбор или создание классификационной метки» .

Для создания инструкций Gemini:

  1. В консоли администратора Google перейдите в меню. а потом Безопасность а потом Контроль доступа и данных а потом Классификация данных .

    Для этого требуются права администратора «Просмотр правил DLP» и «Управление правилами DLP» .

  2. В разделе классификации ИИ нажмите « Использовать Gemini» .
  3. На странице «Выберите метку для подачи заявки в Gemini» выберите один из вариантов:
    • Выберите «Применить предопределенную метку» , чтобы использовать предопределенную метку с инструкциями шаблона, которые можно редактировать.
    • Выберите «Применить собственную метку» , чтобы использовать одну из существующих меток вашей организации.
  4. Если вам нужна новая этикетка, нажмите «Создать этикетку» , чтобы открыть менеджер этикеток в новой вкладке браузера.
    • Примечание: После создания и публикации новой метки на вкладке «Менеджер меток» вернитесь на вкладку «Использовать Gemini для применения меток» и обновите страницу, чтобы обновить доступные варианты.
  5. Если вы решите применить собственную метку , выберите ее в раскрывающемся списке « Метки классификации» и укажите подходящую метку.
  6. Щелкните раскрывающийся список « Название поля» и выберите поле.
  7. Нажмите «Продолжить» .
  8. На странице «Просмотр подробных инструкций для Gemini» введите четкие и исчерпывающие инструкции для каждого варианта метки, чтобы помочь Gemini классифицировать данные вашей организации. Укажите следующие сведения для каждого варианта:
    • Что представляет собой данный вариант, например, категория, тип или характеристика.
    • Как Близнецам определить подходящий вариант, например, какие подсказки или ключевые слова искать.
    • Как Gemini следует обрабатывать исключения, например, ситуации, когда данная опция не должна применяться.
  9. Нажмите «Продолжить» .
  10. На странице «Выберите параметры меток для автоматического применения» отметьте галочками конкретные параметры меток, которые Gemini должен применять автоматически.
    • Примечание: Gemini не будет применять неотмеченные параметры к файлам в Google Диске.
  11. Нажмите «Продолжить» .
  12. На странице «Проверка и название инструкций» в поле «Название*» введите описательное название инструкций. Проверьте и подтвердите правильность введенных данных.
  13. Нажмите «Сохранить» или «Сохранить и настроить автоматическое применение» .

Включить классификацию на основе ИИ.

После настройки инструкций Gemini или обучения пользовательской модели до достижения минимального уровня точности (не менее 50%), вы можете выбрать параметры меток и включить автоматическую разметку файлов или автоматическое применение. Для достижения наилучших результатов с пользовательской моделью рекомендуется дождаться, пока показатели модели по всем параметрам меток достигнут не менее 80%.

Чтобы включить автоматическое применение

  1. В консоли администратора Google перейдите в меню. а потом Безопасность а потом Контроль доступа и данных а потом Классификация данных .

    Для этого требуются права администратора «Просмотр правил DLP» и «Управление правилами DLP» .

  2. В разделе классификации ИИ нажмите «Просмотреть сохраненные модели» .
  3. На странице сведений о модели в разделе « Действия с моделью» выберите «Просмотреть сведения» .
  4. В панели обучения нажмите «Настроить автоматическое применение» .

    Примечание: Эта кнопка доступна только в том случае, если хотя бы один из вариантов метки имеет точность 50%.

    Или, если вы ранее настроили автоматическое применение, в разделе «Файлы с метками AI» нажмите «Изменить автоматическое применение» .

  5. Отметьте галочками параметры меток, которые вы хотите разрешить модели ИИ применять автоматически.
  6. Нажмите «Сохранить и продолжить» , чтобы выбрать, каким организационным подразделениям или группам принадлежат файлы, к которым модель должна автоматически применять метки. По умолчанию используется ваша головная организация верхнего уровня.

    Или нажмите «Сохранить» , чтобы выбрать пользователей позже.

  7. Если вы выбрали пользователей, сбоку выберите организационное подразделение или группу конфигурации.

    Настройки группы имеют приоритет над организационными подразделениями. Подробнее.

  8. Нажмите «Включить» — метка будет автоматически применена с помощью одного из вариантов ниже .
  9. Нажмите « Сохранить ».

    На странице сведений о модели текущий статус автоматического применения правила — «Включено» .

Примечание: Вы можете отслеживать классификацию ИИ с помощью журнала событий Drive. Подробности см. в разделе «Мониторинг событий меток классификации ИИ» далее на этой странице.

Когда система классификации ИИ сканирует файлы

После включения автоматического применения меток к файлам, принадлежащим пользователям и на общих дисках, система классификации на основе ИИ сканирует эти файлы (в состоянии покоя) как минимум один раз в течение 1–2 недель. Система классификации на основе ИИ также сканирует файлы при каждой их загрузке или изменении и может изменить примененную метку, если изменяется содержимое файла.

Примечание: Сканирование неактивных файлов необходимо включать вручную при использовании классификации с помощью ИИ и инструкций Gemini. Для активации этой функции нажмите «Применить метку к неактивным файлам» на странице «Инструкции» .

Как обрабатываются конфликты автоматического применения

Правила защиты данных

Значения меток, установленные правилами защиты данных, имеют приоритет над классификацией ИИ, а оба параметра имеют приоритет над классификацией по умолчанию.

Несколько пользовательских моделей или инструкции Gemini

Когда два или более источника классификации ИИ пытаются применить разные параметры метки одного и того же поля к одному и тому же файлу, применяется тот параметр, который находится выше в списке параметров метки. Например, у вас может быть метка с полем, имеющим 3 параметра в менеджере меток:

  1. Конфиденциально
  2. Внутренний
  3. Общественный

Если источник классификации ИИ один пытается установить метку « Конфиденциально» , а источник 2 пытается установить метку « Общедоступно» для того же файла, применяется метка «Конфиденциально», поскольку она находится выше в списке параметров метки. Перед настройкой правил убедитесь, что параметры полей метки указаны в порядке желаемого приоритета.

Метки, наносимые пользователем

Метки, которые пользователи присваивают файлам, имеют приоритет над метками, присвоенными ИИ, — то есть классификация ИИ не изменяет метку, которую пользователь установил ранее.

Примечание: Когда пользователь принимает или изменяет файл, помеченный ИИ, метка считается «примененной пользователем», и классификация ИИ больше не будет изменять ее значение.

Отслеживайте свою модель

Подробную информацию о том, как система классификации ИИ присваивает метки файлам, можно найти в журнале событий Google Drive. Для каждого варианта метки в журнале отображается количество файлов, классифицированных с помощью автоматического применения, а также количество пользователей, принявших или изменивших автоматически примененную метку. Пользователям необходимы разрешения для выполнения действий с автоматически примененными метками.

Права доступа, необходимые пользователям для взаимодействия с автоматически применяемыми метками.

Пользователям необходимы права доступа к файлам и меткам для взаимодействия с автоматически применяемыми метками. Вы можете установить права доступа для меток классификации в диспетчере меток. Подробнее см. раздел «Создание меток классификации для вашей организации» .

  • Для просмотра автоматически присвоенных меток пользователям необходимо иметь разрешение «Может просматривать эту метку» для вашей классификационной метки.
  • Для принятия и изменения автоматически применяемых меток пользователям необходимо иметь разрешение «Может применять метки и устанавливать значения для вашей классификационной метки», а также быть редактором или владельцем файла.

Просматривайте события классификации ИИ в журнале событий Drive.

  1. В консоли администратора Google перейдите в меню. а потом Безопасность а потом Контроль доступа и данных а потом Классификация данных .

    Для этого требуются права администратора «Просмотр правил DLP» и «Управление правилами DLP» .

  2. В разделе классификации ИИ нажмите «Просмотреть сохраненные модели» .
  3. На странице сведений о модели в разделе «Файлы с метками ИИ» выберите «Просмотреть файлы» в качестве параметра метки, для которой вы хотите просмотреть события.

    Инструмент расследования инцидентов безопасности открывается в новой вкладке, отображая результаты поиска по журналу событий Drive для двух событий, связанных с классификацией ИИ: «Применена метка» и «Изменено значение поля метки» .

  4. Нажмите на описание события, чтобы получить дополнительную информацию, например:
    • Название и тип документа, который был помечен.
    • Значение поля метки, присвоенное документу (например, «Конфиденциально» или «Ограниченный доступ»).

Просмотрите процент одобрения пользователями инструкций Gemini.

На странице с подробными сведениями о модели для классификации с использованием ИИ диаграмма пользовательского принятия отображает данные о производительности ваших инструкций, полученные на основе отзывов пользователей за предыдущие 180 дней.

Показатели включают в себя:

  • Отзыв пользователя — общее количество пользователей, которые взаимодействовали с автоматическим баннером с меткой, чтобы принять или изменить вариант метки, примененный с помощью Gemini.
  • Пользователь согласился — общее количество пользователей, которые решили сохранить конкретную метку, предложенную Gemini.

Управляйте своей моделью

Отключите автоматическое применение метки классификации.

Чтобы отключить автоматическое применение ко всем или только к определенным параметрам меток:

  1. В консоли администратора Google перейдите в меню. а потом Безопасность а потом Контроль доступа и данных а потом Классификация данных .

    Для этого требуются права администратора «Просмотр правил DLP» и «Управление правилами DLP» .

  2. В разделе классификации ИИ нажмите «Просмотреть сохраненные модели» .
  3. На странице сведений о модели в разделе « Действия с моделью» выберите «Просмотреть сведения» .
  4. В разделе «Файлы с метками ИИ» нажмите «Редактировать автоматическое применение» .
  5. Снимите флажки с тех параметров меток, для которых вы хотите отключить автоматическое применение.

    Или, чтобы полностью приостановить автоматическое применение, снимите все флажки.

Чтобы полностью отключить автоматическое применение для конкретных организационных подразделений или групп:

Вы можете полностью отключить автоматическое применение к контенту, принадлежащему пользователям в определенных организационных подразделениях или группах.

  1. В консоли администратора Google перейдите в меню. а потом Безопасность а потом Контроль доступа и данных а потом Классификация данных .

    Для этого требуются права администратора «Просмотр правил DLP» и «Управление правилами DLP» .

  2. В разделе классификации ИИ нажмите «Просмотреть сохраненные модели» .
  3. На странице сведений о модели в разделе « Действия с моделью» выберите «Просмотреть сведения» .
  4. В меню «Дополнительные действия » в верхней части страницы нажмите «Управление автоматическим применением». а потом Обновите включенные организационные подразделения/группы .
  5. Чтобы выбрать организационное подразделение или группу, щелкните по ним слева.
  6. Выберите «Выкл.» — метка не применяется автоматически .
  7. Нажмите « Сохранить ».

Удалите пользовательскую модель или инструкции Gemini.

Возможно, вам потребуется удалить пользовательскую модель или инструкции Gemini, если, например, их точность неприемлема. При удалении пользовательской модели или инструкций Gemini все их настройки классификации ИИ будут безвозвратно удалены. Примечание:

  • Метки, используемые в модели или инструкциях Gemini, отключаются от настроек классификации ИИ, а история модели или инструкций Gemini удаляется. Однако сами метки не удаляются и по-прежнему могут управляться в менеджере меток.
  • (Только для пользовательской модели) Метки обучения остаются в файлах. После удаления модели вы можете настроить новую пользовательскую модель, которая будет использовать те же метки обучения. Модели будут работать аналогично, если вы переобучите существующую модель с метками обучения и файлами обучения.
  • Автоматическое присвоение меток, включенное для модели, немедленно прекращается. Вы можете удалить или сохранить метки, ранее автоматически присвоенные файлам, которые не были приняты или изменены пользователем.
  • Если вы создадите новую модель или инструкции Gemini, используя ту же метку классификации, функция классификации ИИ перезапишет результаты предыдущих классификаций. Это позволит вам повторно обработать файлы вашей организации на Google Диске, что может быть полезно, если качество вашей модели или инструкций значительно улучшилось с момента начала их использования.

Чтобы удалить модель или инструкции:

  1. В консоли администратора Google перейдите в меню. а потом Безопасность а потом Контроль доступа и данных а потом Классификация данных .

    Для этого требуются права администратора «Просмотр правил DLP» и «Управление правилами DLP» .

  2. В разделе классификации ИИ нажмите «Просмотреть сохраненные модели» .
  3. На странице списка моделей нажмите «Действия» рядом с моделью или инструкциями, выберите «Удалить модель» или «Удалить инструкции» . В диалоговом окне отобразятся последствия удаления, и вы сможете решить, сохранять или удалять ранее примененные метки:
    • Сохраните примененные метки — Метки, ранее примененные в соответствии с любой версией этих инструкций, останутся на файлах.
    • Удаление примененных меток — Метки, ранее примененные любой версией этих инструкций, будут удалены из файлов. Удаление меток может занять до 2 недель. Метки не будут удалены, если они были изменены пользователем, правилами, другой моделью ИИ или инструкциями Gemini.
  4. Поставьте галочку, чтобы подтвердить: Продолжая, вы подтверждаете, что это действие необратимо.
  5. Для продолжения нажмите «Удалить модель» или «Удалить инструкции» .

Часто задаваемые вопросы

Метки для обучения и классификации

Каковы требования к аттестационным и классификационным знакам?

Как метка классификации, так и метка обучения должны соответствовать следующим критериям:

  • Должно содержать минимум 2 и максимум 7 вариантов.
  • Варианты должны быть расположены в том же порядке.
  • Необходимо опубликовать.
  • Для меток должны быть установлены разные права доступа. Метка для обучения должна быть доступна только назначенным разметчикам, которые могут обучать модель. Метка для классификации может иметь более широкий доступ.

Как вручную создать метку для обучающей выборки?

Хотя рекомендуется создавать метки для обучения автоматически при настройке модели, вы можете создать их вручную в менеджере меток, следуя этим рекомендациям:
  • Убедитесь, что этикетка соответствует требуемым критериям .
  • Для удобства распознавания метки и ее применения при создании обучающего набора данных, назначенным специалистам по разметке, следует использовать слова «train» или «training».
  • Добавьте поле описания к метке обучающего файла, чтобы помочь назначенным специалистам по разметке лучше понять его назначение.
  • Обязательно установите права доступа к меткам только для назначенных вами пользователей, ответственных за разметку, то есть для тех, кто будет идентифицировать файлы для обучения модели, используя созданную вами группу конфигурации для пользователей, ответственных за разметку.

Могу ли я использовать метку классификации в качестве метки для обучения?

Нет, метка классификации и метка обучения должны быть разными. Выбранная вами метка классификации недоступна для метки обучения.

Разрешают ли инструкции Gemini использовать мои личные данные для обучения глобальных моделей Google?

Нет. Все операции выполняются в строгих условиях изоляции. Содержимое вашего внутреннего диска и связанные с ним подсказки остаются надежно изолированными в рамках вашей авторизованной рабочей среды и не используются для обучения моделей Google. Подробнее о наших обязательствах в отношении конфиденциальности и безопасности читайте в разделе « Центр конфиденциальности» .

обучающие наборы данных

Какие файлы лучше всего подходят для обучения модели?

Для достижения наилучших результатов при обучении модели поручите назначенным вами специалистам по разметке следовать этим рекомендациям:

  • Убедитесь, что каждый файл содержит не менее 500 символов.
  • Выберите файлы, представляющие контент, который пользователи создают, распространяют и используют в вашей организации.
  • Для каждого варианта маркировки следует присваивать примерно одинаковое количество меток, но не менее 100 файлов для каждого варианта. Это поможет модели получить всестороннее понимание ваших данных и улучшить результаты.
  • Включите в набор репрезентативное разнообразие файлов для каждого типа документов. Например, не указывайте 100 резюме в качестве общего набора примеров файлов для категории «Совершенно секретно», если контракты также являются распространенным типом файлов «Совершенно секретно» в вашей организации.
  • Применяйте метку «обучение» только к файлам, принадлежащим вашей организации, будь то файлы, находящиеся в непосредственном владении пользователей, или файлы, хранящиеся на общих дисках. Классификация ИИ не обрабатывает файлы, принадлежащие внешним пользователям или расположенные на внешних общих дисках.

Можно ли обучить модель на ранее размеченных файлах?

В настоящее время обучение на ранее размеченных файлах невозможно. Модель требует, чтобы обучающая метка была точной копией метки, которую она будет автоматически применять к файлам, но они не могут совпадать.

Может ли модель обучаться на нескольких языках?

Модель поддерживает несколько языков; однако в обучающие данные следует включить репрезентативную выборку файлов для каждого типа параметров и языка. Это увеличивает количество файлов, необходимых для успешного обучения модели. Поддерживаются только языки, использующие латинские символы.

Как рассчитываются баллы во время обучения?

В процессе обучения модель ИИ использует 75% входных данных для самообучения маркировке файлов, а 25% резервирует для периодической проверки собственной производительности. Другими словами, для 25% размеченных файлов модель анализирует их так, как если бы она не знала, какая метка была применена. Затем модель ИИ делает собственный выбор метки и сравнивает этот выбор с фактической меткой, примененной назначенным специалистом по разметке. Результаты показывают, какой доле зарезервированных файлов она правильно присвоила правильную метку.

Можно ли "заморозить" модель после её обучения, чтобы остановить автоматическое переобучение?

Модели классификации ИИ обучаются с использованием файлов в Google Диске. Когда эти файлы удаляются (часто в соответствии с графиком хранения данных в Google Vault), модель также необходимо удалить, чтобы гарантировать, что содержимое файлов не сохранится каким-либо образом. По этой причине переобучение модели происходит в непрерывном цикле и не может быть приостановлено.

Могут ли пользователи изменять или исправлять метки и значения полей?

Пользователи с соответствующими правами могут обновлять метки или значения полей, но система классификации ИИ не пересматривает модель классификации на основе этих изменений. Если вы заметили, что модель неправильно применила метки и значения полей, вы можете попросить назначенных вами разметчиков присвоить файлам правильные обучающие метки. Затем система классификации ИИ включает эти данные в следующий цикл самообучения модели.

Автоматическое применение

Может ли искусственный интеллект оценивать изображения, видео- и аудиофайлы с помощью классификации?

Классификация с помощью ИИ использует ту же обработку индексируемого текста, что и Drive DLP. Любой файл, из которого Drive может извлечь индексируемый текст, может быть оценен на предмет применения меток классификации с помощью ИИ. Это включает в себя оптическое распознавание символов (OCR) для извлечения текста из изображений. Однако классификация с помощью ИИ не оценивает видео- или аудиофайлы.

Подходит ли классификация с использованием ИИ для маркировки только конфиденциального контента?

В первую очередь, классификация с помощью ИИ ориентирована на конфиденциальный контент, но для автоматической разметки можно обучить любую метку, имеющую до 4 вариантов. Метки классификации также используются для аудита, поиска и управления сроками хранения контента.

Работает ли классификация с помощью ИИ при включенном шифровании на стороне клиента (CSE)?

Поскольку Google не может расшифровать файлы, зашифрованные с помощью CSE (это может сделать только ваш закрытый ключ шифрования), классификация с помощью ИИ не может быть обучена на файлах, зашифрованных с помощью CSE, и не может автоматически присваивать метки этим файлам.

Как и когда система классификации ИИ корректирует автоматически присвоенные метки?

После включения функции автоматического применения классификация с помощью ИИ сканирует и классифицирует все файлы в состоянии покоя, из которых можно извлечь достаточно текста. Эти файлы сканируются как минимум один раз.

Система классификации на основе ИИ периодически перерабатывает файлы по мере изменения их содержимого. Изменения содержимого могут привести к изменению прогноза для файла. Когда система классификации на основе ИИ имеет как старый, так и новый прогнозируемый вариант для файла, она будет отдавать предпочтение варианту, который находится выше в списке вариантов. Например, если поле имеет три варианта, перечисленных в менеджере меток:

  • Конфиденциально
  • Внутренний
  • Общественный

Предположим, система классификации ИИ классифицирует файл как «Внутренний» , а затем содержимое изменяется таким образом, что модель классификации ИИ предсказывает «Конфиденциальный» . В этом случае классификация файла изменяется на «Конфиденциальный» . Однако, если модель классификации ИИ предсказывает «Общедоступный» , классификация файла остается « Внутренний» .

Классификация с помощью ИИ не корректирует автоматически присвоенные метки и значения полей, которые были проверены или изменены пользователями.

Если модель изменяется, выполняет ли она автоматическую переоценку существующих файлов?

Ваши файлы обрабатываются последней версией модели при их создании или изменении. Существующие файлы не обрабатываются автоматически повторно при выпуске новой версии модели. Однако модель может периодически повторно обрабатывать все ваши файлы с помощью последней версии, независимо от конкретных обновлений или переобучения модели.

Приоритет ли имеет классификация с использованием ИИ над другими методами классификации, когда одновременно активны несколько таких методов?

Классификацию данных можно изменить. Классификация данных выполняется в следующем порядке:
  1. Правило DLP без перезаписи пользователем
  2. Ручная классификация
  3. Правило DLP с возможностью перезаписи пользователем
  4. классификация ИИ
  5. Классификация по умолчанию
Удаление метки или поля позволяет задействовать механизм классификации более низкого уровня. Например, файл, из которого пользователь удалил метку, впоследствии может быть автоматически классифицирован с помощью ИИ, присвоив ему ту же метку.

К каким типам файлов может применяться классификация с помощью ИИ?

  • Классификация с помощью ИИ использует тот же алгоритм обработки индексируемого текста, что и Drive DLP. Подробности см. в списке типов файлов, сканируемых DLP . Аудио- и видеофайлы не поддерживаются.
  • Для того чтобы ИИ мог присвоить метку, файл должен содержать минимальное количество текста. В результате некоторые файлы, такие как очень короткие документы и изображения с небольшим количеством текста, могут не быть классифицированы.

Что произойдет, если опция будет отключена для автоматического применения?

В процессе сканирования, если предполагается, что файл содержит параметр, для которого отключено автоматическое применение, классификация с помощью ИИ не применяет к файлу ни метки, ни значения поля.

Файлы, которые были ранее размечены с помощью ИИ-классификации, сохраняют примененные значения меток и параметров даже после отключения этих параметров.

Можно ли отменить автоматически примененные метки?

Применение меток отменить невозможно. Мы рекомендуем доработать и протестировать ваши модели на небольшой аудитории перед широким внедрением. Например, вы можете обучить модели с временной меткой. Затем, когда производительность модели станет удовлетворительной, вы можете «сбросить» модель, удалив ее и создав новую модель с той же обучающей меткой (тем же набором обучающих данных), но с вашей постоянной меткой.

Близнецы и модели на заказ

Полностью ли заменяет существующие пользовательские модели классификация с использованием ИИ и инструкций Gemini?

Нет. Инструкции Gemini служат дополнительной альтернативой. В то время как классические модели создают изолированную, специфичную для клиента модель, адаптированную исключительно к вашим историческим данным, инструкции Gemini используют нашу предварительно обученную базовую модель для оценки контента на основе пользовательских текстовых правил, написанных вами.

Как мне определить, когда использовать инструкции Gemini, а когда — классические модели?

Organizations do not have to exclusively choose a single architecture. Both modes can be used in tandem to support different phases of data classification based on your organization's needs.

What elements make up data classification instructions?

A classification instruction is a structured blueprint given to Gemini. To help Gemini classify your data, enter clear, comprehensive instruction details for every label option, including what the option represents, how Gemini should identify it, and how to handle exceptions.

Gemini AI classification behavior

Why does Gemini occasionally assign different label options to identical or nearly identical files?

LLMs are inherently probabilistic rather than deterministic. While traditional code follows fixed logic to produce identical outputs for a given input, LLMs generate responses based on statistical probabilities. This process can be influenced by internal parameters such as "temperature," which introduces a degree of variability into the model's selections. Furthermore, several external variables can shift the model's internal reasoning and lead to different outcomes for identical or nearly identical files. These factors include updates to the underlying model version, refinements to system-level instructions, or even the specific date and time of the classification request. As a result, these dynamic elements ensure that Gemini evaluates each file within a unique contextual window, which may occasionally result in different label assignments.