Что такое сегментация экземпляров? Краткое руководство

Абирами Вина

6 минут чтения

6 марта 2025 г.

Присоединяйтесь к нам, чтобы подробнее рассмотреть, что такое сегментация экземпляров, как она работает, как используется в различных приложениях компьютерного зрения и какое влияние она может оказать.

Приложения компьютерного зрения становятся все более распространенными в нашей повседневной жизни - от дорожных камер, следящих за состоянием дорог, до систем самостоятельной кассы в магазинах. Позволяя машинам понимать визуальные данные так, как это делает человек, искусственное зрение оказывает влияние на целый ряд отраслей.

Многие из этих приложений основаны на обнаружении объектов - задаче компьютерного зрения, в которой вокруг ключевых объектов на изображениях ставятся ограничительные рамки. Хотя этот подход часто работает хорошо, некоторые решения для анализа изображений требуют еще большей точности.

Например, в медицинской визуализации требуется не просто обнаружить опухоль, но и точно определить ее форму. Аналогично, в робототехнике машинам необходимо распознавать точные контуры объекта, чтобы правильно его схватить. Для решения этих задач сегментация экземпляров предлагает более точное решение.

Сегментация экземпляров - это задача компьютерного зрения, разработанная для тех случаев, когда обнаружения объектов недостаточно - она обеспечивает точность на уровне пикселей. Модели компьютерного зрения, такие как Ultralytics YOLO11, могут быть использованы для легкого применения сегментации объектов к изображениям и видео. 

__wf_reserved_inherit
Рис. 1. Пример использования YOLO11 для сегментации экземпляров.

В этом руководстве мы расскажем о том, как работает сегментация экземпляров, о ее применении и о том, как Ultralytics YOLO11 можно обучить для решения конкретных задач сегментации.

Что такое сегментация экземпляров?

Допустим, есть групповая фотография людей, стоящих близко друг к другу. Обнаружение объектов может помочь нарисовать рамки вокруг каждого человека, но это не позволит определить их точную форму. 

Сегментация объектов, с другой стороны, похожа на тщательное обведение каждого человека, чтобы вы могли увидеть все его очертания, даже если они перекрывают друг друга. Вместо того чтобы просто обозначить местоположение объекта рамкой, он определяет точную форму каждого объекта на уровне пикселей, что облегчает понимание сложных изображений.

В результате получается детальная маска, которая заполняет форму объекта, точно определяя, какие пиксели ему принадлежат. Такой уровень точности полезен во многих реальных приложениях, где важно понять точную форму и границы объектов.

__wf_reserved_inherit
Рис. 2. Демонстрация поддержки сегментации экземпляров в YOLO11.

Сегментация экземпляров и семантическая сегментация

Изучая сегментацию экземпляров, вы можете столкнуться с концепцией семантической сегментации.

Оба метода помогают компьютерам понимать изображения на уровне пикселей, но служат разным целям. Семантическая сегментация маркирует каждый пиксель на основе его категории, группируя все объекты одного типа вместе. Например, на изображении с несколькими автомобилями семантическая сегментация пометит их все как "автомобиль", не различая отдельные машины.

Сегментация экземпляров, с другой стороны, делает еще один шаг вперед, идентифицируя каждый объект отдельно. Она присваивает уникальные метки отдельным экземплярам и создает точные маски вокруг их форм. Так, на том же изображении сегментация по экземпляру не просто обозначит все как "автомобиль", а распознает и обрисует каждый автомобиль в отдельности.

Основное различие между ними заключается в том, что семантическая сегментация группирует объекты по категориям, а сегментация по экземплярам выделяет каждый объект как уникальную сущность с четкими границами. Выбор задачи зависит от конкретного применения - достаточно ли знать, что находится на изображении, или важно различать отдельные объекты.

__wf_reserved_inherit
Рис. 3. Сегментация экземпляров в сравнении с семантической сегментацией (справа и слева, соответственно).

Популярные модели сегментации экземпляров

В настоящее время сообществу Vision AI доступны различные модели сегментации экземпляров. Некоторые из них быстрее, некоторые точнее, а некоторые проще в использовании. 

Эти варианты, несмотря на их полезность, могут привести к вопросу, какой из них лучше использовать для конкретной задачи? Среди этих вариантов довольно популярны модели Ultralytics YOLO, поскольку они ориентированы на скорость и точность. 

Кроме того, за прошедшие годы эти модели претерпели значительные изменения. Например, Ultralytics YOLOv5 упростила развертывание с помощью таких фреймворков, как PyTorch, сделав передовой Vision AI доступным для более широкой аудитории, не требуя глубоких технических знаний.

Основываясь на этом успехе, Ultralytics YOLOv8 представила расширенную поддержку задач компьютерного зрения, таких как сегментация объектов, оценка позы и классификация изображений. 

Теперь YOLO11 поднимает производительность на новый уровень. Он достигает более высокой средней точности (mAP) на наборе данных COCO с 22 % меньшим количеством параметров, чем YOLOv8m, что означает, что он может распознавать объекты более точно, используя при этом меньше ресурсов.

__wf_reserved_inherit
Рис. 4. Бенчмаркинг YOLO11.

Проще говоря, YOLO11 обеспечивает самую современную точность без ущерба для эффективности, что делает его революционным в полевых условиях.

Понимание того, как работает сегментация экземпляров

Далее рассмотрим, как обычно происходит сегментация экземпляров. Старые модели компьютерного зрения используют двухэтапный подход. 

Сначала они обнаруживают объекты, рисуя вокруг них ограничительные рамки. Затем они генерируют маску на уровне пикселей для точного определения формы каждого объекта. Известным примером является Mask R-CNN, который основывается на моделях обнаружения объектов, добавляя этап предсказания маски. Хотя этот метод эффективен, он может быть медленным, так как обрабатывает изображение в несколько этапов, что усложняет работу приложений в реальном времени.

В то же время такие модели, как YOLO11, обрабатывают изображения за один проход, одновременно предсказывая границы объектов и маски сегментации экземпляров. Такой оптимизированный подход позволяет значительно ускорить процесс, сохраняя при этом высокую точность. В результате он особенно полезен для приложений реального времени, таких как автономное вождение, анализ видео и робототехника, где важны и скорость, и точность.

Пользовательское обучение YOLO11 для сегментации экземпляров

Из коробки YOLO11 поставляется как предварительно обученная модель. Она была обучена на наборе данных COCO-Seg, который охватывает повседневные объекты для сегментации экземпляров. Однако пакет Ultralytics Python поддерживает пользовательское обучение, которое необходимо для специализированных приложений, где требуется сегментировать уникальные объекты.

Почему важны индивидуальное обучение или тонкая настройка модели? Индивидуальное обучение позволяет использовать трансферное обучение, опираясь на знания, уже заложенные в предварительно обученные модели. Вместо того чтобы начинать с нуля, оно адаптирует существующую модель к новым задачам, используя меньшие наборы данных и меньшие вычислительные ресурсы, сохраняя при этом высокую точность.

Как настроить обучение YOLO11

Вот более подробный обзор шагов, связанных с тонкой настройкой YOLO11 для сегментации: 

  • Подготовка данных: Соберите и аннотируйте изображения в соответствии с вашими конкретными задачами. Ultralytics поддерживает несколько наборов данных изображений, но вы также можете проводить обучение на собственном наборе данных, подготовив изображения и аннотации в требуемом формате YOLO.
  • Использование предварительно обученной модели: Вместо того чтобы начинать с нуля, используйте предварительно обученную модель Ultralytics YOLO11.
  • Обучение модели: Настройте такие важные параметры обучения, как размер партии (изображений, обрабатываемых за итерацию), размер изображения (разрешение целевого входного сигнала) и эпохи (общее количество циклов обучения), и обучите модель.
  • Оценка производительности: После завершения обучения модели вы можете проверить ее точность с помощью таких показателей, как mAP. Пакет Ultralytics Python также содержит встроенные функции для оценки модели.

Приложения для сегментации экземпляров с помощью YOLO11

Сегментация объектов может использоваться для решения реальных задач, помогая машинам видеть и понимать объекты более точно. Она играет ключевую роль во многих областях - от повышения уровня автоматизации до защиты окружающей среды. Давайте рассмотрим несколько примеров того, как она влияет на ситуацию.

Безопасность и мониторинг строительных площадок с помощью YOLO11

Сегментация объектов может стать важнейшей частью обеспечения безопасности и эффективности на строительных площадках. Например, она может использоваться для мониторинга тяжелой техники. 

YOLO11 может быть настроен на точную сегментацию и идентификацию различных типов оборудования, таких как краны, экскаваторы и бульдозеры, и отслеживание их положения в режиме реального времени. Это позволяет руководителям объектов следить за тем, чтобы техника работала строго в пределах обозначенных зон и не вторгалась в зоны, где находятся рабочие или существуют опасности. 

Кроме того, интеграция таких решений с системами оповещения в режиме реального времени позволяет оперативно принимать корректирующие меры. Кроме того, собранные данные могут помочь оптимизировать планировку объекта и рабочий процесс, что еще больше снижает риски и повышает производительность.

__wf_reserved_inherit
Рис. 5. Мониторинг тяжелой техники с помощью YOLO11.

Мониторинг животных с помощью сегментации и YOLO11

Мониторинг поведения животных помогает исследователям, фермерам и специалистам по охране природы лучше заботиться о животных в различных условиях. Сегментация экземпляров играет важную роль в этих системах, идентифицируя и сегментируя отдельных животных на фермах, в зоопарках и в естественной среде обитания. В отличие от традиционного обнаружения объектов, в котором используются ограничивающие рамки, сегментация экземпляров обеспечивает разграничение каждого животного на уровне пикселей, что особенно полезно, когда животные находятся в непосредственной близости друг от друга.

Детальная сегментация способствует более точному отслеживанию движений и поведения. Пересекающиеся или тесно сгруппированные животные могут быть отчетливо распознаны, что позволяет более точно проанализировать взаимодействие, оценить состояние здоровья и характер активности. В целом, более глубокое понимание поведения животных улучшает уход за ними и методы управления.

__wf_reserved_inherit
Рис. 6. Наблюдение за крупным рогатым скотом с помощью сегментации экземпляров.

YOLO11 в области спортивной аналитики и отслеживания игроков

Точное отслеживание игроков и событий - огромная часть спортивного анализа. Традиционные методы отслеживания опираются на ручную маркировку, которая может не отражать детальные взаимодействия. Компьютерное зрение может быть использовано для сегментации деталей, таких как каждый игрок, мяч и ключевое событие на уровне пикселей, чтобы получить подробную информацию.

Например, сегментация экземпляров может помочь обнаружить такие события, как фолы или инциденты за пределами мяча, четко разделяя каждого игрока и объект. Такой детальный мониторинг, обеспечиваемый моделями типа YOLO11, дает аналитикам более четкую информацию, позволяющую с высокой точностью изучать модели движения, пространственного позиционирования и взаимодействий. Ключевое преимущество этих данных заключается в том, что они помогают командам совершенствовать свои стратегии и повышать общую производительность.

Плюсы и минусы сегментации экземпляров

Вот некоторые из ключевых преимуществ, которые сегментация экземпляров может принести различным отраслям:

  • Улучшенная автоматизация: Благодаря автоматизации таких задач, как контроль качества и мониторинг безопасности, сегментация экземпляров снижает необходимость ручного вмешательства и минимизирует человеческий фактор.
  • Лучшее понимание сцены: Благодаря точному выделению каждого объекта сегментация экземпляров способствует более глубокому пониманию сложных сцен и помогает принимать более обоснованные решения.
  • Эффективная постобработка: Выходные данные на уровне пикселей упрощают такие задачи, как удаление фона, подсчет объектов и пространственный анализ, снижая необходимость в дополнительных этапах обработки.

Хотя эти преимущества подчеркивают, как сегментация экземпляров влияет на различные сценарии использования, важно также рассмотреть проблемы, связанные с ее внедрением. 

Вот некоторые из основных ограничений сегментации экземпляров:

  • Проблемы с прозрачностью: Сегментирование прозрачных или отражающих объектов, таких как стекло и вода, затруднено, что приводит к неточным границам.
  • Накладные расходы на обслуживание: Чтобы модели оставались точными и актуальными, необходимо постоянно обновлять и настраивать их по мере изменения условий окружающей среды и наборов данных.
  • Высокая трудоемкость аннотирования: Обучение моделей сегментации экземпляров требует детального аннотирования на уровне пикселей, что значительно увеличивает время и стоимость подготовки данных.

Основные выводы

Сегментация объектов позволяет с точностью различать отдельные объекты, даже если они перекрывают друг друга. Захватывая границы объектов на уровне пикселей, она обеспечивает более глубокое понимание визуальных данных по сравнению с традиционными задачами компьютерного зрения, такими как обнаружение объектов.

Последние достижения в области компьютерного зрения позволили ускорить и упростить процесс сегментации экземпляров. В частности, модели компьютерного зрения, такие как Ultralytics YOLO11, упрощают процесс, позволяя выполнять сегментацию в режиме реального времени с минимальными настройками, что делает ее более доступной для различных отраслей и приложений.

Вам интересно узнать об искусственном интеллекте? Посетите наш репозиторий GitHub и присоединяйтесь к нашему сообществу, чтобы продолжить изучение. Узнайте о таких инновациях, как ИИ в самоуправляемых автомобилях и ИИ зрения в сельском хозяйстве, на страницах наших решений. Ознакомьтесь с нашими вариантами лицензирования и приступайте к работе над проектом по компьютерному зрению!

Давайте вместе построим будущее
искусственного интеллекта!

Начните свое путешествие в будущее машинного обучения

Начните бесплатно
Ссылка копируется в буфер обмена