Откройте для себя классификацию изображений с помощью Ultralytics YOLO: обучайте пользовательские модели для здравоохранения, сельского хозяйства, розничной торговли и других с помощью передовых инструментов.
Классификация изображений - это фундаментальная задача компьютерного зрения (КВ), которая заключается в присвоении единой метки или категории всему изображению на основе его визуального содержания. Это одна из основных возможностей искусственного интеллекта (ИИ), позволяющая машинам понимать и классифицировать изображения подобно тому, как человек распознает сцены или объекты. Классификация изображений, основанная на методах машинного обучения (ML) и, в частности, глубокого обучения (DL), призвана ответить на вопрос: "Что является основным объектом этого изображения?". Эта задача служит строительным блоком для многих более сложных проблем визуального понимания.
Этот процесс обычно включает в себя обучение модели, часто специализированного типа нейронной сети, называемой конволюционной нейронной сетью (CNN), на большом наборе данных помеченных изображений. Для обучения надежных моделей обычно используются такие известные наборы данных, как ImageNet, содержащие миллионы изображений по тысячам категорий. В процессе обучения модель учится определять отличительные паттерны и особенности, такие как текстуры, формы, края и распределение цветов, которые характеризуют различные категории. Такие фреймворки, как PyTorch и TensorFlow, предоставляют необходимые инструменты и библиотеки для построения и обучения этих моделей глубокого обучения. Вы можете изучить различные наборы данных для классификации Ultralytics, такие как CIFAR-100 или MNIST, чтобы начать свои собственные проекты. Конечная цель состоит в том, чтобы обученная модель точно предсказывала метку класса для новых, ранее не виденных изображений. Для более глубокого технического понимания механизмов, лежащих в основе, можно воспользоваться такими ресурсами, как курс Stanford CS231n "Конволюционные нейронные сети для визуального распознавания ".
Классификация изображений направлена на присвоение единой, всеобъемлющей метки всему изображению. Это отличает ее от других распространенных задач компьютерного зрения:
Понимание этих различий очень важно для выбора подходящей техники для решения конкретной задачи, поскольку каждая из них обеспечивает разный уровень детализации содержимого изображения.
Классификация изображений широко используется в различных областях благодаря своей эффективности в категоризации визуальной информации:
Модели Ultralytics YOLO, известные в области обнаружения объектов, также демонстрируют высокую производительность в задачах классификации изображений. Современные архитектуры, такие как Ultralytics YOLO11, можно легко обучить или точно настроить для классификации с помощью интуитивно понятного пакета Ultralytics Python или платформы Ultralytics HUB, не требующей кода. Эти инструменты предоставляют обширные ресурсы, включая советы по обучению моделей и понятную документацию, например, руководство по использованию Ultralytics YOLO11 для классификации изображений. Для дальнейшей практики изучите учебники по классификации в PyTorch или примите участие в соревнованиях Kaggle по классификации изображений. Чтобы быть в курсе последних научных достижений, неоценимую помощь оказывают такие ресурсы, как Papers With Code. Вы также можете сравнить производительность модели YOLO со стандартными бенчмарками.