Глоссарий

Учебные данные

Узнайте о важности обучающих данных в искусственном интеллекте. Узнайте, как качественные наборы данных позволяют создавать точные и надежные модели машинного обучения для реальных задач.

В области искусственного интеллекта (ИИ) и машинного обучения (МО) обучающие данные - это основной набор данных, используемый для обучения моделей выполнению конкретных задач, таких как классификация или предсказание. Он включает в себя большую коллекцию примеров, где каждый пример обычно сопоставляет входные данные с соответствующим желаемым выходом или меткой. С помощью таких процессов, как контролируемое обучение, модель анализирует эти данные, выявляет основные закономерности и взаимосвязи и настраивает свои внутренние параметры(веса модели), чтобы научиться сопоставлять входные данные с выходными. Это обучение позволяет модели делать точные прогнозы или принимать решения при получении новых, ранее невиданных данных.

Что такое учебные данные?

Считайте, что учебные данные - это учебник и практические упражнения для модели искусственного интеллекта. Это тщательно подобранный набор информации, отформатированный специально для того, чтобы служить примерами на этапе обучения. Например, в задачах компьютерного зрения (CV), таких как обнаружение объектов, обучающие данные состоят из изображений или видеокадров ( входные признаки), соединенных с аннотациями (метками), которые определяют местоположение(ограничительные рамки) и класс объектов на этих изображениях. Создание этих меток - важный этап, известный как маркировка данных. Модель итеративно обрабатывает эти данные, сравнивая свои предсказания с истинными метками и корректируя свои параметры с помощью таких методов, как обратное распространение и градиентный спуск, чтобы минимизировать ошибку или функцию потерь.

Важность обучающих данных

Производительность и надежность модели искусственного интеллекта напрямую зависят от качества, количества и разнообразия обучающих данных. Качественные, репрезентативные данные необходимы для построения моделей, которые достигают высокой точности и хорошо обобщаются на реальные сценарии(обобщение в ML). И наоборот, недостаточные, зашумленные или необъективные обучающие данные могут привести к таким серьезным проблемам, как низкая производительность, избыточная подгонка (когда модель хорошо работает на обучающих данных, но плохо на новых) или несправедливые и дискриминационные результаты из-за присущей ей необъективности набора данных. Решение проблемы предвзятости является ключевым аспектом этики ИИ. Поэтому тщательный сбор, аннотирование и подготовка данных являются важнейшими этапами разработки успешных систем ИИ.

Примеры учебных данных в реальных приложениях

Обучающие данные - это топливо для бесчисленных приложений ИИ в различных областях. Вот два примера:

  1. Автономные транспортные средства: Самоуправляемые автомобили в значительной степени полагаются на обучающие данные для систем восприятия. Эти данные включают в себя огромное количество видеозаписей с камер, LiDAR и радарных датчиков, тщательно промаркированных такими объектами, как другие автомобили, пешеходы, велосипедисты, светофоры и дорожная разметка. Модели, подобные тем, что используются в технологии Waymo, обучаются на таких наборах данных, как Argoverse, чтобы научиться безопасно ориентироваться в сложных средах. Более подробная информация об ИИ в автомобильных решениях.
  2. Анализ настроения: В обработке естественного языка (NLP) модели анализа настроения определяют эмоциональный тон текста. Обучающие данные состоят из образцов текста (например, отзывы клиентов, сообщения в социальных сетях), помеченных такими настроениями, как "положительное", "отрицательное" или "нейтральное"(Sentiment Analysis - Wikipedia). Это позволяет компаниям автоматически оценивать общественное мнение или удовлетворенность клиентов.

Качество и подготовка данных

Обеспечение высокого качества обучающих данных имеет первостепенное значение и включает в себя несколько ключевых этапов. Очистка данных (Википедия) позволяет устранить ошибки, несоответствия и пропущенные значения. Предварительная обработка данных преобразует исходные данные в формат, подходящий для модели. Такие техники, как увеличение данных, искусственно расширяют набор данных, создавая измененные копии существующих данных (например, поворачивая или обрезая изображения), что помогает повысить устойчивость модели и уменьшить перебор. Перед началом процесса обучения также важно понять суть данных с помощью таких инструментов, как Ultralytics Datasets Explorer.

Учебные данные в сравнении с данными проверки и тестирования

В типичном проекте ML данные разбиваются на три разных набора:

Строгое разделение этих наборов данных необходимо для разработки надежных моделей и точной оценки их возможностей. Платформы, подобные Ultralytics HUB, предлагают инструменты для эффективного управления этими наборами данных на протяжении всего жизненного цикла разработки модели. Современные модели, такие как Ultralytics YOLO, часто предварительно обучаются на больших эталонных наборах данных, таких как COCO или ImageNet, которые служат обширными обучающими данными.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена