Glossário

Dados de treino

Descubra a importância dos dados de formação na IA. Saiba como os conjuntos de dados de qualidade potenciam modelos de aprendizagem automática precisos e robustos para tarefas do mundo real.

Nos domínios da Inteligência Artificial (IA) e da Aprendizagem Automática (AM), os dados de treino são o conjunto de dados fundamental utilizado para ensinar os modelos a executar tarefas específicas, como a classificação ou a previsão. Compreendem uma grande coleção de exemplos, em que cada exemplo associa normalmente uma entrada a uma saída ou etiqueta desejada correspondente. Através de processos como a Aprendizagem Supervisionada, o modelo analisa estes dados, identifica padrões e relações subjacentes e ajusta os seus parâmetros internos(pesos do modelo) para aprender o mapeamento das entradas para as saídas. Esta aprendizagem permite que o modelo faça previsões ou tome decisões exactas quando lhe são apresentados dados novos e nunca antes vistos.

O que são dados de treino?

Pense nos dados de treino como o manual e os exercícios práticos para um modelo de IA. Trata-se de um conjunto de informações cuidadosamente selecionadas e formatadas especificamente para servirem de exemplos durante a fase de aprendizagem. Por exemplo, nas tarefas de Visão por Computador (CV), como a Deteção de Objectos, os dados de treino consistem em imagens ou fotogramas de vídeo (as caraterísticas de entrada) emparelhados com anotações (etiquetas) que especificam a localização(caixas delimitadoras) e a classe dos objectos nessas imagens. A criação destas etiquetas é um passo crucial conhecido como Rotulagem de Dados. O modelo processa iterativamente estes dados, comparando as suas previsões com as etiquetas verdadeiras e ajustando os seus parâmetros utilizando técnicas como a retropropagação e a descida gradiente para minimizar o erro ou a função de perda.

Importância dos dados de formação

O desempenho e a fiabilidade de um modelo de IA estão diretamente ligados à qualidade, quantidade e diversidade dos seus dados de treino. Dados representativos e de elevada qualidade são essenciais para a criação de modelos que atinjam uma elevada exatidão e se generalizem bem a cenários do mundo real(Generalização em ML). Por outro lado, dados de treino insuficientes, ruidosos ou enviesados podem levar a problemas significativos, como um fraco desempenho, sobreajuste (em que o modelo tem um bom desempenho nos dados de treino, mas um fraco desempenho nos novos dados) ou resultados injustos e discriminatórios devido ao enviesamento inerente do conjunto de dados. Abordar o enviesamento é um aspeto fundamental da ética da IA. Por conseguinte, a recolha, a anotação e a preparação meticulosas dos dados são fases essenciais do desenvolvimento de sistemas de IA bem sucedidos.

Exemplos de dados de treino em aplicações do mundo real

Os dados de treino são o combustível para inúmeras aplicações de IA em vários domínios. Eis dois exemplos:

Veículos autónomos: Os veículos autónomos dependem fortemente de dados de treino para os sistemas de perceção. Estes dados incluem grandes quantidades de imagens de câmaras, LiDAR e sensores de radar, meticulosamente identificadas com objectos como outros veículos, peões, ciclistas, semáforos e marcas de faixa de rodagem. Modelos como os utilizados na tecnologia da Waymo são treinados em conjuntos de dados como o Argoverse para aprender a navegar em ambientes complexos com segurança. Explore a IA em soluções automóveis para obter mais detalhes.
Análise de sentimentos: No Processamento de Linguagem Natural (PLN), os modelos de análise de sentimentos determinam o tom emocional subjacente ao texto. Os dados de treino consistem em amostras de texto (por exemplo, comentários de clientes, publicações nas redes sociais) rotuladas com sentimentos como "positivo", "negativo" ou "neutro"(Análise de sentimentos - Wikipédia). Isto permite às empresas avaliar automaticamente a opinião pública ou a satisfação dos clientes.

Qualidade e preparação dos dados

Garantir a elevada qualidade dos dados de treino é fundamental e envolve várias etapas fundamentais. A limpeza de dados (Wikipedia) trata de erros, inconsistências e valores em falta. O pré-processamento de dados transforma os dados em bruto num formato adequado para o modelo. Técnicas como o aumento de dados expandem artificialmente o conjunto de dados, criando cópias modificadas dos dados existentes (por exemplo, rodando ou cortando imagens), o que ajuda a melhorar a robustez do modelo e a reduzir o sobreajuste. Compreender os seus dados através da exploração, facilitada por ferramentas como o Ultralytics Datasets Explorer, é também crucial antes de iniciar o processo de formação.

Dados de treino vs. dados de validação e teste

Num projeto típico de ML, os dados são divididos em três conjuntos distintos:

Dados de treino: A maior parte, utilizada diretamente para treinar o modelo através do ajuste dos seus parâmetros. Uma formação eficaz implica frequentemente uma análise cuidadosa das sugestões para a formação do modelo.
Dados de validação: Um subconjunto separado usado periodicamente durante o treinamento para avaliar o desempenho do modelo em dados com os quais ele não aprendeu explicitamente. Isto ajuda a ajustar os hiperparâmetros (por exemplo, taxa de aprendizagem, tamanho do lote) através de processos como a Otimização de hiperparâmetros (Wikipedia) e fornece um aviso prévio contra o sobreajuste. O modo de validação é usado para esta avaliação.
Dados de teste: Um conjunto de dados independente, não visto durante a formação e validação, utilizado apenas depois de o modelo estar totalmente treinado. Fornece a avaliação final e imparcial da capacidade de generalização do modelo e do desempenho esperado no mundo real. O teste rigoroso do modelo é crucial antes da implementação.

Manter uma separação rigorosa entre estes conjuntos de dados é essencial para desenvolver modelos fiáveis e avaliar com precisão as suas capacidades. Plataformas como o Ultralytics HUB oferecem ferramentas para gerir eficazmente estes conjuntos de dados ao longo do ciclo de vida de desenvolvimento do modelo. Modelos de última geração, como o Ultralytics YOLO, são frequentemente pré-treinados em grandes conjuntos de dados de referência, como COCO ou ImageNet, que servem como dados de treinamento extensivos.

Dados de treino

Solução flexível de licenciamento empresarial para impulsionar a sua inovação

Treine modelos de IA em segundos com o Ultralytics YOLO

Treine modelos YOLO de forma simples com o Ultralytics HUB

O que são dados de treino?

Importância dos dados de formação

Exemplos de dados de treino em aplicações do mundo real

Qualidade e preparação dos dados

Dados de treino vs. dados de validação e teste

Ler mais nesta categoria

Explorar o Google Beam: uma ferramenta de videoconferência 3D de última geração

Exportação de modelos Ultralytics YOLO11 para o formato de modelo NCNN

Principais destaques da Ultralytics na CVPR 2025

Junte-se à comunidade Ultralytics