Glossário

Dados de treino

Descubra a importância dos dados de formação na IA. Saiba como os conjuntos de dados de qualidade potenciam modelos de aprendizagem automática precisos e robustos para tarefas do mundo real.

Nos domínios da Inteligência Artificial (IA) e da Aprendizagem Automática (AM), os dados de treino são o conjunto de dados fundamental utilizado para ensinar os modelos a executar tarefas específicas, como a classificação ou a previsão. Compreendem uma grande coleção de exemplos, em que cada exemplo associa normalmente uma entrada a uma saída ou etiqueta desejada correspondente. Através de processos como a Aprendizagem Supervisionada, o modelo analisa estes dados, identifica padrões e relações subjacentes e ajusta os seus parâmetros internos(pesos do modelo) para aprender o mapeamento das entradas para as saídas. Esta aprendizagem permite que o modelo faça previsões ou tome decisões exactas quando lhe são apresentados dados novos e nunca antes vistos.

O que são dados de treino?

Pense nos dados de treino como o manual e os exercícios práticos para um modelo de IA. Trata-se de um conjunto de informações cuidadosamente selecionadas e formatadas especificamente para servirem de exemplos durante a fase de aprendizagem. Por exemplo, nas tarefas de Visão por Computador (CV), como a Deteção de Objectos, os dados de treino consistem em imagens ou fotogramas de vídeo (as caraterísticas de entrada) emparelhados com anotações (etiquetas) que especificam a localização(caixas delimitadoras) e a classe dos objectos nessas imagens. A criação destas etiquetas é um passo crucial conhecido como Rotulagem de Dados. O modelo processa iterativamente estes dados, comparando as suas previsões com as etiquetas verdadeiras e ajustando os seus parâmetros utilizando técnicas como a retropropagação e a descida gradiente para minimizar o erro ou a função de perda.

Importância dos dados de formação

O desempenho e a fiabilidade de um modelo de IA estão diretamente ligados à qualidade, quantidade e diversidade dos seus dados de treino. Dados representativos e de elevada qualidade são essenciais para a criação de modelos que atinjam uma elevada exatidão e se generalizem bem a cenários do mundo real(Generalização em ML). Por outro lado, dados de treino insuficientes, ruidosos ou enviesados podem levar a problemas significativos, como um fraco desempenho, sobreajuste (em que o modelo tem um bom desempenho nos dados de treino, mas um fraco desempenho nos novos dados) ou resultados injustos e discriminatórios devido ao enviesamento inerente do conjunto de dados. Abordar o enviesamento é um aspeto fundamental da ética da IA. Por conseguinte, a recolha, a anotação e a preparação meticulosas dos dados são fases essenciais do desenvolvimento de sistemas de IA bem sucedidos.

Exemplos de dados de treino em aplicações do mundo real

Os dados de treino são o combustível para inúmeras aplicações de IA em vários domínios. Eis dois exemplos:

  1. Veículos autónomos: Os veículos autónomos dependem fortemente de dados de treino para os sistemas de perceção. Estes dados incluem grandes quantidades de imagens de câmaras, LiDAR e sensores de radar, meticulosamente identificadas com objectos como outros veículos, peões, ciclistas, semáforos e marcas de faixa de rodagem. Modelos como os utilizados na tecnologia da Waymo são treinados em conjuntos de dados como o Argoverse para aprender a navegar em ambientes complexos com segurança. Explore a IA em soluções automóveis para obter mais detalhes.
  2. Análise de sentimentos: No Processamento de Linguagem Natural (PLN), os modelos de análise de sentimentos determinam o tom emocional subjacente ao texto. Os dados de treino consistem em amostras de texto (por exemplo, comentários de clientes, publicações nas redes sociais) rotuladas com sentimentos como "positivo", "negativo" ou "neutro"(Análise de sentimentos - Wikipédia). Isto permite às empresas avaliar automaticamente a opinião pública ou a satisfação dos clientes.

Qualidade e preparação dos dados

Garantir a elevada qualidade dos dados de treino é fundamental e envolve várias etapas fundamentais. A limpeza de dados (Wikipedia) trata de erros, inconsistências e valores em falta. O pré-processamento de dados transforma os dados em bruto num formato adequado para o modelo. Técnicas como o aumento de dados expandem artificialmente o conjunto de dados, criando cópias modificadas dos dados existentes (por exemplo, rodando ou cortando imagens), o que ajuda a melhorar a robustez do modelo e a reduzir o sobreajuste. Compreender os seus dados através da exploração, facilitada por ferramentas como o Ultralytics Datasets Explorer, é também crucial antes de iniciar o processo de formação.

Dados de treino vs. dados de validação e teste

Num projeto típico de ML, os dados são divididos em três conjuntos distintos:

Manter uma separação rigorosa entre estes conjuntos de dados é essencial para desenvolver modelos fiáveis e avaliar com precisão as suas capacidades. Plataformas como o Ultralytics HUB oferecem ferramentas para gerir eficazmente estes conjuntos de dados ao longo do ciclo de vida de desenvolvimento do modelo. Modelos de última geração, como o Ultralytics YOLO, são frequentemente pré-treinados em grandes conjuntos de dados de referência, como COCO ou ImageNet, que servem como dados de treinamento extensivos.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência