Descubra a importância dos dados de formação na IA. Saiba como os conjuntos de dados de qualidade potenciam modelos de aprendizagem automática precisos e robustos para tarefas do mundo real.
Nos domínios da Inteligência Artificial (IA) e da Aprendizagem Automática (AM), os dados de treino são o conjunto de dados fundamental utilizado para ensinar os modelos a executar tarefas específicas, como a classificação ou a previsão. Compreendem uma grande coleção de exemplos, em que cada exemplo associa normalmente uma entrada a uma saída ou etiqueta desejada correspondente. Através de processos como a Aprendizagem Supervisionada, o modelo analisa estes dados, identifica padrões e relações subjacentes e ajusta os seus parâmetros internos(pesos do modelo) para aprender o mapeamento das entradas para as saídas. Esta aprendizagem permite que o modelo faça previsões ou tome decisões exactas quando lhe são apresentados dados novos e nunca antes vistos.
Pense nos dados de treino como o manual e os exercícios práticos para um modelo de IA. Trata-se de um conjunto de informações cuidadosamente selecionadas e formatadas especificamente para servirem de exemplos durante a fase de aprendizagem. Por exemplo, nas tarefas de Visão por Computador (CV), como a Deteção de Objectos, os dados de treino consistem em imagens ou fotogramas de vídeo (as caraterísticas de entrada) emparelhados com anotações (etiquetas) que especificam a localização(caixas delimitadoras) e a classe dos objectos nessas imagens. A criação destas etiquetas é um passo crucial conhecido como Rotulagem de Dados. O modelo processa iterativamente estes dados, comparando as suas previsões com as etiquetas verdadeiras e ajustando os seus parâmetros utilizando técnicas como a retropropagação e a descida gradiente para minimizar o erro ou a função de perda.
O desempenho e a fiabilidade de um modelo de IA estão diretamente ligados à qualidade, quantidade e diversidade dos seus dados de treino. Dados representativos e de elevada qualidade são essenciais para a criação de modelos que atinjam uma elevada exatidão e se generalizem bem a cenários do mundo real(Generalização em ML). Por outro lado, dados de treino insuficientes, ruidosos ou enviesados podem levar a problemas significativos, como um fraco desempenho, sobreajuste (em que o modelo tem um bom desempenho nos dados de treino, mas um fraco desempenho nos novos dados) ou resultados injustos e discriminatórios devido ao enviesamento inerente do conjunto de dados. Abordar o enviesamento é um aspeto fundamental da ética da IA. Por conseguinte, a recolha, a anotação e a preparação meticulosas dos dados são fases essenciais do desenvolvimento de sistemas de IA bem sucedidos.
Os dados de treino são o combustível para inúmeras aplicações de IA em vários domínios. Eis dois exemplos:
Garantir a elevada qualidade dos dados de treino é fundamental e envolve várias etapas fundamentais. A limpeza de dados (Wikipedia) trata de erros, inconsistências e valores em falta. O pré-processamento de dados transforma os dados em bruto num formato adequado para o modelo. Técnicas como o aumento de dados expandem artificialmente o conjunto de dados, criando cópias modificadas dos dados existentes (por exemplo, rodando ou cortando imagens), o que ajuda a melhorar a robustez do modelo e a reduzir o sobreajuste. Compreender os seus dados através da exploração, facilitada por ferramentas como o Ultralytics Datasets Explorer, é também crucial antes de iniciar o processo de formação.
Num projeto típico de ML, os dados são divididos em três conjuntos distintos:
Manter uma separação rigorosa entre estes conjuntos de dados é essencial para desenvolver modelos fiáveis e avaliar com precisão as suas capacidades. Plataformas como o Ultralytics HUB oferecem ferramentas para gerir eficazmente estes conjuntos de dados ao longo do ciclo de vida de desenvolvimento do modelo. Modelos de última geração, como o Ultralytics YOLO, são frequentemente pré-treinados em grandes conjuntos de dados de referência, como COCO ou ImageNet, que servem como dados de treinamento extensivos.