P A T H

Utilizando a Ferramenta 'Create Samples' no Alteryx Cloud

O que você vai aprender?

A ferramenta ‘Create Samples’ é uma funcionalidade poderosa para dividir seu conjunto de dados em subconjuntos menores e aleatórios. Isso é extremamente útil em diversas situações, especialmente quando se trabalha com grandes volumes de dados ou em cenários de modelagem preditiva.

INTRODUÇÃO

A ferramenta ‘Create Samples’ é uma funcionalidade poderosa para dividir seu conjunto de dados em subconjuntos menores e aleatórios. Isso é extremamente útil em diversas situações, especialmente quando se trabalha com grandes volumes de dados ou em cenários de modelagem preditiva.

Como utilizar a ferramenta Create Samples

Configure a Amostragem: No painel de configuração da ferramenta, você terá opções para definir como deseja dividir seus dados:

  • Número de Amostras: Você pode escolher dividir seus dados em 3 amostras (Estimation, Holdout e Validation).
  • Porcentagem de Registros (Sample 1 e Sample 2): Para cada amostra, você especificará a porcentagem de registros que deseja incluir.
  • Semente Aleatória (Random Seed, opcional): Você pode definir uma semente aleatória na sua amostra. Isso significa que, mesmo que você execute o fluxo várias vezes, as mesmas linhas serão selecionadas para cada amostra.

Saídas da ferramenta

Saídas da Ferramenta: A ferramenta ‘Create Samples’ terá múltiplas âncoras de saída, uma para cada amostra que você configurou (E para Estimation, H para Holdout, V para Validation). Você pode conectar essas saídas a outras ferramentas no seu fluxo de trabalho para processar cada amostra separadamente.

O que é cada amostra criada com a ferramenta?

  • Amostra de Estimação (Estimation/Treinamento): É nesta amostra que o algoritmo de Machine Learning aprende os padrões, relações e estruturas presentes nos dados para fazer previsões ou classificações.

Utilidade:

  • Aprendizado: O modelo ajusta seus parâmetros com base nos dados desta amostra, buscando minimizar erros e otimizar seu desempenho.
  • Identificação de Padrões: É a partir desta amostra que o modelo descobre as características que são mais relevantes para os dados como um todo.
  • Desenvolvimento Iterativo: Durante a fase de desenvolvimento do modelo, os cientistas de dados frequentemente iteram e refinam o modelo usando apenas a amostra de estimação para evitar o vazamento de informações das amostras de validação e teste.

Amostra de validação

Ela ajuda a evitar que o modelo aprenda os dados da amostragem tão bem que perde a capacidade de gerar amostragens para novos dados.

Utilidade:

  • Otimização de Hiperparâmetros: Muitos modelos de Machine Learning possuem hiperparâmetros que não são aprendidos diretamente dos dados, mas que precisam ser configurados. A amostra de validação é usada para testar diferentes configurações de hiperparâmetros e escolher a que oferece o melhor desempenho.
  • Seleção de Modelo: Se você está comparando diferentes tipos de modelos, a amostra de validação pode ser usada para selecionar o modelo que apresenta o melhor equilíbrio entre desempenho e generalização.
  • Monitoramento de desempenho: Ao monitorar o desempenho do modelo na amostra de validação, é possível identificar quando o modelo começa a se sobreajustar aos dados (o desempenho na amostra de treinamento continua a melhorar, mas na amostra de validação começa a piorar).

Amostra de Teste

A amostra de Holdout (também conhecida como amostra de Teste) é o subconjunto final e totalmente independente dos dados, utilizado para avaliar o desempenho final do modelo após ele ter sido treinado e otimizado. O modelo não tem contato com esta amostra durante as fases de treinamento e validação.

Utilidade:

  • Avaliação Imparcial do Desempenho: Como o modelo nunca viu esses dados antes, a avaliação nesta amostra fornece a estimativa mais realista de como o modelo se comportará em dados novos e não vistos no mundo real.
  • Confiança na Generalização: Um bom desempenho na amostra de holdout indica que o modelo é capaz de generalizar bem para dados futuros, o que é crucial para a sua implantação em produção.
  • Comparação Final: É a métrica de desempenho obtida nesta amostra que é usada para comparar o modelo final com outros modelos ou benchmarks.

Em resumo, a ferramenta ‘Create Samples’ no Alteryx Cloud é um componente fundamental para qualquer analista ou cientista de dados que busca eficiência, reprodutibilidade e rigor estatístico em suas análises e na construção de modelos. Ela simplifica o processo de amostragem, permitindo que você se concentre mais na lógica de negócios e menos na manipulação manual dos dados.

23 de Julho de 2025

Pronto, você aprendeu a usar a ferramenta Create samples no alteryx cloud

Language