
O que você vai aprender?
A ferramenta ‘Create Samples’ é uma funcionalidade poderosa para dividir seu conjunto de dados em subconjuntos menores e aleatórios. Isso é extremamente útil em diversas situações, especialmente quando se trabalha com grandes volumes de dados ou em cenários de modelagem preditiva.
INTRODUÇÃO
A ferramenta ‘Create Samples’ é uma funcionalidade poderosa para dividir seu conjunto de dados em subconjuntos menores e aleatórios. Isso é extremamente útil em diversas situações, especialmente quando se trabalha com grandes volumes de dados ou em cenários de modelagem preditiva.
Como utilizar a ferramenta Create Samples
Configure a Amostragem: No painel de configuração da ferramenta, você terá opções para definir como deseja dividir seus dados:
- Número de Amostras: Você pode escolher dividir seus dados em 3 amostras (Estimation, Holdout e Validation).
- Porcentagem de Registros (Sample 1 e Sample 2): Para cada amostra, você especificará a porcentagem de registros que deseja incluir.
- Semente Aleatória (Random Seed, opcional): Você pode definir uma semente aleatória na sua amostra. Isso significa que, mesmo que você execute o fluxo várias vezes, as mesmas linhas serão selecionadas para cada amostra.
Saídas da ferramenta
Saídas da Ferramenta: A ferramenta ‘Create Samples’ terá múltiplas âncoras de saída, uma para cada amostra que você configurou (E para Estimation, H para Holdout, V para Validation). Você pode conectar essas saídas a outras ferramentas no seu fluxo de trabalho para processar cada amostra separadamente.

O que é cada amostra criada com a ferramenta?
- Amostra de Estimação (Estimation/Treinamento): É nesta amostra que o algoritmo de Machine Learning aprende os padrões, relações e estruturas presentes nos dados para fazer previsões ou classificações.
Utilidade:
- Aprendizado: O modelo ajusta seus parâmetros com base nos dados desta amostra, buscando minimizar erros e otimizar seu desempenho.
- Identificação de Padrões: É a partir desta amostra que o modelo descobre as características que são mais relevantes para os dados como um todo.
- Desenvolvimento Iterativo: Durante a fase de desenvolvimento do modelo, os cientistas de dados frequentemente iteram e refinam o modelo usando apenas a amostra de estimação para evitar o vazamento de informações das amostras de validação e teste.

Amostra de validação
Ela ajuda a evitar que o modelo aprenda os dados da amostragem tão bem que perde a capacidade de gerar amostragens para novos dados.
Utilidade:
- Otimização de Hiperparâmetros: Muitos modelos de Machine Learning possuem hiperparâmetros que não são aprendidos diretamente dos dados, mas que precisam ser configurados. A amostra de validação é usada para testar diferentes configurações de hiperparâmetros e escolher a que oferece o melhor desempenho.
- Seleção de Modelo: Se você está comparando diferentes tipos de modelos, a amostra de validação pode ser usada para selecionar o modelo que apresenta o melhor equilíbrio entre desempenho e generalização.
- Monitoramento de desempenho: Ao monitorar o desempenho do modelo na amostra de validação, é possível identificar quando o modelo começa a se sobreajustar aos dados (o desempenho na amostra de treinamento continua a melhorar, mas na amostra de validação começa a piorar).

Amostra de Teste
A amostra de Holdout (também conhecida como amostra de Teste) é o subconjunto final e totalmente independente dos dados, utilizado para avaliar o desempenho final do modelo após ele ter sido treinado e otimizado. O modelo não tem contato com esta amostra durante as fases de treinamento e validação.
Utilidade:
- Avaliação Imparcial do Desempenho: Como o modelo nunca viu esses dados antes, a avaliação nesta amostra fornece a estimativa mais realista de como o modelo se comportará em dados novos e não vistos no mundo real.
- Confiança na Generalização: Um bom desempenho na amostra de holdout indica que o modelo é capaz de generalizar bem para dados futuros, o que é crucial para a sua implantação em produção.
- Comparação Final: É a métrica de desempenho obtida nesta amostra que é usada para comparar o modelo final com outros modelos ou benchmarks.

Em resumo, a ferramenta ‘Create Samples’ no Alteryx Cloud é um componente fundamental para qualquer analista ou cientista de dados que busca eficiência, reprodutibilidade e rigor estatístico em suas análises e na construção de modelos. Ela simplifica o processo de amostragem, permitindo que você se concentre mais na lógica de negócios e menos na manipulação manual dos dados.

23 de Julho de 2025
Pronto, você aprendeu a usar a ferramenta Create samples no alteryx cloud
Dicas Recentes


P A T H | Dicas Tableau – Como filtrar um gráfico somente com os dias de semana

P A T H | Dicas Alteryx – Usando comentários no fluxo Cloud


