🧹 DataCleanCo - Projeto de Limpeza de Dados

📋 Sobre o Projeto

Projeto prático focado em limpeza e tratamento de dados utilizando Python e Pandas. O objetivo é aplicar técnicas fundamentais de preparação de dados para deixar um dataset de clientes pronto para análises e modelagem.

Este é um projeto educacional que demonstra as principais etapas do pré-processamento de dados, incluindo tratamento de valores ausentes, remoção de duplicatas, normalização de formatos, tratamento de outliers, normalização de variáveis e encoding de variáveis categóricas.

🎯 Objetivos

Praticar técnicas de limpeza e tratamento de dados
Identificar e corrigir problemas de qualidade de dados
Aplicar métodos de tratamento de outliers
Realizar normalização e padronização de variáveis
Implementar encoding de variáveis categóricas
Preparar dados para análises futuras

🗂️ Dataset

O dataset dados_clientes.csv contém informações de clientes e suas compras:

id_cliente: Identificador único do cliente
nome: Nome do cliente
idade: Idade do cliente
genero: Gênero do cliente
renda_anual: Renda anual do cliente
categoria_produto: Categoria do produto comprado
valor_compra: Valor da compra realizada
data_compra: Data da transação
regiao: Região do cliente

🛠️ Técnicas Aplicadas

1. Análise Inicial

Verificação de estrutura do dataset (info())
Análise estatística descritiva (describe())
Identificação de dados ausentes
Detecção de duplicatas

2. Tratamento de Valores Ausentes

Identificação de missing values em todas as colunas
Estratégias de imputação baseadas em contexto
Remoção de registros quando necessário

3. Normalização de Formatos

Padronização de datas para formato datetime
Correção de inconsistências em campos de texto
Uniformização de categorias

4. Tratamento de Outliers

Método: Winsorização com IQR

Cálculo de quartis (Q1, Q3) e IQR
Definição de limites: Q1 - 1.5*IQR e Q3 + 1.5*IQR
Substituição de outliers pelos limites (não remoção)
Vantagem: mantém o tamanho da amostra

Justificativa: Os outliers identificados (10% da base) aparentavam ser dados reais que, apesar de extremos, não deveriam ser removidos. A winsorização reduz o impacto sem perder informação.

5. Normalização de Variáveis

Min-Max Normalization

Aplicada em: idade, renda_anual, valor_compra
Fórmula: (x - min) / (max - min)
Resultado: valores entre 0 e 1
Útil para algoritmos sensíveis à escala

6. Encoding de Variáveis Categóricas

One-Hot Encoding

Aplicado em: genero e categoria_produto
Criação de variáveis dummy
Prepara dados para modelos de machine learning

📊 Visualizações

O projeto inclui visualizações para:

Histogramas de distribuição de variáveis numéricas
Boxplots para identificação de outliers
Análise visual antes e depois do tratamento

🛠️ Tecnologias Utilizadas

Python 3.12
Pandas: Manipulação de dados
Matplotlib: Visualização de dados
Seaborn: Gráficos estatísticos
Google Colab: Ambiente de desenvolvimento

🚀 Como Executar

Clone o repositório

git clone https://github.com/seu-usuario/dataclean-co.git
cd dataclean-co

Instale as dependências

pip install pandas matplotlib seaborn

Execute no Google Colab (recomendado)
- Faça upload do notebook para o Colab
- Monte seu Google Drive
- Ajuste o caminho: /content/drive/MyDrive/datasets/dados_clientes.csv
- Execute as células sequencialmente
Ou execute localmente

# Ajuste o caminho do dataset
df = pd.read_csv('caminho/para/dados_clientes.csv')

📈 Pipeline de Limpeza

1. Coleta de Dados
   ↓
2. Análise Inicial (info, describe, missing values)
   ↓
3. Tratamento de Valores Ausentes
   ↓
4. Normalização de Formatos (datas, textos)
   ↓
5. Tratamento de Outliers (Winsorização)
   ↓
6. Normalização de Variáveis (Min-Max)
   ↓
7. Encoding de Categóricas (One-Hot)
   ↓
8. Dataset Limpo e Pronto para Análise

💡 Principais Aprendizados

O que funcionou bem:

✅ Winsorização para outliers (mantém tamanho da amostra) ✅ One-Hot Encoding para variáveis categóricas ✅ Normalização Min-Max para padronizar escalas ✅ Análise visual para validar tratamentos

Decisões importantes:

🎯 Não remover outliers que parecem dados reais 🎯 Normalizar apenas variáveis numéricas contínuas 🎯 Usar encoding apropriado para cada tipo de variável 🎯 Validar cada etapa antes de prosseguir

Conceitos praticados:

📚 Data Quality Assessment 📚 Missing Data Handling 📚 Outlier Detection & Treatment 📚 Feature Scaling 📚 Categorical Encoding 📚 Data Preprocessing Pipeline

📄 Licença

Este projeto está sob a licença MIT.

⭐ Projeto desenvolvido para prática de técnicas de limpeza e tratamento de dados

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
DataCleanCo.ipynb		DataCleanCo.ipynb
ReadMe.md		ReadMe.md
dados_clientes.csv		dados_clientes.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🧹 DataCleanCo - Projeto de Limpeza de Dados

📋 Sobre o Projeto

🎯 Objetivos

🗂️ Dataset

🛠️ Técnicas Aplicadas

1. Análise Inicial

2. Tratamento de Valores Ausentes

3. Normalização de Formatos

4. Tratamento de Outliers

5. Normalização de Variáveis

6. Encoding de Variáveis Categóricas

📊 Visualizações

🛠️ Tecnologias Utilizadas

🚀 Como Executar

📈 Pipeline de Limpeza

💡 Principais Aprendizados

O que funcionou bem:

Decisões importantes:

Conceitos praticados:

📄 Licença

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

🧹 DataCleanCo - Projeto de Limpeza de Dados

📋 Sobre o Projeto

🎯 Objetivos

🗂️ Dataset

🛠️ Técnicas Aplicadas

1. Análise Inicial

2. Tratamento de Valores Ausentes

3. Normalização de Formatos

4. Tratamento de Outliers

5. Normalização de Variáveis

6. Encoding de Variáveis Categóricas

📊 Visualizações

🛠️ Tecnologias Utilizadas

🚀 Como Executar

📈 Pipeline de Limpeza

💡 Principais Aprendizados

O que funcionou bem:

Decisões importantes:

Conceitos praticados:

📄 Licença

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages