Skip to content

luisaferreirass/data_clean

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 

Repository files navigation

🧹 DataCleanCo - Projeto de Limpeza de Dados

📋 Sobre o Projeto

Projeto prático focado em limpeza e tratamento de dados utilizando Python e Pandas. O objetivo é aplicar técnicas fundamentais de preparação de dados para deixar um dataset de clientes pronto para análises e modelagem.

Este é um projeto educacional que demonstra as principais etapas do pré-processamento de dados, incluindo tratamento de valores ausentes, remoção de duplicatas, normalização de formatos, tratamento de outliers, normalização de variáveis e encoding de variáveis categóricas.

🎯 Objetivos

  • Praticar técnicas de limpeza e tratamento de dados
  • Identificar e corrigir problemas de qualidade de dados
  • Aplicar métodos de tratamento de outliers
  • Realizar normalização e padronização de variáveis
  • Implementar encoding de variáveis categóricas
  • Preparar dados para análises futuras

🗂️ Dataset

O dataset dados_clientes.csv contém informações de clientes e suas compras:

  • id_cliente: Identificador único do cliente
  • nome: Nome do cliente
  • idade: Idade do cliente
  • genero: Gênero do cliente
  • renda_anual: Renda anual do cliente
  • categoria_produto: Categoria do produto comprado
  • valor_compra: Valor da compra realizada
  • data_compra: Data da transação
  • regiao: Região do cliente

🛠️ Técnicas Aplicadas

1. Análise Inicial

  • Verificação de estrutura do dataset (info())
  • Análise estatística descritiva (describe())
  • Identificação de dados ausentes
  • Detecção de duplicatas

2. Tratamento de Valores Ausentes

  • Identificação de missing values em todas as colunas
  • Estratégias de imputação baseadas em contexto
  • Remoção de registros quando necessário

3. Normalização de Formatos

  • Padronização de datas para formato datetime
  • Correção de inconsistências em campos de texto
  • Uniformização de categorias

4. Tratamento de Outliers

Método: Winsorização com IQR

  • Cálculo de quartis (Q1, Q3) e IQR
  • Definição de limites: Q1 - 1.5*IQR e Q3 + 1.5*IQR
  • Substituição de outliers pelos limites (não remoção)
  • Vantagem: mantém o tamanho da amostra

Justificativa: Os outliers identificados (10% da base) aparentavam ser dados reais que, apesar de extremos, não deveriam ser removidos. A winsorização reduz o impacto sem perder informação.

5. Normalização de Variáveis

Min-Max Normalization

  • Aplicada em: idade, renda_anual, valor_compra
  • Fórmula: (x - min) / (max - min)
  • Resultado: valores entre 0 e 1
  • Útil para algoritmos sensíveis à escala

6. Encoding de Variáveis Categóricas

One-Hot Encoding

  • Aplicado em: genero e categoria_produto
  • Criação de variáveis dummy
  • Prepara dados para modelos de machine learning

📊 Visualizações

O projeto inclui visualizações para:

  • Histogramas de distribuição de variáveis numéricas
  • Boxplots para identificação de outliers
  • Análise visual antes e depois do tratamento

🛠️ Tecnologias Utilizadas

  • Python 3.12
  • Pandas: Manipulação de dados
  • Matplotlib: Visualização de dados
  • Seaborn: Gráficos estatísticos
  • Google Colab: Ambiente de desenvolvimento

🚀 Como Executar

  1. Clone o repositório
git clone https://github.com/seu-usuario/dataclean-co.git
cd dataclean-co
  1. Instale as dependências
pip install pandas matplotlib seaborn
  1. Execute no Google Colab (recomendado)

    • Faça upload do notebook para o Colab
    • Monte seu Google Drive
    • Ajuste o caminho: /content/drive/MyDrive/datasets/dados_clientes.csv
    • Execute as células sequencialmente
  2. Ou execute localmente

# Ajuste o caminho do dataset
df = pd.read_csv('caminho/para/dados_clientes.csv')

📈 Pipeline de Limpeza

1. Coleta de Dados
   ↓
2. Análise Inicial (info, describe, missing values)
   ↓
3. Tratamento de Valores Ausentes
   ↓
4. Normalização de Formatos (datas, textos)
   ↓
5. Tratamento de Outliers (Winsorização)
   ↓
6. Normalização de Variáveis (Min-Max)
   ↓
7. Encoding de Categóricas (One-Hot)
   ↓
8. Dataset Limpo e Pronto para Análise

💡 Principais Aprendizados

O que funcionou bem:

✅ Winsorização para outliers (mantém tamanho da amostra) ✅ One-Hot Encoding para variáveis categóricas ✅ Normalização Min-Max para padronizar escalas ✅ Análise visual para validar tratamentos

Decisões importantes:

🎯 Não remover outliers que parecem dados reais 🎯 Normalizar apenas variáveis numéricas contínuas 🎯 Usar encoding apropriado para cada tipo de variável 🎯 Validar cada etapa antes de prosseguir

Conceitos praticados:

📚 Data Quality Assessment 📚 Missing Data Handling 📚 Outlier Detection & Treatment 📚 Feature Scaling 📚 Categorical Encoding 📚 Data Preprocessing Pipeline

📄 Licença

Este projeto está sob a licença MIT.


⭐ Projeto desenvolvido para prática de técnicas de limpeza e tratamento de dados

About

Projeto focado em limpeza e tratamento de dados utilizando Python e Pandas. Aplica técnicas essenciais de pré-processamento como tratamento de valores ausentes, remoção de duplicatas, winsorização de outliers para preparar um dataset de clientes para análises futuras.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors