-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathpre_processamento_credit.py
58 lines (39 loc) · 1.54 KB
/
pre_processamento_credit.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
# -*- coding: utf-8 -*-
"""pre_processamento_dados.ipynb
Automatically generated by Colaboratory.
Original file is located at
https://colab.research.google.com/drive/1KXZMclnn38kob5Oj9mE-IvP3SIMsfOxp
"""
import pandas as pd
base.describe()
base = pd.read_csv('credit_data.csv')
base.loc[base['age'] < 0]
#apagando a colunas com datas negativas
base.drop('age',1,inplace=True)
#apagando os registros negativos
base.drop(base[base.age < 0].index, inplace=True)
#preenchendo os valores de forma manual
base.mean()
base['age'].mean()
base['age'][base.age > 0].mean()
base.loc[base.age < 0, 'age'] = 40.92
#verificando se possui algum campo nulo
pd.isnull(base['age'])
#metodo que traz as linhas que não foram preenchidas
base.loc[pd.isnull(base['age'])]
previsores = base.iloc[:, 1:4].values
classe = base.iloc[:, 4].values
# Importando a lib SimpleImputer
from sklearn.impute import SimpleImputer
# Alterando os dados que estão como 'NaN' e colocando a média
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
# Treinando os dados
imputer = imputer.fit(previsores[:, 0:3])
previsores[:, 0:3] = imputer.transform(previsores[:,0:3])
# O StandardScaler é utilizado para padronizar a base de dados removendo as médias e escalonando para a variação da unidade
# importando a lib
from sklearn.preprocessing import StandardScaler
# Não é necessária passar parametros para a função StandardScaler(), bastando apenas chama-la
scaler = StandardScaler()
# Ajustando os dados e transformando-os
previsores = scaler.fit_transform(previsores)