# Exercices Extra : Preprocessing 

Dans ce Notebook, des exemples de chose pratiques qu'on est souvent amené à faire 
avant de pouvoir analyser de manière appropriée nous données 

## Nettoyage : Ajuster les noms des colonnes

Parfois les colonnes dans nos données ont de noms qui soient représentatifs (ou faciles à comprendre). Il arrive même que certains noms de colonnes comportent des "*erreurs*" (des caractères spéciaux, des espaces, etc.). 

On peut modifier les noms des colonnes d'un **DataFrame** facilement. 


Afin d'illustrer le changement de colonne, prenons le fichier "***VentesAgenceU.csv***", disponible sur [http://kirschpm.fr/cours/PythonDataScience/files/](http://kirschpm.fr/cours/PythonDataScience/files/). On va :
- lire le fichier ***VentesAgenceU.csv***
- faire un ***info*** pour vérifier les colonnes que nous avons

In [1]:
import pandas as pnd

dfFactures = pnd.read_csv ('http://kirschpm.fr/cours/PythonDataScience/files/VentesAgenceU.csv',
                           delimiter=';', header=[0], index_col=[0] ) 

dfFactures.info()



<class 'pandas.core.frame.DataFrame'>
Index: 50 entries, FA-2008-0010 to nan
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   DATE FACTURE  47 non-null     object 
 1   CODE CLIENT   47 non-null     object 
 2   SECTEUR       47 non-null     object 
 3   VENDEUR       47 non-null     object 
 4    MONTANT      47 non-null     object 
 5   Unnamed: 6    0 non-null      float64
dtypes: float64(1), object(5)
memory usage: 2.7+ KB


On va supprimer la colonne n° 5 ("*Unnamed: 6*") et les lignes avec des NaN, afin de ne garder que les données "utiles". 

In [2]:
dfFactures.drop(columns={dfFactures.columns[5]}, inplace=True)
dfFactures.dropna(axis='index', inplace=True)
dfFactures.info()

<class 'pandas.core.frame.DataFrame'>
Index: 47 entries, FA-2008-0010 to FA-2008-0005
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   DATE FACTURE  47 non-null     object
 1   CODE CLIENT   47 non-null     object
 2   SECTEUR       47 non-null     object
 3   VENDEUR       47 non-null     object
 4    MONTANT      47 non-null     object
dtypes: object(5)
memory usage: 2.2+ KB


On observe que nom de la ***" MONTANT "*** contient des espaces, ce qui n'est pas très pratique. 

Afin de bien voir les possibles espaces dans le nom des colonnes, on va utiliser une petite boucle, qui va afficher les noms de chaque colonne précédée par un ##. 

In [3]:
for col in dfFactures.columns :
    print('##{}##'.format(col))

##DATE FACTURE##
##CODE CLIENT##
##SECTEUR##
##VENDEUR##
## MONTANT ##


On voit que le nom de la colonne "*MONTANT*" possède des espaces avant et après, ce qui peut être très gênant au moment qu'on voudra manipuler cette colonne. 

On va donc modifier son nom avec l'opération ***rename***.

In [4]:
# 1ere possibilité, en se servant de l'attribut columns 
# sans le inplace pour le pas modifier le DataFrame, et donc pouvoir l'application des deux options :-)
dfFactures.rename (columns= { dfFactures.columns[4] : 'montant' } )

Unnamed: 0_level_0,DATE FACTURE,CODE CLIENT,SECTEUR,VENDEUR,montant
CODE FACTURE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
FA-2008-0010,12/03/2008,CLI009,AUTOMATISME,BOUVET,75298
FA-2008-0006,04/02/2008,CLI038,AUTOMATISME,ENGUENT,37484
FA-2008-0009,03/03/2008,CLI098,ELECTRICITE,BOUVET,93547
FA-2008-0012,31/03/2008,CLI114,ELECTRICITE,DEVEAUX,75298
FA-2008-0008,22/02/2008,CLI115,AUTOMATISME,BOUVET,67736
FA-2008-0027,09/07/2008,CLI145,ELECTRICITE,BOUVET,42581
FA-2008-0028,09/07/2008,CLI145,AUTOMATISME,ENGUENT,"1_607,89"
FA-2008-0029,09/07/2008,CLI163,AUTOMATISME,BOUVET,"1_436,91"
FA-2008-0017,16/05/2008,CLI204,AUTOMATISME,ENGUENT,"2_250,72"
FA-2008-0031,27/07/2008,CLI204,ELECTRICITE,BOUVET,42841


In [5]:
# maintenant avec le inplace pour modifier le DataFrame
dfFactures.rename(columns={' MONTANT ':'MONTANT'}, inplace=True)

for col in dfFactures.columns :
    print('##{}##'.format(col))
    
dfFactures.info()

##DATE FACTURE##
##CODE CLIENT##
##SECTEUR##
##VENDEUR##
##MONTANT##
<class 'pandas.core.frame.DataFrame'>
Index: 47 entries, FA-2008-0010 to FA-2008-0005
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   DATE FACTURE  47 non-null     object
 1   CODE CLIENT   47 non-null     object
 2   SECTEUR       47 non-null     object
 3   VENDEUR       47 non-null     object
 4   MONTANT       47 non-null     object
dtypes: object(5)
memory usage: 2.2+ KB


## Nettoyage : Eliminer les caractères indésirables

Parfois il faut supprimer des données des caractères indésirables (un "$" ou un "€" d'un prix, par exemple), ou les remplacer par d'autres (parfois il faut remplacer une "," d'un prix en format FR par un "." d'un format US compris comme un numéro par Python). 

Cette étape doit venir avant qu'on puisse convertir les colonnes contenant ces données dans les bons formats (numeric, date). 

On peut remplacer un caractère par un autre avec ***str.replace*** ou en utilisant l'opération ***apply***. Si on veut tout simplement supprimer le caractère, il suffit de le remplacer par ***''*** (une chaine "*vide*"). 

On va illustrer cela avec la colonne "***MONTANT***" du DataFrame "***dfFractures***". 
En faisant un ***sample***, on peut observer l'usage de la "," comme séparateur pour les cases décimales, et plusieurs valeurs avec un "_". Ceci explique pourquoi cette colonne apparaît comme ***object*** dans la sortie de l'opération ***info***. 


In [6]:
dfFactures.sample(5)

Unnamed: 0_level_0,DATE FACTURE,CODE CLIENT,SECTEUR,VENDEUR,MONTANT
CODE FACTURE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
FA-2008-0040,11/09/2008,CLI204,ELECTRICITE,ENGUENT,24646
FA-2008-0002,04/01/2008,CLI228,AUTOMATISME,BOUVET,39128
FA-2008-0034,23/08/2008,CLI206,ELECTRICITE,BOUVET,"1_051,09"
FA-2008-0006,04/02/2008,CLI038,AUTOMATISME,ENGUENT,37484
FA-2008-0028,09/07/2008,CLI145,AUTOMATISME,ENGUENT,"1_607,89"


On va donc :
- remplacer le '_' par '' (chaîne vide)
- remplacer le ',' par un '.' 

In [7]:
dfFactures['MONTANT'] = dfFactures['MONTANT'].str.replace('_','')
dfFactures['MONTANT'].sample(5)

CODE FACTURE
FA-2008-0004      606,66   
FA-2008-0028     1607,89   
FA-2008-0002      391,28   
FA-2008-0014      917,38   
FA-2008-0036      485,24   
Name: MONTANT, dtype: object

Même chose avec l'opération ***apply***. 

In [8]:
dfFactures['MONTANT'] = dfFactures['MONTANT'].apply (lambda x: str(x).replace(',' , '.') )
dfFactures['MONTANT'].sample(5)

CODE FACTURE
FA-2008-0032     351.64   
FA-2008-0006     374.84   
FA-2008-0036     485.24   
FA-2008-0008     677.36   
FA-2008-0038     681.78   
Name: MONTANT, dtype: object

Dès que les données ont été nettoyées, on peut le convertir en type "*numérique*" avec ***to_numeric***.  

In [9]:
dfFactures['MONTANT'] = pnd.to_numeric(dfFactures['MONTANT'],errors='coerce')
dfFactures.info()

<class 'pandas.core.frame.DataFrame'>
Index: 47 entries, FA-2008-0010 to FA-2008-0005
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   DATE FACTURE  47 non-null     object 
 1   CODE CLIENT   47 non-null     object 
 2   SECTEUR       47 non-null     object 
 3   VENDEUR       47 non-null     object 
 4   MONTANT       47 non-null     float64
dtypes: float64(1), object(4)
memory usage: 2.2+ KB


## Dates : obtenir plus d'informations sur les dates. 

A partir du moment qu'on convertit une colonne en date (***to_datetime***), on peut obtenir plusieurs informations à partir de ses valeurs. 


In [10]:
dfFactures.info()

<class 'pandas.core.frame.DataFrame'>
Index: 47 entries, FA-2008-0010 to FA-2008-0005
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   DATE FACTURE  47 non-null     object 
 1   CODE CLIENT   47 non-null     object 
 2   SECTEUR       47 non-null     object 
 3   VENDEUR       47 non-null     object 
 4   MONTANT       47 non-null     float64
dtypes: float64(1), object(4)
memory usage: 2.2+ KB


La colonne "*DATE FACTURE*" contient des dates. Il faut donc la convertir avec ***to_datetime***.  

In [11]:
dfFactures['DATE FACTURE'] = pnd.to_datetime(dfFactures['DATE FACTURE'], dayfirst=True)
dfFactures['DATE FACTURE'].sample(5)

CODE FACTURE
FA-2008-0008   2008-02-22
FA-2008-0003   2008-01-08
FA-2008-0043   2008-09-17
FA-2008-0045   2008-09-23
FA-2008-0012   2008-03-31
Name: DATE FACTURE, dtype: datetime64[ns]

A partir de ce moment, on va pouvoir en extraire des nombreuses informations utiles :
- jour 
- mois 
- année
- jour de la semaine
- jour de la semaine en texte
- mois en texte

In [12]:
dfFactures['JOUR FACTURE'] = dfFactures['DATE FACTURE'].dt.day
dfFactures['MOIS FACTURE'] = dfFactures['DATE FACTURE'].dt.month
dfFactures['ANNEE FACTURE'] = dfFactures['DATE FACTURE'].dt.year
dfFactures['JOUR SEMAINE'] = dfFactures['DATE FACTURE'].dt.weekday
dfFactures['NOM JOUR'] = dfFactures['DATE FACTURE'].dt.day_name()
dfFactures['NOM MOIS'] = dfFactures['DATE FACTURE'].dt.month_name()

dfFactures['SEMAINE ANNEE'] = dfFactures['DATE FACTURE'].dt.isocalendar().week

dfFactures.sample(5)

Unnamed: 0_level_0,DATE FACTURE,CODE CLIENT,SECTEUR,VENDEUR,MONTANT,JOUR FACTURE,MOIS FACTURE,ANNEE FACTURE,JOUR SEMAINE,NOM JOUR,NOM MOIS,SEMAINE ANNEE
CODE FACTURE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
FA-2008-0004,2008-01-17,CLI235,AUTOMATISME,DEVEAUX,606.66,17,1,2008,3,Thursday,January,3
FA-2008-0025,2008-06-30,CLI212,AUTOMATISME,ENGUENT,7853.7,30,6,2008,0,Monday,June,27
FA-2008-0026,2008-07-09,CLI219,AUTOMATISME,ENGUENT,923.97,9,7,2008,2,Wednesday,July,28
FA-2008-0031,2008-07-27,CLI204,ELECTRICITE,BOUVET,428.41,27,7,2008,6,Sunday,July,30
FA-2008-0012,2008-03-31,CLI114,ELECTRICITE,DEVEAUX,752.98,31,3,2008,0,Monday,March,14


Si on essaie de récupérer l'heure dans les données de la colonne "*DATE_FACTURE*", on ne pourra pas, car cette information est absente des données de base. 

In [13]:
dfFactures['DATE FACTURE'].dt.time

CODE FACTURE
FA-2008-0010    00:00:00
FA-2008-0006    00:00:00
FA-2008-0009    00:00:00
FA-2008-0012    00:00:00
FA-2008-0008    00:00:00
FA-2008-0027    00:00:00
FA-2008-0028    00:00:00
FA-2008-0029    00:00:00
FA-2008-0017    00:00:00
FA-2008-0031    00:00:00
FA-2008-0040    00:00:00
FA-2008-0015    00:00:00
FA-2008-0020    00:00:00
FA-2008-0021    00:00:00
FA-2008-0022    00:00:00
FA-2008-0023    00:00:00
FA-2008-0034    00:00:00
FA-2008-0035    00:00:00
FA-2008-0036    00:00:00
FA-2008-0037    00:00:00
FA-2008-0043    00:00:00
FA-2008-0044    00:00:00
FA-2008-0045    00:00:00
FA-2008-0046    00:00:00
FA-2008-0024    00:00:00
FA-2008-0038    00:00:00
FA-2008-0047    00:00:00
FA-2008-0025    00:00:00
FA-2008-0026    00:00:00
FA-2008-0018    00:00:00
FA-2008-0032    00:00:00
FA-2008-0041    00:00:00
FA-2008-0002    00:00:00
FA-2008-0001    00:00:00
FA-2008-0003    00:00:00
FA-2008-0013    00:00:00
FA-2008-0004    00:00:00
FA-2008-0019    00:00:00
FA-2008-0033    00:00:00
FA-2008-0042