# Préparation des données : regroupes des données

Parfois, on souhaite pouvoir regrouper des données en catégories. Par exemple, avoir des classes de prix au lieu de juste la valeur du prix payé pour une course en taxi. 


In [120]:
import pandas as pnd

dfTaxi = pnd.read_csv('http://kirschpm.fr/cours/PythonDataScience/files/mini_taxi.csv', 
                      index_col=[0])

dfTaxi.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5999 entries, 2009-06-15 17:26:21.0000001 to 2014-12-12 11:33:00.00000015
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   fare_amount        5999 non-null   float64
 1   pickup_datetime    5999 non-null   object 
 2   pickup_longitude   5999 non-null   float64
 3   pickup_latitude    5999 non-null   float64
 4   dropoff_longitude  5999 non-null   float64
 5   dropoff_latitude   5999 non-null   float64
 6   passenger_count    5999 non-null   int64  
dtypes: float64(5), int64(1), object(1)
memory usage: 374.9+ KB


In [121]:
dfTaxi.sample(5)

Unnamed: 0_level_0,fare_amount,pickup_datetime,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude,passenger_count
key,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2012-04-13 22:17:52.0000001,4.9,2012-04-13 22:17:52 UTC,-73.985085,40.736376,-73.995964,40.732746,1
2009-09-27 18:09:00.00000030,4.5,2009-09-27 18:09:00 UTC,-73.987328,40.737057,-73.984147,40.729265,1
2011-03-12 19:22:50.0000003,4.5,2011-03-12 19:22:50 UTC,-73.955661,40.781977,-73.954033,40.775442,2
2009-09-02 20:27:55.0000003,6.9,2009-09-02 20:27:55 UTC,-73.989887,40.752176,-73.98201,40.739184,1
2015-04-29 10:13:13.0000002,5.0,2015-04-29 10:13:13 UTC,-73.985184,40.768761,-73.973022,40.764198,1


On va se servir de la colonne **fare_amount** pour notre exemple. Cette colonne correspond au montant payé pour une course. On va essayer de regrouper les valeurs en classes, afin de pouvoir utiliser des algorithmes de classification, par exemple. 

On va d'abord utiliser ***describe*** pour avoir une idée des valeurs contenues dans cette colonne. 

In [122]:
dfTaxi['fare_amount'].describe()

count    5999.000000
mean       11.385616
std         9.805378
min        -2.900000
25%         6.000000
50%         8.500000
75%        12.900000
max       180.000000
Name: fare_amount, dtype: float64

On voit que parmi nos données, on a des valeurs négatifs (min inférieur à 0), qu'on peut aisément supprimer, car celles-ci représentent probablement des erreurs dans nos données. 

Pour supprimer ces valeurs, on remplace la variable *dfTaxi* originelle par une selection des données valides (avec *fare_amount >= 0*) qu'on réalise avec *loc*. 

In [123]:
# courses à supprimer car valeur de prix (fare_amount) erronée
dfTaxi.loc[ dfTaxi['fare_amount'] < 0 ]

Unnamed: 0_level_0,fare_amount,pickup_datetime,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude,passenger_count
key,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2010-03-09 23:37:10.0000005,-2.9,2010-03-09 23:37:10 UTC,-73.78945,40.643498,-73.788665,40.641952,1
2015-03-22 05:14:27.0000001,-2.5,2015-03-22 05:14:27 UTC,-74.000031,40.720631,-73.999809,40.720539,1


In [124]:
dfTaxi = dfTaxi.loc[ dfTaxi['fare_amount'] >= 0 ]

dfTaxi['fare_amount'].describe()

count    5997.000000
mean       11.390313
std         9.803637
min         0.010000
25%         6.000000
50%         8.500000
75%        12.900000
max       180.000000
Name: fare_amount, dtype: float64

In [125]:
dfTaxi.sample(5)

Unnamed: 0_level_0,fare_amount,pickup_datetime,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude,passenger_count
key,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2012-06-10 23:21:54.0000004,5.3,2012-06-10 23:21:54 UTC,-73.982098,40.777077,-73.980209,40.765227,1
2010-01-20 09:20:00.000000197,11.3,2010-01-20 09:20:00 UTC,-73.985237,40.744687,-73.956317,40.783377,1
2010-06-15 20:23:51.0000002,4.5,2010-06-15 20:23:51 UTC,-73.137393,41.366138,-73.969837,40.785663,1
2011-05-31 06:52:35.0000001,3.7,2011-05-31 06:52:35 UTC,-74.006316,40.730219,-74.004506,40.73771,1
2014-05-20 13:15:00.000000187,8.0,2014-05-20 13:15:00 UTC,-73.974292,40.793455,-73.978205,40.778272,1


## Discrétisation des données 

La bibliothèque **Pandas** nous offre la possibilité de faire une "discrétisation" des données avec deux opérations : ***cut*** et ***qcut***. 

La première va organiser les données dans un nombre fixe des catégories (dont on peut donner les limites), alors que la second va s'assurer que chaque catégorie a un nombre constant d'individus.  

On va d'abord organiser nos prix de course (colonne ***fare_amount***) en 4 catégories. L'opération ***cut*** va alors nous générer une série de données avec les catégories qu'il a créé. On peut ajouter (ou non) cette série à notre DataFrame comme une nouvelle colonne. 

In [126]:
dfTaxi['cat_prix']= pnd.cut (dfTaxi['fare_amount'], bins=4)

dfTaxi['cat_prix_label'] = pnd.cut (dfTaxi['fare_amount'], bins=4,
                                    labels=['pas cher','normal', 'cher', 'très cher'])

dfTaxi.sample(5)

Unnamed: 0_level_0,fare_amount,pickup_datetime,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude,passenger_count,cat_prix,cat_prix_label
key,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2013-08-31 15:49:00.00000034,6.0,2013-08-31 15:49:00 UTC,-73.982245,40.775607,-73.975805,40.765612,1,"(-0.17, 45.008]",pas cher
2015-02-27 07:50:56.0000003,10.5,2015-02-27 07:50:56 UTC,-73.944023,40.775959,-73.955048,40.78508,1,"(-0.17, 45.008]",pas cher
2015-05-19 06:43:30.0000006,11.0,2015-05-19 06:43:30 UTC,-73.99144,40.754601,-74.005699,40.726261,2,"(-0.17, 45.008]",pas cher
2010-02-23 13:06:07.0000002,4.9,2010-02-23 13:06:07 UTC,-73.97069,40.783338,-73.967693,40.792735,4,"(-0.17, 45.008]",pas cher
2009-03-03 21:30:21.0000002,4.6,2009-03-03 21:30:21 UTC,-73.985911,40.759315,-73.990968,40.750094,1,"(-0.17, 45.008]",pas cher


On peut également indiquer nous mêmes les valeurs pour les catégories. Par exemple, pour faire 4 catégories : *min-30 , 30-50, 50-100, 100-max*.  

In [127]:
serieCatPrix = pnd.cut (dfTaxi['fare_amount'], bins=[ dfTaxi['fare_amount'].min(), 30, 
                                                         50, 100, dfTaxi['fare_amount'].max()] )
serieCatPrix.sample(5)


key
2011-08-31 21:14:15.0000003     (0.01, 30.0]
2013-11-02 04:48:35.0000001     (0.01, 30.0]
2013-04-16 20:36:32.0000001     (0.01, 30.0]
2010-10-19 21:05:00.00000027    (0.01, 30.0]
2009-08-22 00:09:09.0000001     (0.01, 30.0]
Name: fare_amount, dtype: category
Categories (4, interval[float64]): [(0.01, 30.0] < (30.0, 50.0] < (50.0, 100.0] < (100.0, 180.0]]

A l'aide de l'opération ***values_counts***, on observe que nos catégories de prix ne sont pas équilibrées, la première catégorie ("*pas cher*" entre "*0 et 45.008*") contient l'imense majorité des valeurs, ce qui peut représenter un problème pour nos algorithmes de *machine learning*.  

In [128]:
print (dfTaxi['cat_prix'].value_counts())

print (serieCatPrix.value_counts())

(-0.17, 45.008]      5876
(45.008, 90.005]      118
(135.002, 180.0]        2
(90.005, 135.002]       1
Name: cat_prix, dtype: int64
(0.01, 30.0]      5696
(30.0, 50.0]       229
(50.0, 100.0]       68
(100.0, 180.0]       3
Name: fare_amount, dtype: int64


Afin de créer des catégories plus équilibrées, on peut utiliser l'opération ***qcut*** qui se chargera de trouver des catégories équilibrées (avec une répartition constante d'individus dans les catégories). 

In [91]:
dfTaxi['qcat_prix'] = pnd.qcut(dfTaxi['fare_amount'], q=4)

print (dfTaxi['qcat_prix'].value_counts())

dfTaxi.sample(5)

(6.0, 8.5]                     1594
(0.009000000000000001, 6.0]    1542
(12.9, 180.0]                  1470
(8.5, 12.9]                    1391
Name: qcat_prix, dtype: int64


Unnamed: 0_level_0,fare_amount,pickup_datetime,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude,passenger_count,cat_prix,cat_prix_label,qcat_prix
key,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2012-08-11 17:31:14.0000004,8.5,2012-08-11 17:31:14 UTC,-73.998693,40.726476,-73.989667,40.747225,1,"(-0.17, 45.008]",pas cher,"(6.0, 8.5]"
2010-11-27 01:51:28.0000007,6.9,2010-11-27 01:51:28 UTC,-73.995464,40.739053,-73.989895,40.761523,1,"(-0.17, 45.008]",pas cher,"(6.0, 8.5]"
2014-06-10 14:18:29.0000001,9.5,2014-06-10 14:18:29 UTC,-73.981932,40.777668,-73.960058,40.809688,1,"(-0.17, 45.008]",pas cher,"(8.5, 12.9]"
2013-07-14 08:43:36.0000002,20.5,2013-07-14 08:43:36 UTC,-73.935805,40.696821,-74.010541,40.701825,1,"(-0.17, 45.008]",pas cher,"(12.9, 180.0]"
2009-03-25 06:20:33.0000001,5.3,2009-03-25 06:20:33 UTC,-73.99059,40.756181,-73.975844,40.761905,1,"(-0.17, 45.008]",pas cher,"(0.009000000000000001, 6.0]"
