# Utilisation du module Pandas
Le module `csv` utilisé précédemment se contente de lire les données structurées. Il ne fait aucun effort particulier pour analyser les données. Nous nous en sommes aperçus lorsqu'il a fallu convertir par `int()` toutes les valeurs numériques, qui étaient interprétées comme des chaînes de caractères.  
La bibliothèque `pandas` est par contre spécialement conçue pour l'analyse des données (*data analysis*) : elle est donc naturellement bien plus performante.

In [None]:
import pandas as pd #import du module pandas, abrégé classiquement par "pd"

In [None]:
df = pd.read_csv('top14.csv', encoding = 'utf-8')

La variable est nommée classiquement `df` pour *dataframe* (que l'on peut traduire par *table de données*)

In [None]:
type(df)

## Premiers renseignements sur les fichiers de données

Que contient la variable `df`?

In [None]:
df

Les données sont présentées dans l'ordre originel du fichier. 
Il est possible d'avoir uniquement les premières lignes du fichier avec la commande `head()` et les dernières du fichier avec la commande `tail()`. Ces commandes peuvent recevoir en paramètre un nombre entier.

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.head(3)

Pour avoir des renseignements globaux sur la structure de notre fichier, on peut utiliser la commande `df.info()`

In [None]:
df.info()

Pour accéder à une fiche particulière de joueur, on peut utiliser la fonction `loc()` :

In [None]:
df.loc[45]

## Extraction de colonnes, création de graphiques 
Pour créer une liste contenant uniquement les données numériques de la colonne poids, il suffit d'écrire :

In [None]:
poids = df['Poids']

Attention, la variable `poids` n'est pas une liste qui contiendrait `[122,116,112,...]` mais un type particulier à `pandas`, appelé "Series".

In [None]:
print(poids)

In [None]:
type(poids)

On peut néanmoins s'en servir comme d'une liste classique.

In [None]:
poids[0]

On voit donc que les données sont automatiquement traitées comme des nombres. Pas besoin de conversion comme avec le module `csv` !

Pour tracer notre nuage de points poids-taille, le code sera donc simplement :

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
X = df['Poids']
Y = df['Taille']

plt.plot(X,Y,'ro') # r pour red, o pour un cercle. voir https://matplotlib.org/api/markers_api.html
plt.show()

L'interprétation numérique permet à `pandas` d'analyser automatiquement les données, avec notamment la fonction `describe()`.

In [None]:
df['Taille'].describe()

On voit donc que les indicateurs statistiques sont proposés automatiquent. 
D'ailleurs, on peut très facilement tracer des boites à moustaches avec `boxplot()`.

In [None]:
df.boxplot("Taille")

Pour les données non-numériques, la commande `describe()` n'est que peu d'utilité. Elle renseigne toutefois la valeur la plus fréquente (en statistiques, le *mode* ou *valeur modale*)

In [None]:
df['Poste'].describe().top

Pour connaître par exemple la date de naissance la plus fréquente chez les joueurs du top14, on utilisera simplement :

In [None]:
df['Date de naissance'].describe().top

Qui sont les joueurs nés à cette date ?

In [None]:
print(df['Nom'][df['Date de naissance'] == '23/04/1993'])

Beaucoup plus de renseignements sont donnés par la commande `value_counts()`.

In [None]:
df['Taille'].value_counts()

## Filtres et recherches
Comment créer une *dataframe* ne contenant que les joueurs de l'UBB ?  

L'idée syntaxique est d'écrire à l'intérieur de `df[]` le test qui permettra le filtrage.

In [None]:
UBB = df[df['Equipe'] == 'Bordeaux']

In [None]:
UBB

### Exercice  1

Créer une dataframe `gros` qui contient les joueurs de plus de 135 kg.

In [None]:
gros = df[df['Poids'] > 135] ; gros

### Exercice  2

Créer une dataframe `grand_gros` qui contient les joueurs de plus de 2m et plus de 120 kg.

In [None]:
grand_gros = df[(df['Poids'] > 120) & (df['Taille'] > 200)]
grand_gros

### Exercice  3

Trouver en une seule ligne le joueur le plus léger du Top14.

In [None]:
df['Nom'][df['Poids'] == min(df['Poids'])]
print(df['Nom'][df['Poids'].idxmin])


## Tris de données
Le tri se fait par la fonction `sort_values()` :

In [None]:
newdf = df.sort_values(by=['Poids'], ascending = True)

In [None]:
newdf.head(10)

## Rajout d'une colonne
Afin de pouvoir trier les joueurs suivant de nouveaux critères, nous allons rajouter un champ pour chaque joueur.
Prenons un exemple stupide : fabriquons un nouveau champ `'Poids après les vacances'` qui contiendra le poids des joueurs augmenté de 8 kg. 
Ceci se fera simplement par :


In [None]:
df['Poids après les vacances'] = df['Poids'] + 8

In [None]:
df.head()

Pour supprimer cette colonne sans intérêt, faisons :

In [None]:
del df['Poids après les vacances'] 

In [None]:
df.head()

### Exercice  4

1. Créer une colonne contenant l'IMC de chaque joueur
2. Créer une nouvelle dataframe contenant tous les joueurs du top14 classés par ordre d'IMC croissant.

In [None]:
df['IMC'] = df['Poids'] / (df['Taille']/100)**2
df.head()

In [None]:
imcdf = df.sort_values(by=['IMC'], ascending = True)
imcdf