In [1]:
import pandas as pd
import numpy as np

`read_csv` est la fonction la plus utilisée pour lire des fichiers CSV. Elle prend en paramètre le chemin vers le fichier CSV à lire. On peut aussi lui passer un URL. Elle retourne un objet de type `DataFrame` qui est une structure de données de Pandas.

C'est une bonne idée de spécifier l'encodage de caractères du fichier CSV. S'il y a des soucis avec les accents, essayez d'utiliser `latin-1` ou `iso-8859-1`.

In [None]:
df = pd.read_csv("sample_data.csv", encoding="utf-8", index_col="id")
# https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

df

`to_csv` fait l'inverse: elle prend en paramètre un objet de type `DataFrame` et écrit le contenu dans un fichier CSV.

In [3]:
df.to_csv("output.csv")
# https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
print(df.memory_usage(index=True, deep=True))

In [None]:
print(f"{df.memory_usage(index=True, deep=True).sum() // 1024} kB")

On peut utiliser l'accesseur `loc` pour passer l'index (donc une valeur de la colonne déterminée comme étant l'index) d'une ligne. Si on passe un deuxième argument, on peut sélectionner la colonne et ainsi direct accéder à une cellule.

On peut aussi utiliser `iloc` pour accéder à une ligne ou une colonne par son numéro. `iloc` -> integer location.

In [None]:
print(df.loc[10460])

In [None]:
print(df.iloc[3])

Si on fait du subscripting directement sur une `DataFrame`, on peut sélectionner une ou plusieurs colonnes, qui sont reetournées sous forme de `Series` ou de `DataFrame`, selon le nombre de colonnes sélectionnées.

In [None]:
print(df["q1"].sum())

In [None]:
print(df.loc[10460, ["q1", "q2"]])

Sur des `DataFrame`s et les `Series`, on peut utiliser les opérateurs `+`, `-`, `*`, `/` pour faire des opérations sur toutes les cellules. On peut aussi utiliser les fonctions `add`, `sub`, `mul`, `div` de Pandas.

Des fonctions d'agrégration sont aussi disponibles: `sum`, `mean`, `median`, `min`, `max`, `std`, `var`, `count`, `quantile`, etc. Sur des `DataFrame`s, on peut spécifier avec l'argument `axis` si on veut faire l'aggrégation sur les lignes ou sur les colonnes: `axis=0` pour les colonnes, `axis=1` pour les lignes.

In [None]:
qs = [f"q{i}" for i in range(1, 33)]
print(qs)
questions = df[qs]
total_by_student = questions.sum(axis=1)
total_by_student

In [None]:
total_by_question = questions.sum(axis=0) / questions.shape[0]
total_by_question

On peut modifier une `DataFrame`, par exemple en ajoutant une nouvelle colonne calculée par du code.

In [None]:
df.insert(0, "total", total_by_student)
df

Avec des opérateurs de comparaison, on obtient des séries de booléens:

In [None]:
df["total"] > 22

On peut utiliser ces séries de booléens pour sélectionner des lignes d'un `DataFrame`, avec le «boolean indexing». C'est très pratique pour filter les données:

In [None]:
df[df["total"] > 22]

Souvent, on enchaîne les opérations sur les `DataFrame`s pour arriver au résultat souhaité. Ceci nous donne par exemple les questions dans l'ordre descendant de leur corrélation avec le total:

In [None]:
df[[*qs, "total"]].corr()["total"].sort_values(ascending=False)

Il y a beaucoup d'autres fonctions… <https://pandas.pydata.org/docs/user_guide/index.html>