Avant de démarrer, il est nécessaire de charger la librairie Pandas . Pandas est une librairie python qui permet de manipuler facilement des données à analyser.
import pandas as pd
Charger un dataframe avec read_csv ou read_table
df = pd.read_csv("my_dataframe.csv")
#ou
df = pd.read_table("mydataframe.xlxs", sep=";")
Créer un csv à partir d’un dataframe avec to.csv
my_dataframe.to_csv("mon_dataframe.csv")
Changer l’index d’un dataframe avec .set_index
my_dataframe.set_index("index_souhaité")
Filtrer son dataframe avec .loc et .iloc
# On affiche ici toutes les lignes ayant la valeur "value" ainsi que les colonnes associées
my_dataframe.loc["value",:)
# On affiche ici la colonne Category ainsi que les lignes associées
my_dataframe.loc[:,"Category"]
# On affiche toutes les lignes pour lesquelles la valeur de Rating est supérieure à 4.5
mydataframe.loc[mydataframe["Rating"]>4.5,:]
# On affiche toutes les lignes pour lesquelles la valeur de Category est égale à BUSINESS
mydataframe.loc[mydataframe["Category"]== "BUSINESS",:]
# On affiche toutes les lignes pour lesquelles la valeur de Category est égale à BUSINESS et pour lesquelles Rating est supérieur à 4
my_dataframe.loc[(my_dataframe["Category"]=="BUSINESS") & (google_app_sans_na["Rating"]>4),:]
# On affiche toutes les lignes et les colonnes Category, Rating, Reviews, Size
my_dataframe.loc[:,["Category","Rating","Reviews","Size"]]
# On affiche toutes les lignes et les 4 premières colonnes
my_dataframe.iloc[:,0:4]
# On affiche toutes les lignes et les colonnes Category, Rating, Reviews, Size
my_dataframe.loc[:,["Category","Rating","Reviews","Size"]]
#Rappel [ligne,colonne]
# ":" signifie "tout"
Ajouter une colonne
my_dataframe["ma_nouvelle_colonne"]= 1
Supprimer une colonne
my_dataframe.drop(["Category","Android"], axis=1)
#axis = 1 pour que la suppression s'effectue sur les colonnes
#axis = 0 pour que la suppression s'effectue sur les lignes
Obtenir des informations sur son dataframe
# Combien de lignes et colonnes
my_dataframe.shape
# Pour connaître les noms des colonnes
my_dataframe.columns
# Pour afficher un extrait du dataframe
my_dataframe.head()
# Pour afficher la moyenne, min max
my_dataframe.describe()
# Pour savoir combien de NAN (Not available now) sont présents dans le data frame
my_dataframe.isna().sum()
# Pour connaître le type de données dans son dataframe
my_dataframe.dtypes
Supprimer les NAN avec .dropna
my_dataframe.dropna()
Trier des colonnes avec .sort_values
my_dataframe.sort_values(by="Rating", ascending=TRUE)
#J'effectue un tri croissant par Rating
Transformer des valeurs en integer avec .apply
my_dataframe["Reviews"] = mydataframe["Reviews"].apply(lambda x: int(x))