Avant de démarrer, il est nécessaire de charger la librairie Pandas . Pandas est une librairie python qui permet de manipuler facilement des données à analyser.
import pandas as pd
Charger un dataframe avec read_csv ou read_table
df = pd.read_csv("my_dataframe.csv") #ou df = pd.read_table("mydataframe.xlxs", sep=";")
Créer un csv à partir d’un dataframe avec to.csv
my_dataframe.to_csv("mon_dataframe.csv")
Changer l’index d’un dataframe avec .set_index
my_dataframe.set_index("index_souhaité")
Filtrer son dataframe avec .loc et .iloc
# On affiche ici toutes les lignes ayant la valeur "value" ainsi que les colonnes associées my_dataframe.loc["value",:) # On affiche ici la colonne Category ainsi que les lignes associées my_dataframe.loc[:,"Category"] # On affiche toutes les lignes pour lesquelles la valeur de Rating est supérieure à 4.5 mydataframe.loc[mydataframe["Rating"]>4.5,:] # On affiche toutes les lignes pour lesquelles la valeur de Category est égale à BUSINESS mydataframe.loc[mydataframe["Category"]== "BUSINESS",:] # On affiche toutes les lignes pour lesquelles la valeur de Category est égale à BUSINESS et pour lesquelles Rating est supérieur à 4 my_dataframe.loc[(my_dataframe["Category"]=="BUSINESS") & (google_app_sans_na["Rating"]>4),:] # On affiche toutes les lignes et les colonnes Category, Rating, Reviews, Size my_dataframe.loc[:,["Category","Rating","Reviews","Size"]] # On affiche toutes les lignes et les 4 premières colonnes my_dataframe.iloc[:,0:4] # On affiche toutes les lignes et les colonnes Category, Rating, Reviews, Size my_dataframe.loc[:,["Category","Rating","Reviews","Size"]] #Rappel [ligne,colonne] # ":" signifie "tout"
Ajouter une colonne
my_dataframe["ma_nouvelle_colonne"]= 1
Supprimer une colonne
my_dataframe.drop(["Category","Android"], axis=1) #axis = 1 pour que la suppression s'effectue sur les colonnes #axis = 0 pour que la suppression s'effectue sur les lignes
Obtenir des informations sur son dataframe
# Combien de lignes et colonnes my_dataframe.shape # Pour connaître les noms des colonnes my_dataframe.columns # Pour afficher un extrait du dataframe my_dataframe.head() # Pour afficher la moyenne, min max my_dataframe.describe() # Pour savoir combien de NAN (Not available now) sont présents dans le data frame my_dataframe.isna().sum() # Pour connaître le type de données dans son dataframe my_dataframe.dtypes
Supprimer les NAN avec .dropna
my_dataframe.dropna()
Trier des colonnes avec .sort_values
my_dataframe.sort_values(by="Rating", ascending=TRUE) #J'effectue un tri croissant par Rating
Transformer des valeurs en integer avec .apply
my_dataframe["Reviews"] = mydataframe["Reviews"].apply(lambda x: int(x))
0 commentaires