Python & Dataframe : Les manipulations de base

Avant de démarrer, il est nécessaire de charger la librairie Pandas . Pandas est une librairie python qui permet de manipuler facilement des données à analyser.

import pandas as pd

Charger un dataframe avec read_csv ou read_table

df = pd.read_csv("my_dataframe.csv")
#ou
df = pd.read_table("mydataframe.xlxs", sep=";")

Créer un csv à partir d’un dataframe avec to.csv

my_dataframe.to_csv("mon_dataframe.csv")

Changer l’index d’un dataframe avec .set_index

my_dataframe.set_index("index_souhaité")

Filtrer son dataframe avec .loc et .iloc

# On affiche ici toutes les lignes ayant la valeur "value" ainsi que les colonnes associées
my_dataframe.loc["value",:)

# On affiche ici la colonne Category ainsi que les lignes associées
my_dataframe.loc[:,"Category"]

# On affiche toutes les lignes pour lesquelles la valeur de Rating est supérieure à 4.5
mydataframe.loc[mydataframe["Rating"]>4.5,:]

# On affiche toutes les lignes pour lesquelles la valeur de Category est égale à BUSINESS
mydataframe.loc[mydataframe["Category"]== "BUSINESS",:]

# On affiche toutes les lignes pour lesquelles la valeur de Category est égale à BUSINESS et pour lesquelles Rating est supérieur à 4
my_dataframe.loc[(my_dataframe["Category"]=="BUSINESS") & (google_app_sans_na["Rating"]>4),:]

# On affiche toutes les lignes et les colonnes Category, Rating, Reviews, Size
my_dataframe.loc[:,["Category","Rating","Reviews","Size"]]

# On affiche toutes les lignes et les 4 premières colonnes
my_dataframe.iloc[:,0:4]

# On affiche toutes les lignes et les colonnes Category, Rating, Reviews, Size
my_dataframe.loc[:,["Category","Rating","Reviews","Size"]]

#Rappel [ligne,colonne] 
# ":" signifie "tout"

Ajouter une colonne

my_dataframe["ma_nouvelle_colonne"]= 1

Supprimer une colonne

my_dataframe.drop(["Category","Android"], axis=1)
#axis = 1 pour que la suppression s'effectue sur les colonnes 
#axis = 0 pour que la suppression s'effectue sur les lignes

Obtenir des informations sur son dataframe

# Combien de lignes et colonnes 
my_dataframe.shape

# Pour connaître les noms des colonnes 
my_dataframe.columns

# Pour afficher un extrait du dataframe
my_dataframe.head()

# Pour afficher la moyenne, min max
my_dataframe.describe()

# Pour savoir combien de NAN (Not available now) sont présents dans le data frame
my_dataframe.isna().sum()

# Pour connaître le type de données dans son dataframe
my_dataframe.dtypes

Supprimer les NAN avec .dropna

my_dataframe.dropna()

Trier des colonnes avec .sort_values

my_dataframe.sort_values(by="Rating", ascending=TRUE)
#J'effectue un tri croissant par Rating 

Transformer des valeurs en integer avec .apply

my_dataframe["Reviews"] = mydataframe["Reviews"].apply(lambda x: int(x))

Laisser un commentaire