Mon Shot de Data Science

Refactorisation automatisée du code avec Sourcery

Sun, 10 Nov 2024 17:00:00 +0000

La refactorisation du code est une étape importante dans le développement d'un pipeline. Cependant, la refactorisation manuel prend plus de temps pour les tests, car on risque d'introduire des erreurs sans le savoir.

Utilise plutôt Sourcery. Il s'agit d'un outil de refactorisation automatisée qui rend ton code élégant, concis et “Pythonique” en un rien de temps.

Avec Sourcery, tu peux refactoriser du code directement à partir de la ligne de commande, ou même en tant que plugin IDE dans VS Code et PyCharm, pre-commit, etc.

Plus d'informations ici : Sourcery

Autre exemple d’une refactorisation automatisée d’un petit morceau de code Python

Note : refactorisation du code = réécriture du code source d'un programme qui réduit sa redondance et facilite ainsi sa relecture, son débogage et son extension.

Style Matplotlib : rendre ses tracés plus attractifs

Sat, 09 Nov 2024 09:00:00 +0000

Matplotlib propose près de 30 styles différents pour personnaliser l'apparence du tracé.

Pour modifier le style du tracé, sélectionne un style à partir de plt.style.available et crée le tracé comme tu l'aurais fait à l'origine.

Pour plus d'informations sur le style, clique ici : Documentation styles disponibles.

Qu'est-ce que GIL en Python ?

Wed, 06 Nov 2024 15:00:00 +0000

Python 3.13 est sorti récemment.

Parmi les nombreuses mises à jour intéressantes, celle qui permet de désactiver le GIL retient le plus l'attention. GIL pour Global Intepreter Locker (verrouillage de l'interpréteur global)

Cependant, avant même d'expliquer ce que cette mise à jour signifie, il est essentiel de comprendre ce qu'est le GIL en premier lieu et pourquoi Python l'a utilisé jusqu'à présent.

Plongeons donc dans le vif du sujet !

Sommaire

Quelques principes de base
GIL expliqué visuellement
1) Pourquoi Python utilise-t-il le GIL alors qu'il …
2) Si le multi-processing fonctionne, pourquoi ne …

Quelques principes de base

Un processus est isolé des autres processus et fonctionne dans son propre espace mémoire. Cet isolement signifie que si un processus tombe en panne, cela n'affecte généralement pas les autres processus.

On parle de multi-threading lorsqu'un processus unique comporte plusieurs threads. Ces threads partagent les mêmes ressources, comme la mémoire.

GIL expliqué visuellement

En termes simples, le GIL (Global Interpreter Lock) empêche un processus d'exécuter plus d'UN thread à la fois, comme le montre la figure ci-dessous :

En d'autres termes, bien qu'un processus puisse avoir plusieurs threads, UN SEUL peut être exécuté à un moment donné.

De toute évidence, le processus ne peut pas utiliser plusieurs cœurs de processeur (CPU) pour optimiser les performances, ce qui signifie que le multi-threading conduit à des performances similaires (voire même médiocres) à celles du single-threading.

Laisse-moi te montrer cela rapidement avec une démonstration de code !

Tout d'abord, nous commençons par quelques importations et définissons une longue fonction :

Le code pour le single-threading, dans lequel nous invoquons la même fonction deux fois, est illustré ci-dessous :

Avec le multi-threading, cependant, nous pouvons créer deux threads, un pour chaque fonction. La démonstration en est faite ci-dessous :

Comme nous l'avons vu plus haut, les résultats sont à peine meilleurs que ceux obtenus avec le single-threading.

La raison ?

GIL.

D'ailleurs, comme on pouvait s'y attendre, le multi-processing permet d'améliorer le temps d'exécution :

Les trois scénarios ci-dessus (single-threading, multi-threading et multi-processing) peuvent être expliqués visuellement comme suit :

Single-threading : Un seul thread exécute la même fonction deux fois dans l'ordre.

Multi-threading : Chaque thread est chargé d'exécuter la fonction une fois. Toutefois, en raison de la GIL, un seul thread peut être exécuté à la fois :

Multi-processing : Chaque fonction est exécutée dans le cadre d'un processus différent :

Si cela est clair, il se peut que tu te poses maintenant deux questions :

1) Pourquoi Python utilise-t-il le GIL alors qu'il est clairement sous-optimale ?

Sécurité des threads.

Lorsque plusieurs threads s'exécutent dans un processus et partagent les mêmes ressources (telles que la mémoire), des problèmes peuvent survenir lorsqu'ils tentent d'accéder aux mêmes données et de les modifier.

Par exemple, considérons que nous avons une liste Python et que nous voulons exécuter deux opérations avec deux threads :

Si t1 s'exécute avant t2, nous obtenons le résultat suivant :

Si t2 s'exécute avant t1, nous obtenons le résultat suivant :

Des résultats différents !

Plus formellement, cela peut conduire à des conditions de course, où le résultat dépend de la synchronisation de l'exécution des threads.

Si ces conditions ne sont pas soigneusement contrôlées, elles peuvent conduire à un comportement imprévisible.

Pour cette raison, ainsi que pour d'autres, il est pratique d'imposer qu'un seul thread puisse s'exécuter à un moment donné.

Par ailleurs, le GIL affecte généralement les tâches liées au processeur et non les tâches liées aux I/O, pour lesquelles le multi-threading peut toujours être utile.

2) Si le multi-processing fonctionne, pourquoi ne pas l'utiliser comme solution de contournement ?

C'est plus facile à dire qu'à faire.

Contrairement aux threads, qui partagent le même espace mémoire, les processus sont isolés.

Par conséquent, ils ne peuvent pas partager directement des données comme le font les threads.

Bien qu'il existe des mécanismes de communication interprocessus (IPC pour Inter-Proces Communication) tels que les pipes, les files d'attente (queues) ou la mémoire partagée pour échanger des informations entre les processus, ils ajoutent une tonne de complexité.

Heureusement, Python 3.13 nous permet de désactiver le GIL, ce qui signifie qu'un processus peut utiliser pleinement tous les cœurs du processeur (CPU).

J'ai testé Python 3.13 dernièrement, j'ai donc l'intention de partager ces mises à jour dans un futur Shot de Data Science détaillé.

👉 À toi de jouer : Quelles sont les autres raisons d'appliquer le GIL en Python ?

Accélérer de 5x l'I/O des fichiers Parquet de Pandas

Sun, 03 Nov 2024 17:00:00 +0000

Les DataFrames sont souvent stockées dans des fichiers parquet et lues à l'aide de la méthode read_parquet() de Pandas.

Plutôt que d'utiliser Pandas, qui repose sur un seul cœur, utilise le package fastparquet. Il offre d'immenses accélérations pour l'I/O (Input/Output = Entrée/Sortie) sur les fichiers parquet en utilisant le traitement parallèle.

Plus d'informations ici : Documentation fastparquet.

40 outils open-source pour optimiser ton workflow Pandas

Sat, 02 Nov 2024 09:00:00 +0000

Pandas est téléchargé plus de 3 millions de fois par jour. Mais 99% de ses utilisateurs ne l'utilisent pas à son plein potentiel.

J'ai découvert ces merveilles open source qui vont considérablement améliorer ton workflow Pandas dès que tu commenceras à les utiliser.

Jupyter-Datables : Enrichir l'aperçu par défaut d'un DataFrame dans un notebook Jupyter.
- Lien : jupyter-datatables
SummaryTools : Optimisation de la méthode describe() dans Pandas.
- Lien : jupyter-summarytools
Sidetable : Booster la méthode value_counts() de Pandas.
- Lien : sidetable
Sketch : Générer du code/des informations sur les données en posant des questions en langage naturel.
- Lien : sketch
Deepchecks : Générer un rapport de validation complet de vos données.
- Lien : deepchecks
Pandas Flavor : Étendre Pandas pour attacher des méthodes à l'objet dataframe.
- Lien : pandas-flavor
Pandarallel : Paralléliser Pandas sur plusieurs cœurs de CPU.
- Lien : pandarallel
PandasML : Pandas, sklearn et matplotlib intégrés.
- Lien : pandas-ml
Geopandas : Travailler avec des données géospatiales dans Pandas.
- Lien : geopandas
DuckDB : Exécution de requêtes SQL sur des DataFrames.
- Lien : duckdb
Modin : Augmenter les performances de Pandas jusqu'à 70x en modifiant l'importation.
- Lien : modin
PivotTableJS : créer des tableaux croisés dynamiques en utilisant la fonctionnalité “glisser-déposer”.
- Lien : pivottablejs
Missingno : Visualise les valeurs manquantes dans ton ensemble de données.
- Lien : missingno
Pandas Alive : Créer des graphiques animés pour les DataFrames Pandas.
- Lien : pandas_alive
Skimpy : Booster la méthode describe() de Pandas.
- Lien : skimpy
Pandas-log : Déboguer le pipeline Pandas en utilisant le logging étape par étape.
- Lien : pandas-log
tsflex : Traitement de séries temporelles et extraction de features.
- Lien : tsflex
pandas-profiling : Générer un rapport EDA des données en une ligne de code.
- Lien : pandas-profiling
Mars : Un framework basé sur les tenseurs pour mettre à l'échelle NumPy, Pandas, Scikit-learn et les fonctions Python.
- Lien : mars
nptyping : Appliquer des indications de type pour les DataFrames Pandas.
- Lien : nptyping
popmon : Établis le profil de tes données pour déterminer leur stabilité.
- Lien : popmon
Gspread-pandas : Interagir avec des feuilles Google à travers des DataFrames Pandas.
- Lien : gspread-pandas
pdpipe : Créer des pipelines Pandas facilement et intuitivement.
- Lien : gspread-pandas
PrettyPandas : Embellir le DataFrame lors de l'impression.
- Lien : PrettyPandas
Dora : Une API intuitive pour le nettoyage et le traitement des données, la sélection des features, la visualisation, etc.
- Lien : Dora
Pandapy : La vitesse de NumPy combinée à l'élégance de Pandas.
- Lien : pandapy
PyJanitor : Une API propre pour nettoyer les données.
- Lien : pyjanitor
swifter : Accélérer la méthode apply() de Pandas.
- Lien : swifter
Mito : Analyser des données dans Jupyter en éditant une feuille de calcul.
- Lien : mito-ds
Visual Python : Générateur de code Python basé sur une interface graphique pour la Data Science.
- Lien : visualpython
tqdm : Ajouter des barres de progression aux méthodes Pandas.
- Lien : tqdm-pd
Lux : Visualisation automatique des données.
- Lien : lux
D-Tale : Visualiseur pour DataFrame Pandas.
- Lien : dtale
AutoClean : Automatisation du pré-traitement et du nettoyage des données.
- Lien : AutoClean
pytablewriter : Écriture d'un DataFrame dans différents formats : AsciiDoc / CSV / HTML / JSON / LaTeX / Markdown / Excel / TOML / TSV / YAML, etc.
- Lien : pytablewriter
itables : DataFrame Pandas en tant que tableaux de données interactifs.
- Lien : itables
PandasGUI : Une interface graphique pour les DataFrames Pandas.
- Lien : PandasGUI
tabula-py : Extraction d'un tableau d'un PDF dans un DataFrame Pandas.
- Lien : tabula-py
Pingouin : Effectuer des tests statistiques sur les DataFrames Pandas.
- Lien : pingouin
Dexplot : Créer de nombreux types de visualisations de données magnifiques avec une API simple, cohérente et intuitive.
- Lien : dexplot

C'est terminé !

Quelles sont les bibliothèques Python les plus intéressantes que tu souhaiterais ajouter à cette liste ?

👇 Fais-moi part de tes suggestions dans les commentaires ci-dessous 👇

10 façons de déclarer les annotations de type en Python

Wed, 30 Oct 2024 16:00:00 +0000

Lors de l'écriture de code Python, les annotations de type (type hints) fournissent un moyen incroyable de spécifier des informations explicites sur :

les types attendus des arguments des fonctions, et
leur type retourné.

Pourtant, nous savons tous que Python ne les applique JAMAIS.

Mais cela signifie-t-il qu'ils n'ont aucune utilité ?

Bien sûr que non !

Ces derniers temps, les annotations de type deviennent de plus en plus précieuses pour les projets Python.

Bien qu'elles ne soient pas imposées, les développeurs Python les trouvent extrêmement utiles pour améliorer la qualité du code et la maintenabilité.

Aujourd'hui, laisse-moi te guider à travers 10 façons différentes et incontournables de déclarer des annotations de type en seulement 2 minutes.

C'est parti !

Sommaire

#1 - Annotations de type pour les objets Python st …
#2 - Annotations de type multiple pour un objet
#3 - Annotations de type pour les valeurs None
#4 - Annotations de type pour un iterable
#5 - Annotations de type pour les objets constants
#6 - Annotations de type pour les valeurs fixes
#7 - Annotations de type pour les objets ayant n'i …
#8 - Annotations de type dans les fonctions
#9 - Annotations de type d'un objet fonction
#10 - Annotations de type Alias

#1 - Annotations de type pour les objets Python standard

La façon la plus élémentaire (et la plus indispensable) de déclarer des annotations de type pour les objets Python standard est la suivante :

Tout le monde connaît les annotations de type ci-dessus, car elles sont assez courantes.

Cependant, pour les list, tuple et dict, il est recommandé d'utiliser le module typing car il permet de fournir plus d'informations sur l'objet :

#2 - Annotations de type multiple pour un objet

Si un objet peut avoir plusieurs types, utilise le mot-clé Union (ou le symbole Pipe | si tu utilises Python 3.10 ou supérieur) :

#3 - Annotations de type pour les valeurs None

Parfois, un objet peut être None ou avoir tout autre type de données standard.
On peut déclarer ces objets comme suit :

#4 - Annotations de type pour un iterable

Les objets itérables sont des objets sur lesquels tu peux itérer - list, tuple ou dict.
On peut déclarer ces objets comme suit :

#5 - Annotations de type pour les objets constants

Certains objets ne peuvent jamais changer de valeur au cours du programme. Ils doivent rester constants.

Déclare-les en utilisant Final :

#6 - Annotations de type pour les valeurs fixes

Certains objets peuvent ne pas être constants mais ne prendre qu'un ensemble fixe de valeurs. Par exemple, ici grade ne peut prendre des valeurs qu'à partir d'un ensemble fixe de notes.

Tu peux déclarer de telles variables de cette façon :

#7 - Annotations de type pour les objets ayant n'importe quel type de données possible

Certains objets peuvent être de n'importe quel type - list, int, string, etc.
Déclare-les comme ceci :

#8 - Annotations de type dans les fonctions

Nous déclarons des annotations de type dans les fonctions à deux endroits :

Pour spécifier les annotations de type pour ses paramètres
Pour spécifier l'annotation de type de l'objet renvoyé par la fonction

Tu peux utiliser l'une des annotations de type mentionnées ci-dessus pour déclarer des annotations de type dans les fonctions - Any, Union, Iterable, Optional, etc.

#9 - Annotations de type d'un objet fonction

Il arrive qu'une fonction ait une autre fonction comme paramètre. Cela se produit toujours dans les décorateurs Python.

Nous pouvons déclarer le type de données pour de tels paramètres comme suit :

Callable, comme son nom l'indique, est un objet qui peut être invoqué - object().

#10 - Annotations de type Alias

Si les annotations de type deviennent volumineuses, complexes et illisibles, nous pouvons les aliaser en leur attribuant des noms plus courts :

C’est tout pour aujourd’hui !

Ce sont les 10 façons les plus courantes (et indispensables) de déclarer des annotations de type en Python.

Bien sûr, comme nous l'avons vu plus haut, Python n'impose jamais les annotations de type.

Cependant, ils sont immensément précieux et c’est une compétence indispensable si tu veux écrire du code mieux documenté, plus fiable et plus facile à maintenir.

J'ai créé ce notebook Jupyter pour que tu puisses commencer à les utiliser : Notebook Annotations de Type.

👉 À toi de jouer : Quelles sont les annotations de type que j'ai oubliées ?

Arrête d'utiliser la méthode Describe de Pandas (épisode 2)

Sun, 27 Oct 2024 18:00:00 +0000

Dynamisons de nouveau la méthode describe de Pandas.
(On avait déjà discuté précédemment d’une autre façon de se passer de describe : l’outil Summarytools)

Skimpy est un outil léger pour résumer les DataFrames Pandas. En une seule ligne de code, il génère un résumé statistique plus riche que la méthode describe().

De plus, le résumé est regroupé par types de données pour une analyse efficace. Tu peux également utiliser Skimpy à partir de la ligne de commande.

Plus d'informations ici : Documentation Skimpy.

Pour générer le summary skimpy ci-dessus (s’il est trop réduit sur l’image).

La bonne façon de déployer des mises à jour de bibliothèques en Python

Sat, 26 Oct 2024 08:00:00 +0000

Lors du développement d'une bibliothèque, leurs auteurs/développeurs peuvent décider de supprimer certaines fonctions/méthodes/classes. Mais la mise à jour instantanée sans avertissement préalable n'est pas une bonne pratique.

En effet, de nombreux utilisateurs peuvent encore utiliser les anciennes méthodes et avoir besoin de temps pour mettre à jour leur code.

En utilisant le décorateur deprecated, il est possible d'avertir les utilisateurs de la mise à jour. Cela leur permet de mettre à jour leur code avant qu'il ne devienne obsolète.

Plus d'informations ici : GitHub de deprecated.

Prévisualiser un arbre de décision à l'aide d'une ligne Sklearn

Wed, 23 Oct 2024 14:00:00 +0000

Si tu souhaites prévisualiser un arbre de décision, sklearn propose deux méthodes simples pour le faire :

1. plot_tree crée une représentation graphique d'un arbre de décision.

2. export_text crée un rapport textuel présentant les règles d'un arbre de décision.

Ce rapport est généralement utilisé pour comprendre les règles apprises par un arbre de décision et pour mieux comprendre le comportement d'un modèle Decision Tree.

Code complet : Représentation graphique et Rapport texte de l’arbre de décision ci-dessus.

Arrête d'utiliser la méthode Describe de Pandas !

Sun, 20 Oct 2024 17:00:00 +0000

Summarytools est un outil EDA (Exploratory Data Analysis) simple qui fournit un résumé plus riche que la méthode describe(). En une seule ligne de code, il génère un résumé standardisé et complet des données.

Le résumé comprend les statistiques des colonnes, la fréquence, le diagramme de distribution et les statistiques manquantes.

Plus d'informations ici : Summarytools.

Ne cherche plus jamais manuellement dans les Notebooks Jupyter pour trouver ton code

Sat, 19 Oct 2024 08:00:00 +0000

As-tu déjà eu du mal à te rappeler le Notebook Jupyter spécifique dans lequel tu as écrit du code ? Voici une astuce rapide qui te permettra d'économiser beaucoup de temps et de travail manuel.

nbcommands fournit un ensemble de commandes pour interagir avec Jupyter depuis le terminal.

Par exemple, tu peux rechercher du code, prévisualiser quelques cellules, fusionner des notebooks, et plein d'autres choses...

Plus d'informations ici : GitHub de nbcommands.

Une technique efficace mais sous-estimée pour améliorer la performance des modèles

Wed, 16 Oct 2024 14:00:00 +0000

La robustesse des modèles de ML repose sur la diversité des données d’entraînement. Voici une technique simple mais très efficace qui peut t’aider à créer un ensemble de données diversifié et à améliorer les performances du modèle.

L'augmentation des données est l'un des moyens d'accroître la diversité des données.

L'idée est de créer de nouveaux échantillons en transformant les échantillons disponibles. Cela permet d'éviter le surapprentissage (overfitting), d'améliorer les performances et de construire des modèles robustes.

Pour les images, tu peux utiliser imgaug. Il fournit une variété de techniques d'augmentation d’images telles que le pivotement, la rotation, la mise à l'échelle, l'ajout de bruit aux images, et bien d'autres encore. Je te laisse regarder les liens ci-dessous.

Plus d'informations : documentation bibliothèque imgaug.

Consulte ici le code complet de l’exemple d’augmentation d’images de l’illustration ci-dessus.

Rends tes tracés Matplotlib plus professionnels

Sun, 13 Oct 2024 17:00:00 +0000

Les tracés par défaut de matplotlib ont un style assez basique et ne sont donc pas toujours le bon choix. Voici comment tu peux les rendre attrayants.

Pour créer des graphiques attractifs et d'aspect professionnel pour des présentations, des rapports ou des articles scientifiques, essaye Science Plots.

L'ajout de seulement deux lignes de code transforme complètement l'apparence du graphique.

Plus d'informations ici : GitHub de Science Plots. Et pour tracer les deux diagrammes ci-dessus, voici comment faire.

Les f-strings sont beaucoup plus polyvalentes que tu ne le penses

Sat, 12 Oct 2024 08:00:00 +0000

Voici 6 façons moins connues de formater/convertir un nombre à l'aide de f-strings.

Et toi quelle est ton astuce préférée sur les f-strings ?

Créer des graphiques de données à partir du Terminal

Wed, 09 Oct 2024 14:00:00 +0000

La visualisation des données peut s'avérer difficile lorsque tu n’as pas accès à une interface graphique. Mais voici ce qui peut t’aider.

Bashplotlib offre un moyen rapide et facile de réaliser des graphiques de base directement depuis le terminal. Comme il s'agit d'un logiciel purement python, tu peux l'installer rapidement n'importe où à l'aide de pip et visualiser tes données.

Plus d'informations ici : Bashplotlib.

37 bibliothèques Python qui sont de véritables trésors cachés

Sun, 06 Oct 2024 17:00:00 +0000

J'ai passé en revue plus de 1000 bibliothèques Python et j'ai découvert ces trésors cachés dont je ne soupçonnais même pas l'existence.

En voici quelques-unes qui vous feront tomber amoureux de Python et de sa polyvalence (si ce n’était pas encore le cas !).

Mito : Analyse des données dans Jupyter en éditant simplement une feuille de calcul. Offre la reproductibilité en générant du code.
- Lien : https://github.com/mito-ds/monorepo
Sourcery : Outil automatisé de refactorisation de code. Rend ton code plus clair, plus concis et plus “Pythonique”.
- Lien : https://docs.sourcery.ai/Welcome
Bashplotlib : Dessine des graphiques dans le terminal. Excellent outil si tu n’as accès qu'au shell.
- Lien : https://pypi.org/project/bashplotlib
Xonsh : Utilise IPython et un shell UNIX ensemble sans passer de l'un à l'autre.
- Lien : https://pypi.org/project/xonsh
Rebound : Récupérer les résultats de Stack Overflow en cas d'erreur pendant l'exécution du code.
- Lien : https://github.com/shobrook/rebound
Livepython : Regarde ton code Python s'exécuter comme un film. Il met en évidence la ligne en cours d'exécution.
- Lien : https://github.com/agermanidis/livepython
Reloading : Modifier le code Python en cours d'exécution.
- Lien : https://pypi.org/project/reloading
PyQRCode : Convertit n'importe quel texte/URL/Image en code QR en deux lignes de code.
- Lien : https://pypi.org/project/PyQRCode
PyWhatKit : Automatiser l'envoi de messages sur WhatsApp.
- Lien : https://pypi.org/project/pywhatkit
Pytube : Télécharger des vidéos YouTube en trois lignes de code.
- Lien : https://pypi.org/project/pytube
SymPy : Effectuer des calculs symboliques en python pour résoudre/imprimer des équations mathématiques.
- Lien : https://pypi.org/project/sympy
Rembg : Supprime l'arrière-plan des images.
- Lien : https://pypi.org/project/rembg
Grip : Prévisualiser localement le fichier README tel qu'il apparaîtrait sur GitHub. Cela permet d'éviter les erreurs de formatage.
- Lien : https://pypi.org/project/grip
getpass : Cache les mots de passe lors de leur saisie dans les scripts Python.
- Lien : https://docs.python.org/3/library/getpass.html
Git-story : Visualiser l'historique des commitss d'un dépôt Git avec de belles animations.
- Lien : https://github.com/buren/git-story
returns : Fais en sorte que tes fonctions renvoient quelque chose de significatif, typé et sûr !
- Lien : https://pypi.org/project/returns
faster-than-requests : Accélérer le module requests de Python.
- Lien : https://github.com/juancarlospaco/faster-than-requests
Icecream : N'utilise plus jamais print() pour déboguer.
- Lien : https://github.com/gruns/icecream
Colorama : Imprime du texte coloré en Python ou affiche du texte coloré dans le terminal.
- Lien : https://pypi.org/project/colorama
Pyfiglet : Créer de l'art ASCII dans le terminal.
- Lien : https://pypi.org/project/pyfiglet
Camelot : Extraction de tableaux à partir de PDF. Particulièrement utile pour les tableaux complexes.
- Lien : https://pypi.org/project/camelot-py
Ftfy : Se débarrasser des caractères inutiles et d'autres problèmes courants avec l'Unicode.
- Lien : https://pypi.org/project/ftfy
Black : Formatage automatisé du code.
- Lien : https://pypi.org/project/black
Numerizer : Convertit les nombres en langage naturel en nombres entiers et flottants.
- Lien : https://pypi.org/project/numerizer
Humanize : Fournit de nombreux utilitaires d'humanisation tels que la transformation d'un nombre en mots, etc.
- Lien : https://pypi.org/project/humanize
textstat : Obtiens des statistiques sur tes données textuelles, telles que le nombre de mots, le temps de lecture, etc.
- Lien : https://pypi.org/project/textstat
CSV-kit : Explorer, interroger et décrire des fichiers CSV directement depuis le terminal. Pas besoin d'ouvrir Jupyter, d'utiliser Pandas, etc.
- Lien : https://pypi.org/project/csvkit
PySnooper : Profiler ton code pour faciliter le débogage. Il suit les nouvelles variables et leurs mises à jour.
- Lien : https://pypi.org/project/PySnooper
isort : Trie automatiquement les importations et les sépare en sections et par type pour une meilleure lisibilité.
- Lien : https://pypi.org/project/isort
DotMap : Supercharger les dictionnaires python avec la notation par points.
- Lien : https://pypi.org/project/dotmap
Panel : Créer des tableaux de bord et des applications interactives.
- Lien : https://pypi.org/project/panel
numexpr : Accélérer les expressions NumPy jusqu'à 20x.
- Lien : https://github.com/pydata/numexpr
more-itertools : Extension du module itertools avec plus de méthodes pour opérer sur les itérables.
- Lien : https://pypi.org/project/more-itertools
prettytable : Imprime les tableaux dans un format ASCII attrayant.
- Lien : https://pypi.org/project/prettytable
Pendulum : Facilite la manipulation des dates et heures en Python. Très intuitif à utiliser.
- Lien : https://pypi.org/project/pendulum
Styleformer : Convertit un texte en différents styles de langage comme formel/casuel, actif/passif, etc.
- Lien : https://github.com/PrithivirajDamodaran/Styleformer
Manim : Créer des vidéos animées pour expliquer des concepts mathématiques.
- Lien : https://pypi.org/project/manim

C'est terminé !

Quelles bibliothèques Python ajouterais-tu à cette liste ?

Fais tes suggestions en cliquant sur la petite bulle de commentaire tout en haut de ce mail (et tu peux également liker si tu as aimé en cliquant sur le petit cœur juste à côté).

Pandas et NumPy renvoient des valeurs différentes pour l'écart-type. Pourquoi ?

Sat, 05 Oct 2024 08:00:00 +0000

Pandas part du principe que les données sont un échantillon de la population et que le résultat obtenu peut être biaisé en faveur de l'échantillon.

Ainsi, pour générer une estimation non biaisée, il utilise (n-1) comme facteur de division au lieu de n. En statistiques, cela est également connu sous le nom de correction de Bessel.

NumPy, cependant, n'effectue aucune correction de ce type.

Plus d'informations ici : Correction de Bessel.

Mesurer, visualiser et comparer les durées d'exécution en toute simplicité

Wed, 02 Oct 2024 14:00:00 +0000

Voici une manière élégante de mesurer la durée d'exécution de diverses fonctions Python.

Perfplot est un outil conçu pour comparer rapidement la durée d'exécution de plusieurs fonctions/algorithmes.

Il étend le package timeit de Python et te permet de visualiser rapidement la durée d'exécution de manière claire et informative. Teste-le pour en avoir le cœur net !

Plus d'informations : Github de Perfplot.

Code utilisé pour mesurer la durée d’exécution des 4 fonctions Python ci-dessus.

Comment encoder des variables catégorielles avec plusieurs catégories ?

Sun, 29 Sep 2024 16:00:00 +0000

Nous encodons souvent les colonnes catégorielles avec un encodage one-hot. Mais la matrice des features devient peu dense et ingérable avec un grand nombre de catégories.

La bibliothèque category-encoders fournit une suite d'encodeurs spécifiques pour les variables catégorielles. Il est ainsi facile d'expérimenter différentes techniques d'encodage.

Par exemple, j'ai utilisé l’encodeur binaire ci-dessus pour représenter une colonne catégorielle au format binaire.

En savoir plus : Documentation de Category Encoders.

Notebook : Comment encoder des variables catégorielles avec plusieurs catégories ?

La carte calendaire, une alternative plus riche au tracé linéaire

Sat, 28 Sep 2024 08:00:00 +0000

Tu as déjà vu ce genre de calendrier en mode carte de chaleur ? Voici comment en créer un en deux lignes de code Python.

Une carte calendaire offre une manière élégante de visualiser des données journalières. Parfois, elles sont plus efficaces pour représenter la saisonnalité hebdomadaire/mensuelle des données que les tracés linéaires. Par exemple, imagine la création d'un graphique linéaire pour les “Messages du groupe de travail” ci-dessus.

Pour ce faire, tu peux utiliser “plotly_calplot”. En entrée, cela prend un DataFrame. Une ligne de donnée représente la valeur correspondant à une date.

Pour en savoir plus : Calplot de Plotly.

Si tu veux tracer le diagramme plotly ci-dessus.