Tutoriel pandas – ou comment analyser des données massives plus facilement

par JH · mars 19, 2017

À la dernière session, dans le cours EDM5240 (Technologies de l’information appliquées au journalisme), j’avais décidé de montrer MySQL aux étudiants comme outil avancé d’analyse de données. Ce fut un échec.

Plusieurs ont eu de la difficulté à installer le Community Server de MySQL sur leur ordinateur. Et l’utilisation de Sequel Pro, pour faire des requêtes SQL (icône ci-dessus), s’avérait par le fait même impossible.

Pour simplifier les choses, cette session-ci, j’ai plutôt décidé de montrer la bibliothèque d’analyse de données pandas. Ç’a mieux fonctionné, même si, pour l’apprentissage de python, tout le monde devait passer par l’environnement de développement nuagique Cloud9.

Ce qui a rendu la chose plus facile, c’était le fait que pandas s’utilise mieux avec des carnets jupyter (icône à gauche), un système qui permet de travailler sur une page web «locale». Chaque carnet est fait d’une suite de «cellules» qui peuvent contenir du code ou des commentaires.

Les étudiants ont apprécié, même s’il fallait auparavant installer pandas et jupyter dans Cloud9, une procédure complexe que j’ai décrit et tenté de faciliter ici.

Que vous soyez journaliste ou chercheur (et je parle des chercheurs dans tous les domaines, des sciences pures aux sciences dures [c’est comme ça que j’aime appeler les sciences humaines et sociales]), pandas pourrait vous être utile pour analyser des jeux de données trop grands pour être avalés par un tableur comme Calc ou Excel.

Ça vous intéresse?

Suivez mon tutoriel, qui comprend deux jeux de données pour vous exercer. J’espère qu’il pourra faire de vous un ninja du data! 😀

En terminant, voici ma proposition pour un nouveau logo de pandas (leur logo actuel est, comment dire… ordinaire). J’utilise l’une des versions de l’emoji de panda du EmojiOne Project, en y superposant un graphique de l’évolution comparée du nombre d’hommes et de femmes médecins entre 1930 et 2016 au Québec. Vous aimez?

Benoit Lortie Joe dit :

septembre 26, 2018 à 8:21 pm

Jean-Hugues, je fais de la formation continue ici.

Répondre
Jantes et pneus dit :

novembre 18, 2020 à 10:40 am

Plus je parcours ce site et plus j’en apprends. Merci pour tes tutos

Répondre

Tutoriel pandas – ou comment analyser des données massives plus facilement

Vous aimerez aussi...

2 réponses

Laisser un commentaire Annuler la réponse

Sociologie

Présences en ligne

Archives

Categories

Tutoriel pandas – ou comment analyser des données massives plus facilement

Vous aimerez aussi...

Une note de «D» à Québec

Le Devoir – 3e trimestre 2014

Clickbait

2 réponses

Laisser un commentaire Annuler la réponse

Sociologie

Présences en ligne