Tutoriel pandas – ou comment analyser des données massives plus facilement
À la dernière session, dans le cours EDM5240 (Technologies de l’information appliquées au journalisme), j’avais décidé de montrer MySQL aux étudiants comme outil avancé d’analyse de données. Ce fut un échec.
Plusieurs ont eu de la difficulté à installer le Community Server de MySQL sur leur ordinateur. Et l’utilisation de Sequel Pro, pour faire des requêtes SQL (icône ci-dessus), s’avérait par le fait même impossible.
Pour simplifier les choses, cette session-ci, j’ai plutôt décidé de montrer la bibliothèque d’analyse de données pandas. Ç’a mieux fonctionné, même si, pour l’apprentissage de python, tout le monde devait passer par l’environnement de développement nuagique Cloud9.
Ce qui a rendu la chose plus facile, c’était le fait que pandas s’utilise mieux avec des carnets jupyter (icône à gauche), un système qui permet de travailler sur une page web «locale». Chaque carnet est fait d’une suite de «cellules» qui peuvent contenir du code ou des commentaires.
Les étudiants ont apprécié, même s’il fallait auparavant installer pandas et jupyter dans Cloud9, une procédure complexe que j’ai décrit et tenté de faciliter ici.
Que vous soyez journaliste ou chercheur (et je parle des chercheurs dans tous les domaines, des sciences pures aux sciences dures [c’est comme ça que j’aime appeler les sciences humaines et sociales]), pandas pourrait vous être utile pour analyser des jeux de données trop grands pour être avalés par un tableur comme Calc ou Excel.
Ça vous intéresse?
Suivez mon tutoriel, qui comprend deux jeux de données pour vous exercer. J’espère qu’il pourra faire de vous un ninja du data! 😀
Jean-Hugues, je fais de la formation continue ici.
Plus je parcours ce site et plus j’en apprends. Merci pour tes tutos