Science des données : histoire ancienne et moderne
Avant de commencer, définissons vaguement la science des données pour plus de commodité.
Qu'est-ce que la science des données ?
La science des données est
● un concept interdisciplinaire,
● qui utilise des méthodes scientifiques quelconques,
● l'associe à l'informatique,
● produire des insights,
● à partir de données.
Mais pourquoi 'Data Science' ? Qui a utilisé ce terme en premier ? Où tout a commencé ? Eh bien, découvrons.
"La tentation de former des théories prématurées sur des données insuffisantes est le fléau de notre profession."
- Sherlock Holmes (de la vallée de la peur, par Sir Arthur Conan Doyle)
Histoire ancienne
Prédire un résultat à partir de données antérieures a toujours été crucial dans les guerres, les expéditions commerciales ou les diagnostics médicaux ; fait d'abord par instinct, puis par expérience et toujours par le domaine de la statistique. Mais ce n'est qu'en 1962 que John Tukey a décrit ce qu'il a appelé "l'analyse des données". Et en 12 courtes années, en 1974, Peter Naur a proposé le terme "Data Science" comme alternative à l'informatique, utilisé plus tard par CF Jeff Wu dans une conférence comme alternative aux statistiques.
Et c'est ainsi qu'a commencé l'émergence de l'une des disciplines les plus influentes de l'informatique !
● En 1992, l'Université de Montpellier II a reconnu la science des données comme une nouvelle discipline lors d'un symposium sur la statistique, qui a combiné les concepts et principes de la statistique et de l'analyse des données avec l'informatique.
● Et en 1996, la Fédération internationale des sociétés de classification a présenté la science des données comme un sujet indépendant.
"Chaque entreprise a le Big Data dans son avenir, et chaque entreprise finira par être dans le secteur des données."
—Thomas Hayes Davenport
Maintenant, la plupart d'entre nous penseraient que c'est tout pour l'histoire, la science des données a été définie, et tout le monde était d'accord et comprenait ce que c'était, n'est-ce pas ? Mais avec quelque chose d'aussi complexe et interdisciplinaire que la science des données, la discussion se termine rarement !
En 1997, CF Jeff Wu a de nouveau suggéré de renommer Statistics en Data Science, estimant qu'un nouveau titre effacerait les stéréotypes. Mais en 1998, Hayashi Chikio a plaidé pour la science des données en tant que nouveau concept interdisciplinaire avec trois aspects : la conception, la collecte et l'analyse des données. Il existe de nombreux autres aspects modernes de l'histoire fascinante de la science des données, et nous les aborderons dans les articles suivants.
Histoire moderne
L'histoire moderne de notre discipline de prédilection est tout aussi vivante que l'histoire ancienne, parfois même plus que cette dernière !
Notre histoire commence avec l'un des grands noms de la science des données, William Swain Cleveland II, professeur de statistiques et d'informatique à l'Université Purdue.
Le professeur Cleveland est reconnu pour avoir défini et nommé Data Science dans une publication de 2001. Il prône l'avancée de la statistique au-delà des domaines de la théorie et dans les aspects techniques du monde réel !
Ainsi, le nom " Data Science" est devenu largement utilisé, et de nombreuses choses remarquables se sont produites dans les années à venir, telles que
- 2002 — Data Science Journal lancé par le Comité pour la science et la technologie des données
- 2003 — Création du Journal of Data Science par l'Université de Columbia
- 2014 - La section d'apprentissage statistique et d'exploration de données de l'American Statistical Association est renommée Section sur l'apprentissage statistique et la science des données
Bien qu'en 2008, le titre de "Data Scientist" en tant que professionnel ait été attribué à DJ Patil et Jeff Hammerbacher. En 2005, "Data Scientist" était un titre utilisé par le National Science Board dans le rapport "Long-Lived Digital Data Collections: Enabling Research and Education in the 21st Century". Dans le rapport, "Data Scientist" était un terme plus large pour toute personne jouant un rôle dans la collecte de données numériques.
Le métier le plus sexy du 21ème siècle !
C'était en 2012, et un slogan a été donné à notre discipline préférée et est devenu une sensation. Les technologues DJ Patil et Thomas H. Davenport ont déclaré « Scientifique des données : le travail le plus sexy du 21e siècle ».
Même des journaux comme le New York Times et le Boston Globe ont utilisé le terme. Et une décennie plus tard, ils ont réaffirmé que le métier est toujours aussi populaire auprès des employeurs !
Le rôle du Data Scientist est d'utiliser les données pour trouver des solutions et aider à prendre les meilleures décisions.
Eh bien, ce fut un voyage passionnant, la définition de la science des données est toujours un sujet de débat parmi les universitaires, et pour l'instant, ce n'est qu'un mot à la mode et un peu plus.
J'espère pouvoir vous faire comprendre que la portée et le domaine de la science des données sont vastes et que des différends se produisent encore pour le définir.
La science des données chevauche plusieurs domaines de la statistique, de l'intelligence artificielle et de nombreuses autres sciences appliquées, et les lignes peuvent parfois devenir floues, ce qui rend l'exploration encore plus excitante !

Écrit par,
Ajinkya Deokate du SIAM VIT Bhopal