Il existe de nombreuses opinions – souvent très différentes – sur les rôles et les compétences qui animent ce domaine florissant, ce qui crée une grande confusion. Alors, qu’est-ce qui distingue un scientifique des données d’un data analyst ?
Beaucoup semblent penser que le terme « data scientist » est exagéré pour désigner un analyste de données. En cherchant « que fait un scientifique des données », je suis tombé sur quelques commentaires amusants sur Twitter en écrivant cet article.
Le fait que différentes entreprises ont des façons différentes de définir les rôles est une raison importante de cette confusion. Dans la pratique, les titres ne reflètent pas toujours avec précision les activités et les responsabilités réelles d’une personne. Par exemple, certaines startups utilisent le titre de « data scientist » pour attirer des talents pour leur rôle d’analyste.
En outre, la data science est un domaine naissant, et tout le monde ne connaît pas les rouages de l’industrie. Ainsi, avant d’essayer de comprendre la différence entre un analyste de données et un data scientist, jetons d’abord un regard historique sur le secteur de l’analyse et sur chaque rôle dans ce contexte.
Sommaire
De la Business Analytics à la Data Science
En tant que discipline, l’analyse commerciale existe depuis plus de 30 ans, à commencer par le lancement de MS Excel en 1985. Avant cela, l’analyse de données pour les entreprises était un exercice manuel, réalisé à l’aide de calculatrices et par tâtonnements. C’est le lancement de logiciels informatiques comme MS Excel et de nombreuses autres applications qui a lancé la vague de l’analyse commerciale.
De même, deux grandes tendances ont contribué au démarrage du phénomène de data science. Tout d’abord, l’utilisation de la technologie dans divers domaines – et l’Internet en particulier – a entraîné un boom sans précédent des données. Le type d’informations dont disposent aujourd’hui de nombreuses entreprises pour prendre des décisions est exponentiellement plus important qu’il y a dix ans. Deuxièmement, les nouvelles technologies ont rendu possible l’analyse et l’interprétation de quantités de données aussi importantes, et les entreprises ont maintenant les moyens de prendre des décisions commerciales plus percutantes.
Une journée dans la vie d’un Data Analyst
Au jour le jour, un analyste de données recueillera des données, les organisera et les utilisera pour parvenir à des conclusions éclairées. Les entreprises de presque tous les secteurs peuvent bénéficier du travail des analystes de données, des prestataires de soins de santé aux magasins de détail. Les analystes de données passent leur temps à développer de nouveaux processus et systèmes de collecte de données et à compiler leurs conclusions pour améliorer les affaires.
Description du poste d’un Data Analyst
- Remise de rapports
- Examiner les modèles
- Collaborer avec les parties prenantes : L’un des rôles et responsabilités de l’analyste de données consiste à collaborer avec plusieurs départements de votre organisation, notamment les responsables du marketing et les vendeurs. Vous travaillerez également avec vos pairs impliqués dans la data science comme les architectes de données et les développeurs de bases de données.
- Consolidation des données et mise en place de l’infrastructure : L’aspect le plus technique du travail d’un analyste est la collecte des données proprement dite. La consolidation des données est la clé du travail des analystes de données. Ils travaillent à l’élaboration de routines qui peuvent être automatisées et facilement modifiées pour être réutilisées dans d’autres domaines.
Une journée dans la vie d’un Data Scientist
Pour les entreprises et les organisations qui peuvent apprendre et bénéficier de ces données, cette croissance explosive semble être un rêve devenu réalité. Un data scientist est un expert en statistiques, en data science, en Big Data, en programmation R, en Python et en SAS, et une carrière de data scientist promet de nombreuses opportunités et des salaires élevés.
Le Harvard Business Review a déclaré que la data science était le métier le plus sexy du 21e siècle, et IBM prévoit que la demande de data scientist va monter en flèche de 28% d’ici 2020.
Description du poste de data scientist
Les spécialistes des données sont avant tout des résolveurs de problèmes. Ils cherchent à déterminer les questions qui nécessitent des réponses, puis proposent différentes approches pour tenter de résoudre le problème. Voici quelques-unes des tâches liées aux données auxquelles un spécialiste des données peut s’atteler au quotidien :
- Extraire, fusionner et analyser les données
- A la recherche de modèles ou de tendances
- Utiliser une grande variété d’outils comme Tableau, Python, Hive, Impala, PySpark, Excel, Hadoop, etc. pour développer et tester de nouveaux algorithmes
- Tenter de simplifier les problèmes de données et développer des modèles prédictifs
- Visualisation des données de construction
- Rédiger les résultats et rassembler les preuves de concepts
L’avènement du Data Scientist
Les entreprises ont vu dans la disponibilité d’un tel volume de données une source d’avantage concurrentiel. Il était clair que les entreprises qui pouvaient utiliser ces données de manière efficace pouvaient faire de meilleures déductions commerciales et agir en conséquence, en les faisant passer avant leurs concurrents qui ne disposaient pas de ces informations.
Pour tirer parti de ces énormes quantités de données, il est apparu nécessaire de recruter des professionnels dotés d’un nouvel ensemble de compétences – un profil comprenant un sens aigu des affaires, une connaissance des clients/utilisateurs, des compétences analytiques, des compétences statistiques, des compétences en programmation, des compétences en apprentissage machine, la visualisation de données, etc. Cela a conduit à l’émergence d’emplois de scientifiques des données – des personnes qui combinent une bonne compréhension des affaires, des compétences en matière de traitement des données, de programmation et de visualisation des données pour obtenir de meilleurs résultats commerciaux.
On attend d’un data scientist qu’il ait un impact direct sur les entreprises grâce aux informations tirées des données disponibles. Et dans la plupart des cas, il doit créer ces informations à partir du chaos, ce qui implique de structurer les données de la bonne manière, de les exploiter, de faire des hypothèses pertinentes, de construire des modèles de corrélation, de prouver la causalité et de rechercher dans les données les signes de tout ce qui peut avoir un impact commercial.
En quelques années seulement depuis sa conception, la data science est devenue l’une des professions les plus célébrées et les plus glamourisées au monde.
Comparaison des compétences des scientifiques et des analystes de données
Alors, qu’est-ce qu’un analyste de données fait qui est différent de ce que fait un scientifique de données ? Un analyste de données s’occupe d’un grand nombre des mêmes activités, mais la composante « leadership » est un peu différente. Examinons quelques exemples :
- Habituellement, un data scientist est censé formuler les questions qui aideront une entreprise et ensuite procéder à leur résolution, tandis qu’un data analyst reçoit des questions de l’équipe de l’entreprise pour poursuivre une solution avec ces conseils.
- Les deux rôles sont censés rédiger des requêtes, travailler avec des équipes d’ingénieurs pour trouver les bonnes données, procéder à l’analyse des données (les mettre dans le bon format, pratique pour l’analyse/interprétation), et tirer des informations des données. Cependant, dans la plupart des cas, un analyste de données n’est pas censé construire des modèles statistiques ou être impliqué dans l’apprentissage machine et la programmation avancée. Au lieu de cela, il travaille généralement sur des bases de données SQL structurées plus simples ou similaires ou avec d’autres outils ou progiciels de BI.
- Le rôle de data scientist exige également de solides compétences en matière de visualisation de données et la capacité de convertir les données en une histoire commerciale. Le travail d’analyste de données n’exige généralement pas des professionnels qu’ils transforment les données et l’analyse en un scénario et une feuille de route commerciaux.
Un peu plus léger
Je suis tombé sur cet étonnant diagramme de Venn récemment, en lisant le post de Stephen Kolassa sur un forum de data science. Il est à la fois factuel et drôle et met beaucoup de responsabilités en matière de data science dans un contexte humoristique (et pourtant assez précis). J’espère que vous l’apprécierez tous autant que moi.
Au-dessus : Diagramme de Venn Data Scientist tiré du commentaire de Stephen Kolassa dans Data Science Stack Exchange.