Dans le cours : Préparer votre carrière dans l'analyse de données
Découvrir et interpréter des données existantes
Dans le cours : Préparer votre carrière dans l'analyse de données
Découvrir et interpréter des données existantes
Vous êtes-vous déjà demandé combien de données on peut trouver sur une personne ? Il y en a plus qu’on le pense. Par exemple, la date de naissance, le nom, l’origine ethnique. Les données professionnelles comme le numéro d’employé, le poste, ou la date de recrutement. On pense à ces éléments quand on travaille sur des données liées aux personnes. Il s’agit parfois d’une seule valeur, comme la date de naissance. C’est une valeur fixe qui ne changera pas. D’autres éléments comme l’intitulé de poste peuvent changer si vous obtenez une promotion. Il y a aussi les données en temps réel. La fréquence cardiaque, le taux de glycémie, la pression artérielle et même la température. Il y a aussi les données géographiques comme la localisation. Pensez aussi aux données sociales, comme les marques que l'on suit, que l'on achète, à quelle fréquence on se fait livrer un repas ou on va au restaurant. Les données sont toujours en mouvement. La difficulté pour le data analyst est la quantité de données potentielles auxquelles nous n’avons pas forcément accès. On observe aussi que ces données sont souvent redondantes, et parfois incomplètes ou inexactes. Nous recherchons tous la source de vérité pour les données avec lesquelles nous travaillons car nous voulons des données exactes pour établir nos rapports. Je vais vous donner des exemples. Les entreprises utilisent différents packs de logiciels pour gérer différents types d’informations, et ils ne sont pas souvent liés. Le logiciel de gestion des ressources humaines sert à traiter toutes les informations de type RH, les données sur les employés. Les données de marketing et de ventes se trouvent dans deux systèmes qui contiennent les informations des employés concernant les ventes, mais aussi des informations sur les clients. Un autre logiciel intervient lorsqu’un client passe du stade de discussion avec notre équipe commerciale aux achats auprès de l’entreprise. Les données sont envoyées des achats à l’entrepôt. Des données sont également transmises au service comptabilité pour gérer les transactions et établir un rapport sur les résultats financiers. Des données circulent à travers toute l’organisation, à différents moments. Ces systèmes sont souvent isolés et il est difficile de savoir quel système dispose des informations les plus précises. La seule façon de le savoir est de mener l’enquête et de poser des questions. Parfois, on se retrouve coincé par un besoin d’autorisation ou la sensibilité des données. Par exemple, vous avez besoin de données pour confirmer vos valeurs mais elles sont stockées dans le logiciel de comptabilité et seule cette équipe peut y accéder. Vous ne pouvez pas y accéder directement, mais ce n’est pas une raison pour baisser les bras : vous pouvez fournir ces valeurs et l’équipe vous aidera à les valider. Que ces systèmes soient connectés ou non, ils doivent enregistrer les mêmes informations. Si votre équipe de vente indique que 100 000 euros doivent être facturés ce mois, le logiciel de comptabilité doit contenir 100 000 euros de factures. Si les informations ne correspondent pas, vous devrez trouver où l’erreur s’est glissée. En tant que data analyst, vous devez prêter attention au type de données que vous trouvez, identifier celles auxquelles vous avez accès et mettre au point des stratégies pour valider vos rapports. Souvenez-vous que les données sont partout mais notre travail est de les réunir avec précision.