Big Data vs Smart Data

  • Learning Analytics
760 500 Sébastien FRAYSSE

Collecter toujours plus de données et en apprendre toujours plus sur les usagers, tel est le principe du Big Data. Appliquées à la formation, les promesses sont énormes. En analysant les données à grande échelle, on dégage des tendances et on peut ainsi mieux servir l’individu, anticiper ses besoins, lui proposer des formations adaptées et efficaces. Mais pour certains, le miracle du Big Data se transforme en mirage : difficultés techniques, résultats décevants, problèmes éthiques. Au point qu’une approche alternative voit le jour : le Smart Data.

Big Data = Big Cost ?

Le Big Data repose sur la collecte massive de données, souvent issues de sources hétérogènes, que l’on centralise, nettoie, agrège et transforme pour obtenir des informations qui ont de la valeur.

Le Big Data suppose donc que l’on sache stocker et traiter des volumes de données importants. C’est peut-être une évidence pour les grandes DSI, mais ça suppose des infrastructures informatiques adaptées, complexes et coûteuses, ce qui n’est pas à la portée de tous.

Par ailleurs, le traitement des données n’est pas entièrement automatisé. On a besoin de Data Scientists pour explorer, mettre en perspective, donner du sens et de la valeur aux données. Ces compétences ont là aussi un coût.

Cet aspect est très souvent aggravé par une logique de collecte de données tous azimuts, qui pourrait se résumer ainsi : « Collectons tout ce qui passe, on verra ce que l’on peut en tirer plus tard ». Traduit en termes financiers, ça signifie bien souvent : « Investissons sans compter, on verra bien ce que cela pourra nous rapporter ».

L’équation financière

Les coûts induits par le Big Data ne sont pas un problème à condition qu’ils soient contrebalancés par des revenus.

Dans le monde du Web Marketing, l’équation financière est relativement simple. Les utilisateurs d’une plateforme génèrent des données, qui induisent un coût, mais aussi une valeur marchande puisque ces données sont soit revendues, soit exploitées à des fins publicitaires.

Dans le monde de la formation, ça se complique. Cela fait 15 ans que l’on cherche à définir ce qu’est un ROI, et personne n’a encore trouvé la formule. La valeur générée se mesure-t-elle en temps gagné pour l’apprenant, en gains de compétences, en gains de productivité, en sécurité accrue, en mobilité salariale ? Dur dans ces conditions de justifier le « Big Cost ».

Les questions éthiques

A l’heure où la nouvelle loi européenne sur la protection des données personnelles (RGPD) entre en vigueur, et où Mark Zuckerberg se justifie devant le congrès américain, la question de l’éthique est centrale.

Rappelons un des principes fondateurs de la RGPD : vous devez minimiser la collecte des données au strict nécessaire, c’est-à-dire aux données qui sont indispensables à la finalité de vos systèmes (ici, la formation).

Si on applique la RGPD au sens strict, collecter l’âge d’un apprenant serait donc interdit puisque cela n’est pas strictement nécessaire pour assurer sa formation. Vos algorithmes de Big Data ne pourront donc pas dégager les préférences pédagogiques liées à l’âge, et ne feront donc pas de recommandation tenant compte de l’âge de l’apprenant.

Et si je reprends la formule « Collectons tout ce qui passe, on verra ce que l’on peut en tirer plus tard », elle est tout simplement illégale au regard de la RGPD !

Le « Big » est-il indispensable ?

Ne nous trompons pas, le « Big » n’est pas un atout mais un mal nécessaire. Pourtant, dans bien des domaines, cette notion d’échelle est indispensable.

Par exemple, comprendre et améliorer les processus d’apprentissage des Mathématiques est un vrai enjeu, qui nécessite une analyse à grande échelle. C’est le caractère universel de la discipline qui justifie l’échelle. Collecter des données à l’échelle nationale est un atout. Le faire à l’échelle internationale est encore mieux, puisque cela englobe une plus grande diversité d’approches pédagogiques, liées aux cultures et habitudes de chaque pays.

En revanche, si je veux m’assurer que les techniciens de mon entreprise sont correctement formés aux nouvelles procédures métiers, le caractère universel de la discipline n’existe pas. Les données n’ont aucun sens sorties d’un contexte métier très précis. Si l’entreprise compte une 100aine de techniciens, on ne peut pas parler de Big Data. Pourtant, les enjeux sont tout aussi importants, en particulier si la sécurité est en jeu. Une approche centrée sur les données est donc primordiale, même si on ne peut pas la qualifier de Big Data.

Vers une approche « Smart » ?

Puisque le Big Data n’est pas généralisable, le Smart Data pourrait bien répondre à de nombreux enjeux de la formation professionnelle. Mais quelles sont les différences majeures ?

Alors que le Big Data s’appuie sur la volumétrie des données, le Smart Data s’appuie sur leur qualité. On ne veut pas capter toutes les données disponibles, mais uniquement les données utiles. On limite le volume des données à gérer, et ainsi les traitements visant à extraire le bon grain de l’ivraie.

Conséquence directe, une approche Smart Data doit se concevoir en amont des projets. C’est une démarche d’anticipation, qui consiste à définir dès le début les données dont on aura besoin, puis à s’assurer qu’elles seront disponibles et de bonne qualité.

Pour le reste, Big Data et Smart Data reposent sur une démarche commune qui est de toujours s’interroger sur la qualité de ce que l’on fait, sur le comportement des apprenants, sur les facteurs de réussite et d’échec.

Avec le Smart Data, cette interrogation constante doit devenir un réflexe dans l’esprit des concepteurs de la formation digitale. Les outils d’analyse deviennent alors un élément à part entière du dispositif pédagogique. Ils induisent un coût proportionné, à la hauteur des enjeux.

 

Vous avez aimé cet article ?

Pour recevoir les prochaines publications par email, ainsi que des nouvelles du projet Trax LRS, inscrivez-vous :

Sébastien FRAYSSE

xAPI, Trax LRS, Learning Analytics, Moodle, Laravel

Contacter par email
2 commentaires
  • Intéressant parallèle entre RGPD et Smart Data. Je suis fan de ce qui est SMART 😉 et de la notion de dispositif qui permet de récolter des données en entrée et en sortie. De plus, le dispositif se compose de ressources et d’activités formatives, d’interactions avec les contenus et aussi entre participants. Le véritable ROI et son mode de calcul restent toutefois propres à chaque organisation. Nous comptons sur toi pour modéliser quelques bonnes pratiques et usages xAPI pour répondre rapidement aux besoins opérationnels coté Reporting !

Laisser un commentaire

Sébastien FRAYSSE

xAPI, Trax LRS, Learning Analytics, Moodle, Laravel

Contacter par email