Y a-t-il des compétences “Data” spécifiques ?

Par amandineb - 02 septembre 2013

amandineb:

Nous déployons quotidiennement des pratiques personnelles de gestion et d’exploration des données : comprendre un sondage entendu à la radio, lire les résultats d’analyses biomédicales, analyser son relevé de banque en ligne, manipuler une liste de contacts, un fichier de tableur, etc. Ces pratiques reposent sur des savoirs et savoir-faire qui passent souvent inaperçus ou qui ne sont pas suffisamment formalisés. La plus part du temps, ils ne sont pas du tout identifiés, comme le prouvent ces quelques expressions glanées au fil de discussions “Avec Google, j’ai réponse à toutes mes questions”, “Aujourd’hui tout le monde sait se servir d’Excel”, “Une visualisation pertinente, c’est une belle visualisation”, “Je n’ai rien à cacher, pourquoi je le ferais ?”, “Devant une data visualisation, le lecteur n’a pas à lire, il comprend plus vite”… 

Or, nous sommes loin d’être tous égaux dans la manipulation des données : dans la compréhension de statistiques, dans la prise en main d’un fichier tableur un peu costaud, dans le bidouillage d’une base de données, dans la compréhension des enjeux… Les compétences requises mêlent à la fois un savoir geek (informatique), expert (statistique), critique (sciences humaines - travailler les corrélations), parfois juridique…

LES COMPETENCES : ENTRE SAVOIRS ET PRATIQUES

Mais, au juste, qu’est-ce qu’une compétence ? Une compétence désigne un savoir mobilisé en situation dans une logique de capacitation. La compétence ne résulte pas seulement de l’expérience ou de la pratique, mais elle émerge de l’activité, c’est-à-dire d’une action concrète et maîtrisée. Ainsi, c’est la qualité d’une activité et du résultat obtenu que désigne cette notion de compétence ; en cela, on peut souligner qu’une compétence n’est pas stable, au contraire, elle évolue au fil du temps et des situations. La compétence fait le lien entre le savoir et la pratique : elle consiste en la mise en situation opérationnelle de connaissances.

Considérant que nous sommes aujourd’hui immergés dans un monde de données (sans en avoir toujours bien conscience d’ailleurs), y a-t-il des compétences minimales requises pour mieux agir au quotidien, assumer sa place de citoyen, être plus efficient au travail ? 

Peut-on passer d’une posture - passive - de consommateurs de services à une posture - active - de co-production, manipulation et réutilisation de données ? 

image

Ce sont ces sujets que nous avons explorés collectivement au cours de deux ateliers Infolab (pendant le Connecteur Recherche à Futur en Seine, “Peut-on démocratiser une culture de la donnée”, et pendant l’Open Data Week à Marseille, lors de l’atelier “Les compétences de la “Data Culture”).

Il en est ressorti plusieurs niveaux d’analyses que nous vous livrons ici, détaillant des types de pratiques, et des compétences associées.

NIVEAUX DE PRATIQUE ET CHAMPS DE COMPETENCES

Nous avons identifié, en atelier, 4 niveaux de pratique dans l’expérience quotidienne des données  : 

  • La réception : je lis un sondage, je prends connaissance d’un graphe de données statistiques… Je m’appuie sur la consultation des données pour me faire un avis, pour m’informer ;
  • La (ré)utilisation : j’identifie des jeux de données, je sais les récupérer, les manipuler… Je suis en mesure de constituer de nouvelles données par le croisement et l’analyse de l’existant ;
  • La production : je sais utiliser les outils pour produire et récupérer des données, les combiner, les structurer, les anonymiser, pour programmer des requêtes, des services… ; 
  • La diffusion : je documente mes jeux de données, je facilite leurs accès et réutilisation en explicitant les droits de réutilisation (statut juridique, licence), je maîtrise leurs outils de design, de graphisme pour les rendre lisibles et accessibles… 

ainsi que 7 champs de compétences mobilisées  : 

  • Lecture-écriture (-> sens critique et culture visuelle), 
  • Culture numérique (-> maîtrise TIC et machine informatique), 
  • Information-documentation-communication (-> sens critique et techniques documentaires, stratégies), 
  • Droit (-> identification du statut juridique des données, des licences liées à la consultation, aux réutilisations)
  • Statistique (-> calcul et traitement des données), 
  • Informatique (-> programmation)
  • Design, graphisme (-> mise en forme et lisibilité, ergonomie des interfaces techniques)

 

1 - LA RECEPTION, les fondamentaux

 Culture numérique : “J’ouvre mon navigateur et consulte les actualités”. »> Maîtriser les bases d’une machine informatique, d’un navigateur, d’une fenêtre de recherche.

Lecture-écriture : “Je trouve les résutats des dernières éléctions présidentielles sur mon moteur de recherche et comprends la carte de France les relatant”. »> Rédiger des requêtes dans un moteur de recherche associant des mots clés. Trouver l’information pertinente (des tableaux de données, une datavisualisation). Savoir la lire, comprendre les données et mobiliser une culture visuelle.

Information-documentation-communication : “Je me méfie des sondages généralistes et cherche toujours à connaître le panel et les conditions de production du sondage”, “Lorsque je fais mes courses, je décrypte les étiquettes, compare les produits (graisses, sels, additifs, allergènes etc.) et trouve des produits similaires plus sains”. »> Vérifier la validité et la fiabilité de l’information, à partir d’un sens critique, de la conscience des enjeux, l’analyse des sources. Estimer les risques liés aux modes de production des données (intentionalité, généralisation). Appréhender et exploiter le cycle de vie de l’information. 

image

2 - (RE)UTILISATION, Approche de la construction des données

 Culture numérique : “Je sais extraire du logiciel d’inscription en ligne la liste des inscrits à un événement et ouvrir le fichier csv dans un format xls sur mon ordinateur” “Je sais télécharger un jeu de données d’un portail open data et l’ouvrir sur ma machine”. »> Maîtriser les outils de bureautique courants et les bases techniques de l’information et de la communication (composants matériels, logiciels et services courants, traitement et échange de l’information, caractéristiques techniques, fichiers, documents, structuration de l’espace de travail…).

Information-documentation-communication : “Je comprends l’arborescence thématique d’un portail open data”, “Je m’adresse à une bibliothécaire pour indexer et publier des ressources bibliographiques en format numérique”. »> Identifier des ressources humaines et techniques. Comprendre la structuration des contenus, les systèmes d’information.

Statistiques : “Je sais calculer des pourcentages”, “j’applique les règles de probabilités à des données pour prévoir la récurrence d’un événement ”, “Je sais réaliser une compression sur un très grand jeu de données en utilisant un algorithme particulier”, “je sais réaliser une inférence statistique pour induire les caractéristiques inconnues d’un jeu de données à partir d’un échantillon représentatif”. »> Comprendre la nature des données, et savoir les interpréter, explorer les corrélations, les causalités, connaître les règles de probabilités. Extraire des analyses et de l’information nouvelles.  

Informatique : “Pour analyser les retours d’une enquête terrain, je crée une récupération automatique des données contenues dans des fichiers tableur qui les agencent dans un fichier maître”. “J’extrais des données d’OSM, je ne garde que les lieux naturels, enlève les dessins vectoriels pour ne plus avoir que les coordonnées GPS d’un point donné.”  »> Nettoyer un jeu de données. Structurer une base de données. Rédiger des requêtes simples. 

Droit : “Je comprend que la licence Open Data Base License (ODbL) d’un jeu de données m’autorise à partager, modifier, réutiliser librement les données tout en maintenant ces mêmes libertés pour les autres”, “Quand je réalise une datavisualisation à partir de données ouvertes, je sais que je dois citer les sources des données - noms des producteurs, lien hypertexte vers le site ou le catalogue, et la date de mise à jour”, “je suis un délégataire de service public qui produit des données publiques, mais dont la base de données afférente est soumise au droit d’auteurs, je sais organiser l’accès aux données en conséquence”. »> Apprécier le statut juridique d’un document numérique, d’une base de données, des droits de réutilisation des données. Comprendre les différentes licences.

Design, graphisme : “Je cherche à produire un rendu visuel des données chiffrées sur la consommation d’eau par régions à la fois de manière fixe (un diagramme), et de manière interactive (les usagers peuvent faire varier un paramètre)”. »> Maîtrise des outils de graphisme et de visualisation. Former à la représentation. Connaitre la sémiotique visuelle et graphique. 

image

3. PRODUCTION, Manipulation et production des données

Droit : “Je n’autorise pas ce site à accéder, lors de mon inscription, à mes profils publics, ma liste d’amis, mes adresses électroniques et mes anniversaires”, “Je choisis une licence pour les données que je produis et laisse accessible en ligne
»> Conditions de production des données : Gérer et maîtriser des données personnelles et stratégiques. Exploiter des données de manière éthique, citoyenne et sécurisée. 


Information-documentation-communication : “Je structure mon catalogue de données à la manière d’un thesaurus et documente les méta-données
»> Structuration des données : Posséder une rigueur scientifique, assurer la conduite éclairée : documentation (Thesaurus), métadonnées, agencement logique, contextualisation, anonymisation.


Informatique : “J”utilise des techniques de test-itération différentes et complémentaires afin d’atteindre le taux de détection de 95% des anomalies pour assurer un niveau de sécurité “suffisant”, “Une organisation choisit de rendre accessibles ses données uniquement par le biais d’APIs”, “Je crée une interface capable de requêter les données de plusieurs bases de données liées”.
»> Programmation : Analyser des données (extraction et transformation), Connaitre les modes de transformation des fichiers et des formules : requête, modélisation, test-itération. Bâtir des architectures pérennes. 


Statistiques : “Je construis un modèle algorithmique d’apprentissage supervisé, par le biais de boucles de rétroaction, pour cibler les interventions manuelles sur la base”
»> Traitement élaboré de données (repérage des variables, rédaction d’algorithmes), maîtrise de l’intelligence du système applicatif. 


Design, graphisme : “La convivialité de l’interface du portail de données permet à des non-informaticiens de construire visuellement une requête dans la base”, “Nous avons ajouté au portail une couche de datavisualisation interactive
»> Représenter l’information, les résultats de requêtes (design de l’information), Construire des interfaces facilitant l’utilisation de la plateforme de données et optimisant l’expérience utilisateur. 

image

4. DIFFUSION, Diffusion des données, câblage de publics clés, marketing de l’information, maîtrise des réutilisations

Informatique : ”Je modifie le code source de mon site pour pouvoir intégrer le code html de google map”, “Je ne donne accès aux données que nous la forme d’API afin de maîtriser les réutilisations
»> Design d’interface : Conception de portail, plate-forme. Langage HTML, programmation informatique d’API


Information-documentation-communication : “J’anime mon territoire par le biais de concours, de hackathon qui nécessitent beaucoup de communication locale”, “Le service communication de la collectivité se charge de la communication politique autour de l’ouverture du portail par le biais d’articles dans la presse”, “Les réutilisateurs de nos données peuvent nous signaler des améliorations possibles, corriger et enrichir directement les données, grâce à un système de workflow adapté”
»> Publicisation, communication politique, constitution et animation de communauté, conception d’un processus d’amélioration continue. 


Statistiques : “J’analyse les statistiques de consultation et de téléchargement des différents jeux de données”
»> Stratégie : Evaluer l’impact économique de la réutilisation données, Produire des données prédictives et prendre des décisions. 


Droit : “Selon le type de données mises à disposition, nous avons décliné des licences différentes : ouverte, avec authentication,  avec redevance…”
»> Choix des licences. Protection des données, volonté de maîtrise des usages, ou volonté d’ouverture et de liberté

image

La complexité des tâches et la diversité des compétences sous-jacentes montrent combien la manipulation de données n’est pas une mince affaire. D’ailleurs elle est majoritairement la chasse gardée des professionnels. Certes, le “learning by doing”, “learning by failing”, le “Do it your self”, chers à la philosophie des bidouilleurs-geeks restent possibles, pertinents, efficaces, comme le prouvent les succès des coding-goûter de Mozilla, l’appétence vis-à-vis des FabLabs. 

Mais l’apprentissage par le faire constitue l’une voie d’apprentissage, parmi d’autres, et s’appuie de toutes façons sur les briques de compétences détenues par les individus. “S’exprimer en algorithmes” nécessite des savoirs sous-jacents, vis-à-vis desquels il reste à se questionner sur les modes et les lieux d’apprentissage.  

Quels seraient les leviers pour faire montée en compétences un plus grand nombre d’acteurs et de citoyens dans cet univers des données et des algorithmes ? Comment spécifier les compétences en fonction des modes de formation ? 

Entre formation initiale, formation continue et diplômante, espaces de médiation, dispositifs d’éducation populaire, les modes d’apprentissage pourraient se réaliser différemment. 

Par Faustine Bougro, Sarah Labelle, Amandine Brugière

RMQ : Merci aux participants des différents ateliers pour leurs apports et points de vue critiques affûtés ! Continuez à réagir et commenter, cela constitue la base des réflexions à venir, à mener collectivement. Prochain rendez-vous 20 septembre à Bordeaux

Retrouvez l’infographie globale 

Global from La Fing
Reblog via