BTP et Big Data ont-ils autre chose que 2 consonnes en commun ? Partie 1 : « Big Data: Kezaco? »

BTP et Big Data ont-ils autre chose que 2 consonnes en commun ? Partie 1 : « Big Data: Kezaco? »

15 avril 2015

L’informatique c’est bien joli, mais on peut souvent se demander si ses modes, ses tendances, ses avancées sont vraiment en phase avec les problématiques réelles, opérationnelles, pragmatiques des professionnels du BTP. Pour cette 2e édition de notre rubrique Parole d’Expert, nous avons décidé de jouer les sceptiques vis-à -vis d’un sujet qui fait régulièrement la Une des médias (généralistes, scientifiques, médicaux, financiers… et BTP…), dont on retrouve la dénomination mystérieuse sur tous les supports (sites web, brochures, conférences, blogs, formations, offre d’emploi, projet…), nouveau lieu commun synthétisant tous les enjeux et tous les fantasmes du monde digital et du monde réel : le Big Data.

Au fait, le « Big Data », c’est quoi ?

Soyons clairs, les professionnels du BTP n’en savent pas grand-chose et ne se sentent pas vraiment concernés. En 2014, une étude menée par l’un de nos confrères américains auprès de 838 professionnels du BTP aux Etats-Unis indiquait pudiquement que les trois quarts des interrogés n’étaient « pas familiarisés avec le sujet ».

Et pour cause, le Big Data fait tout pour exclure et garder son aura de mystère, avec ses deux grandes caractéristiques : l’incommensurabilité et un jargon incompréhensible, qui ont tendance à donner au sujet un aspect grandiloquent, voire snob et pourquoi pas… factice.

Jugez plutôt : on nous y parle sans cesse :

  • De volumes de données en… pétaoctets, exaoctets, voire zettaoctets… voici pour l’incommensurable…
  • De « Hadoop», « MongoDB », « NoSQL », « MapReduce », « dataification », « données non structurées »… voilà pour le jargon…

Le tout saupoudré de sentences messianiques totalement invérifiables, comme la plus communément citée : « Tous les 2 jours, nous générons autant d’information que l’Humanité en a créé depuis l’aube de la civilisation jusqu’en 2003. C’est-à -dire environ 5 exabits ».

Alors tentons d’y mettre un peu d’ordre :

Quand on parle de « Big Data », on fait d’abord référence à notre capacité à collecter, stocker et analyser les énormes volumes de données que le monde moderne génère effectivement.

En termes de volumes justement, si nos disquettes d’antan exprimaient leur capacités de stockage en centaines d’octets, nos CDRom se sont mis à stocker en Mégaoctets (106 octets), nos disques durs actuels parlent surtout en Gigaoctets (109 octets), les grands acteurs du digital (Tweeter, Facebook…) génèrent plusieurs dizaines de Teraoctets (1012 octets)… par jour… quand la production numérique mondiale s’élevait à 2,8 Zettaoctets (1021 octets) en 2012…

Concrètement, cela signifie par exemple qu’il vous faudrait une quinzaine d’années pour visualiser l’ensemble des vidéos postées par les utilisateurs Youtube… en une seule journée.

Oui : c’est beaucoup.

Mais ça n’est pas tout. Pour nous aider à comprendre ce qu’est le « Big Data », on nous parle en effet souvent des 3 « V » :

  • Le Volume des données donc, dont nous venons de parler, c’est le « Big ».
  • La Variété de ces données : celle qui juxtapose dans l’univers numérique des données totalement hétérogènes (texte, vidéo, photo, audio, données personnelles, adresses IP, profils de consommation, géolocalisation, emails, transactions financières…) et non structurées (on ne peut pas toujours les faire rentrer dans les tables relationnelles d’une base de données classique).
  • La Vélocité: c’est-à -dire la fréquence à laquelle les données sont générées, collectées, analysées… et se périment (l’exemple le plus typique ayant trait aux échanges boursiers, gérés par des robots « décidant » dans la nanoseconde…).

Auquel s’ajoute fréquemment un 4e : la Valeur (il faut bien que l’analyse de cette masse de données hétérogènes et volatiles ait quelque application pratique…), voire parfois un 5e : la Véracité (le monde digital générant aussi une myriade de données… totalement erronées…).

Cette nouvelle capacité à collecter, stocker, analyser s’appuie sur de nouvelles technologies, au premier rang desquels notre fameux « Hadoop », ensemble de composants gratuits permettant de mettre en œuvre toute les grandes étapes nécessaires à l’exploitation de volumes massifs de données.

Au final, le Big Data s’illustre en général par des exemples parlants, souvent liés à :

  • la santé publique: c’est par l’analyse des masses d’information non structurées transitant sur les réseaux sociaux qu’on parvient à présent, par exemple, à identifier très rapidement un foyer grippal.
  • la recherche médicale: on analyse aujourd’hui le génome humain en quelques minutes, quand il fallait auparavant plusieurs semaines.
  • Ou la compréhension et le ciblage d’une clientèle ou d’un électorat : une grande chaine de distribution peut analyser les transactions de ses clients pour prédire quel type de produit dans quel magasin va être acquis à telle échéance par quelle typologie de clientèle… et pousser la publicité ou la remise adéquate vers cette cible préférentielle afin de sécuriser la vente…

En résumé, si l’on parle de « Big Data » aujourd’hui, c’est parce que nous disposons a/ d’énormes volumes de données b/ totalement hétérogènes et c/ fortement volatiles… et d/ de la technologie pour les traiter et en tirer un enseignement.

Ah ? Donc, le « Big Data » dans le BTP ça n’est pas…

La « Business Intelligence » (« BI ») ? Eh Non

La BI s’intéresse essentiellement à des données structurées dont elle tente de tirer une description statistique, pour délivrer une mesure ou identifier une tendance.

Quand le Big Data, pour sa part, cherche avant tout à définir des « lois » à partir d’énormes volumes de données non structurées (et a priori non immédiatement corrélées) pour identifier des schémas, relations, dépendances et, in fine, générer des prédictions…

La philosophie d’une simple requête en BI et « en » Big Data illustre bien la différence : dans le monde de la BI, une requête est conçue pour fournir un résultat aussi précis que possible, quel que soit le temps ou les ressources nécessaires à son obtention…. Dans le monde du Big Data, l’exploration de données massives non structurées implique souvent… qu’on ne sait pas ce que l’on recherche… de là à donner un résultat précis…

Le « BIM » (Building Information Modelling)? Non plus!

Ne cherchez pas du côté de la maquette 3D (nous y reviendrons surement dans une prochaine newsletter) pour mettre une étiquette sur le Big Data dans le BTP… le BIM et ses données fortement structurées (plans, composants, références…) ne représenteront à terme qu’une infime fraction des données essentiellement non structurées transitant par les acteurs du secteur.