Open Data : définition et enjeux pour l’IT

L’open data désigne un ensemble de données ouvertes c’est-à-dire librement exploitables, réutilisables et redistribuables par n’importe qui. Rendue obligatoire par la loi Lemaire pour une République numérique, cette ouverture des données publiques a pour premier objectif de rendre les prises de décisions des administrations et services de l'État plus transparentes et compréhensibles. Les citoyens peuvent notamment consulter comment l’argent public est employé ou quelles politiques sont mises en place.

L’open data a très vite dépassé le domaine de l’administration. Désormais, ces données libres sont régulièrement utilisées en entreprise et liées au big data au point que ces 2 notions sont souvent confondues. Pourtant, l’open data répond à des démarches et enjeux bien spécifiques en particulier dans l’IT. Découvrez-les dans cet article.

Quelles sont les open data ?

Les open data sont des informations accessibles en ligne, via le web. Elles peuvent concerner n’importe quels sujets et être extraites de sources hétérogènes. Tout le monde peut proposer des données ouvertes et avec un usage gratuit. Le plus généralement ces open data proviennent des gouvernements ou d’administrations publiques et elles sont regroupées dans 11 secteurs :

la science ;
l’éducation ;
l’environnement (dont les transports) ;
l’économie ;
la culture ;
les bibliothèques ;
la cartographie ;
la finance
le design ;
le développement
les produits (physiques et virtuels)..

Ces open data regroupent uniquement des données non personnelles afin de respecter le RGPD (Règlement Général sur la Protection des Données) et la vie privée. L’ouverture des données ne signifie pas non plus qu’elles ne sont pas sous licence. À l’inverse, elles doivent autoriser explicitement l’usage libre y compris commercial des informations. L’objectif est qu’il n’y est absolument aucune restriction pour pouvoir exploiter toutes les opportunités et la valeur des informations. Cette ouverture se traduit par 3 grands principes.

Quels sont les principes de l’open data ?

La définition complète de l’open data repose sur 3 grands principes.

1 - Accessibilité et disponibilité

Les data doivent être disponibles, idéalement par téléchargement sur internet. Elles doivent être accessibles sous un format exploitable, modifiable et quasi gratuitement. Le seuil coût autorisé correspond à celui de reproduction des données qui doit rester « raisonnable ».

2 - Redistribution

Les informations doivent être délivrées dans des conditions qui permettent la redistribution et la réutilisation. Elles doivent pouvoir être mélangées et interopérables avec d’autres systèmes et ensembles de données ouverts ou non, hétérogènes et issus de sources et capteurs divers.

3 - Participation libre

Tout le monde, particulier et professionnel de l’IT ou non, doit avoir la possibilité d’utiliser, de redistribuer et de réutiliser les open data. Aucune restriction ou discrimination n’est possible, c’est pourquoi les licences restrictives non commerciales ne sont pas autorisées.

Les seules limites et réglementations concernent l’alimentation des data ouvertes. LA CNIL en partenariat avec la CADE a mis à disposition un guide sur la publication en ligne et la réutilisation des données publiques pour les administrations. Pour les entreprises, des guides et ressources sont disponibles sur data.gouv.fr.

Pourquoi faire de l’open data ?

Les open data représentent des ressources précieuses que les particuliers et entreprises peuvent collecter et exploiter afin de réaliser leurs tâches et objectifs. Les usages et applications des données ouvertes vont donc directement dépendre de ces objectifs et des secteurs d’activité des utilisateurs.

L’open data permet aux entreprises de présenter plus précisément leurs offres et services aux clients. Par exemple, la Poste rend accessible librement l’adresse de ses sièges et établissements dans toute la France ainsi que les services proposés (automates, guichets, etc.) et les options d’accessibilités.

Cette ouverture des données facilite aussi l’adoption (avec succès) de stratégie data driven par les organisations. En Angleterre, l’institut Open Data (une fondation créée par Tim Berners-Lee et Nigel Shadbolt pour promouvoir les données ouvertes) estime le chiffre d’affaires annuel total des entreprises britanniques dirigées par l’open data à 92 milliards de Livres Sterling... L'industrie du transport à Londres a réussi à dégager un retour sur investissement de 58 pour 1 en ouvrant l’accès à ses données de transport.

Dans l’IT l’open data constitue également une ressource incontournable pour :

les data sciences ;
les objets connectés (IoT) ;
les algorithmes d’intelligence artificielle (machine learning, deep learning, etc.) ;
les méta-univers et réalité virtuelle augmentée.

Ces cas d’utilisation sont similaires à ceux permis par le big data. Et pour cause, les data ouvertes représentent des collections d’informations volumineuses et hétérogènes (images, textes, fichiers audio, etc.) similaires au big data. Cependant, leurs usages et définitions ne sont pas les mêmes.

Quelle est la différence entre le big data et l’open data ?

Le big data et l’open data se distinguent d’abord par leurs principes. Les mégadonnées sont définies par leur taille. Elles représentent des ensembles d’informations volumineuses, complexes et en constante augmentation.

Les données ouvertes se définissent elles par leurs utilisations et leurs caractéristiques. Les données ouvertes ne sont pas forcément volumineuses. En revanche, elles doivent être accessibles et réutilisables.

L’open data peut faire partie du big data. L’utilisation complémentaire de ces deux types d’information améliore leur compréhension ou optimise la génération de modélisations. Les open data enrichissent le big data. Ces deux sources d’informations deviennent d’ailleurs particulièrement puissantes une fois combinées !

Les données ouvertes ont la capacité d’apporter une perspective plus libre et démocratique au big data. Les étudiants, les data scientist, analyst, les chercheurs et professionnels de l’IT peuvent avoir un accès plus libre à des données réelles et hétérogènes.

L’open data est donc indissociable du big data et plus généralement de l’IT. Ces données ouvertes sont exploitables par les développeurs, data scientists et autres experts du numérique.

Et vous en tant que professionnel de l’IT, avez vous déjà travaillé avec les données ouvertes ? N’hésitez pas à nous partager vos témoignages et expériences en commentaires ou sur le forum Free-Work.

Sources et liens utiles :

Le dossier open data de la CNIL

L’open data institute (ODI)

Les guides Etalab pour accompagner les différents acteurs dans la réalisation de projets relatifs aux données