La Data Science et la révolution des données synthétiques

Une tendance de fond voit donc leur exploitation et le développement de nouveaux services de plus en plus limités ou difficiles à mettre en œuvre. Les données synthétiques sont-elles la solution pour inverser cette tendance et retrouver un bon niveau de confiance aux décideurs et utilisateurs ?

De plus en plus d’entreprises et de métiers génèrent et exploitent au maximum des données pour analyser, optimiser voire fournir de nouveaux services. Véritables catalyseurs et accélérateurs de croissance, les données font également courir de nombreux risques aux usagers ou aux entreprises qui les traitent en cas de détournement.

De ce fait, la gouvernance et la sécurisation des données font maintenant partie des priorités ultimes des DSI. Cela peut limiter, à tort ou à raison, le champ des possibles technologiques, la disponibilité de leur exploitation par les métiers et le time-to-market pour de nouveaux services.

La prise de responsabilités sur le partage et la diffusion étant réelle et forte, et la complexité à évaluer le risque que présente des données, y compris de manière indirecte via des recoupements avec d’autres informations peut pousser les opérationnels et les métiers à décider de restrictions très fortes. La question « Est-ce que ces données peuvent porter un préjudice à l’entreprise, ses clients, ses salariés, les citoyens (si elles sont accessibles à un tiers) ? » est dans toutes les têtes.

Les limites des solutions dites « classiques »

Pour remédier à ces problématiques, le réflexe est de passer par des solutions « Classiques » de pseudonymisation, anonymisation, agrégation, et obfuscation. Même si ces méthodes sont très couramment utilisées, elles présentent des limitations : la pseudonymisation présente le risque de reverse engineering, l’anonymisation pose le problème de l’exploitabilité si elle est trop importante mais à la fois induit des risques de réidentification par croisement avec d’autres sources de données, l’agrégation limite les usages, et l’obfuscation altère la qualité de l’information.

Utilisées depuis très longtemps dans des domaines différents de l’IA (passage de données en production, en pré-production pour test de performance ou de non-régression, utilisation de données réelles pour faciliter les activités de développement ou de recette…), ces solutions permettent de limiter le risque mais leur utilisation nécessite la plupart du temps de trouver le bon curseur entre l’exploitabilité et le risque de réidentification. Néanmoins, si ces solutions ont pu satisfaire dans beaucoup de cas d’usage par le passé, l’apparition de l’IA et du Cloud et l’augmentation du risque croissant de fuite de données ont rebattu les cartes.

Les données synthétiques : une nouvelle opportunité !

De manière générale, les données synthétiques sont des données qui n’ont pas été acquises suivant des processus de mesure ou par des transactions réalisées dans les Systèmes d’information (SI). Elles ont été générées suivant des approches mathématiques, de machine learning, parfois de manière dérivée d’un existant ou totalement simulées par des fonctions mathématiques. Cette technique de génération de données synthétiques peut permettre de remédier à des contraintes sur des données existantes.

Par exemple, le manque de données labélisées à utiliser pour le processus d’entraînement des modèles comme par exemple dans le computer vision, permet de générer des photos d’individus à partir de photos connues et existantes sur lesquelles on incruste sur les visages différents types de masques pour entraîner un modèle à reconnaître des individus masqués et non masqués.

Autre exemple, le manque de cas de référence dans un historique de données dans la détection de fraude, permet d’injecter des cas de fraudes anticipés dans les données pour remédier au fait que ces cas n’ont pas d’occurrence dans les données existantes.

La conduite autonome est également un très bon exemple du besoin de génération de données synthétiques car il est inenvisageable de pouvoir générer dans le réel tous les cas possibles afin d’entraîner au mieux les algorithmes.

Dans toutes ces situations, les gains apportés par ces techniques ont été constatés et démontrés. Il est donc assez naturel de trouver une application directe pour les données sensibles.

Pourquoi ne pas appliquer ces techniques et générer un « jumeau » de données sensibles grâce aux mécanismes de génération de données synthétiques et ainsi garantir l’impossibilité de reconstruction des entités réelles à partir des entités générées pour des clients ou des employés.

Le Gartner prédit que d’ici 2024, les données synthétiques compteront pour 60% des données utilisées pour développer des solutions d’IA. Comme on le voit, nous sommes au début d’une véritable révolution dans le traitement des données d’entraînement au profit des utilisateurs et également des entreprises qui se verront ainsi mieux sécurisées en cas d’attaque ou de fuite de données.

Source link

103 3 minutes de lecture