Data detection

Sébastien Gaspard

1. Quel est le rôle de la découverte de données lors du lancement d’un projet de conformité ?

Lorsque vous initiez un projet de mise en conformité au RGPD, vous ne savez pas, à priori, où sont stockées vos données. Vous savez que vos progiciels (ERP, logiciel RH, logiciel comptable, CRM…) en possèdent une partie et que la plupart se situent dans une base de données, mais vous ne savez pas où précisément ni sous quel format.

Pour rechercher vos données, vous pouvez vous tourner vers votre éditeur de solution qui devrait vous indiquer dans quelle base de données sont stockées les informations. Malheureusement, bien souvent, il ne sera pas en mesure de localiser ces informations dans la base, pour différentes raisons :

Il se peut que l’entreprise n’existe plus, ou que le framework de stockage utilisé ne soit pas parfaitement maîtrisé, ou encore que votre application ait été personnalisée pour vous et que l’information se soit perdue. Si tel est le cas, la découverte de données personnelles ou identifiantes peut vous aider. En fournissant la liste des sources de données identifiées, le logiciel de détection de données personnelles scannera les bases et fichiers à la recherche de données selon des algorithmes définis. Dès lors que vous disposerez de la liste des données, vous pourrez initier la constitution de votre registre de données et débuter votre mise en conformité.

2. Qu’est-ce qu’un registre de données et comment est-il constitué ?

Selon la CNIL, « le registre des activités de traitement permet de recenser vos traitements de données et de disposer d’une vue d’ensemble de ce que vous faites avec les données personnelles ».

Il est prévu par l’article 30 du RGPD, et participe à la documentation de la conformité.

Dans ce registre des données, vous devez indiquer plusieurs informations sur le traitement des données personnelles :

  • Qui ?

    • Identifier le responsable du traitement.
    • Identifier les responsables des opérations.
    • Identifier les sous-traitants.
  • Quoi ?

    • Identifier les catégories des données.
    • Identifier la sensibilité des données.
  • Pourquoi ?

    • Identifier la finalité pour laquelle ces données sont collectées.
  • Où ?

    • Identifier les lieux où les données sont stockées.
    • Identifier le pays ou les données sont susceptibles d’être transférées.
  • Jusqu’à quand ?

    • Identifier combien de temps les données peuvent/doivent être stockées.
  • Comment ?

    • Identifier les moyens d’accès à la donnée et les mesures de sécurité mises en œuvre pour les protéger.

La constitution de ce registre peut être facilitée par un logiciel de détection des données qui permettra de définir une base technique du travail à effectuer. La connaissance des sources de données et du type de données stockées permettra de catégoriser plus facilement les données, et le risque d’oubli d’une partie des données en sera diminué.

RGPD : Data Masking et Anonymisation. Pourquoi gérer vos données personnelles avec le Data Masking et l’Anonymisation ?

3. Quels sont les défis à relever lors de la recherche de données personnelles ?

Le principal défi de la détection des données réside dans l’exhaustivité des sources de données et des règles de détection.

Les sources de données représentent la totalité des emplacements où sont stockées des données. Celles-ci sont composées de :

  • Bases de données (SQL, NoSQL),

  • Stockages des progiciels hors DB (XML, Fichier),

  • Emails (sur le serveur et sur les machines des utilisateurs),

  • Données cachées (Fichiers Excel, export CSV, documents stockés sur le réseau ou les postes utilisateurs).

Cette liste représente un travail de recensement à ne pas négliger. Plus la liste sera détaillée, plus le travail de la détection sera pertinent.

Il est important de noter que les données personnelles protégées par le RGPD ne sont pas uniquement des données sensibles (opinions politiques, race, orientation sexuelle, religion…) qui, sauf exceptions, sont interdites de recueillement. Toute donnée est à caractère personnel dès lors que l’on peut la relier à une personne. Que ce soit directement (parce qu’elle continent un nom, une photo, une empreinte, une adresse postale, une adresse mail, un numéro de téléphone, un numéro de sécurité sociale, un matricule interne, une adresse IP, un identifiant de connexion informatique, un enregistrement vocal, etc.), ou indirectement si on peut la rattacher par recoupement avec certaines informations.

Dans ce contexte, les règles de détection permettent de repérer les informations qui pourraient amener à l’identification de la personne, qu’elles soient identifiantes ou quasi-identifiantes (ré-identifiable par recoupement)

Généralement ces données ont un format particulier pouvant être détecté par des techniques informatiques plus ou moins complexes, comme par exemple :

  • L’adresse,

  • Le code postal,

  • Le nom,

  • La date de naissance,

  • Le visage dans une image,

  • La positions GPS.

Il conviendra ensuite de protéger ces données personnelles dans leur utilisation première et de ne pas les utiliser pour autre chose, excepté si elles sont découplées des données identifiantes (donc anonymisées).

4. Quels sont les principaux critères à prendre en compte lors du choix d’une solution de découverte de données ?

Lorsque l’on souhaite choisir un outil de détection de données personnelles, la première chose à prendre en compte est la finalité de l’action qui nous pousse à réaliser cette détection.

Vous ne traiterez pas de la même manière une recherche de données identifiantes si le but est de supprimer une personne de la totalité de votre système d’information (droit à l’oubli par exemple), ou si le but est d’extraire tout ou partie des bases de données pour réaliser des tests. Dans le premier cas, vous devrez rechercher mais surtout trouver la totalité des données, dans le second vous ne devrez maîtriser que la portion de données ciblée par l’extrait.

Le coût des solutions est également un facteur à prendre en compte. Il est inutile de mettre en œuvre des processus complexes de recherche de lien, d’anonymisation de données de mauvaise qualité (faute de frappe, erreur de saisie, scan avec reconnaissance de caractère…) si vous partez d’une source parfaitement maîtrisée ou si la régénération des documents à partir des données anonymes suffit à vos besoins (pour la réalisation de jeux de test par exemple). Limiter la complexité de la détection permettra un traitement plus rapide, moins coûteux en énergie et en contrôle.

Il serait hasardeux de se lancer dans un processus complexe de modélisation complet de votre système d’information si vous cherchez simplement à générer des jeux de tests pour des applications définies ou pour extraire des données statistiques anonymes sur des éléments choisis.

L’ampleur de la tâche pourrait vite se transformer en un gouffre financier et sortir du cadre de compétences ou de décision du responsable du projet, ce qui, à n’en pas douter, mettrait le projet en situation d’échec. Ainsi, la maîtrise du périmètre basé sur le besoin est un élément clé.

D’ailleurs, le RGPD ne demande pas d’anonymiser la totalité des informations de l’entreprise, mais de traiter uniquement les données qui sortent du cadre d’utilisation de la finalité de leur collecte. Ainsi, il est rare que le besoin d’anonymisation de l’ensemble du système d’information soit réel.