Glossaire data
Les acteurs du monde régalien ou spécialisés dans la Défense et la Sécurité sont amenés à scruter l’environnement digital afin d’identifier les éléments à risque menaçant potentiellement la sécurité des personnes, des lieux et des organisations.
Pour ce faire, de nombreux capteurs, sources d’informations et types d’informations plus ou moins disponibles, ouverts et structurés sont utilisés afin de réaliser une surveillance la plus sécurisée, fiable et fine possible. Il existe tout un lexique spécifique inhérent à ce secteur avec de nombreux acronymes souvent complexes à appréhender pour les néophytes que ce glossaire ambitionne de décrypter et simplifier pour votre compréhension.
Nous vous proposons de passer en revue les principaux acronymes suivants en disséquant leur signification sachant que tous utilisent la même méthodologie fondée sur des sources d’informations diverses et variées et reposant sur le même process à savoir : la collecte de données en vue de les analyser et les traiter pour éclairer une prise de décision plus ou moins stratégique.
ADINT ou encore Advertising Intelligence – soit Intelligence Publicitaire en français – consiste à tracer les informations personnelles relatives aux clients finaux ou encore aux consommateurs pour collecter toutes les données liées à leurs profils, habitudes et comportements d’achat. Cette méthodologie induit un coût d’acquisition car il fait appel à l’achat de bases de données. Une fois ces informations clients collectées, analysées et traitées, les entreprises sont en mesure de réaliser une segmentation fine de leur audience pour réaliser des campagnes marketing ciblées voire personnalisées de conquête ou fidélisation.
DATA EXPLORATION désigne la phase d’exploration de données qui succède à l’étape de préparation des données. La Data Exploration est le processus par lequel les métiers peuvent explorer de manière interactive une masse importante de données qui leur sont présentées souvent via des outils de datavisualisation tels que les graphiques, diagrammes et autres tableaux de bord pour bénéficier d’une vision plus claire, compréhensible et globale des données et identifier les potentielles corrélations entre elles à des fins analytiques.
DATA PREPARATION est la 1ere étape d’un projet de Business Intelligence. Le module de data préparation qui désigne le processus de collecte, de combinaison, de structuration et d’organisation des informations afin qu’elles puissent être analysées dans le cadre d’applications de visualisation et d’analyse des données. L’objectif de la préparation des données est de garantir la cohérence et la qualité des données en transformant les données brutes en informations utiles pour les utilisateurs qui doivent prendre des décisions. En préparant les données pour l’analyse bien en amont, les entreprises et les organisations peuvent ainsi maximiser la valeur de leurs informations et la pertinence des décisions stratégiques.
FININT, plus connu sous le nom de Finance Intelligence ou encore renseignement financier, désigne la collecte d’informations relatives aux affaires financières des organisations, afin de comprendre leur nature et leurs volumes, et de prédire leurs intentions. Cette méthode est généralement utilisée pour détecter le blanchiment d’argent, souvent fait dans le cadre ou à la suite d’une autre activité criminelle.
GEOINT ou encore l’Intelligence Géospatiale désigne l’information issue de l’analyse d’images ou de données relatives à une localisation spatiale précise. Cette imagerie était initialement utilisée pour étudier et évaluer l’activité humaine et la géographie sur tout le globe terrestre dans le cadre de projets militaires. Son exploitation a été diversifiée à d’autres cas d’usages tels que les recherches universitaires ou encore des problématiques commerciales pour des entreprises du secteur privé.
MULTI-INT, rassemble plusieurs techniques de renseignement. Le système d’Exploitation de la donnée Argonos est un système MULTI-INT.
OSINT est l’acronyme de Intelligence Sources Ouvertes. Il s’agit d’une technique de renseignement utilisée par les agences de sécurité intérieure sur des projets d’investigations aussi bien militaires que civiles mais aussi des journalistes dans le cadre d’enquêtes par exemple. Elle exploite l’information telle que le web, les moteurs de recherche traditionnels, les réseaux sociaux, les blogs, les forums, les journaux, magazines, etc. Toute publication en ligne rendue disponible et libre au grand public. Le système OSINT permet de tirer profit de l’énorme flux d’informations disponibles dans les sources ouvertes, de sélectionner les plus pertinentes et ainsi, de les traiter afin d’obtenir des conclusions les plus précises possibles.
SIGINT désigne le renseignement d’origine électromagnétique (SIGINT) qui vise à collecter des renseignements par interception de signaux, qu’il s’agisse de communications entre personnes (renseignement de communication – acronyme de COMINT) ou de signaux électroniques non directement utilisés dans la communication (renseignement électronique – abrégé en ELINT). Comme les informations classifiées et sensibles sont généralement cryptées, le renseignement d’origine électromagnétique implique à son tour l’utilisation de la cryptanalyse pour déchiffrer les messages. L’analyse du trafic – l’étude de qui signale qui et en quelle quantité – est également utilisée pour traiter l’information.
SOCMINT ou encore l’Intelligence des médias sociaux est une sous-branche de l’Open Source Intelligence (OSINT). C’est une méthodologie qui collecte les données disponibles sur les réseaux sociaux ouverts au public (par exemple, publications publiques sur Facebook ou LinkedIn) soit privées. Il peut s’agir d’informations au format texte, image ou encore vidéo. Les informations privées – telles que les contenus partagés avec le cercle d’amis – ne peuvent être consultées sans l’autorisation préalable du propriétaire.
Catalogue de données correspond au répertoire organisé et centralisé qui liste de manière exhaustive les ensembles de données disponibles au sein d’une organisation. Ce catalogue offre une description détaillée des données, y compris les métadonnées, le contenu, les sources, les formats et les droits d’accès. Son objectif est de faciliter la découverte, l’accès et l’utilisation efficaces des données par les utilisateurs internes ou externes. En fournissant une vue globale des ressources de données disponibles, le catalogue de données contribue à améliorer la prise de décision, la collaboration et la gouvernance des données au sein de l’entité concernée.
Document, dans le contexte d’une base de données, un « document » est une unité fondamentale d’information qui rassemble et représente des données sous une forme structurée. Il peut s’agir d’un enregistrement unique, contenant des champs ou attributs qui définissent ses caractéristiques spécifiques. Les documents sont généralement organisés selon un modèle de données, et stockés dans des formats adaptés.
Source de données, une source de données fait référence à toute origine ou fournisseur de données qui alimente une organisation en informations. Ces sources peuvent inclure des bases de données internes, des systèmes d’entreprise, des applications tierces, des services web, des fichiers externes, et bien d’autres. La gestion des sources de données est essentielle pour assurer la qualité, la sécurité, la conformité et la traçabilité des données tout au long de leur cycle de vie. Un catalogue de sources de données permet de documenter et de suivre les différentes sources, facilitant ainsi leur utilisation responsable et pertinente dans le cadre des activités de l’organisation.
Datalake désigne une architecture de stockage de données qui permet de collecter, stocker et gérer de grandes quantités de données brutes, semi-structurées et non structurées, provenant de diverses sources au sein d’une organisation. Contrairement aux entrepôts de données traditionnels, un datalake permet de conserver les données, notamment, dans leur forme originale sans les structurer a priori, offrant ainsi une flexibilité d’exploration et d’analyse.
Collecte de données, dans le contexte de data gouvernance désigne le processus systématique et organisé de rassemblement d’informations à partir de diverses sources, dans le but de constituer des ensembles de données exploitables. Ce processus implique la définition claire des données à collecter, l’identification des sources fiables et pertinentes, ainsi que la mise en place de mécanismes pour assurer l’intégrité, la qualité et la conformité des données collectées. La data gouvernance joue un rôle crucial dans la collecte de données en établissant des politiques et des procédures pour garantir la confidentialité, le respect des normes réglementaires et l’utilisation responsable des informations recueillies.
Ontologie, dans le contexte d’un datalake, une ontologie est une représentation sémantique organisée des concepts, des relations et des schémas de données utilisés pour décrire et structurer les informations stockées dans le datalake. Elle définit les termes spécifiques aux métiers, les classifications, et les liens entre les données, offrant ainsi une compréhension commune et unifiée du contenu du datalake. L’ontologie facilite la recherche, la navigation et l’interprétation des données par les utilisateurs, améliorant ainsi la découverte de données pertinentes et la cohérence des analyses. En outre, elle joue un rôle essentiel dans la gouvernance des données en établissant des règles et des normes pour l’utilisation, l’intégrité et la qualité des données dans le datalake.
Besoin d’en connaitre, il s’agit d’un principe de sécurité de l’information qui limite l’accès aux données ou aux informations confidentielles uniquement aux personnes qui ont une justification légitime pour y accéder dans le cadre de leurs fonctions professionnelles. Ce principe vise à restreindre l’accès aux informations sensibles uniquement aux utilisateurs autorisés, réduisant ainsi les risques de divulgation non autorisée, d’atteinte à la confidentialité ou de fuites de données. En mettant en place des contrôles d’accès appropriés et en appliquant le besoin d’en connaître, les organisations peuvent mieux protéger leurs informations sensibles et garantir leur utilisation responsable et conforme aux règles et aux réglementations en vigueur.
ABAC, le modèle ABAC (Attribute-Based Access Control) est un modèle de contrôle d’accès à l’information qui utilise des attributs comme base pour prendre des décisions concernant l’autorisation d’accès. Contrairement au modèle traditionnel RBAC (Role-Based Access Control), qui se concentre sur les rôles des utilisateurs, l’ABAC prend en compte des attributs tels que l’identité de l’utilisateur, son rôle, l’heure, le lieu, et toute autre information pertinente. Ces attributs sont évalués par un moteur de politique d’accès pour déterminer si un utilisateur est autorisé à accéder à une ressource ou une action particulière. L’ABAC offre une granularité plus fine et une flexibilité accrue pour gérer les autorisations en fonction de conditions spécifiques, améliorant ainsi la sécurité et la gestion des accès dans les environnements informatiques complexes.
Souveraineté de la donnée, la « souveraineté de la donnée » fait référence au principe selon lequel une organisation ou un pays doit exercer un contrôle complet sur ses données et les protéger contre tout accès, utilisation ou stockage non autorisé par des tiers. Cela implique que les données appartenant à une entité restent sous son contrôle et ne sont pas soumises à des lois ou des réglementations étrangères qui pourraient compromettre la confidentialité ou la sécurité des informations sensibles. La souveraineté de la donnée est devenue un enjeu crucial dans un monde de plus en plus connecté, où la protection des données personnelles, commerciales et gouvernementales est essentielle pour préserver la confiance, la sécurité et l’autonomie des acteurs impliqués.
Services cognitifs, les « services cognitifs » font référence à des technologies qui utilisent l’intelligence artificielle. Ils représentent une catégorie de technologies qui permettent aux systèmes informatiques de traiter les données de manière plus intelligente et de simuler certaines capacités humaines. Ces services sont conçus pour analyser, interpréter et comprendre les données de manière plus avancée en simulant des capacités cognitives telles que la perception, la compréhension du langage naturel, la reconnaissance de la parole, etc.
NLP, « Natural Language Processing », soit le « Traitement Automatique du Langage Naturel ». Le NLP est une branche de l’intelligence artificielle qui se concentre sur la communication entre les ordinateurs et les êtres humains à travers le langage naturel, tel qu’il est utilisé dans la parole et l’écriture. Cela inclut des tâches telles que la traduction automatique, l’analyse des sentiments, la génération de texte, la reconnaissance automatique de la parole, l’analyse syntaxique, la réponse aux questions, et bien d’autres.
Données structurées, les « données structurées » sont des données organisées dans un format prédéfini et cohérent, avec des règles définies pour la manière dont les informations sont stockées et reliées entre elles. Elles sont généralement présentées sous forme de tableaux, de fichiers ou de bases de données relationnelles, où chaque élément d’information est stocké dans des colonnes et des lignes, et chaque élément peut être identifié par une clé unique. Les données structurées sont faciles à interpréter et à analyser, ce qui les rend idéales pour des opérations de requêtes, de filtrage et d’agrégation, ainsi que pour la réalisation de calculs et de statistiques.
Données non structurées, les « données non structurées » sont des informations qui ne suivent pas un format prédéfini ou une organisation rigide, rendant leur stockage et leur analyse plus complexes que les données structurées. Ces données ne sont pas organisées en tables ou schémas, et elles peuvent inclure du texte libre, des images, des vidéos, des fichiers audios, des e-mails, des pages web, des documents PDF, des pages de réseaux sociaux, etc. En raison de leur nature non structurée, ces données nécessitent des techniques d’analyse spécifiques, telles que le traitement du langage naturel (NLP) ou la vision par ordinateur, pour extraire des informations significatives et utiles.
Données hétérogènes, les « données hétérogènes » font référence à des données provenant de différentes sources ou de diverses natures, qui présentent des formats, des structures et des caractéristiques variées. Ces données peuvent être collectées à partir de systèmes informatiques différents, de bases de données non compatibles, de logiciels divers, de capteurs, ou encore provenir de sources externes comme des fichiers, des documents, des médias, etc. En raison de cette diversité, les données hétérogènes peuvent être difficiles à intégrer et à analyser de manière homogène. La gestion et l’analyse de données hétérogènes nécessitent des outils et des techniques adaptées pour assurer l’interopérabilité, la cohérence et l’utilisation optimale de ces données dans un contexte donné.
Marquage de la donnée (Tag) fait référence à l’acte d’attacher des métadonnées spécifiques à une donnée ou à un ensemble de données. Les métadonnées sont des informations qui décrivent ou caractérisent les données, mais qui ne font pas partie de leur contenu propre. Les marquages ou tags sont utilisés pour organiser, catégoriser, rechercher et suivre les données de manière plus efficace sous différentes formes (étiquettes, mots-clés, codes, etc.).
Code source, désigne l’ensemble structuré de directives et d’instructions rédigées dans un langage de programmation spécifique par des développeurs afin de décrire de manière détaillée les processus et les actions à exécuter par un système informatique. Le code source joue un rôle central dans le processus de développement logiciel, permettant aux développeurs de concevoir, d’implémenter, de tester et de maintenir des applications informatiques.
Cadre réglementaire, cela se réfère à l’ensemble des lois, règles, régulations et normes qui encadrent l’utilisation, la collecte, le traitement, le stockage et la protection des données, ainsi que le développement de logiciels, dans le respect des droits et de la vie privée des individus. Ce cadre vise à garantir un équilibre entre l’innovation technologique. Il peut évoluer au fil du temps pour s’adapter aux avancées technologiques et aux nouvelles préoccupations étatiques.
RGPD, le Règlement général sur la protection des données (RGPD) a été adopté par le Parlement européen en 2016 et est devenu effectif en 2018. Il établit un cadre juridique pour la protection des données à caractère personnel en Europe. Les organisations étrangères, agissant en tant que responsables de traitement ou sous-traitants et traitant des données personnelles provenant de l’Union européenne (UE), doivent également appliquer cette loi. Les responsables de traitement sont chargés de garantir la conformité de leurs activités à la CNIL et doivent être en mesure de le démontrer en cas de besoin.
IA Act, l’Artificial Intelligence Act est une régulation de l’Union européenne qui vise à établir un cadre réglementaire pour la mise sur le marché des intelligences artificielles, en prenant en compte les aspects de sécurité, de santé et de droits fondamentaux. Le règlement classifie les systèmes d’intelligence artificielle en fonction du niveau de risque, allant de « minime » à « inacceptable ». Il interdit certaines utilisations contraires aux valeurs européennes, comme les « systèmes de crédit social » ou de vidéosurveillance de masse. Les systèmes d’intelligence artificielle à « haut risque » doivent se conformer au régime de réglementation le plus strict en matière de transparence, de gestion des risques et de gouvernance des données.
Référentiel de données, un « Référentiel de données » fait généralement référence à une structure centralisée et organisée qui stocke et gère des métadonnées et des informations essentielles sur les données au sein d’une organisation. Il agit comme un point de référence pour décrire, cataloguer et documenter les différentes sources de données, les définitions des champs, les relations entre les données etc. vise à améliorer la gestion des données, à faciliter la collaboration entre les équipes, à réduire la redondance et les erreurs dans la documentation des données, et à favoriser une compréhension commune des informations au sein de l’organisation.
Auditabilité, concerne la capacité d’un système, d’un processus ou d’une opération, à être examiné et vérifié de manière fiable et traçable. Cela implique généralement la mise en place de mécanismes de suivi et de journalisation (logs) qui enregistrent toutes les interactions et les activités liées aux données. C’est la création et la gestion de pistes de vérification complètes et transparentes pour toutes les interactions et activités liées aux données, afin d’assurer la transparence, la conformité, la sécurité et la confiance dans l’utilisation et la manipulation des données.
Traçabilité (Data lineage), se réfère à la capacité de suivre et de documenter de manière systématique l’origine, le cheminement et les transformations des données à travers tout leur cycle de vie. Cela inclut de comprendre comment les données sont extraites, transformées et chargées (ETL), comment elles évoluent à travers les différentes étapes de traitement, et comment elles sont utilisées dans diverses applications et analyses. L’objectif principal de la traçabilité est d’assurer la transparence, la qualité et l’intégrité des données tout au long de leur parcours.