Glossaire
data
ABAC, le modèle ABAC (Attribute-Based Access Control) est un modèle de contrôle d’accès à l’information qui utilise des attributs comme base pour prendre des décisions concernant l’autorisation d’accès. Contrairement au modèle traditionnel RBAC (Role-Based Access Control), qui se concentre sur les rôles des utilisateurs, l’ABAC prend en compte des attributs tels que l’identité de l’utilisateur, son rôle, l’heure, le lieu, et toute autre information pertinente. Ces attributs sont évalués par un moteur de politique d’accès pour déterminer si un utilisateur est autorisé à accéder à une ressource ou une action particulière. L’ABAC offre une granularité plus fine et une flexibilité accrue pour gérer les autorisations en fonction de conditions spécifiques, améliorant ainsi la sécurité et la gestion des accès dans les environnements informatiques complexes.
ADINT ou encore Advertising Intelligence – soit Intelligence Publicitaire en français – consiste à tracer les informations personnelles relatives aux clients finaux ou encore aux consommateurs pour collecter toutes les données liées à leurs profils, habitudes et comportements d’achat. Cette méthodologie induit un coût d’acquisition car il fait appel à l’achat de bases de données. Une fois ces informations clients collectées, analysées et traitées, les entreprises sont en mesure de réaliser une segmentation fine de leur audience pour réaliser des campagnes marketing ciblées voire personnalisées de conquête ou fidélisation.
AUDITABILITÉ, concerne la capacité d’un système, d’un processus ou d’une opération, à être examiné et vérifié de manière fiable et traçable. Cela implique généralement la mise en place de mécanismes de suivi et de journalisation (logs) qui enregistrent toutes les interactions et les activités liées aux données. C’est la création et la gestion de pistes de vérification complètes et transparentes pour toutes les interactions et activités liées aux données, afin d’assurer la transparence, la conformité, la sécurité et la confiance dans l’utilisation et la manipulation des données.
BESOIN D’EN CONNAITRE, il s’agit d’un principe de sécurité de l’information qui limite l’accès aux données ou aux informations confidentielles uniquement aux personnes qui ont une justification légitime pour y accéder dans le cadre de leurs fonctions professionnelles. Ce principe vise à restreindre l’accès aux informations sensibles uniquement aux utilisateurs autorisés, réduisant ainsi les risques de divulgation non autorisée, d’atteinte à la confidentialité ou de fuites de données. En mettant en place des contrôles d’accès appropriés et en appliquant le besoin d’en connaître, les organisations peuvent mieux protéger leurs informations sensibles et garantir leur utilisation responsable et conforme aux règles et aux réglementations en vigueur.
BIG DATA, terme utilisé pour décrire un ensemble de données massives et complexes qui nécessitent des techniques avancées de collecte, de stockage, de traitement et d’analyse.
CADRE RÉGLEMENTAIRE, cela se réfère à l’ensemble des lois, règles, régulations et normes qui encadrent l’utilisation, la collecte, le traitement, le stockage et la protection des données, ainsi que le développement de logiciels, dans le respect des droits et de la vie privée des individus. Ce cadre vise à garantir un équilibre entre l’innovation technologique. Il peut évoluer au fil du temps pour s’adapter aux avancées technologiques et aux nouvelles préoccupations étatiques.
CATALOGUE DE DONNÉES correspond au répertoire organisé et centralisé qui liste de manière exhaustive les ensembles de données disponibles au sein d’une organisation. Ce catalogue offre une description détaillée des données, y compris les métadonnées, le contenu, les sources, les formats et les droits d’accès. Son objectif est de faciliter la découverte, l’accès et l’utilisation efficaces des données par les utilisateurs internes ou externes. En fournissant une vue globale des ressources de données disponibles, le catalogue de données contribue à améliorer la prise de décision, la collaboration et la gouvernance des données au sein de l’entité concernée.
COLLECTE DE DONNÉES, dans le contexte de data gouvernance désigne le processus systématique et organisé de rassemblement d’informations à partir de diverses sources, dans le but de constituer des ensembles de données exploitables. Ce processus implique la définition claire des données à collecter, l’identification des sources fiables et pertinentes, ainsi que la mise en place de mécanismes pour assurer l’intégrité, la qualité et la conformité des données collectées. La data gouvernance joue un rôle crucial dans la collecte de données en établissant des politiques et des procédures pour garantir la confidentialité, le respect des normes réglementaires et l’utilisation responsable des informations recueillies.
DATA, information brute, souvent sous forme numérique, qui peut être traitée et analysée pour obtenir des informations.
DATA ANALYST : Professionnel chargé de collecter, traiter, analyser et interpréter les données afin d’obtenir des informations exploitables pour l’organisation.
DATA BACKUP : Processus de copie et de sauvegarde régulière des données afin de garantir leur disponibilité en cas de défaillance matérielle, de corruption des données ou de catastrophe.
DATA BREACH : Incident dans lequel des données confidentielles sont compromises, généralement à la suite d’une violation de la sécurité, ce qui peut entraîner des conséquences néfastes pour les individus ou les organisations.
DATA CLEANING : Processus de détection et de correction des erreurs, des incohérences et des duplications dans les ensembles de données afin d’améliorer leur qualité et leur fiabilité pour l’analyse.
DATA COMPRESSION : Technique permettant de réduire la taille des fichiers de données en éliminant les redondances ou en utilisant des algorithmes de compression, ce qui permet d’économiser de l’espace de stockage et de faciliter la transmission des données.
DATA DRIVEN DECISION MARKETING : Processus de prise de décision basé sur l’analyse des données et des informations pertinentes, visant à améliorer la précision, la rapidité et la qualité des décisions stratégiques et opérationnelles.
DATA ENCRYPTION : Processus de conversion des données en un format illisible, appelé cryptogramme, afin de protéger leur confidentialité et leur sécurité pendant le stockage ou la transmission.
DATA ETHICS : Ensemble de principes et de normes morales régissant la collecte, l’utilisation et la gestion des données, visant à assurer une utilisation responsable et éthique des informations personnelles et sensibles.
DATA EXPLORATION désigne la phase d’exploration de données qui succède à l’étape de préparation des données. La Data Exploration est le processus par lequel les métiers peuvent explorer de manière interactive une masse importante de données qui leur sont présentées souvent via des outils de datavisualisation tels que les graphiques, diagrammes et autres tableaux de bord pour bénéficier d’une vision plus claire, compréhensible et globale des données et identifier les potentielles corrélations entre elles à des fins analytiques.
DATA GOVERNANCE : Ensemble de politiques, de processus et de normes visant à garantir la qualité, la sécurité, la confidentialité et l’intégrité des données dans une organisation.
DATA GOVERNANCE FRAMEWORK : Structure organisationnelle et méthodologique établissant les politiques, les processus et les responsabilités pour la gestion et le contrôle efficaces des données dans une organisation.
DATA INTEGRATION : Processus consistant à combiner des données provenant de différentes sources pour créer une vue unifiée et cohérente des informations, facilitant ainsi l’analyse et la prise de décision.
DATALAKE désigne une architecture de stockage de données qui permet de collecter, stocker et gérer de grandes quantités de données brutes, semi-structurées et non structurées, provenant de diverses sources au sein d’une organisation. Contrairement aux entrepôts de données traditionnels, un datalake permet de conserver les données, notamment, dans leur forme originale sans les structurer a priori, offrant ainsi une flexibilité d’exploration et d’analyse.
DATA LITERACY : Capacité des individus à comprendre, interpréter et utiliser efficacement les données dans leur contexte professionnel ou personnel, ce qui leur permet de prendre des décisions éclairées et d’exploiter pleinement le potentiel des informations disponibles.
DATA MINING : Processus d’extraction de modèles et de relations significatifs à partir de grands ensembles de données, souvent utilisé pour découvrir des tendances et des patterns cachés.
DATA MIGRATION : Processus de transfert de données d’un système ou d’une plateforme à un autre, généralement dans le cadre d’une mise à niveau technologique ou d’une consolidation d’infrastructures.
DATA MONETIZATION : Processus de création de valeur économique à partir des données en les transformant en produits, services ou informations commercialisables, ce qui peut générer de nouveaux revenus ou des opportunités commerciales pour les organisations.
DATA OWNERSHIP : Attribution de la responsabilité et des droits juridiques sur les données à une entité ou à une personne spécifique, définissant qui peut accéder, modifier ou partager les données.
DATA PREPARATION est la 1ere étape d’un projet de Business Intelligence. Le module de data préparation qui désigne le processus de collecte, de combinaison, de structuration et d’organisation des informations afin qu’elles puissent être analysées dans le cadre d’applications de visualisation et d’analyse des données. L’objectif de la préparation des données est de garantir la cohérence et la qualité des données en transformant les données brutes en informations utiles pour les utilisateurs qui doivent prendre des décisions. En préparant les données pour l’analyse bien en amont, les entreprises et les organisations peuvent ainsi maximiser la valeur de leurs informations et la pertinence des décisions stratégiques.
DATA PRIVACY : Protection des informations personnelles et sensibles contre l’accès non autorisé, la divulgation ou l’utilisation abusive, conformément aux lois et réglementations en matière de confidentialité des données.
DATA PRIVACY REGULATION : Lois et réglementations gouvernementales qui régissent la collecte, le stockage, le traitement et la diffusion des données personnelles, telles que le RGPD (Règlement général sur la protection des données) en Europe ou le CCPA (California Consumer Privacy Act) aux États-Unis.
DATA QUALITY : Mesure de l’exactitude, de la cohérence, de la fiabilité et de la pertinence des données, souvent évaluée en fonction de critères spécifiques définis par l’organisation.
DATA SECURITY : Ensemble de mesures et de pratiques visant à protéger les données contre les menaces telles que le piratage, les logiciels malveillants, l’accès non autorisé et les fuites d’informations.
DATA SCIENTIST : Expert en analyse de données qui utilise des techniques statistiques, informatiques et mathématiques avancées pour explorer et interpréter les données, souvent dans le but de résoudre des problèmes complexes.
DATA VISUALISATION : Utilisation de graphiques, de tableaux et d’autres outils visuels pour représenter les données de manière à rendre les tendances et les patterns plus facilement compréhensibles.
DATA WAREHOUSE : Un entrepôt de données centralisé et intégré qui stocke de grandes quantités de données provenant de différentes sources, facilitant ainsi l’analyse et la prise de décision.
DOCUMENT, dans le contexte d’une base de données, un “document” est une unité fondamentale d’information qui rassemble et représente des données sous une forme structurée. Il peut s’agir d’un enregistrement unique, contenant des champs ou attributs qui définissent ses caractéristiques spécifiques. Les documents sont généralement organisés selon un modèle de données, et stockés dans des formats adaptés.
DONNÉES HÉTÈROGÈNES, les “données hétérogènes” font référence à des données provenant de différentes sources ou de diverses natures, qui présentent des formats, des structures et des caractéristiques variées. Ces données peuvent être collectées à partir de systèmes informatiques différents, de bases de données non compatibles, de logiciels divers, de capteurs, ou encore provenir de sources externes comme des fichiers, des documents, des médias, etc. En raison de cette diversité, les données hétérogènes peuvent être difficiles à intégrer et à analyser de manière homogène. La gestion et l’analyse de données hétérogènes nécessitent des outils et des techniques adaptées pour assurer l’interopérabilité, la cohérence et l’utilisation optimale de ces données dans un contexte donné.
DONNÉES NON STRUCTURÉES, les “données non structurées” sont des informations qui ne suivent pas un format prédéfini ou une organisation rigide, rendant leur stockage et leur analyse plus complexes que les données structurées. Ces données ne sont pas organisées en tables ou schémas, et elles peuvent inclure du texte libre, des images, des vidéos, des fichiers audios, des e-mails, des pages web, des documents PDF, des pages de réseaux sociaux, etc. En raison de leur nature non structurée, ces données nécessitent des techniques d’analyse spécifiques, telles que le traitement du langage naturel (NLP) ou la vision par ordinateur, pour extraire des informations significatives et utiles.
DONNÉES STRUCTURÉES, les “données structurées” sont des données organisées dans un format prédéfini et cohérent, avec des règles définies pour la manière dont les informations sont stockées et reliées entre elles. Elles sont généralement présentées sous forme de tableaux, de fichiers ou de bases de données relationnelles, où chaque élément d’information est stocké dans des colonnes et des lignes, et chaque élément peut être identifié par une clé unique. Les données structurées sont faciles à interpréter et à analyser, ce qui les rend idéales pour des opérations de requêtes, de filtrage et d’agrégation, ainsi que pour la réalisation de calculs et de statistiques.
FININT, plus connu sous le nom de Finance Intelligence ou encore renseignement financier, désigne la collecte d’informations relatives aux affaires financières des organisations, afin de comprendre leur nature et leurs volumes, et de prédire leurs intentions. Cette méthode est généralement utilisée pour détecter le blanchiment d’argent, souvent fait dans le cadre ou à la suite d’une autre activité criminelle.
GEOINT ou encore l’Intelligence Géospatiale désigne l’information issue de l’analyse d’images ou de données relatives à une localisation spatiale précise. Cette imagerie était initialement utilisée pour étudier et évaluer l’activité humaine et la géographie sur tout le globe terrestre dans le cadre de projets militaires. Son exploitation a été diversifiée à d’autres cas d’usages tels que les recherches universitaires ou encore des problématiques commerciales pour des entreprises du secteur privé.
MACHINE LEARNING : Branche de l’intelligence artificielle qui permet aux systèmes informatiques d’apprendre et de s’améliorer automatiquement à partir des données sans être explicitement programmés.
MARQUAGE DE LA DONNÉE (Tag) fait référence à l’acte d’attacher des métadonnées spécifiques à une donnée ou à un ensemble de données. Les métadonnées sont des informations qui décrivent ou caractérisent les données, mais qui ne font pas partie de leur contenu propre. Les marquages ou tags sont utilisés pour organiser, catégoriser, rechercher et suivre les données de manière plus efficace sous différentes formes (étiquettes, mots-clés, codes, etc.).
METADATA : Informations structurées qui décrivent les caractéristiques, les attributs et le contexte des données, ce qui facilite leur recherche, leur organisation et leur compréhension.
MULTI-INT, rassemble plusieurs techniques de renseignement. Le système d’Exploitation de la donnée Argonos est un système MULTI-INT.
ONTOLOGIE, dans le contexte d’un datalake, une ontologie est une représentation sémantique organisée des concepts, des relations et des schémas de données utilisés pour décrire et structurer les informations stockées dans le datalake. Elle définit les termes spécifiques aux métiers, les classifications, et les liens entre les données, offrant ainsi une compréhension commune et unifiée du contenu du datalake. L’ontologie facilite la recherche, la navigation et l’interprétation des données par les utilisateurs, améliorant ainsi la découverte de données pertinentes et la cohérence des analyses. En outre, elle joue un rôle essentiel dans la gouvernance des données en établissant des règles et des normes pour l’utilisation, l’intégrité et la qualité des données dans le datalake.
OSINT est l’acronyme de Intelligence Sources Ouvertes. Il s’agit d’une technique de renseignement utilisée par les agences de sécurité intérieure sur des projets d’investigations aussi bien militaires que civiles mais aussi des journalistes dans le cadre d’enquêtes par exemple. Elle exploite l’information telle que le web, les moteurs de recherche traditionnels, les réseaux sociaux, les blogs, les forums, les journaux, magazines, etc. Toute publication en ligne rendue disponible et libre au grand public. Le système OSINT permet de tirer profit de l’énorme flux d’informations disponibles dans les sources ouvertes, de sélectionner les plus pertinentes et ainsi, de les traiter afin d’obtenir des conclusions les plus précises possibles.
RÉFÉRENTIEL DE DONNÉES, un “Référentiel de données” fait généralement référence à une structure centralisée et organisée qui stocke et gère des métadonnées et des informations essentielles sur les données au sein d’une organisation. Il agit comme un point de référence pour décrire, cataloguer et documenter les différentes sources de données, les définitions des champs, les relations entre les données etc. vise à améliorer la gestion des données, à faciliter la collaboration entre les équipes, à réduire la redondance et les erreurs dans la documentation des données, et à favoriser une compréhension commune des informations au sein de l’organisation.
RGPD, le Règlement général sur la protection des données (RGPD) a été adopté par le Parlement européen en 2016 et est devenu effectif en 2018. Il établit un cadre juridique pour la protection des données à caractère personnel en Europe. Les organisations étrangères, agissant en tant que responsables de traitement ou sous-traitants et traitant des données personnelles provenant de l’Union européenne (UE), doivent également appliquer cette loi. Les responsables de traitement sont chargés de garantir la conformité de leurs activités à la CNIL et doivent être en mesure de le démontrer en cas de besoin.
SIGINT désigne le renseignement d’origine électromagnétique (SIGINT) qui vise à collecter des renseignements par interception de signaux, qu’il s’agisse de communications entre personnes (renseignement de communication – acronyme de COMINT) ou de signaux électroniques non directement utilisés dans la communication (renseignement électronique – abrégé en ELINT). Comme les informations classifiées et sensibles sont généralement cryptées, le renseignement d’origine électromagnétique implique à son tour l’utilisation de la cryptanalyse pour déchiffrer les messages. L’analyse du trafic – l’étude de qui signale qui et en quelle quantité – est également utilisée pour traiter l’information.
SOCMINT ou encore l’Intelligence des médias sociaux est une sous-branche de l’Open Source Intelligence (OSINT). C’est une méthodologie qui collecte les données disponibles sur les réseaux sociaux ouverts au public (par exemple, publications publiques sur Facebook ou LinkedIn) soit privées. Il peut s’agir d’informations au format texte, image ou encore vidéo. Les informations privées – telles que les contenus partagés avec le cercle d’amis – ne peuvent être consultées sans l’autorisation préalable du propriétaire.
SOURCE DE DONNÉES, une source de données fait référence à toute origine ou fournisseur de données qui alimente une organisation en informations. Ces sources peuvent inclure des bases de données internes, des systèmes d’entreprise, des applications tierces, des services web, des fichiers externes, et bien d’autres. La gestion des sources de données est essentielle pour assurer la qualité, la sécurité, la conformité et la traçabilité des données tout au long de leur cycle de vie. Un catalogue de sources de données permet de documenter et de suivre les différentes sources, facilitant ainsi leur utilisation responsable et pertinente dans le cadre des activités de l’organisation.
SOUVERAINETÉ DE LA DONNÉE, la “souveraineté de la donnée” fait référence au principe selon lequel une organisation ou un pays doit exercer un contrôle complet sur ses données et les protéger contre tout accès, utilisation ou stockage non autorisé par des tiers. Cela implique que les données appartenant à une entité restent sous son contrôle et ne sont pas soumises à des lois ou des réglementations étrangères qui pourraient compromettre la confidentialité ou la sécurité des informations sensibles. La souveraineté de la donnée est devenue un enjeu crucial dans un monde de plus en plus connecté, où la protection des données personnelles, commerciales et gouvernementales est essentielle pour préserver la confiance, la sécurité et l’autonomie des acteurs impliqués.
TRACABILITÉ (Data lineage), se réfère à la capacité de suivre et de documenter de manière systématique l’origine, le cheminement et les transformations des données à travers tout leur cycle de vie. Cela inclut de comprendre comment les données sont extraites, transformées et chargées (ETL), comment elles évoluent à travers les différentes étapes de traitement, et comment elles sont utilisées dans diverses applications et analyses. L’objectif principal de la traçabilité est d’assurer la transparence, la qualité et l’intégrité des données tout au long de leur parcours.