Je parlais avec un collègue hier à propos d'une situation où il utilisait SSIS (ou quelque chose comme ça) pour faire quelque chose de vraiment cool avec un package SSIS où il passait sous un nom comme "Dr. Reginald Williams, PhD". et basé sur un certain système de pondération, le système était assez intelligent pour comprendre comment le marquer et le stocker dans la base de données comme «Salutation - Prénom - Nom - Suffixe». Il a jeté quelques mots à la mode comme BI, et SSIS, ETL et Data mining. Je voulais vraiment plus d'informations, mais je ne savais même pas où commencer à demander. Je suis un développeur .Net et parfaitement versé en C#, Vb.Net, WPF, etc ..., mais je n'ai aucune idée de ce que ces technologies sont, comment les ajouter à mon ensemble de compétences, et si ou ce n'est pas quelque chose sur lequel je devrais vraiment me concentrer. Toute direction serait utile.Quelqu'un peut-il expliquer l'exploration de données, SSIS, BI, ETL et d'autres technologies connexes?
Répondre
SSIS == SQL Server Integration Services Extract Transformer et Load (ETL) outil, il est une implémentation de loin supérieure de ce qui était Data Transformation Services ou DTS dans SQL7, ère SQL2K.C'est un excellent outil pour exprimer des processus de flux de travail dans lesquels les données sont déplacées du point A au point B (et c et d, etc.) et subissent des changements au cours de ce processus tels que la consolidation pour une conception dénormalisée ou le nettoyage des données. BI ou Business Intelligence est un surnom pour une catégorie entière dans le monde de la technologie et c'est un endroit idéal pour être en ce moment. Les compétences en BI sont très appréciées et difficiles à trouver, une des raisons pour lesquelles c'est le cas est qu'il est difficile de recréer un vrai cas de BI dans un laboratoire, donc l'enseignement est presque toujours fait dans une situation réelle. D'un niveau élevé, les projets de BI impliquent généralement un point de fin de rapport. Souvent, en tant que développeurs, nous sommes habitués à la rédaction de rapports transactionnels tels que les détails d'un PO mais BI peut entrer dans des rapports très larges qui couvrent les tendances des ventes de produits depuis des décennies et traitent des centaines de millions d'enregistrements. La façon dont nous concevons les bases de données pour les applications n'est pas idéale pour ce type de rapport, d'autres outils et technologies ont été inventés et sont utilisés dans l'espace BI. Ce sont des choses comme les cubes que vous entendez souvent appelés cubes OLAP. Les cubes OLAP proviennent généralement d'un entrepôt de données qui n'est rien de plus qu'une autre base de données, mais les entrepôts types contiennent des données provenant de plusieurs bases de données d'applications, souvent des dizaines. Votre application d'inventaire, votre application d'achat, votre application RH et tout un tas d'autres contiennent des éléments de données qui créent une image complète de l'entreprise. Un architecte BI utilisera quelque chose comme SSIS pour extraire les données de tous ces systèmes. et stockez-le dans l'entrepôt de données qui est conçu avec un type différent de conception mieux pour signaler. Une fois dans l'entrepôt, il utilisera les services d'analyse pour créer des cubes sur ces données et quelque chose comme Reporting Services pour vous montrer des rapports sur ces données. Edit: désolé, oublié Data Mining, c'est un autre terme non spécifique qui décrit et concept ou un processus et pas tellement un outil. Dans un exemple simple, il s'agit d'une approche méthodique pour identifier les modèles dans les données.Par le passé, un bon analyseur d'entreprise examinait les tendances, mais avec des bases de données modernes, les données sont trop volumineuses pour être traitées manuellement. L'exploration de données vous permet d'ordonner à l'ordinateur d'analyser ces données et d'identifier les modèles qui vous intéressent. .
espoir qui aide
SSIS est SQL Server Integration Services et est utile pour faire l'ETL (extraction, transformation et chargement) qui sont l'extrémité avant de nombreux entrepôts de données/business intelligence solutions qui intègrent des données dans des modèles faciles à utiliser dimensions. SSIS est également utile pour les projets plus petits comme un moyen pratique de charger des données héritées ou des données provenant d'autres référentiels ou fichiers.
Data mining implique généralement l'utilisation des données des sources intégrées pour déduire des informations qui ne seraient pas évidentes à partir des données de transaction (via l'intégration de multiples sources donnant plus « dimensions » aux données.
BI est un vaste sujet SSIS peut être utile sur des projets plus petits et vaut la peine d'en être informé dans tous les cas
Ce que votre collègue de travail ne pourrait être mieux décrit comme « l'analyse intelligente » d'une chaîne. Cela pourrait être fait à plusieurs niveaux de sophistication - par exemple, en utilisant des modèles statistiques pour vous donner la probabilité que "Dr." est une salutation et non un prénom. Ou il pourrait simplement utiliser une simple liste de recherche de salutations communes, dans ce cas, c'est juste un code de procédure ordinaire, rien de plus. SSIS est l'abréviation de SQL Server Integration Services.
C'est essentiellement DTS sur les stéroïdes; Certaines personnes l'adorent et d'autres le détestent. Ce serait difficile d'utiliser cela pour faire le genre de chose dont vous parlez; c'est principalement juste pour prendre des données de diverses sources et les combiner, les transformer et les charger ailleurs. Il peut faire des choses intéressantes, dont beaucoup ont tendance à ressembler à l'extraction de données, mais en fin de compte, c'est un outil de production pour bachoter les données dans un sens ou dans l'autre. Il n'est pas particulièrement bien respecté dans la communauté de data mining.
Data Mining est une discipline académique entière, axée sur l'utilisation de certaines (généralement grandes) quantités de données pour soit prédire les réponses futures ou mieux comprendre les tendances dans les données existantes. C'est certainement un domaine intéressant, mais ce n'est pas quelque chose que l'on peut faire sans étude approfondie des mathématiques et des algorithmes. Un bon livre sur le sujet est this one.
"Business Intelligence" est vraiment plus un mot à la mode qu'une technologie spécifique, et peut avoir des significations différentes selon les personnes. À la base, l'idée suggère de faire des choses moins stupides avec les données d'entreprise, et généralement, il se réfère à l'analyse des tendances au fil du temps, souvent en utilisant OLAP. Il peut également inclure des algorithmes d'exploration de données ou d'IA, mais puisqu'il n'y a pas de définition rigoureuse, à peu près tous ceux qui veulent vous vendre quelque chose vous diront qu'il offre une «Business Intelligence», et espérons ne pas creuser davantage.
La raison de tous ces "nouveaux" termes est en réalité l'augmentation rapide (exponentielle) des données dans le monde. BI (Wikipage) est fortement liée au terme "Data Warehouse" (c'est l'entité centrale dans les processus BI) ainsi qu'au terme "Data Mining".
Plus sur les ETLs. J'ajouterais simplement que SSIS est un produit de Microsoft, mais il existe des dizaines d'autres outils ETL, les plus connus sont: Informatica, Pentaho, Infosphere Information Server d'IBM, Data Integrator d'Oracle et Talend etc. Les ETL sont souvent écrits par n'importe quel langage de programmation (nous les avions en Python et même Golang).