Vendia a parrainé ce post.
Alors que les entrepôts de données et les lacs de données conventionnels sont devenus une pratique courante pour les charges de travail d'analyse, elles ne résolvent pas les problèmes d'entreprise plus larges de partage de données opérationnelles en temps réel entre les départements ou entre les entreprises.Cette série en trois parties explore les défis et solutions qui surviennent lors de l'intégration des données commerciales dans différentes applications, nuages et organisations dans une pile informatique moderne.
Canyon Spanning - Le défi informatique fondamental
Tim WagnerTim is the inventor of AWS Lambda and a former general manager of AWS Lambda and Amazon API Gateway services. He has also served as vice president of engineering at Coinbase, where he managed design, security and product management teams. Tim co-founded Vendia to help organizations of all sizes share data more effectively across clouds and companies, and he serves as its CEO.L'un des défis les plus durables et les plus fondamentaux pour les professionnels de l'informatique, quelle que soit la taille ou l'industrie de leur organisation est d'obtenir des données où elle appartient.L'informatique et d'autres types de traitement de la charge de travail, aussi critiques, ne peuvent même pas être envisagés si les données qui les entraînent ne sont pas facilement disponibles.Et bien que ce problème ait existé d'une certaine manière depuis l'émergence de l'informatique numérique commerciale dans les années 1950, les tendances structurelles - y compris les applications de style SaaNature des partenariats commerciaux - ont considérablement augmenté l'échelle et la complexité de ces problèmes de partage de données et de «canyon».
Ces «canyons» peuvent prendre de nombreuses formes dans une pile informatique moderne:
Sponsor NoteVendia is a real-time data cloud company. Their flagship product, Vendia Share,helps organizations rapidly build transactional applications that need to access critical data stuck in other applications, data stores, and silos that span departments, clouds, and even partners.Read the latest from VendiaLe partage de données, initialement sous la forme d'entrepôts de données et plus récemment via Data Lakes, est un modèle bien connu des architectes informatiques lorsqu'il est appliqué aux données d'analyse qui anime l'intelligence commerciale (BI), AI / ML (Intelligence artificielle / apprentissage automatique)formation et activités similaires.Des fournisseurs tels que Snowflake incorporent le partage de données multicloud dans leur solution, permettant aux professionnels de l'informatique de composer et de partager plus facilement leurs charges de travail d'analyse.
Cependant, les lacs de données ne représentent qu'une fraction des données sous sa compétence;En fait, la majorité des données stockées, transférées et calculées par les systèmes informatiques sont en fait des données opérationnelles.Les données opérationnelles diffèrent des données d'analyse de plusieurs manières:
Interprétation de la nomenclature variée autour du partage de données en temps réel
Alors que les données opérationnelles et la nécessité de les partager sont omniprésentes, la nature fragmentée des approches précédentes signifie qu'il n'y a pas un ensemble clair et distinct de terminologie pour le problème ou sa solution.Les données elle-même peuvent être appelées diversement comme «en temps réel», «opérationnel», «transactionnel», «OLTP» (traitement des transactions en ligne) ou «Application.«Les solutions d'agrégation peuvent être décrites comme des lacs de données en temps réel, des entrepôts de données en temps réel, des solutions de partage de données en temps réel ou des maillages de données en temps réel.
Les approches de génération plus ancienne sont souvent identifiées comme EAI (Enterprise Application Integration) et parfois comme EIPAAS (Enterprise Integration Platform-As-A-Service) ou sont basées sur leurs protocoles (EDI - Échange de données électroniques ou protocoles spécifiques à l'industrie émergents tels queFhre).
Les stratégies adjacentes comprennent les architectures «Multicloud» (ou «Cross-Cloud» ou «Polycloud») et Solutions ETL / EL, qui peuvent être décrites comme SaaS ou «pas de code»).«OLAP inversé» est un terme parfois utilisé pour décrire en utilisant les résultats des calculs effectués dans un lac de données pour créer une boucle de rétroaction qui informe ou met à jour un système opérationnel (vaguement parlant, un flux et flux ETL opérationnels plus typiques et plus analytiques).
Solutions héritées et leurs limites
Compte tenu de la longue histoire du partage de données opérationnelles dans les entreprises, il n'est pas surprenant qu'une variété d'approches aient été développées au fil des ans.La plupart de ces approches héritées sont des artefacts de la période au cours de laquelle ils ont été initialement conçus.Ci-dessous, nous explorons chacune des catégories traditionnelles des fournisseurs et examinons leurs lacunes lorsqu'elles sont appliquées à des charges de travail modernes, généralement basées sur le cloud,.
Figure 1: Architectures point à point créées avec des solutions basées sur l'EAI
Figure 2: Défis de partage de données sur différentes piles technologiques
Malheureusement, la première génération de blockchains n'était pas prête sur le plan opérationnel pour les cas d'utilisation de l'entreprise: leur latence élevée, leur faible débit, les coûts élevés, le manque d'évolutivité et la tolérance aux défauts, et le déploiement complexe des infrastructures et les frais généraux de gestion les ont rendus mal adaptés au monde réelcas d'utilisation.
Figure 3: La décentralisation des blockchains fournit une source de vérité tout en maintenant des magasins de données distincts.
Toutes les approches ci-dessus souffrent de limitations inhérentes lorsqu'elles sont utilisées pour relever les défis de partage des données en temps réel;Aucun d'entre eux n'est des solutions idéales comme maillage de données en temps réel.Une solution idéale offrirait la source unique de vérité réalisable avec une blockchain, mais avec la faible latence, le débit élevé et les contrôles de données à grain fin plus typiques d'une solution basée sur l'EAI couplée à tous les avantages d'évolutivité et de tolérance aux failles d'un cloud publicun service.
Suivant
Dans la partie 2 de cette série, nous explorerons comment ces éléments peuvent se réunir dans un maillage des données du meilleur.Nous définissons le maillage de données en temps réel et discutons des principes clés pour les intégrer dans des piles IT modernes.
La nouvelle pile est une filiale en propriété exclusive d'Insight Partners, un investisseur dans les sociétés suivantes mentionnées dans cet article: Real.