Ce 6 avril 2022 est marqué par la nouvelle édition du Data Cloud Summit, un salon annuel organisé par Google Cloud. De nombreuses conférences sont organisées afin d’annoncer certaines des nouveautés développées par la filiale cloud computing de la firme de Mountain View ou d’évoquer certaines thématiques autour de la gestion de la data.

Mises à jour, lancement de préversions de plusieurs API et suites de solutions, partenariats et collaborations : retour sur les nouveautés présentées par Google Cloud dans le cadre de cet évènement.

Avec BigLake, Google Cloud veut unifier les data lake et les data warehouse

La première nouveauté annoncée par Google Cloud est l’arrivée prochaine de BigLake. Cet outil qui devrait permettre aux entreprises de mieux gérer leurs lacs de données (data lake). Il s’agit d’une méthode de stockage qui peut être utilisée pour conserver ou manipuler de grandes quantités de données.

En général, les data lake s’opposent aux entrepôts de données (data warehouse), plus classiques, et encore utilisés à l’heure actuelle par de nombreuses structures. Tandis qu’une data warehouse ne peut accueillir que des données structurées (prédéfinies et formatées selon une structure précise) afin qu’elles soient traitées au plus vite, ce n’est pas le cas des data lakes où les données peuvent être stockées sous une forme brute pour être ensuite modelée selon les envies et les besoins de l’utilisateur, c’est ce qu’on appelle le schema-on-read.

Toutefois, la (mauvaise) gestion et le stockage de données dans un data lake peut aboutir à la création de silos : des ensembles de données brutes auquel ont accès seulement une partie de l’entreprise (une business unit, une direction métier, etc.), le reste de l’entreprise ne pouvant pas y accéder.

Leur accumulation peut devenir un véritable frein pour une entreprise, puisque plusieurs entités peuvent stocker des données similaires dans le même data lake, créant alors deux silos identiques, ce qui prend de la place dans l’environnement de stockage, entraînant notamment des coûts de stockage inutiles. Ils sont aussi un frein pour l’organisation d’une entreprise, chaque entité devant d’abord remarquer qu’elle n’a pas accès à certaines données présentes dans le data lake pour ensuite, enclencher un processus lui permettant d’y avoir accès et de les utiliser, ce qui est une véritable perte de temps.

Avec BigLake, Google Cloud propose une API qui permet aux organismes d’unifier leurs data lake et leurs data warehouse pour analyser et mieux gérer leurs données sans se soucier de leur format (brute ou structurées) ou de la méthode de stockage utilisée. Cette solution sera intégrée à BigQuery, le logiciel SaaS phare de Google Cloud.

BigLake

Comme le précise Sudhir Hasbe, directeur de la gestion de production pour Google Cloud, « BigLake permet d’unifier les données sans se soucier du format de stockage initialement utilisé ». Image : Google Cloud.

Mise à jour de Spanner avec l’ajout de la fonctionnalité Spanner change streams

En plus de BigLake, Google Cloud présente également Spanner change streams. Cette nouvelle mise à jour devrait également mettre fin aux limites imposées par la gestion de données aux utilisateurs de Spanner, l’un des services de gestion et de stockage de données de la filiale de Google.

Les entreprises pourront désormais suivre en temps réel, les changements au sein de leurs bases de données afin de s’adapter plus rapidement à ces modifications. Il leur sera possible de répliquer les modifications réalisées dans Spanner vers BigQuery afin d’avoir accès à des analyses en temps réel ou bien de voir quelles modifications pourraient être apportées en cas de changement.

Mise à jour de Vertex AI Workbench : le cloud computing pour aider à développer des modèles de machine learning

Lors du Google Cloud Next 2021, la firme de Mountain View annonçait qu’elle mettrait à jour Vertex AI Workbench dans les prochains mois. C’est désormais le cas. La suite de solutions dédiée à la création, à l’entraînement et aux déploiements de modèles d’apprentissage automatique (machine learning) a été optimisée afin de fonctionner au mieux avec BigQuery, Serverless Spark et Dataproc.

Selon Google Cloud, Vertex AI permettra aux spécialistes de l’intelligence artificielle de concevoir des modèles de machine learning « cinq fois plus rapidement qu’avec les notebooks utilisés traditionnellement ». Ils pourront mettre à jour régulièrement leurs modèles en utilisant les données stockées dans le cloud.

De nouvelles fonctionnalités vont être apportées grâce à l’ajout de Vertex AI Model Registry. Cet outil fournit un référentiel pour ajouter, découvrir, utiliser et manipuler des modèles de machine learning, notamment afin que les développeurs de modèle d’IA puissent partager plus facilement leurs modèles aux développeurs d’applications souhaitant exploiter ces algorithmes.

Vertex AI Model Registry, la nouvelle fonctionnalité de Vertex AI

Voici à quoi ressemble Vertex AI Model Registry. Il est présenté comme une librairie de modèles de machine learning qu’il est possible d’ajouter, de retirer, de modifier ou de partager en quelques clics. Image : Google Cloud.

Connected Sheets pour Looker : utiliser la data pour optimiser les prises de décision

Looker est une plateforme d’informatique décisionnelle et de business intelligence permettant à ses utilisateurs d’exploiter la data pour améliorer la productivité ou d’apporter un vent d’innovation au sein d’une entreprise grâce à la prise de décisions efficaces.

Google Cloud annonce le lancement de Connected Sheets, un outil offrant la possibilité d’accéder aux modèles de données Looker dans Data Studio (une solution permettant la création de tableaux de bord et de rapports informatifs grâce à la data) ou dans Google Sheets (le tableur de Google). L’objectif selon Google Cloud est de faire en sorte que « les usagers de Looker puissent accéder plus facilement aux informations issues de la data pour stimuler l’innovation et prendre des décisions basées sur l’analyse des données en unifiant tous les outils nécessaires pour y parvenir ».

Connected Sheets for Looker

Avec Connected Sheets, il sera possible d’avoir accès à l’ensemble des fonctionnalités de Looker directement depuis un tableur Google Sheets. Connected Sheets permet ainsi d’unifier l’utilisation de Looker et du tableur pour une meilleure visualisation de la data. Image : Google Cloud.

La Data Cloud Alliance : un groupe de travail pour faciliter l’accès à la gestion des données pour tous

Pour Gerrit Kazmaier, vice-président de l’analyse des données et des bases de données pour Google Cloud, « les données sont la base commune de toutes les transformations digitales ». Avec plusieurs fournisseurs cloud et gestionnaires de la data, Google Cloud est à l’origine de l’initiative Data Cloud Alliance. On y retrouve Confluent, Databricks qui a annoncé l’an dernier s’investir dans le low-code/no-code, Dataiku, Deloitte, Elastic, Fivetran, MongoDB, Neo4j, Redis et Starbust.

L’objectif premier de ce groupe sera de résoudre, ensemble, les défis modernes liés à la transformation numérique en s’engageant à rendre la gestion de la data plus accessible, à l’aide de plateformes, systèmes et technologies divers et variés (infrastructure dédiée, création d’API et d’un support d’intégration de données). L’ensemble des membres de cette alliance travailleront ensemble pour réduire la complexité liée à la gouvernance des données.

Avec l’arrivée prochaine de l’ensemble de ces nouveautés, Google Cloud montre ses ambitions en proposant des solutions et des mises à jour variées et toujours plus performantes, permettant d’améliorer le quotidien des entreprises grâce à l’utilisation de la data et du cloud computing.

Ces dernières années, plusieurs structures s’étaient associées à Google Cloud pour donner une part plus prépondérante au cloud et à la data dans la transformation de leur entreprise. C’était le cas de Renault, afin de digitaliser sa chaîne logistique, de Twitter, de YouTube ou de Lydia. Plus récemment, le Japon, dans sa volonté de créer une plateforme unique rassemblant l’ensemble des services du gouvernement, a fait appel à la branche cloud de Google.