Cloudera, une start-up américaine spécialisée dans le développement de logiciels en lien avec la big data, a annoncé le lancement de sa nouvelle solution Cloudera Data Platform One ou CDP One. Si celle-ci existait déjà depuis 2019, la firme propose une nouvelle version avec l'arrivée de nouvelles fonctionnalités dans le but de proposer un outil permettant d'unifier la gestion des données.

CDP One : la nouvelle version du data lakehouse de Cloudera

CDP One est le nouveau data lakehouse proposée par Cloudera. Plus généralement, il s'agit d'une solution permettant le stockage de données dans le cloud en reprenant certaines caractéristiques des entrepôts de données, les data lake, qui avaient pour principe de stocker les données d'un système d'information de telle manière que seules les données intéressantes soient conservées. Elle vient se mettre en concurrence directe avec des entreprises comme Snowflake, déjà bien en place sur le marché.

Cet outil est issu de la fusion des solutions Cloudera et Hortonworks, une société rachetée par Cloudera en 2018. Elle combine le stockage de données, le machine learning et l'analytique afin d'entreposer les données d'une entreprise au sein du cloud. À l’heure actuelle, CDP One n'est disponible que sur AWS et ne propose pas d'option pour ses principaux concurrents, Google Cloud ou bien Microsoft Azure.

Si CDP One n'est pour l'instant disponible que sur un service cloud, Ram Venkatesh, CTO de Cloudera, reconnaît qu'il est important que son outil puisse prendre en charge un déploiement sur plusieurs services cloud. Cette volonté constitue la prochaine étape pour améliorer le data lakehouse. Le CTO affirme à TechCrunch qu'actuellement, « le moteur sous-jacent de CDP One serait tout à fait capable de prendre en charge AWS, Azure et GCP ».

Quelles fonctionnalités proposées par CDP One ?

Selon Cloudera, CDP One est une offre SaaS de data lakehouse tout-en-un. D'après Ram Venkatesh, son objectif est de « permettre à tous les membres d'une entreprise d'obtenir les informations en temps réel dont ils ont besoin pour prendre les bonnes décisions, ce qui nécessite de créer une architecture de données véritablement moderne dans le cloud ».

La plateforme permet d'intégrer, de préparer, d'analyser, et de publier des données vers des applications ciblées par l'entreprise. Il met ainsi à disponible un ensemble d'outils open source comme NiFi, Apache Spark, Hive, Impala, YARN, Flask ou encore Streamlit. Chaque traitement de données peut être codé depuis un notebook ou bien à l'aide d'une interface low-code no-code permettant de coder en SQL, en R, en Scala ou en Python.

Cloudera a également mis l'accent sur la sécurité des données de ses utilisateurs. Comme l'indique le CTO de la firme, « Cloudera est responsable du stockage et de la gestion des données avec CDP One. Nous ne nous contentons plus de permettre le traitement des données. Cela signifie que nous devons être conscients de l’endroit où se trouvent les données et des considérations régionales en matière de confidentialité des données. »

Cette nouvelle solution proposée par Cloudera viendra concurrencer plusieurs offres déjà présentes sur le marché comme Big Lake de Google ou encore celle de Databricks.