En septembre 2018, Google avait lancé Dataset Search en version bêta. Il s’agit en fait d’un moteur de recherche d’ensemble de données. En deux ans, il aurait su convaincre des centaines de milliers d’utilisateurs, principalement des professionnels issus de différentes branches. Comme l’indique The Verge, la version bêta vient de laisser sa place à la version officielle.

Dataset Search est un moteur de recherche pour bases de données ouvertes

Grâce à Dataset Search, il est possible de trouver divers genres de contenus comme des fichiers CSV, des informations et des éléments relatifs au machine learning ou encore des tableaux. Comme Dataset Search s’en vante dans sa présentation, il est possible, grâce au moteur de recherche, de créer un écosystème de partage de données incitant les éditeurs à suivre les bonnes pratiques en matières de stockage et de publication de données. Il offre aussi aux scientifiques la possibilité de partager et montrer l’impact de leur travail au travers de données publiées.

Puisqu’il est open data, Dataset Search impose aux fournisseurs de données de respecter un certain nombre de critères plutôt précis. Ils doivent impérativement documenter leur sitemap, intégrer le nom et la description complète de leurs ensembles de données. À ces éléments, Google ajoute des recommandations à intégrer telles que indiquer, lors de l’enregistrement, un autre nom utilisé pour faire allusion à la référence, des mots clés, des citations, une date de mise à jour, un format de téléchargements et ce ne sont qu’une partie des éléments.

Un moteur de recherche utilisé par beaucoup de professionnels

Lors du déploiement de la version bêta et durant un an et demi, Dataset Search a été utilisé par de nombreuses institutions, comme des universités, les gouvernements, ou encore des laboratoires. Globalement, ce sont donc de nombreuses branches de métiers qui y ont eu recours : des journalistes, des chercheurs, des médecins, des politiques…

Aujourd’hui et après une mise à jour de la version bêta, la version officielle du moteur de recherche est finalement dévoilée. Dataset Search ne rassemblerait pas moins de 25 millions d’ensembles de données, principalement axés autour de la géoscience, de la biologie et de l’agriculture, cela même si les requêtes les plus courantes sont “l’éducation”, “la météo”, “le cancer”, ou encore “les chiens”.