SnowFlake : une pluie de nouveautés au Summit 2022

5 min
32
0
0
Publié le

SnowFlake, la société de stockage de données dans le cloud (SaaS) fait parler d’elle depuis la Summit 2022. Lors de cette conférence qui réunit des milliers de professionnels et industries de l’IT, la start-up américaine a annoncé une multitude de nouvelles fonctionnalités pour améliorer sa plate-forme de data storage. Son objectif : aider les entreprises à tirer le meilleur parti des données et mieux répondre aux besoins des data scientists, ingénieurs et développeurs d’applications. Comment la compagnie compte-t-elle s’y prendre et quelles sont ses nouveautés ? Découvrez-le dans cet article !

Le lancement du framework SnowPark pour Python 

SnowPark est un framework qui permet aux développeurs d’importer leurs outils préférés et de les déployer, sans serveur, directement sur le moteur de calcul de l’entrepôt virtuel de Snowflake. En offrant les fonctionnalités des langages Java ou Scala, SnowPark leur donne également la possibilité d’exploiter des bases de code déjà construites pour migrer la logique métier. Enfin, la fonctionnalité d’interaction avec l’API DataFrame (un standard de l’industrie) facilite l’accès aux données par la programmation. 

Au cours du Summit 2022, SnowFlake a affirmé sa volonté d’étendre le support natif de Python, en lançant SnowPark for Python (déjà disponible pour ses clients en préversion publique). Cette extension a pour objectif :

  • d’optimiser l’accès aux bibliothèques tierces (notamment sur la science des données et le traitement de l’apprentissage automatique.).

  • d’améliorer l’accessibilité et la programmabilité pour les métiers des data science ;

  • d’aider les entreprises à créer des applications basées sur les données ;

  • d’accélérer les flux de travail basés sur Python avec un accès transparent au gestionnaire de package et aux packages open source via l’intégration Anaconda.

SnowPark pour Python sera intégré et disponible nativement pour les entreprises. Le framework bénéficiera en plus des nouvelles fonctionnalités et des améliorations dans la prise en charge des données annoncées par SnowFlake.

Un meilleur outil de prise en charge des données : Snowpipe Streaming

SnowPipe est un service qui permet d’intégrer automatiquement et en temps réel des données vers Snowflake.Disponible sur les 3 principaux fournisseurs de cloud (Amazon AWS, Google et Microsoft), il repose sur une architecture de fichiers data et sur le système de notification du prestataire de cloud.

Par exemple, pour AWS, dès que des données sont disponibles dans une zone de préparation, les notifications d’événements AWS S3 déclenchent automatiquement Snowflake. Les données sont alors chargées dans des tables cibles conformément à l’instruction COPY, mais sans intervention manuelle de l’utilisateur.

Ce chargement en continu des données est un enjeu pour les entreprises, car il représente un avantage compétitif. En effet, plus les données sont chargées et accessibles immédiatement, plus les prises de décisions sont également rapides. Les stratégies, le marketing et l’ensemble du workflow d’une entreprise peuvent alors devenir data driven (piloté par les données).

Conscient de ses enjeux, Snowflake a annoncé vouloir encore réduire les temps de latence avec une amélioration de son outil rebaptisé pour sa nouvelle version « SnowPipe Streaming ». Selon Christian Kleinerman, expert en base de données et actuel de vice-président principal des produits chez Snowflake : « Snowpipe Streaming offrira une optimisation de la latence d’un ordre de grandeur équivalent à 10 par rapport à ce qui existe aujourd’hui ». Avec ce nouvel outil, les temps de latence devraient donc passer de quelques minutes à une poignée de secondes.

La présentation des nouvelles tables Iceberg et Materialized 

Lors du Summit 2022, le vice-président de SnowFlake a également présenté deux modèles de tables : les Iceberg et les Materialized tables. Pour comprendre leurs nouveautés, il faut d’abord revenir sur le fonctionnement des tables dans SnowFlake.

Toutes les données de SnowFlake sont stockées dans des bases de données. Chacune de ces BDD est constituée d’un (ou plusieurs) schéma c’est-à-dire des regroupements logiques d’objets de base de données. Les tables font partie de ces schémas.

Snowflake permet aussi d’accéder à des tables externes, dont les données sont stockées dans des fichiers d’une zone de préparation externe. Ces tables externes vont stocker des métadonnées telles que le nom du fichier, des propriétés associées et un identificateur de version. Ces métadonnées et identificateurs permettent ensuite d’interroger les données stockées en externe, comme si elles se trouvaient dans la BDD. Cependant, les tables externes restent en lecture seule donc sans possibilité de DML (manipulation des données), du moins jusqu’à présent…

Materialized et Iceberg ont été présentés comme des tables de « première classe » par Christian Kleinerman,. Elles devraient notamment offrir les mêmes fonctions de gestion et de CRUD (création, lecture, mise à jour, suppression de données) ou de DML que les tables internes, le tout avec des performances similaires.

Les tables Iceberg permettent en plus d’étendre les fonctionnalités de la plate-forme Snowflake aux formats ouverts : Apache Iceberg et Apache Parquet.

Les tables Iceberg pourront être utilisées comme n’importe quelle table Snowflake sans perdre l’interopérabilité disponible dans un format de table ouvert.

L’ajout de formats de table comme Apache Iceberg va également accroître la puissance et la flexibilité des tables externes. Iceberg offre en effet un certain nombre d’avantages et aux utilisateurs comme :

  • un écosystème dynamique avec la prise en charge de plusieurs types de fichiers et moteurs de traitement ;

  • une rapidité accrue ;

  • une meilleure interopérabilité.

En mettant l’accent sur l’interopérabilité et les performances, SnowFlake renforce sa popularité au sein des plates-formes de données dans le cloud. La volonté affichée de la firme de se rapprocher des experts de la data et de la programmation va encore accentuer sa position. Les professionnels de l’IT vont être de plus en plus amenés à exploiter des outils comme SnowPark et SnowPipe.

Qu’en pensez-vous ? Avez-vous déjà travaillé avec la plate-forme SnowFlake ? N’hésitez pas à nous partager vos retours d’expérience sur le forum Free-Work !

 

Par Laura Pouget, Rédactrice Web SEO & Développeuse Informatique.


 

Source et liens utiles :

La Keynote de SnowFlake au Summit 2022

La documentation officielle de SnowFlake

Présentation des tables Iceberg par une ingénieure logiciel SnowFlake

Boostez votre carrière

Les meilleures offres d’emploi sont chez Free-Work

Notre CVthèque est la première source de recherche de talents pour + 1 000 entreprises. Déposez votre CV et postulez en un clic !

Continuez votre lecture autour des sujets :
# Actualités
# Cloud

Commentaire

Dans la même catégorie