Amazon Web Services fait le plein de nouveautés

CloudData-stockageStockage

L’événement AWS re: Invent 2012 a été l’occasion de faire le point sur le futur d’Amazon Web Services : le datawarehouse Redshift et la nouvelle solution de gestion des données AWS Data Pipeline ont été évoqués.

Dédié aux utilisateurs du cloud Amazon, le premier événement mondial AWS re: Invent 2012, en plus d’être une vitrine pour Amazon Web Services (AWS), aura été l’occasion de multiplier les annonces et de démontrer son dynamisme.

La conférence s’est ouverte sur la démonstration par les chiffres du succès rencontré par le cloud AWS (Amazon Web Services) : le service de stockage Amazon S3 a dépassé les 1,3 trillion d’objets stockés (1 trillion = 10 puissance 18 = 1 milliard de milliards), sur lesquels 830 000 requêtes sont exécutées chaque seconde. 3,7 millions de clusters Elastic Map Reduce ont également été créés depuis la lancement du service en mai 2010.

Pour supporter l’ensemble des clients de AWS – Amazon n’a pas révélé leur nombre, se contentant d’indiquer que 1500 institutions académiques et 300 agences gouvernementales l’exploitent de par le monde – l’entreprise de Jeff Bezos a indiqué ajouter au quotidien autant de capacité serveurs que l’ensemble des serveurs que le marchand avait acquis pour atteindre les 5 milliards de dollars de chiffre d’affaires en 2003 !

Avant même que s’ouvre la manifestation, Amazon a offert une vue limitée de Redshift, un service d’entrepôt de données (datawarehouse) relationnel SQL dans le cloud pour l’analyse rapide et à faible coût de très gros volumes d’informations.

Redshift est un cluster de taille variable, lancé et piloté à partir de AWS Management Console, et exploitant des composants ParAccel sur deux types de noeuds (node), 2 To ou 16 To, avec la capacité d’évoluer à chaud de plusieurs centaines de Go à plusieurs Po. La solution reprend les fonctionnalités de business intelligence (BI) des bases SQL, note Silicon.fr.

Elle offre du stockage en colonnes, la compression des données, et des hautes performances I/O (entrées/sorties) et réseaux. Certifié Jaspersoft et MicroStrategy, le service devrait bénéficier d’outils de BI fournis par ces deux éditeurs. Cognos serait également dans la boucle…

Mais la principale force de AWS Redshift tient certainement dans son prix, qui démarre à 85 cents l’heure, soit moins de 1 000 dollars par an le téraoctet (le coût du To dans un data warehouse est de l’ordre de 20 000 dollars). Il faut ramener ce prix à celui, exorbitant, d’un data warehouse, l’utilisateur ne supportant plus le coût de l’infrastructure que sous un mode locatif et capacitif, ce qui fait la différence.

Dans ces conditions, et en dehors du Big Data qui n’en est qu’à ses prémices, l’analyse de très gros volumes de données est rendu accessible via Redshift, en particulier aux PME…

AWS Data Pipeline est une nouvelle solution qui prend place au dessus de EC2, S3, des clusters EMR (Elastic MapReduce) ou d’une couche matérielle. Elle vise à automatiser les mouvements de données et les processus liés à l’orchestration, l’intégration et au traitement des workflows de très gros volumes de données.

Le principe de cette solution est de définir où sont les données, ce qu’il faut en faire, et où stocker les résultats, ce qu’Amazon nomme un « Pipeline Definition » et qui réunit les sources, des pré-conditions (sous la forme d’assertions appliquées dans un ordre défini et dans les processus), les destinations, les étapes des processus, et le schéma opérationnel.

Une instance Task Runner, du nom de l’application open source développée pour Data Pipeline, surveille les tâches et s’exécute lorsqu’elles sont disponibles. Et un message avertit Amazon SNS lorsqu’un pipeline est complet.

Destinée aux bases de données ou aux outils analytiques en mémoire, une instance cluster High Memory (cr1.8xlarge) fait son apparition sur Amazon EC2. Elle possède 240 Go de mémoire vive RAM et 2×120 Go de mémoire SSD.

Pour l’exécution des analyses à très grande échelle ou les grandes tâches Hadoop avec Amazon Elastic MapReduce sur EC2, le nouveau type d’instance cluster High Storage (hs1.8xlarge) possède 117 Go de mémoire vive RAM et 48 To de mémoire (configuré comme 24x2To de disques durs).