Blog Cloudwatt

Cloudera à la confluence du cloud computing et des Big Data

L’éditeur US de la célèbre distribution Hadoop nous livre sa vision du futur

Image 01 - Quelques uns des partenaires que Cloudwatt a réunis dans ses locaux de Boulogne Billancourt fin juin 2015 -

La journée des partenaires de Cloudwatt qui s’est tenue fin juin 2015, a permis de rassembler certains des meilleurs spécialistes des Big Data et de faire le point sur les technologies, les marchés et les perspectives d’avenir. Voici les notes que nous avons prises lors de cette conférence qui a vu se succéder les présentations de Cloudera, d’Affini-Tech et de Quasardb.

La première de ces présentations était celle de Cloudera, qui est considéré comme un des leaders, sinon le leader de distribution Hadoop. Jérôme Campo, ingénieur avant-vente de l’éditeur, nous a livré ses impressions sur le marché des Big Data et la vision du futur de Cloudera. Les deux autres présentations feront l’objet de compte-rendus séparés.

Image 02 - Jérôme Campo “Nous ne nous appelons pas Hadoopera mais Cloudera et cela a une signification ! -

Qui est Cloudera ?

Cloudera est une Société américaine fondée en 2008 à Palo Alto par des anciens des GAFA, ses fondateurs ont très rapidement été rejoints par un des créateurs de Hadoop, Doug Cutting, un ancien employé de Yahoo! C’est lui qui a choisi l’éléphant bien connu comme emblème du framework qu’il avait créé, en s’inspirant d’un jouet possédé par son fils (voir la photo et l’article sur le site de CNBC et sur la droite).

La vision initiale de Cloudera, dès sa création, était de “packager la technologie naissante Hadoop et d’en faire quelque chose pour les entreprises” nous a expliqué Jérôme. Ceci a permis à la start-up d’opérer beaucoup de levées de fonds et en conséquence, d’embaucher et de développer sa plateforme technologique. Le succès fut total, car Cloudera a réussi à attirer sur son projet des grands noms de l’informatique comme Intel qui est désormais actionnaire. Le géant américain des micro-processeurs a décidé d’arrêter sa propre distribution Hadoop, tout en transférant 300 personnes de son propre personnel à Cloudera. A mi 2015, l’éditeur américain est fort d’environ 1.000 employés dans le monde dont 300 personnes en R&D, dédiés au développement. On ne peut plus vraiment parler de start-up, il s’agit bel et bien d’un éditeur conséquent. Le support client s’effectue depuis la Hongrie, l’Allemagne et l’Angleterre.

Enfin et surtout, Jérôme Campo a fait remarquer que “Cloudera ne s’appelle pas Hadoopera” et que cela n’était pas neutre, et donne une bonne justification au partenariat avec Cloudwatt notamment.

Une vision ambitieuse : interagir avec l’ensemble du SI de l’entreprise

La vision de Cloudera est ambitieuse : leur objectif est de devenir un nouveau hub de données pour facilement interagir avec l’ensemble du SI de l’entreprise, tout en garantissant à l’utilisateur final de garder ses outils d’analyse quotidiens. Tout ceci avec une plateforme basée sur Hadoop.

Image 03 - Cloudera une distribution 100% open source mais sans concession pour la sécurité -

L’insertion dans le SI de l’entreprise implique beaucoup de choses : workflow management, sécurité, certification des applications métiers (tests/versioning/benchmark, support), on est bien dans une vision entreprise et “carrier grade” des Big Data.

Un business model hybride

Le business model de Cloudera est hybride, tout en étant appuyé à 100% sur l’open source. “Nous sommes l’acteur le plus important des technologies Apache tous moteurs confondus” a précisé Jérôme Campo. “L’open source est dans notre ADN et nous packageons des fonctionnalités sans verrouillage (lock-in) de l’utilisateur”, un point de vigilance très important dans le choix d’une distribution open source, comme cela a été répété lors de la conférence - à laquelle participait Thierry Chaumeron de Cloudwatt - sur la technologie OpenStack lors du Cloud Computing World Expo de 2015.

A cette base open source, l’éditeur américain ajoute ses propres modules IP à valeur ajoutée “pour mettre en valeur des fonctionnalités open source : mise en sécurité, encryption etc. sans introduire ni boîte noire, ni lock-in” a insisté Jérôme Campo.

Au moment de cette présentation, 650 à 700 clients mondiaux avaient souscrit à l’offre de support de Cloudera, avec 80% de taux de renouvellement. Un signe qui ne trompe pas : “les clients entreprise ont bien perçu la valeur” de Cloudera nous a déclaré Jérôme dans sa présentation. Entre 160 et 200 solutions technologiques sont validées sur cette plateforme avec des tests d’intégration. Les clients sont sûrs ainsi qu’ils peuvent se lancer sans crainte. Cloudera travaille avec des partenaires comme SAS Institute : “ce partenaire est capable de fournir un gros effort d’ingénierie pour développer son service sur notre plateforme” explique l’ingénieur de Cloudera.

L’éditeur apporte ainsi le meilleur des deux mondes : la démarche open source avec son ouverture et sa capacité à évoluer rapidement d’une part, et d’autre part la garantie de sécurité et d’interopérabilité offerte par un éditeur de solutions d’entreprise traditionnel. Il s’agit donc bien d’une véritable plateforme d’entreprise, reconnue pour ses caractéristiques de sécurité de bout en bout. Celle-ci “va permettre de garantir la traçabilité de tous les moteurs pour savoir qui fait quoi sur le cluster” explique Jérôme Campo. C’est ce qui fait que Cloudera est le seul à avoir des exemples de certification PCI DSS (avec Mastercard) sur des clusters Hadoop*. De ce fait, toutes les sociétés du secteur financiers sont intéressés par ces fonctionnalités phare.

(*) PCI DSS est le standard de sécurité requis par les organismes de cartes bancaires pour avoir le droit de stocker des numéros de cartes bleues sur ses serveurs. Cette certification passe par une check-list de 12 critères décrits sur le site de PCI.

Cas d’usages : le cloud computing s’impose avec ses architectures élastiques

“90% des cas d’usage sont sur les infrastructures des clients (on-premises)” explique Jérôme Campo. Mais depuis le début de l’année 2015, on observe une indéniable volonté de “cloudifier”, et donc de gagner en élasticité et de porter des clusters Cloudera sur des infrastructures publiques. “Il faut donc une infrastructure pour provisionner/déprovisionner rapidement des clusters comme ce que sait faire Cloudwatt” explique l’ingénieur de l’éditeur américain. Par ailleurs, on observe de plus en plus de volontés, de la part des clients, de construire de nouveaux clusters élastiques pour relier les médias sociaux et l’Internet des objets à d’autres clusters plus internes. Ceci implique l’analyse de données massives et événementielles. Or, “les infrastructures cloud sont suffisamment robustes pour permettre cela”, conclut Jérôme.

La FINRA (l’AMF américain) “traite toutes ses données dans le cloud”

Une des grandes références de Cloudera c’est la FINRA, l’autorité des marchés financiers américaine, qui “traite tout dans le cloud” et sur une distribution standard de Cloudera. Le système “ajoute une centaine de tera octets par jour et en parallèle, “génère des agrégats de données pour produire des statistiques en quelques secondes. Le temps de traitement ne se mesure plus en minutes, voire en heures comme cela se faisait avant” et cela grâce au cloud computing.

OpenStack et Cloudera ?

OpenStack a été longuement observé par l’éditeur et c’est cela qui l’a rapproché de Redhat. “On a déployé fin avril début mai un plug-in Sahara (le croisement entre Openstack et Hadoop) pour Cloudera. “Tous les moteurs CDH (Cloudera Distribution pour Hadoop), Spark (framework Apache Hadoop) ou Impala (le moteur massivement parallèle de Cloudera) sont disponibles et tout cela en sécurisant le cluster (et ça marche !)” a expliqué Jérôme Campo. Un développement de ce point est d’ailleurs disponible sur le blog de l’éditeur.

En conclusion, la solution d’environnement logicielle de Cloudera combinée à un cluster Hadoop tel que ceux fournis par Cloudwatt permet d’avoir à disposition une solution complète, entièrement sécurisée, et facile à intégrer au SI de l’entreprise.