Blog Cloudwatt

Le cloud est devenu le standard pour les Big Data

Affini-tech nous fait bénéficier de son retour d’expérience du terrain sur les Big Data

La journée des partenaires de Cloudwatt qui s’est tenue fin juin 2015, a permis de rassembler certains des meilleurs spécialistes des Big Data et de faire le point sur les technologies, les marchés et les perspectives d’avenir. Après le compte-rendu de Cloudera qui a ouvert cette session, voici celui d’Affini-tech. Le patron et fondateur de l’intégrateur, Vincent Heuschling, a beaucoup insisté sur l’importance du cloud dans le cadre des projets de Big Data et de ses nombreux avantages.

Image 01 - Vincent Heuschling, fondateur d’Affini-tech a partagé son expérience du cloud en Big Data avec les participants à la réunion partenaires de Cloudwatt de fin juin 2015 -

Vincent Heuschling est le fondateur de l’intégrateur Affini-tech. Bien qu’ayant démarré en 2012 en étant spécialisée sur l’infrastructure, la jeune société de services est désormais capable d’intervenir auprès des métiers pour les guider dans l’utilisation de leurs données de bout en bout, depuis la conception de l’infrastructure du projet, jusqu’à l’articulation des méthodes en matière de « data sciences ». 

De vrais projets en Big Data, qui produisent un véritable avantage concurrentiel

Car maintenant, « il y a de vrais projets » nous a assuré Vincent Heuschling, ceci notamment dans le secteur de la distribution (avec un focus particulier sur le Web to store, particulièrement dans l’air du temps), mais aussi dans l’industrie avec des clients comme Neoposte, sans oublier les professionnels de la publicité. La difficulté cependant, c’est là un élément récurrent dans ce paysage des Big Data qui se professionnalise, reste à obtenir des témoignages concrets de la part des entreprises qui se sont lancées dans ces nouveaux projets stratégiques : « tous les clients veulent rester discrets » précise Vincent Heuschling, « car les Big Data offrent un avantage concurrentiel, ce qui n’incite pas à dévoiler ses secrets ».

Chaque projet Big Data est différent

En Big Data chaque projet est différent « même s’il y a des bases communes à tous les projets » a expliqué Vincent dans sa présentation. Il n’existe pas dans ce domaine de « prêt-à-porter » logiciel, à l’inverse de ce qui se fait dans beaucoup de domaines technologiques où la réplication est la norme. Dans ce genre de projets, il y a bien un socle commun avec Hadoop, mais les briques logicielles sont nombreuses et apportent une dimension de complexité indéniable. Hadoop lui-même n’est pas un framework unique, car il est disponible en plusieurs distributions. « Nous travaillons avec 3 distributions différentes de Hadoop » a expliqué le patron d’Affini-tech : Hortonworks, Mapr et Cloudera, dont nous avons publié le compte-rendu de la présentation sur ce blog.

Image 02 - Le socle commun Hadoop (qui existe en plusieurs distributions), ne doit pas faire oublier la complexité de l’écosystème des Big Data -

Le cloud est devenu le standard pour les Big Data

Pour les Big Data, comme dans bien d’autres domaines où il s’est déjà largement imposé, « le cloud est devenu le standard, ce n’est plus une question » a déclaré Vincent Heuschling. Il existe encore des clients qui veulent lancer leurs projets sur site, « mais c’est une erreur » indique-t-il. Il existe une exception à cette règle selon lui, qui correspond aux cas où le client bénéficie lui-même de l’accès à un cloud privé interne ; mais cette exception est rare, précise-t-il immédiatement.

Certains des clients rencontrés sur le terrain par Affini-tech ont bien compris et intégré ce nouveau contexte, mais il y en a d’autres qui acceptent le cloud uniquement pour la phase du POC (preuve de concept). Toutefois, Affini-tech observe que ceux qui ont testé le cloud pour la phase initiale sont fortement incités à « repousser sans cesse la ré-internalisation de leur infrastructure et c’est une bonne nouvelle » selon Vincent Heuschling.

Les avantages du (vrai) cloud qui le rendent incontournable en matière de Big Data

Les avantages du cloud sont en effet nombreux : « il permet de développer son infrastructure en quelques minutes » nous dit Vincent Heuschling. En matière de Big Data, la collecte des données représente « 70% du travail. Si ces données sont dans le cloud il est possible de démarrer en quelques minutes surtout avec une solution HaaS (Hadoop as a Service).

Mais  « attention ! » nous avertit le patron d’Affini-tech : « il y a vrai et faux cloud ». Il faut un produit prêt à l’usage, « c’est ça le vrai cloud comme dans le cas de l’offre de CloudWatt » nous dit-il. Ensuite tout est affaire de montée en charge, de « scalabilité ». Il y a des clients pour qui « le run moyen d’un traitement se déroule en 25 minutes car ils utilisent beaucoup de nœuds et il très appréciable de pouvoir bénéficier dans ce cas d’une forte élasticité ».

Troisième avantage, le mode de paiement à la consommation : « si vous construisez un data lake (voir les explications ci-après), vous ne paierez que le temps dépensé pour les calculs » explique Vincent dans sa présentation.

« Mélanger les données » dans un data lake

Image 03

« Si vos données sont en grande quantité, vous devrez alors recourir au « machine-learning ». Nous procédons à une encapsulation dans des containers dockers activables très rapidement, ce qui a pour avantage de ne pas imposer le redéploiement de l’infrastructure » explique Vincent.

Avec le cloud, les essais-erreurs ne coûtent pas cher

La première étape d’un projet Big Data consiste à modéliser les données (normaliser les dates, les données clients, etc.) pour pouvoir les exploiter en fonction des besoins du métier avec un catalogue. Il faut donc être capable de mettre en place une multiplicité de tâches. Le cloud permet de lancer plus de traitements que des infrastructures internes. « On recourt à Docker, c’est extrêmement important pour la performance » indique Vincent Heuschling, n’en déplaise à ceux qui pensent que c’est un buzzword. « Avec le recul on n’a jamais la certitude que les options choisies soient les bonnes » explique Vincent. « Il faut donc être capable de faire des tests et de multiplier les essais. Or, avec le cloud, ces essais ne coûtent pas chers et sont déployables très rapidement ».