Nous contacter

Hadoop-as-a-Service

L’orchestrateur Sahara et les API Sahara

Le service Hadoop-as-a-Service est rendu par l’orchestrateur Sahara d’OpenStack qui gère la création et le cycle de vie de vos clusters sur l’infrastructure Cloud de Cloudwatt. Ce même orchestrateur Sahara offre aussi la possibilité de gérer le cycle de vie des tâche Hadoop (Analytics-As-A-Service). L’orchestrateur s’installe dans un de vos serveurs cloud en lançant la Stack Hadoop-as-a-Service préparée par Cloudwatt.

Avantages de l’orchestrateur Sahara

  • Multi-tenant et gère les contrôles d’accès. Il vous permet de choisir un tenant de votre choix afin d’y lancer votre cluster selon vos droits d’accès.
  • Propose une interface homme/machine conviviale pour la configuration et la gestion du cycle de vie de vos clusters et permet aussi la réalisation de l’ensemble des fonctionnalités au travers de l’API Sahara.
  • Permet de démarrer et de gérer plusieurs clusters en parallèle.
  • Permet la réalisation de modèles de serveurs maîtres et esclaves (taille, choix de la distribution, services activés), le scheduling de jobs, l’ajout ou le retrait de serveurs dans le cluster. Les modèles de cluster décrivent l’architecture, les choix des services ainsi que leur paramétrage.
  • Permet de lancer et de planifier lancement les taches d’analyse (jobs) sur le cluster à partir des binaires d’analyse de l’utilisateur. Il permet aussi de gérer le cycle de vie de ces taches.
  • Permet de gérer les datasources pour alimenter les calculs et stocker les résultats à partir du stockage objet (datalake) ou de stockage HDFS sur stockage local ou stockage bloc centralisé.
  • Agnostique des distributions Hadoop du marché.

Les distributions Hadoop

L’orchestrateur déploie et active une distribution Hadoop parmi un catalogue de distributions fourni par Cloudwatt et par la communauté OpenStack. Le catalogue de distributions comprend les principales distributions du marché, à savoir : Apache, Hortonworks, Cloudera, ainsi que la solution Spark autonome. Les versions supportées sont mises à jour régulièrement selon notre roadmap. Les versions actuellement disponibles sont :

  • Vanilla Apache
  • Cloudera
  • Spark
  • Hortonworks
  • MapR
  • Storm

Pour la liste des versions disponible, merci de vous référer à la FAQ.

L’outillage Hadoop

Les distributions Hadoop fournissent un outillage utilisé pour le monitoring et la supervision du cluster. Cet outillage dépend de la distribution.

L’infrastructure sous-jacente

Les clusters Hadoop tournent sur l’infrastructure de production des services cloud de Cloudwatt et bénéficient des mêmes caractéristiques de service dont les SLA et le support (voir la liste des topologies supporté FAQ Hadoop-as-a-Service). La distribution de référence est Linux. Un utilisateur peut déployer des clusters Hadoop ainsi que d’autres applications et d'autres fonctionnalités au sein d’un même tenant.

Il bénéficie dans ce tenant de l’ensemble des services cloud de Cloudwatt.

En fonction de son utilisation Big Data / Fast Data, l’utilisateur choisit les flavors des serveurs cloud sous-jacents ainsi que le type de stockage adapté à son besoin : du stockage objet pour une utilisation d’archivage, du stockage bloc (permanent/grande capacité) pour une utilisation Big Data et éphémère (éphémère/ultra performant) pour une utilisation Fast Data.