Cloudera Administrator Training for Apache Hadoop

Cloudera Administrator Training for Apache Hadoop

 

Presencial (Málaga)     /    5 días –  28 horas     /  15 a 19 de Octubre   /  1.670€* (-10% empresas afilidas)

 

Este curso de administrador de Cloudera para Apache Hadoop ofrece un conocimiento global de todas las medidas necesarias para operar y mantener un clúster Hadoop. Desde la instalación y la configuración a través de balanceo de carga y tuning, es la mejor preparación para los desafíos a los que se enfrentan los administradores de Hadoop.

 

Objetivo

A través de las clases del instructor y los ejercicios prácticos, aprenderás:

  • El funcionamiento interno de YARN, MapReduce, Spark y HDFS.
  • Las características de Cloudera Manager que harán que la gestión de sus clústeres sea más sencilla, como logging agregado, gestión de la configuración, gestión de recursos, informes, alertas y gestión del servicio.
  • A determinar el hardware e infraestructura correcta para su clúster. La configuración más adecuada y el despliegue para integrar Hadoop en su centro de datos.
  • Cómo cargar datos en el clúster desde ficheros generados dinámicamente utilizando Flume y desde RDBMS utilizando Sqoop.
  • A configurar FairScheduler para proveer de acuerdos de nivel de servicio a múltiples usuarios de un clúster.
  • Las mejores prácticas para preparar y mantener Apache Hadoop en producción.
  • Troubleshooting, diagnosis, tuning y resolución de problemas en Hadoop.

 

Pre-requisitos

Experiencia básica de Linux.

 

Certificación de Administrador

Tras la finalización del curso, se anima a los asistentes a continuar su estudio y a registrarse al examen Cloudera Certified Administrator for Apache Hadoop (270€). Obtener la certificación marca una gran diferencia. Le ayuda a establecerse como un líder en el campo, proveyendo a empleados y clientes de una evidencia tangible de sus habilidades y experiencia.

 

Esquema de Contenidos

Introducción

  • La necesidad de Apache Hadoop
  • ¿Por qué Hadoop?
  • Conceptos fundamentales
  • Componentes del núcleo de Hadoop

Instalación del clúster Hadoop

  • Razones fundamentales para una solución de gestión del cluster
  • Características de Cloudera Manager
  • Instalación de Cloudera Manager
  • Instalación de Hadoop (CDH)

Sistema de ficheros distribuido de Hadoop (HDFS)

  • Características de HDFS
  • Escritura y lectura de ficheros
  • Consideraciones de memoria del NameNode
  • Descripción de la seguridad HDFS
  • WebUI para HDFS
  • Utilizando la Shell de Hadoop

MapReduce y Spark en YARN

  • El rol de los frameworks de computación
  • YARN: El gestor de recursos del clúster
  • Conceptos de MapReduce
  • Conceptos de Spark
  • Ejecución de frameworks de computación en YARN
  • Exploración de las aplicaciones YARN a través de su interfaz web y la Shell
  • Logs de las aplicaciones YARN

Configuración de Hadoop y demonios de logs

  • Uso de Cloudera Manager para la gestión de configuraciones
  • Localización de configuración y aplicación de cambios
  • Gestión de instancias y agregación de servicios
  • Configuración del servicio HDFS
  • Configuración de los demonios de logs de Hadoop
  • Configuración del servicio YARN

Añadiendo datos en HDFS

  • Ingesta de datos desde fuentes externas con Flume
  • Ingesta de datos desde bases de datos relacionales con Sqoop
  • Interfaces REST
  • Mejores prácticas para la importación de datos

Planificación del clúster Hadoop

  • Consideraciones generales sobre la planificación
  • Selección del hardware correcto
  • Opciones de virtualización
  • Consideraciones de red
  • Configuración de nodos

Instalación y configuración de Hive, Impala y Pig

  • Hive
  • Impala
  • Pig

Clientes Hadoop incluyendo Hue

  • ¿Qué son los clientes Hadoop?
  • Instalación y configuración de clientes Hadoop
  • Autenticación y autorización en Hue
  • Oozie Workflows

Configuración avanzada del clúster

  • Parámetros de configuración avanzados
  • Configuración de puertos en Hadoop
  • Configuración de HDFS para la organización en rack
  • Configuración de HDFS en alta disponibilidad

Seguridad Hadoop

  • ¿Por qué la seguridad en Hadoop es importante?
  • Conceptos sobre el sistema de seguridad de Hadoop
  • Qué es Kerberos y cómo funciona?
  • Securización de un clúster Hadoop con Kerberos
  • Otros conceptos de seguridad

Gestión de recursos

  • Configuración de cgroups con pooles de servicios estáticos
  • El FairScheduler
  • Configuración de pooles de recursos dinámicos
  • Configuración de la memoria y CPU en YARN
  • Planificador de consultas en Impala

Mantenimiento del clúster

  • Comprobación del estado de HDFS
  • Copia de datos entre clústeres
  • Agregación y eliminación de nodos en el clúster
  • Rebalanceo del clúster
  • Creación de snapshots de directorios
  • Actualización del clúster

Monitorización del clúster y troubleshooting

  • Características de monitorización de Cloudera Manager
  • Monitorización de clusters Hadoop
  • Troubleshooting de clústeres Hadoop
  • Fallos de configuración habituales

 

Para más información o inscripción al curso ponte en contacto en formacion@eticom.com o 954 006 051.

*IVA  no incluido.

cartel

 

 

eticom.com download