Programa del Curso

1: HDFS (17%)

  • Describir la función de los demonios HDFS
  • Describir el funcionamiento normal de un clúster Apache Hadoop, tanto en el almacenamiento de datos como en el procesamiento de datos.
  • Identificar las características actuales de los sistemas informáticos que motivan a un sistema como Apache Hadoop.
  • Clasificar los principales objetivos del diseño de HDFS
  • Dado un escenario, identifique el caso de uso adecuado para la federación HDFS
  • Identificación de componentes y demonios de un clúster de alta disponibilidad de HDFS
  • Análisis de la función de la seguridad de HDFS (Kerberos)
  • Determinar la mejor opción de serialización de datos para un escenario determinado
  • Descripción de las rutas de lectura y escritura de archivos
  • Identifique los comandos para manipular archivos en el shell del sistema de archivos Hadoop

2: YARN y MapReduce versión 2 (MRv2) (17 %)

  • Comprender cómo afecta la actualización de un clúster de Hadoop 1 a Hadoop 2 a la configuración del clúster
  • Comprender cómo implementar MapReduce v2 (MRv2 / YARN), incluidos todos los daemons de YARN
  • Comprender la estrategia de diseño básica para MapReduce v2 (MRv2)
  • Determinar cómo YARN gestiona las asignaciones de recursos
  • Identificar el flujo de trabajo del trabajo de MapReduce que se ejecuta en YARN
  • Determine qué archivos debe cambiar y cómo para migrar un clúster de la versión 1 de MapReduce (MRv1) a la versión 2 de MapReduce (MRv2) que se ejecuta en YARN.

3: Hadoop Planificación de clústeres (16 %)

  • Puntos principales a tener en cuenta al elegir el hardware y los sistemas operativos para alojar un clúster Apache Hadoop.
  • Analizar las opciones para seleccionar un sistema operativo
  • Comprender el ajuste del kernel y el intercambio de discos
  • Dado un escenario y un patrón de carga de trabajo, identifique una configuración de hardware adecuada para el escenario
  • Dado un escenario, determine los componentes del ecosistema que el clúster debe ejecutar para cumplir el Acuerdo de Nivel de Servicio
  • Tamaño del clúster: dado un escenario y una frecuencia de ejecución, identifique los detalles de la carga de trabajo, incluidos la CPU, la memoria, el almacenamiento y la E/S de disco.
  • Dimensionamiento y configuración de discos, incluidos los requisitos de JBOD frente a RAID, SAN, virtualización y tamaño de disco en un clúster
  • Topologías de red: comprenda el uso de la red en Hadoop (tanto para HDFS como para MapReduce) y proponga o identifique componentes clave de diseño de red para un escenario determinado

4: Hadoop Instalación y administración de clústeres (25 %)

  • En un escenario, identifique cómo controlará el clúster los errores de disco y máquina
  • Análisis de una configuración de registro y un formato de archivo de configuración de registro
  • Comprender los conceptos básicos de las métricas de Hadoop y la supervisión del estado del clúster
  • Identificar la función y el propósito de las herramientas disponibles para la supervisión de clústeres
  • Ser capaz de instalar todos los componentes del ecosistema en CDH 5, incluidos (entre otros): Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive y Pig
  • Identificar la función y el propósito de las herramientas disponibles para administrar el sistema de archivos Apache Hadoop

5: Recurso Management (10%)

  • Comprender los objetivos generales de diseño de cada uno de Hadoop programadores
  • En un escenario, determine cómo el programador FIFO asigna los recursos del clúster
  • Dado un escenario, determine cómo el programador justo asigna los recursos del clúster en YARN
  • En un escenario, determine cómo el programador de capacidad asigna los recursos del clúster

6: Monitoreo y registro (15%)

  • Comprender las funciones y características de las capacidades de recopilación de métricas de Hadoop
  • Analice las interfaces de usuario web de NameNode y JobTracker
  • Descripción de cómo supervisar los demonios de clúster
  • Identifique y supervise el uso de la CPU en los nodos maestros
  • Describir cómo supervisar el intercambio y la asignación de memoria en todos los nodos
  • Identificar cómo ver y administrar los archivos de registro de Hadoop
  • Interpretación de un archivo de registro

Requerimientos

  • Habilidades básicas Linux de administración
  • Conocimientos básicos de programación
  35 horas
 

Número de participantes


Comienza

Termina


Las fechas están sujetas a disponibilidad y tienen lugar entre 09:30 y 16:30.
Los cursos de formación abiertos requieren más de 5 participantes.

Testimonios (3)

Cursos Relacionados

Categorías Relacionadas