Puesta en marcha y desmantelamiento de nodos en un clúster de Hadoop

Puesta en marcha y desmantelamiento de nodos en un clúster de Hadoop

Una de las características más atractivas del marco de Hadoop es su utilización de hardware básico . Sin embargo, esto conduce a bloqueos frecuentes de DataNode en un clúster de Hadoop. Otra característica sorprendente de Hadoop Framework es la facilidad de escalamiento de acuerdo con el rápido crecimiento en el volumen de datos . Debido a estas dos razones, una de las tareas más comunes de un administrador de Hadoop es poner en marcha (agregar) y retirar (quitar) nodos de datos en un clúster de Hadoop.

Puesta en marcha y desmantelamiento de nodos en un clúster Hadoop:

El diagrama anterior muestra un proceso paso a paso para retirar un DataNode en el clúster.

La primera tarea es actualizar los archivos de ‘ exclusión ‘ para HDFS (hdfs-site.xml) y MapReduce (mapred-site.xml).

El archivo ‘excluir’:

  • for jobtracker contiene la lista de hosts que deben ser excluidos por jobtracker. Si el valor está vacío, no se excluye ningún host.
  • para Namenode contiene una lista de hosts a los que no se les permite conectarse al Namenode

Aquí está la configuración de muestra para el archivo de exclusión en hdfs-site.xml y mapred-site.xml:

hdfs-site.xml

property>
name> dfs.hosts.exclude
value> / home / hadoop / excludes
final> true
/property>

mapred-site.xml

property>
name> mapred.hosts.exclude
value> / home / hadoop / excludes
final> true
/property>

Nota: Se debe especificar el nombre de ruta completo de los archivos.

Del mismo modo, tenemos los archivos ‘incluir’:

  • para jobtracker que contiene la lista de nodos que pueden conectarse al JobTracker. Si el valor está vacío, se permiten todos los hosts.
  • para Namenode que contiene una lista de hosts que pueden conectarse al Namenode. Si el valor está vacío, se permiten todos los hosts.

Los comandos ‘ dfsadmin ‘ y ‘ mradmin ‘ actualizan la configuración con los cambios para que conozcan el nuevo nodo.

El archivo ‘ esclavos ‘ en el servidor maestro contiene la lista de todos los nodos de datos. Esto también debe actualizarse para garantizar cualquier problema en el futuro inicio / detención del demonio hadoop.

El paso importante en el proceso de puesta en marcha del nodo de datos es ejecutar Cluster Balancer.

> equilibrador de hadoop – umbral 40

Balancer intenta proporcionar un equilibrio a un cierto umbral entre los nodos de datos copiando los datos en bloque de los nodos más antiguos a los nodos recién encargados.

Entonces, así es como puede hacerlo: puesta en marcha y desmantelamiento de nodos en un clúster Hadoop.

Tienes una pregunta para nosotros? Menciónelo en la sección de comentarios y nos comunicaremos con usted.

Enlaces relacionados:

/ Sin categoría

Comentarios

Los comentarios han sido cerrados