Explicando la configuración de Hadoop

Explicando la configuración de Hadoop

Esta publicación de blog habla sobre importantes archivos de configuración de Hadoop y proporciona ejemplos sobre los mismos. Una comprensión profunda de este tema es crucial para obtener su Certificación de Maestría en Arquitecto de Big Data y realizar todos sus proyectos. Comencemos con los conceptos maestro-esclavo que son esenciales para comprender los archivos de configuración de Hadoop.

Esclavos y amos:
Los esclavos contienen una lista de hosts, uno por línea, que se necesitan para albergar servidores DataNode y TaskTracker. Los Maestros contienen una lista de hosts, uno por línea, que son necesarios para albergar servidores NameNode secundarios. El archivo Masters informa sobre la ubicación del NameNode secundario del demonio Hadoop. El archivo ‘ Maestros ‘ en el servidor maestro contiene un nombre de host, servidores de nodo de nombre secundario.
Hadoop-env.sh, core-ite.xml, hdfs-site.xml, mapred-site.xml, Masters y Slaves están disponibles en el directorio ‘conf’ del directorio de instalación de Hadoop.

Core-site.xml y hdfs-site.xml:
El archivo core-site.xml informa al demonio de Hadoop dónde se ejecuta NameNode en el clúster. Contiene los ajustes de configuración para Hadoop Core, como los ajustes de E / S que son comunes a HDFS y MapReduce.
El archivo hdfs-site.xml contiene los valores de configuración para los demonios HDFS; el NameNode, el NameNode secundario y los DataNodes. Aquí, podemos configurar hdfs-site.xml para especificar la replicación de bloques predeterminada y la verificación de permisos en HDFS. El número real de réplicas también se puede especificar cuando se crea el archivo. Se utiliza el valor predeterminado si no se especifica la replicación en el momento de creación.

Definición de detalles de HDFS en hdfs-site.xml:

Mapred-site.xml:

El archivo mapred-site.xml contiene los valores de configuración para los demonios MapReduce; el rastreador de trabajos y los rastreadores de tareas.

Definición de mapred-site.xml:

Los siguientes enlaces proporcionan más detalles sobre los archivos de configuración:

  • http://hadoop.apache.org/docs/r1.1.2/core-default.html
  • http://hadoop.apache.org/docs/r1.1.2/mapred-default.html
  • http://hadoop.apache.org/docs/r1.1.2/hdfs-default.html

Entorno de tiempo de ejecución por proceso:

Este archivo ofrece una forma de proporcionar los parámetros del cliente para cada uno de los servidores. Hadoop-env.sh proviene de todos los scripts del núcleo de Hadoop proporcionados en el directorio ‘conf /’ de la instalación.
A continuación, se muestran algunos ejemplos de variables de entorno que se pueden especificar:
exportHADOOP_DATANODE_HEAPSIZE = ”128 ″
exportHADOOP_TASKTRACKER_HEAPSIZE = ”512 ″

El archivo ‘hadoop-metrics.properties’ controla los informes y la condición predeterminada es no informar.

Propiedades críticas:

  • Fs.default.name
  • Hadoop.tmp.dir
  • Mapred.job.tracker

Requisitos de red:

El núcleo de Hadoop utiliza Shell (SSH) para iniciar los procesos del servidor en los nodos esclavos y eso requiere una conexión SSH sin contraseña entre el maestro y todos los esclavos y máquinas secundarias.

URL de la interfaz de usuario web:

  • NameNodestatus: http: // localhost: 50070 / dfshealth.jsp
  • Estado de JobTracker: http: // localhost: 50030 / jobtracker.jsp
  • TaskTrackerstatus: http: // localhost: 50060 / tasktracker.jsp
  • Informe de DataBlockScanner: http: // localhost: 50075 / blockScannerReport

Clúster de Hadoop en Facebook:

Facebook usa Hadoop para almacenar copias de registros internos y fuentes de datos de dimensiones y usarlo como fuente para informes, análisis y aprendizaje automático. Actualmente, Facebook tiene dos grupos principales: un grupo de 1100 máquinas con 800 núcleos y aproximadamente 12 PB de almacenamiento sin procesar. Otro es un grupo de 300 máquinas con 2400 núcleos y aproximadamente 3 PB de almacenamiento sin procesar. Cada uno de los nodos de productos básicos tiene 8 núcleos y 12 TB de almacenamiento.

Facebook usa mucho la transmisión y la API de Java y ha usado Hive para construir un marco de almacenamiento de datos de nivel superior. También han desarrollado una aplicación FUSE sobre HDFS.

Configuración de clúster de muestra:

Clúster de Hadoop: un caso de uso típico:

La imagen de arriba explica claramente la configuración de cada nodo. NameNode tiene un alto requerimiento de memoria y tendrá mucha RAM y no requiere mucha memoria en el disco duro. El requisito de memoria para un NameNode secundario no es tan alto como el NameNode primario. Cada DataNode requiere 16 GB de memoria y tienen una gran cantidad de disco duro, ya que se supone que deben almacenar datos. También tienen varias unidades.

Tienes una pregunta para nosotros? Menciónelos en la sección de comentarios y nos comunicaremos con usted.

/ Sin categoría

Comentarios

Los comentarios han sido cerrados