Resumen del Curso
Nuestra Academía de Big Data . también conocida como Big Data Academy ha diseñado un programa donde el participante adquiere las habilidades que le permiten comprender y desplegar el ecosistema de Hadoop on-premise, es decir en su propia infraestructura, utilizando tecnologías de virtualización como docker y kubernete, e identifica plenamente como dicho ecosistema es desplegado en los principales proveedores cloud: AWS, Azure y GCP, utilizando para ello, los principales servicios auto-gestionados, estando así en la capacidad de satisfacer la demanda creciente del mercado, en relación a contar con profesionales con conocimientos en entornos Híbridos de Big Data (on-presmise & on-cloud), así mismo el participante aprende el lenguaje de programación Python requerido en el contexto de proyectos de Big Data para transformar los datos de formatos crudos (RAW) a formatos estructurados.
Todo proyecto de Big Data pasa por diferentes fases en diferentes partes de una arquitectura Big Data, ya sea Real Time o procesamiento Batch: ingestión de datos, procesamiento y delivery (ya sea visual o en repositorio analítico).
Es por ello que PentaDemy ofrece programas profesionales en formato modular, para que los expertos tengan la libertad de elegir qué aprender y en qué momento, cubriendo así todas las necesidades de los proyectos, como se puede ver en la imagen que se muestra a continuación.
¿Por qué estudiar en PentaDemy?
El equipo académico de PentaDemy, además de impartir clases, son profesionales que se dedican a desarrollar proyectos TIC en grandes y medianas empresas, enfrentándose a todo tipo de retos. Gracias a esta experiencia, PentaDemy propone diferentes cursos que ayudarán a los expertos a incrementar sus skills profesionales de cara a abordar proyectos Big Data.
¿Qué conocimiento necesitas?
-
Recomendable conocimientos básicos de SQL.
-
Portar una laptop personal para las clases de mínimo 4GB de RAM.
Metodología
-
Exposición teórica de los temas
-
Desarrollo de casos prácticos
-
Acceso a las clases grabadas
-
Acceso al material exclusivo
-
Acceso a una Maquina Virtual con Clusters reales de Big Data
Ing. con más de 20 años de experiencia como consultor
nacional e internacional en proyectos de Business
Analytics y Big Data. Director/Gerente en empresas locales
y multinacionales, especialista en Gobierno Electrónico,
con dominio de tecnologías emergentes en Cloud como AWS,
Azure
y GCP. Es instructor en soluciones de clase mundial como
Pentaho/IDempiere/Odoo, Actualmente se desempeña como
Chief Data Architect at GIS y Chief Executive
Officer
in
EGS GROUP.
Contenido del curso
MÓDULO 1: Cloud computing Big Data & AWS
-
¿Qué es el Cloud Computing?
-
Creando nuestra cuenta en AWS
-
Conceptos de Big Data o Macro Datos
-
Big Data en el mundo empresarial
-
Las 5 V’s del Big Data
-
¿Qué es la Alta paralelización?
-
Fuentes de datos y su recolección
-
Clúster computacional y alta paralelización.
-
Arquitectura de soluciones.
-
Pipeline de arquitectura tradicional
-
Pipeline de Arquitectura de Big Data
-
Almacenamiento y Cloud Computing
-
Distribución de carga de trabajo
-
Escalabilidad, Alta disponibilidad, Seguridad & Gobierno
-
¿Qué es Hadoop?
-
Componenentes de Hadoop
-
Distribuciones Hadoop
-
Patrones de diseño
-
Capas conceptuales
-
Arquitectura conceptual
-
Componentes tecnológicos disponibles
-
Arquitectura tecnológica
-
Arquetipo de una arquitectura Big Data genérica
-
Definición de un Datalake Productivo
MÓDULO 2: PUC en el Cloud con Docker, vitualizando Cloudera CDH
-
Despliegue de la VM de Cloudera CDH
-
Despliegue de Pentaho User Console con Docker
-
Buenas prácticas de despliegue de la VM de Cloudera CDH
-
Buenas prácticas de despliegue del PUC
-
Primera revisión del entorno de Cloudera CDH
-
Material audio visual y digital de apoyo para el despliegue de tecnologías complementarias: MySQL, PostgreSQL, PostMan y MongoDB.
MÓDULO 2.1: Arquitectura y despliegue local de Pentaho BA
-
Visión general de Pentaho BA
-
Desplegando Pentaho User Console (PUC)
-
Desplegando Pentaho Data Integration
-
Introducción al uso del PUC
-
Seguridad en PUC y automatización de envío de correos
-
Primera interacción con el generador de Cuadros de mando (dashboards) de Pentaho
-
Principios de los Dashboards responsivos (multi-dispositivo)
MÓDULO 3: Procesamiento distribuido paralelizado On-Premise
-
Tecnologías batch sobre Big Data
-
Hadoop como ecosistema de almacenamiento
-
Kafka en Cloudera CDH
-
HDFS como motor de almacenamiento
-
YARN como gestor de recursos
-
MapReduce como motor de procesamiento
-
Replicación controlada de datos
-
Asegurando el tamaño de bloque
-
Capacidad física de un clúster
-
Administración de archivos y recursos sobre Hadoop
-
Hive como infraestructura de almacenamiento
-
SQL sobre MapReduce
MÓDULO 3.1: Orquestando cluster Big Data con Pentaho BA
-
Archivos de HDFS como tablas Hive
-
Particionamiento estático y dinámico
-
Formatos binarios de archivos: Parquet, ORC y Avro
-
Compresión optimizada de datos
-
Configuración y tuneo de procesos en Hive
-
Sqoop como motor de ingesta de datos
-
Importando datos a Hadoop a bases de datos relacionales
-
Arquetipo de ingesta de datos batch
-
Arquetipo de modelamiento de datos
-
Arquetipo de procesamiento de datos
-
Hue como interfaz gráfica para los procesos
MÓDULO 4: Procesamiento Real-Time
-
Hue como interfaz gráfica para los procesos
-
¿Streaming, real time, near real time o micro batch?
-
Arquitectura general para proyectos real time
-
Captura de datos desde fuentes real time: torenta de datos
-
La importancia de los microservicios
-
Almacenamiento de baja latencia: HBase
-
Region Servers y metadata
-
NoSQL: Familias de columnas
-
Modelamiento de baja latencia basado en keys
-
Integrando HBase y Hive
-
SQL sobre HBase: Phoenix
-
Procesamiento real time con Spark Streaming
-
Arquetipo de procesamiento real time
-
Arquetipo enriquecimiento real time
-
Limitaciones y cómo superarlas
MÓDULO 4.1: Arquetipos de ingesta
-
Arquetipo de ingesta de datos batch
-
Arquetipo de modelamiento de datos
-
Arquetipo de procesamiento de datos
-
Tecnologías batch sobre Big Data
MÓDULO 4.2: Data Ingestion en AWS In Real Time
-
Introducción a AWS
-
Entendiendo que es un Data Lake
-
Creando un Data Lake en Hadoop
-
Creando un Data Lake usando AWS
-
Métodos de recolección de datos
-
Kinesis Firehose (diseño y despliegue de flujo de datos near realtime desde redes sociales I)
-
Kinesis Data Stream Firehose (diseño y despliegue de flujo de datos near realtime desde redes sociales II)
-
DMS (Migrando BBDD en AWS)
-
Pipeline (construyendo nuestro primer pipeline)
MÓDULO 4.3: Apache Kafka, Pentaho y DEMO de procesamiento In Real Time
-
¿Qué es Apache Kakfa?
-
Arquitectura y Despliegue local
-
Preparando Pentaho Data Integration (PDI)
-
Proyecto Bancario Demo con Kafka
-
Acceso a los logs de sitio web bancario
-
Productores y consumidores de logs con PDI
-
Consumidores Kafka de múltiples Topics
-
Demo de procesamiento en tiempo real extremo a extremo
-
Kafka como repositorio temporal de baja latencia
-
Tópico, producers y consumers
MÓDULO 4.4: AWS y Kafka Clúster Elasticsearch y Dashboard con Kibana
-
Analytics en Amazon Web Services
-
Seguridad y Usuarios en AWS
-
Clúster Kafka en AWS
-
Conectando un EC2 para Kafka
-
Demo de envío y recepción de mensajes con Pentaho de Orquestador.
-
Clúster de ElasticSearch en AWS
-
Dashboard con Kibana
-
Limpiando recursos en AWS
MÓDULO 4.5: On Premise-Kafka Clúster Elasticsearch y Dashboard con Kibana
-
Despliegue de ElasticSearch localmente
-
Despliegue de Kibana localmente
-
Clúster Kafka localmente
-
Demo de envío y recepción de mensajes con Pentaho de Orquestador
-
Dashboard con Kibana
MÓDULO 5: Eclipse Mosquito - MQTT Broker DEMO IoT con Pentaho BA
-
¿Qué es Mosquito – MQTT Broker?
-
Arquitectura y Despliegue local
-
Preparando Pentaho Data Integration (PDI)
-
Proyecto de Internet de las cosas IOT
-
Orquestando datos con Pentaho
MÓDULO 5.1: Dashboard IoT, Real Time con Pentaho CDE
-
Construyendo Dashboard en tiempo real con Pentaho
-
Leyendo datos en tiempo real desde el Dashboard con Pentaho
-
Demo completa extremo a extremo
MÓDULO 6: Machine Learning sobre Big Data
-
Analítica en el mundo empresarial
-
Analítica exploratoria
-
Creando consultas ad_hoc con impala
-
Compartiendo la metadata del clúster entre herramientas
-
Métodos descriptivos sobre Big data
-
Algoritmos descriptivos disponibles sobre Spark MLlib
-
Implementación de KMeans con Spark
-
Métodos predictivos sobre Big Data
-
Implementación de un modelo predictivo
-
Algoritmos predictivos disponibles sobre Spark MLlib
MÓDULO 7: Redes neuronales & Inteligencia Artificial sobre Big Data
-
Neuronas y Perceptrones
-
Keras y Tensorflow
-
Redes Neuronales para predicción numérica
-
Funciones de activación
-
Redes Neuronales para predicción categórica
-
Procesamiento de procesos matriciales
-
Extendiendo los recursos computacionales del clúster: La GPU
MÓDULO 8: Big Data On Cloud Azure | Google | Cloud Platform | AWS
-
Infraestructura Cloud vs Onpremise
-
Patrones Big Data Multi-Cloud
-
Arquitectura Big Data on Hybrid Multi-Cloud
-
Estrategia de instalación de un clúster
-
Instalación de un clúster de Big Data
-
Herramientas de Big Data on Azure
-
Despliegue de infraestructura Azure
-
Herramientas de Big Data on AWS
-
Despliegue de infraestructura sobre AWS
-
Herramientas de Big Data on GCP
-
Despliegue de infraestructura sobre GCP
-
Cálculo y ahorro de presupuesto on Cloud
MÓDULO 9: Proyecto Integrador
-
Proyecto Integrador
Preguntas frecuentes
¿Tengo acceso ilimitado a las clases?
Cuando realices la compra vas a poder acceder las veces que quieras dentro de un periodo de dos meses.
¿Cuándo inicia el curso?
Cuando tú quieras, lo puedes hacer a tu ritmo, ya que el acceso a es ilimitado durante dos meses.
¿Cómo obtengo el certificado del curso?
Luego de que termines el curso, debes de desarrollar las actividades correspondientes y publicarlo. El instructor revisará y si todo es conforme se emitirá la certificación.
¿Cuáles son las formas de pago?
Puedes realizar el pago a través de PayPal, tarjeta de crédito ó débito. También puedes realizar el pago en efectivo, en Perú en una de nuestras cuentas bancarias y en otros países mediante Western Union, cuando agregues el curso al carrito selecciona la opción de pago en efectivo. Una vez realizado el pago en un plazo máximo de 48 horas te llegará un correo con tus datos de acceso para el curso.
¿En qué moneda están los precios?
El pago es dólares americanos, sólo los alumnos peruanos pueden realizar el pago en Soles.
¿A quién escribo si tengo dudas?
Para consultas sobre los cursos:
+51 902 572 982.
¿Porqué confiar en nosotros?
Instructores
Nuestros instructores son certificados en tecnologías como Pentaho, AWS, GCP, Azure y cuentan con experiencia en los temas, dictados, con una amplia experiencia real en aulas.
Acceso exclusivo a nuestro foros y canales de comunicación (telegram/discord)
Tenemos foros, tutoriales y material de acceso exclusivo, retos y muchos recursos con los que puedes empezar desde ya, y así conocer más de nuestro trabajo.
Aprende con la práctica
El nivel de retención de aprendizaje es mayor cuando se práctica haciendo, por ello todos los cursos tienen actividades lo que te permitirá retener un 75% de lo aprendido.
Tutoría constante
Los miembros del equipo responderán oportunamente a tus preguntas y constantemente compartiremos recursos exclusivos para los alumnos.
Feedback
La interación entre estudiantes e instructures en los cursos presenciales nos brindan un feedback para los cursos en la modalidad virtual. Además tenemos clases en vivo en nuestro canal de Youtube.
Comunidad
Ingresarás a una comunidad, en dónde si necesitas ayuda tus compañeros y el equipo siempre buscarán la mejor forma de ayudarte.
Data Engineer I & Big Data Hybrid-Cloud
Este curso es una experiencia nueva de aprendizaje hacia temáticas complejas.
+40 vídeos
Doble Certificación por 32 horas académicas
Acceso Inmediato
Disponible las 24 horas
Acceso habilitado durante dos meses
Desarrollo de Proyecto Integrador