BIG DATA
& IA ESCALABLE
Procesamiento de volúmenes masivos mediante arquitecturas distribuidas para IA de alto rendimiento.
Duración
16 horas intensivas
Modalidad
Virtual (vía Zoom)
Enfoque
Spark / Hadoop
Instructor
Leonardo Correa
Frecuencia
1 vez por semana
Horario
Sábado 8:00am - 12:00pm CRC
Descripción del Curso
Este curso aborda cómo procesar, almacenar y analizar grandes volúmenes de datos para generar valor estratégico mediante IA escalable. Se trabajará sobre arquitecturas distribuidas que permiten llevar modelos de Machine Learning a clústeres empresariales.
Los participantes comprenderán cómo tecnologías como Apache Spark permiten gestionar datos estructurados y no estructurados de forma masiva, habilitando soluciones analíticas de alto impacto.
Objetivo del Curso
Desempeñar capacidades para procesar volúmenes masivos de datos utilizando herramientas de Big Data e integrar algoritmos de IA para generar análisis predictivos y soluciones escalables.
Estructura Sugerida
8 Módulos de computación distribuida
Introducción al Big Data
Volumen, Velocidad y Variedad. Sistemas tradicionales vs Arquitecturas distribuidas.
Arquitecturas de Datos
Ecosistema Apache Hadoop y Apache Spark. Procesamiento batch vs Tiempo real.
Ingesta y Almacenamiento
Data Lakes, Pipelines y ETL para datos masivos estructurados y no estructurados.
Procesamiento con Spark
Fundamentos de clúster, transformaciones y manejo de grandes datasets distribuidos.
Machine Learning a Escala
Introducción a MLlib. Modelos de clasificación y regresión en clúster.
Integración de IA
Flujo completo de datos masivos hacia modelos de decisión automatizados.
Visualización y Explotación
Dashboards para analítica masiva e interpretación de resultados de negocio.
Buenas Prácticas
Gobernanza de datos masivos, seguridad, privacidad y optimización de costos.
Metodología
Sesiones virtuales en vivo con demostraciones reales de procesamiento distribuido, análisis de casos y construcción de flujos técnicos escalables.
Resultado esperado
Al finalizar, podrás diseñar arquitecturas de datos que soporten modelos de IA de alto rendimiento, optimizando el uso de infraestructuras masivas.