Big Data Management

Este Post inicia con una pregunta: ¿Como llevar acabo la Gestión, la Administración, el Manager, de los principales desafíos al abordar el Big Data?

La respuesta son varias y mas en estos tiempos donde existen herramientas, Frameworks, Metodologías para llevar tan importante labor, desde adquirir, almacenar, procesar y consultar los datos, hasta mantener y compartir.

Se han desarrollado múltiples paradigmas y soluciones para el procesamiento eficiente del Big Data, que deben tener en cuenta las diferentes características de los conjuntos de datos, como la variedad de datos o la velocidad de producción de los mismos.

La Arquitectura Lambda propone la descomposición del problema de procesamiento del Big Data en tres capas: Lote, Servicio y Velocidad. A manera de resumen:

Capa por Lotes: Almacena los datos maestros y calcula funciones primitivas en cualquier subconjunto de los datos. Un ejemplo representativo de la capa por lotes es la pila de Hadoop.

Capa de Servicio: Accede aleatoriamente a las vistas/resultados por lotes de la capa por lotes, indexa las vistas, las carga y realiza consultas sobre los datos en las vistas por lotes.

Capa de Velocidad: Reduce la latencia de las dos capas anteriores, al acceder a los datos más recientes y actualiza la vista en tiempo real en función de los nuevos datos, no vuelve a calcular el conjunto de datos completo. Los sistemas en tiempo real/streaming implementan la capa de velocidad.

El Framework MapReduce es una solución importante para la Gestión del Big Data, creada para procesar conjuntos de datos muy grandes en un entorno distribuido utilizando hardware básico.

MapReduce utiliza una función de mapa en la entrada y combina los resultados intermedios mediante una función de reducción.

La implementación de Apache del Framework MapReduce se basa en el sistema de archivos distribuido de Hadoop (HDFS) y en una base de datos distribuida, HTable. Aunque se usa mucho, MapReduce requiere trabajos que tengan todos los datos disponibles a la vez para que no se pueda usar para aplicaciones que requieren procesamiento en tiempo real o aplicaciones similares a la transmisión.

Se han desarrollado múltiples extensiones para agregar capacidades a este marco como Twister/HaLoop/Tez que permiten trabajos iterativos, recursivos y por lotes. Por otro lado, han surgido paradigmas y soluciones totalmente diferentes para brindar soporte para el procesamiento de Big Data en tiempo real o para manejar el procesamiento de flujo.

Las soluciones de procesamiento en tiempo real intentan reducir la sobrecarga de MapReduce (IMC) u optimizar las consultas en tiempo real sobre una variedad de tipos de Big Data.

Un sistema en tiempo real basado en la nube como Amazon Kinesis Data Streams, es un sistema para el procesamiento en tiempo real de datos de transmisión que puede adquirir datos de múltiples fuentes.

El procesamiento de grandes flujos de datos también es importante, ya que el patrón de flujo de datos es muy común.

Spark (implementación del Framework IMC (In-Memory Computing) se puede usar para procesar flujos al convertir los mismo en datos en varios trabajos por lotes, pero no es adecuado para una aplicación de flujo real. Apache Storm también es otro ejemplo de solución de transmisión real.

Fuentes de información para el presente Post de Investigación: Paradigmadital.com – Computerweekly.com – aws.com – apache.org

Visita el Glosario de Términos de Big Data | ¡Se actualiza día con dia!

Síguenos en las Redes Sociales y ahora en todos los canales de Podcasts, para obtener actualizaciones periódicas y opiniones sobre lo que está sucediendo en el mundo de Project Manager, Agile, Big Data, Cloud, Scrum y mas…
Busca iPMOGuide en Facebook | Twitter | LinkedIn | Pinterest | Podcast

¿Tienes Telegram instalado?
Recibe este Post en nuestro canal, en tu móvil ó tablet.

Nos leemos pronto, ¡un abrazo!