SlideShare una empresa de Scribd logo
BIG DATA
FUNDAMENTOS
Docente: José Carlos NavarroVega
E-mail: jcnavarro@unamad.edu.pe
Ingeniería de Sistemas e Informática
¿De dónde provienen los datos?
En las últimas dos décadas, la velocidad y el
acceso a Internet han aumentado
considerablemente en todo el mundo,
causando una explosión en la cantidad de
datos que se producen y recopilan. Las
principales empresas están luchando para dar
sentido a estos conjuntos de datos tan
grandes y todos están de acuerdo en que las
luchas y oportunidades de BIG DATA.
¿De dónde vienen todos estos datos?
Cada segundo creamos nuevos datos a través
de computadoras, dispositivos móviles y
dispositivos de Internet de las cosas,
wearables, beacon y más.
Ingeniería de Sistemas e Informática
¿De dónde provienen los datos?
En un mundo cada vez más digital
intensificado por el brote de COVID-19, 2020
ha introducido una nueva era en la que la
tecnología y los datos han asumido un papel
más importante en nuestra vida diaria. A
medida que aprendemos a adaptarnos a esta
nueva era, los datos nunca duermen.
Los datos se generan constantemente en clics
en anuncios, reacciones en las redes sociales,
acciones, viajes, transacciones, contenido de
transmisión y mucho más. Cuando se
examinan, estos datos pueden ayudarlo a
comprender mejor un mundo que se mueve
a velocidades cada vez mayores [1].
Ingeniería de Sistemas e Informática
¿De dónde provienen los datos?
Verificar los datos estadísticos de internet en tiempo real ingresemos a la dirección web:
https://www.internetlivestats.com/
La población mundial de internet está
creciendo significativamente año tras año.
Hasta junio del 2019, Internet llega a 58.8%
de la población mundial y ahora representa a
4.53 billones de personas.
Ingeniería de Sistemas e Informática
¿De dónde provienen los datos?
Ingeniería de Sistemas e Informática
¿Qué es Big Data?
Big Data (grandes datos, grandes volúmenes de datos o macrodatos como recomienda
utilizar la Fundación Fundéu BBVA) supone la confluencia de una multitud de tendencias
tecnológicas que venían madurando desde la primera década del siglo XXI, y que se han
consolidado durante los años 2011 a 2013, cuando han explosionado e irrumpido con gran
fuerza en organizaciones y empresas, en particular, en la sociedad, en general: movilidad,
redes sociales, aumento de la banda ancha y reducción de su coste de conexión a Internet,
medios sociales (en particular las redes sociales), Internet de las cosas, geolocalización, y de
modo muy significativo la computación en la nube (cloud computing).
Los Big Data están brotando por todas partes y utilizándolos adecuadamente proporcionarán
una gran ventaja competitiva a las organizaciones y empresas. En cambio, su ignorancia
producirá grandes riesgos en las organizaciones y no las hará competitivas. Para ser
competitivas en el siglo actual, como señala Franks (2012): “Es imperativo que las
organizaciones persigan agresivamente la captura y análisis de estas nuevas fuentes de datos
para alcanzar los conocimientos y oportunidades que ellas ofrecen”.
Ingeniería de Sistemas e Informática
Definición de Big Data
Los Macrodatos o Big Data, hasta ahora no tiene una definición muy precisa, pero hay cierta
coincidencia:
Adrian Merv, vicepresidente de la consultora Gartner, que en la revista Teradata Magazine,
del primer trimestre de 2011, define este término como: “Big Data excede el alcance de los
entornos de hardware de uso común y herramientas de software para capturar, gestionar y
procesar los datos dentro de un tiempo transcurrido tolerable para su población de usuarios”
McKinsey Global Institute en un informe muy reconocido y referenciado, de mayo de 2011,
define el término del siguiente modo: “Big Data se refiere a los conjuntos de datos cuyo
tamaño está más allá de las capacidades de las herramientas típicas de software de bases de
datos para capturar, almacenar, gestionar y analizar”.
La consultora tecnológica IDC, considera que: “Big Data es una nueva generación de
tecnologías, arquitecturas y estrategias diseñadas para capturar y analizar grandes volúmenes
de datos provenientes de múltiples fuentes heterogéneas a una alta velocidad con el objeto
de extraer valor económico de ellos”.
Ingeniería de Sistemas e Informática
Definición de Big Data
La consultora Gartner es: “Big Data son los grandes conjuntos de datos que tiene tres
características principales: volumen (cantidad), velocidad (velocidad de creación y utilización)
y variedad (tipos de fuentes de datos no estructurados, tales como la interacción social,
video, audio, cualquier cosa que se pueda clasificar en una base de datos)”. Estos factores,
naturalmente, conducen a una complejidad extra de los Big Data; en síntesis “‘Big Data’ es un
conjunto de datos tan grandes como diversos que rompen las infraestructuras de TI
tradicionales”
Ingeniería de Sistemas e Informática
¿Cuál es la importancia del Big Data en el mundo?
Desde carros auto-manejados hasta drones que entregan paquetes a la puerta de nuestra
casa, son solo el comienzo de las aplicaciones de Big Data (Rijmenam, 2013a). La revolución
de Big Data no solo se refiere al exponencial crecimiento del crecimiento de los datos,
también recae en el mejoramiento de los métodos estadísticos y computacionales. La
capacidad de cómputo se dobla cada 18 meses según la Ley de Moore, pero eso es nada a
comparación de un algoritmo con una serie de reglas que puede ser usado para resolver un
problema miles de veces más rápido que un método computacional convencional
(Shaw,2014). He aquí la importancia en el mundo académico.
En marketing algunos usos familiares son “sistemas de recomendación” que compañías como
Facebook, Amazon, Netflix usan para recomendarnos o sugerirnos algún producto basado en
intereses anteriores propios y de otros millones o billones de clientes.
El Institute for Quantitative Social Science de Harvard tiene por propósito ayudar a resolver
problemas sociales a través de datos, de los que existen muchos ejemplos Uno muy
interesante que se aplicó en México, donde se detectó que 4 millones de familias se
arruinaron al año por no tener un seguro de médico. Así surgió el Seguro Popular (Harvard,
2014). Con más datos podemos hacer más cosas y las posibilidades son ilimitadas.
Ingeniería de Sistemas e Informática
¿Cuál es la importancia del Big Data en el mundo?
Big Data ayudará a tomar las decisiones del futuro basadas en datos, ayudará a predecir el
futuro basado en el poder de los algoritmos pero lo más importante nos ayudará a
comprender mejor nuestro mundo como un todo y quedará en nosotros aplicarlo de forma
correcta
Una frase que resume todo lo anterior es: “Big Data nos ayuda a ver de nuevas formas, nos
ayuda a ver mejor, nos ayuda a ver diferente” (Cukier, 2014). Big Data jugará un rol de gran
importancia en la sociedad, en el sector empresarial y en los gobiernos.
Ingeniería de Sistemas e Informática
¿Cuándo es necesario big data?
Hay escenarios donde no es suficiente trabajar con un data warehouse. También tenemos una
clasificación para los tipos de big data que permite dirimir escenarios genéricos. Sin embargo,
esto no es suficiente en el contexto de una organización donde la experimentación no tiene un
amplio margen [3, pag. 22].
Las organizaciones están trabajando en cinco grandes categorías de casos de uso. Estos casos de
uso considerados como estrategias de negocio enfocada a big data, y son los siguientes [3, pag.
22]:
1) Toma de decisiones: Consiste en la ampliación de las capacidades tradicionales de toma de decisiones
mediante las tecnologías de big data, lo que significa que los sistemas de inteligencia de negocio y
almacenes de datos corporativos pueden alimentarse o combinarse con los repositorios de big data.
2) Operaciones e inteligencia operacional: Consiste en la aplicación de estas tecnologías en el ámbito de
operaciones tanto para el control y el análisis de proceso de negocio como para el diseño e
implementación de sistemas transaccionales. Este segundo escenario trasciende de la toma de
decisiones y permite entender por qué las tecnologías big data están llamadas a ser muy relevantes
dentro de las tecnologías de información. Es previsible que se integren de modo natural en múltiples
aplicaciones.
Ingeniería de Sistemas e Informática
¿Cuándo es necesario big data?
3) Validación de hipótesis y resolución de problemas: Consiste en encontrar soluciones para problemas
de negocio que no han sido anteriormente abordados en una organización y para los cuales no hay
preguntas predefinidas Es decir, se busca conocer qué ha sucedido, qué factores son los más
y el porqué. Es necesario crear hipótesis y validarlas a través de la técnica más adecuada y eficiente.
tipo de aplicación es el equivalente a tener a Sherlock Holmes en casa. Es, en definitiva, un entorno
debe ser lo suficientemente flexible para funcionar en diferentes escenarios de necesidades [3, pag.
4) Productos y servicios basados en datos: El dato se transforma en la pieza angular para mejorar la
experiencia de uso del producto y servicio o para el diseño y despliegue de este. Estamos hablando
modelos de negocio en los que el dato y los algoritmos analíticos generan valor tanto para el cliente
como para la organización, y por ello modifican todos los aspectos primordiales del modelo de
[3, pag. 22].
5) Comercio de datos: El dato se prepara para su venta a terceros. Esto puede incluir diversos procesos,
como agregación, transformación y distribución del dato o, en el caso de contener información
enmascarar dichos datos para que el conjunto final contenga datos anónimos. Este tipo de uso
puede derivar en diseñar una plataforma ad hoc. El dato puede comercializarse en bruto o en forma
conocimiento [3, pag. 22].
Ingeniería de Sistemas e Informática
Paradigmas de procesamiento de big data
Características Paradigmas de procesamiento
Ingeniería de Sistemas e Informática
Paradigmas de procesamiento de big data
Batch Processing: El procesamiento por lotes es la solución para procesar grandes volúmenes
de datos estáticos. Decimos que el procesamiento por lotes utiliza datos estáticos porque
con datos que ya están en el sistema (almacenamiento de datos).
Este paradigma no tiene en cuenta los nuevos datos una vez que se ha iniciado un
procesamiento por lotes. Su característica principal es la escalabilidad. Para lograr una alta
escalabilidad y abordar el problema del volumen, utiliza un marco de procesamiento
paralelo como MapReduce, es una tecnología estándar para el procesamiento por lotes [2].
https://speakerdeck.com/bigdataspain/the-three-generations-of-big-data-processing-by-ruben-
casado-at-big-data-spain-2013
Ingeniería de Sistemas e Informática
Paradigmas de procesamiento de big data
Real-Time Processing: El objetivo del paradigma de procesamiento en tiempo real es lidiar con
la velocidad de Big Data, como el procesamiento de datos de transmisión, pero con baja
Este paradigma se basa en los mismos principios que los del procesamiento por lotes, como la
distribución y el paralelismo. Para lograr una baja latencia, analiza pequeños conjuntos de datos
que se almacenan en la memoria. Es como una secuencia infinita de procesamiento por lotes
pequeños donde la información está en la memoria en lugar de discos (almacenamiento
secundario); en otras palabras, utiliza un enfoque sin disco. Un ejemplo de procesamiento en
tiempo real es definir temas actuales o de tendencia en Twitter [2].
https://speakerdeck.com/bigdataspain/the-three-generations-of-big-data-processing-by-ruben-
casado-at-big-data-spain-2013
Ingeniería de Sistemas e Informática
Paradigmas de procesamiento de big data
Hybrid computation: Es una combinación de paradigmas de procesamiento por lotes y en
tiempo real denominado modelo de computación híbrido. Este modelo también se conoce
Arquitectura Lambda, que contiene lo siguiente: 1) Capa por lotes (procesamiento por lotes):
gestiona el conjunto de datos maestro, que no se puede cambiar y se almacena en un sistema
archivos distribuido; 2) Capa de publicación (resultados por lotes): carga y expone las vistas por
lotes en un almacén de datos para que se puedan consultar; y 3) Capa de velocidad
(procesamiento en tiempo real): trata solo con datos nuevos que requieren baja latencia [2].
Ingeniería de Sistemas e Informática
Paradigmas de procesamiento de big data
Hybrid computation: En la figura muestra una arquitectura de alto nivel de un modelo de
procesamiento híbrido. En este modelo, hay tres capas: por lotes, en tiempo real y combinación.
Los nuevos datos se duplican y se envían a las capas por lotes y en tiempo real. La capa por
está procesando en un bucle todo el conjunto de datos. Pero un trabajo por lotes tarda mucho
tiempo en finalizar, por lo que puede llegar nueva información durante el proceso y la capa de
lotes no la tiene en cuenta. Para compensar este retraso, la capa en tiempo real procesa solo los
datos nuevos que no han sido analizados por la capa por lotes. Cada capa almacena sus
resultados parciales en una base de datos que es consultada por la capa Combinación para
obtener en tiempo real los resultados finales actualizados [2].
Hybrid Computation Model
Ingeniería de Sistemas e Informática
Blogs mas destacados sobre big data
La revolución de los datos cada vez golpea con mayor fuerza, razón por la que es necesario estar
a la vanguardia de los cambios y actualizaciones que esta genera. Enterarse de nuevos conceptos
en el campo y familiarizarse con nuevas metodologías de gestión de datos, son actualizaciones
que comparten expertos de la industria a través de blogs [4].
 Planet BigData
 Hillary Mason Blog
 Datafloq Blog
 Blog SoyData
 Smart Data Collective
Fuente: https://www.nextu.com/blog/top-5-de-los-blogs-mas-destacados-de-big-data/
Ingeniería de Sistemas e Informática
Lectura
Tema: ¿Puede Big Data ayudarnos a detener la trata de personas?
Fuente: https://datafloq.com/read/can-big-data-help-us-stop-human-trafficking/
Ingeniería de Sistemas e Informática
Ingeniería de Sistemas e Informática
Bibliografía
[1] Macrodatos-Procesamiento por lotes
https://docs.microsoft.com/es-es/azure/architecture/data-guide/big-data/batch-
processing
[2] Paper: Emerging trends and technologies in big data processing, autor: Ruben Casado
[3] Libro: fundamento de Big Data, autor: Josep curto
[4] Top 5 de los blogs más destacados de big data
https://www.nextu.com/blog/top-5-de-los-blogs-mas-destacados-de-big-data/

Más contenido relacionado

Fundamentos.pptx

  • 1. BIG DATA FUNDAMENTOS Docente: José Carlos NavarroVega E-mail: jcnavarro@unamad.edu.pe
  • 2. Ingeniería de Sistemas e Informática ¿De dónde provienen los datos? En las últimas dos décadas, la velocidad y el acceso a Internet han aumentado considerablemente en todo el mundo, causando una explosión en la cantidad de datos que se producen y recopilan. Las principales empresas están luchando para dar sentido a estos conjuntos de datos tan grandes y todos están de acuerdo en que las luchas y oportunidades de BIG DATA. ¿De dónde vienen todos estos datos? Cada segundo creamos nuevos datos a través de computadoras, dispositivos móviles y dispositivos de Internet de las cosas, wearables, beacon y más.
  • 3. Ingeniería de Sistemas e Informática ¿De dónde provienen los datos? En un mundo cada vez más digital intensificado por el brote de COVID-19, 2020 ha introducido una nueva era en la que la tecnología y los datos han asumido un papel más importante en nuestra vida diaria. A medida que aprendemos a adaptarnos a esta nueva era, los datos nunca duermen. Los datos se generan constantemente en clics en anuncios, reacciones en las redes sociales, acciones, viajes, transacciones, contenido de transmisión y mucho más. Cuando se examinan, estos datos pueden ayudarlo a comprender mejor un mundo que se mueve a velocidades cada vez mayores [1].
  • 4. Ingeniería de Sistemas e Informática ¿De dónde provienen los datos? Verificar los datos estadísticos de internet en tiempo real ingresemos a la dirección web: https://www.internetlivestats.com/ La población mundial de internet está creciendo significativamente año tras año. Hasta junio del 2019, Internet llega a 58.8% de la población mundial y ahora representa a 4.53 billones de personas.
  • 5. Ingeniería de Sistemas e Informática ¿De dónde provienen los datos?
  • 6. Ingeniería de Sistemas e Informática ¿Qué es Big Data? Big Data (grandes datos, grandes volúmenes de datos o macrodatos como recomienda utilizar la Fundación Fundéu BBVA) supone la confluencia de una multitud de tendencias tecnológicas que venían madurando desde la primera década del siglo XXI, y que se han consolidado durante los años 2011 a 2013, cuando han explosionado e irrumpido con gran fuerza en organizaciones y empresas, en particular, en la sociedad, en general: movilidad, redes sociales, aumento de la banda ancha y reducción de su coste de conexión a Internet, medios sociales (en particular las redes sociales), Internet de las cosas, geolocalización, y de modo muy significativo la computación en la nube (cloud computing). Los Big Data están brotando por todas partes y utilizándolos adecuadamente proporcionarán una gran ventaja competitiva a las organizaciones y empresas. En cambio, su ignorancia producirá grandes riesgos en las organizaciones y no las hará competitivas. Para ser competitivas en el siglo actual, como señala Franks (2012): “Es imperativo que las organizaciones persigan agresivamente la captura y análisis de estas nuevas fuentes de datos para alcanzar los conocimientos y oportunidades que ellas ofrecen”.
  • 7. Ingeniería de Sistemas e Informática Definición de Big Data Los Macrodatos o Big Data, hasta ahora no tiene una definición muy precisa, pero hay cierta coincidencia: Adrian Merv, vicepresidente de la consultora Gartner, que en la revista Teradata Magazine, del primer trimestre de 2011, define este término como: “Big Data excede el alcance de los entornos de hardware de uso común y herramientas de software para capturar, gestionar y procesar los datos dentro de un tiempo transcurrido tolerable para su población de usuarios” McKinsey Global Institute en un informe muy reconocido y referenciado, de mayo de 2011, define el término del siguiente modo: “Big Data se refiere a los conjuntos de datos cuyo tamaño está más allá de las capacidades de las herramientas típicas de software de bases de datos para capturar, almacenar, gestionar y analizar”. La consultora tecnológica IDC, considera que: “Big Data es una nueva generación de tecnologías, arquitecturas y estrategias diseñadas para capturar y analizar grandes volúmenes de datos provenientes de múltiples fuentes heterogéneas a una alta velocidad con el objeto de extraer valor económico de ellos”.
  • 8. Ingeniería de Sistemas e Informática Definición de Big Data La consultora Gartner es: “Big Data son los grandes conjuntos de datos que tiene tres características principales: volumen (cantidad), velocidad (velocidad de creación y utilización) y variedad (tipos de fuentes de datos no estructurados, tales como la interacción social, video, audio, cualquier cosa que se pueda clasificar en una base de datos)”. Estos factores, naturalmente, conducen a una complejidad extra de los Big Data; en síntesis “‘Big Data’ es un conjunto de datos tan grandes como diversos que rompen las infraestructuras de TI tradicionales”
  • 9. Ingeniería de Sistemas e Informática ¿Cuál es la importancia del Big Data en el mundo? Desde carros auto-manejados hasta drones que entregan paquetes a la puerta de nuestra casa, son solo el comienzo de las aplicaciones de Big Data (Rijmenam, 2013a). La revolución de Big Data no solo se refiere al exponencial crecimiento del crecimiento de los datos, también recae en el mejoramiento de los métodos estadísticos y computacionales. La capacidad de cómputo se dobla cada 18 meses según la Ley de Moore, pero eso es nada a comparación de un algoritmo con una serie de reglas que puede ser usado para resolver un problema miles de veces más rápido que un método computacional convencional (Shaw,2014). He aquí la importancia en el mundo académico. En marketing algunos usos familiares son “sistemas de recomendación” que compañías como Facebook, Amazon, Netflix usan para recomendarnos o sugerirnos algún producto basado en intereses anteriores propios y de otros millones o billones de clientes. El Institute for Quantitative Social Science de Harvard tiene por propósito ayudar a resolver problemas sociales a través de datos, de los que existen muchos ejemplos Uno muy interesante que se aplicó en México, donde se detectó que 4 millones de familias se arruinaron al año por no tener un seguro de médico. Así surgió el Seguro Popular (Harvard, 2014). Con más datos podemos hacer más cosas y las posibilidades son ilimitadas.
  • 10. Ingeniería de Sistemas e Informática ¿Cuál es la importancia del Big Data en el mundo? Big Data ayudará a tomar las decisiones del futuro basadas en datos, ayudará a predecir el futuro basado en el poder de los algoritmos pero lo más importante nos ayudará a comprender mejor nuestro mundo como un todo y quedará en nosotros aplicarlo de forma correcta Una frase que resume todo lo anterior es: “Big Data nos ayuda a ver de nuevas formas, nos ayuda a ver mejor, nos ayuda a ver diferente” (Cukier, 2014). Big Data jugará un rol de gran importancia en la sociedad, en el sector empresarial y en los gobiernos.
  • 11. Ingeniería de Sistemas e Informática ¿Cuándo es necesario big data? Hay escenarios donde no es suficiente trabajar con un data warehouse. También tenemos una clasificación para los tipos de big data que permite dirimir escenarios genéricos. Sin embargo, esto no es suficiente en el contexto de una organización donde la experimentación no tiene un amplio margen [3, pag. 22]. Las organizaciones están trabajando en cinco grandes categorías de casos de uso. Estos casos de uso considerados como estrategias de negocio enfocada a big data, y son los siguientes [3, pag. 22]: 1) Toma de decisiones: Consiste en la ampliación de las capacidades tradicionales de toma de decisiones mediante las tecnologías de big data, lo que significa que los sistemas de inteligencia de negocio y almacenes de datos corporativos pueden alimentarse o combinarse con los repositorios de big data. 2) Operaciones e inteligencia operacional: Consiste en la aplicación de estas tecnologías en el ámbito de operaciones tanto para el control y el análisis de proceso de negocio como para el diseño e implementación de sistemas transaccionales. Este segundo escenario trasciende de la toma de decisiones y permite entender por qué las tecnologías big data están llamadas a ser muy relevantes dentro de las tecnologías de información. Es previsible que se integren de modo natural en múltiples aplicaciones.
  • 12. Ingeniería de Sistemas e Informática ¿Cuándo es necesario big data? 3) Validación de hipótesis y resolución de problemas: Consiste en encontrar soluciones para problemas de negocio que no han sido anteriormente abordados en una organización y para los cuales no hay preguntas predefinidas Es decir, se busca conocer qué ha sucedido, qué factores son los más y el porqué. Es necesario crear hipótesis y validarlas a través de la técnica más adecuada y eficiente. tipo de aplicación es el equivalente a tener a Sherlock Holmes en casa. Es, en definitiva, un entorno debe ser lo suficientemente flexible para funcionar en diferentes escenarios de necesidades [3, pag. 4) Productos y servicios basados en datos: El dato se transforma en la pieza angular para mejorar la experiencia de uso del producto y servicio o para el diseño y despliegue de este. Estamos hablando modelos de negocio en los que el dato y los algoritmos analíticos generan valor tanto para el cliente como para la organización, y por ello modifican todos los aspectos primordiales del modelo de [3, pag. 22]. 5) Comercio de datos: El dato se prepara para su venta a terceros. Esto puede incluir diversos procesos, como agregación, transformación y distribución del dato o, en el caso de contener información enmascarar dichos datos para que el conjunto final contenga datos anónimos. Este tipo de uso puede derivar en diseñar una plataforma ad hoc. El dato puede comercializarse en bruto o en forma conocimiento [3, pag. 22].
  • 13. Ingeniería de Sistemas e Informática Paradigmas de procesamiento de big data Características Paradigmas de procesamiento
  • 14. Ingeniería de Sistemas e Informática Paradigmas de procesamiento de big data Batch Processing: El procesamiento por lotes es la solución para procesar grandes volúmenes de datos estáticos. Decimos que el procesamiento por lotes utiliza datos estáticos porque con datos que ya están en el sistema (almacenamiento de datos). Este paradigma no tiene en cuenta los nuevos datos una vez que se ha iniciado un procesamiento por lotes. Su característica principal es la escalabilidad. Para lograr una alta escalabilidad y abordar el problema del volumen, utiliza un marco de procesamiento paralelo como MapReduce, es una tecnología estándar para el procesamiento por lotes [2]. https://speakerdeck.com/bigdataspain/the-three-generations-of-big-data-processing-by-ruben- casado-at-big-data-spain-2013
  • 15. Ingeniería de Sistemas e Informática Paradigmas de procesamiento de big data Real-Time Processing: El objetivo del paradigma de procesamiento en tiempo real es lidiar con la velocidad de Big Data, como el procesamiento de datos de transmisión, pero con baja Este paradigma se basa en los mismos principios que los del procesamiento por lotes, como la distribución y el paralelismo. Para lograr una baja latencia, analiza pequeños conjuntos de datos que se almacenan en la memoria. Es como una secuencia infinita de procesamiento por lotes pequeños donde la información está en la memoria en lugar de discos (almacenamiento secundario); en otras palabras, utiliza un enfoque sin disco. Un ejemplo de procesamiento en tiempo real es definir temas actuales o de tendencia en Twitter [2]. https://speakerdeck.com/bigdataspain/the-three-generations-of-big-data-processing-by-ruben- casado-at-big-data-spain-2013
  • 16. Ingeniería de Sistemas e Informática Paradigmas de procesamiento de big data Hybrid computation: Es una combinación de paradigmas de procesamiento por lotes y en tiempo real denominado modelo de computación híbrido. Este modelo también se conoce Arquitectura Lambda, que contiene lo siguiente: 1) Capa por lotes (procesamiento por lotes): gestiona el conjunto de datos maestro, que no se puede cambiar y se almacena en un sistema archivos distribuido; 2) Capa de publicación (resultados por lotes): carga y expone las vistas por lotes en un almacén de datos para que se puedan consultar; y 3) Capa de velocidad (procesamiento en tiempo real): trata solo con datos nuevos que requieren baja latencia [2].
  • 17. Ingeniería de Sistemas e Informática Paradigmas de procesamiento de big data Hybrid computation: En la figura muestra una arquitectura de alto nivel de un modelo de procesamiento híbrido. En este modelo, hay tres capas: por lotes, en tiempo real y combinación. Los nuevos datos se duplican y se envían a las capas por lotes y en tiempo real. La capa por está procesando en un bucle todo el conjunto de datos. Pero un trabajo por lotes tarda mucho tiempo en finalizar, por lo que puede llegar nueva información durante el proceso y la capa de lotes no la tiene en cuenta. Para compensar este retraso, la capa en tiempo real procesa solo los datos nuevos que no han sido analizados por la capa por lotes. Cada capa almacena sus resultados parciales en una base de datos que es consultada por la capa Combinación para obtener en tiempo real los resultados finales actualizados [2]. Hybrid Computation Model
  • 18. Ingeniería de Sistemas e Informática Blogs mas destacados sobre big data La revolución de los datos cada vez golpea con mayor fuerza, razón por la que es necesario estar a la vanguardia de los cambios y actualizaciones que esta genera. Enterarse de nuevos conceptos en el campo y familiarizarse con nuevas metodologías de gestión de datos, son actualizaciones que comparten expertos de la industria a través de blogs [4].  Planet BigData  Hillary Mason Blog  Datafloq Blog  Blog SoyData  Smart Data Collective Fuente: https://www.nextu.com/blog/top-5-de-los-blogs-mas-destacados-de-big-data/
  • 19. Ingeniería de Sistemas e Informática Lectura Tema: ¿Puede Big Data ayudarnos a detener la trata de personas? Fuente: https://datafloq.com/read/can-big-data-help-us-stop-human-trafficking/
  • 20. Ingeniería de Sistemas e Informática
  • 21. Ingeniería de Sistemas e Informática Bibliografía [1] Macrodatos-Procesamiento por lotes https://docs.microsoft.com/es-es/azure/architecture/data-guide/big-data/batch- processing [2] Paper: Emerging trends and technologies in big data processing, autor: Ruben Casado [3] Libro: fundamento de Big Data, autor: Josep curto [4] Top 5 de los blogs más destacados de big data https://www.nextu.com/blog/top-5-de-los-blogs-mas-destacados-de-big-data/