SlideShare una empresa de Scribd logo
¿Qué es el Big Data?
Debido al gran avance que existe día con día en las tecnologías de información, las
organizaciones se han tenido que enfrentar a nuevos desafíos que les permitan analizar,
descubrir y entender más allá de lo que sus herramientas tradicionales reportan sobre su
información, al mismo tiempo que durante los últimos años el gran crecimiento de las
aplicaciones disponibles en internet (geo-referenciamiento, redes sociales, etc.) han sido parte
importante en las decisiones de negocio de las empresas. El presente artículo tiene como
propósito introducir al lector en el concepto de Big Data
El primer cuestionamiento que posiblemente llegue a su mente en este momento es
¿Qué es Big Data y porqué se ha vuelto tan importante? Pues bien, en términos
generales podríamos referirnos como a la tendencia en el avance de la tecnología que ha
abierto las puertas hacia un nuevo enfoque de entendimiento y toma de decisiones, la
cual es utilizada para describir enormes cantidades de datos (estructurados, no
estructurados y semi estructurados) que tomaría demasiado tiempo y sería muy costoso
cargarlos a un base de datos relacional para su análisis. De tal manera que, el concepto
de Big Data aplica para toda aquella información que no puede ser procesada o
analizada utilizando procesos o herramientas tradicionales. Sin embargo, Big Data no
se refiere a alguna cantidad de datos específica, ya que es usualmente utilizado cuando
se habla en términos de petabytes y exabytes de datos. Entonces ¿Cuánto es demasiada
información de manera que sea elegible para ser procesada y analizada utilizando Big
Data? Analicemos primeramente en términos de bytes:
Gigabyte = 109 = 1,000,000,000
Terabyte = 1012 = 1,000,000,000,000
Petabyte = 1015 = 1,000,000,000,000,000
Exabyte = 1018 = 1,000,000,000,000,000,000
Además del gran volumen de información, ésta existe en una gran variedad de datos que
pueden ser representados de diversas maneras y dispositivos. Por ejemplo en móviles,
audio, video, sistemas GPS, incontables sensores digitales en equipos industriales,
automóviles, medidores eléctricos, veletas, anemómetros, etc., los cuales pueden medir
y comunicar el posicionamiento, movimiento, vibración, temperatura, humedad y hasta
los cambios químicos que sufre el aire, de tal forma que las aplicaciones que analizan
estos datos requieren que la velocidad de respuesta sea lo demasiado rápida para lograr
obtener la información correcta en el momento preciso. Estas son las características
principales de una oportunidad para Big Data.
Es importante entender que las bases de datos convencionales son una parte importante
y relevante para una solución analítica. De hecho, se vuelve mucho más vital cuando se
usa en conjunto con la plataforma de Big Data. Pensemos en nuestras manos izquierda
y derecha, cada una ofrece fortalezas individuales para cada tarea en específico. Por
ejemplo, un beisbolista sabe que una de sus manos es mejor para lanzar la pelota y la
otra para atraparla; puede ser que cada mano intente hacer la actividad de la otra, sin
embargo, el resultado no será el más óptimo.
¿De dónde proviene toda esa información?
Los seres humanos estamos creando y almacenando información constantemente y cada
vez más en cantidades astronómicas. Se podría decir que si todos los bits y bytes de
datos del último año fueran guardados en CD's, se generaría una gran torre desde la
Tierra hasta la Luna y de regreso.
Esta contribución a la acumulación masiva de datos la podemos encontrar en diversas
industrias, las compañías mantienen grandes cantidades de datos transaccionales,
reuniendo información acerca de sus clientes, proveedores, operaciones, etc., de la
misma manera sucede con el sector público. En muchos países se administran enormes
bases de datos que contienen datos de censo de población, registros médicos, impuestos,
etc., y si a todo esto le añadimos transacciones financieras realizadas en línea o por
dispositivos móviles, análisis de redes sociales (en Twitter son cerca de 12 Terabytes de
tweets creados diariamente y Facebook almacena alrededor de 100 Petabytes de fotos y
videos), ubicación geográfica mediante coordenadas GPS, en otras palabras, todas
aquellas actividades que la mayoría de nosotros realizamos varias veces al día con
nuestros "smartphones", estamos hablando de que se generan alrededor de 2.5
quintillones de bytes diariamente en el mundo.
1 quintillón = 10 30 = 1,000,000,000,000,000,000,000,000,000,000
De acuerdo con un estudio realizado por Cisco[1], entre el 2011 y el 2016 la cantidad de
tráfico de datos móviles crecerá a una tasa anual de 78%, así como el número de
dispositivos móviles conectados a Internet excederá el número de habitantes en el
planeta. Las Naciones Unidas proyectan que la población mundial alcanzará los 7.500
millones para el 2016 de tal modo que habrá cerca de 18.900 millones de dispositivos
conectados a la red a escala mundial. Esto conllevaría a que el tráfico global de datos
móviles alcance 10.8 Exabytes mensuales o 130 Exabytes anuales. Este volumen de
tráfico previsto para 2016 equivale a 33.000 millones de DVDs anuales o 813
cuatrillones de mensajes de texto.
Pero no solamente somos los seres humanos quienes contribuimos a este crecimiento
enorme de información. Existe también la comunicación denominada máquina a
máquina (M2M machine-to-machine) cuyo valor en la creación de grandes cantidades
de datos también es muy importante. Por ejemplo, sensores digitales instalados en
contenedores para determinar la ruta generada durante la entrega de algún paquete para
enviar datos a las compañías de transporte, sensores en medidores eléctricos para
determinar el consumo de energía a intervalos regulares para que sea enviada esta
información a las empresas del sector energético. Se estima que hay más de 30 millones
de sensores interconectados en distintos sectores como automotriz, transportes,
industrial, servicios, comercial, etc. y se espera que este número crezca en un 30%
anualmente.
¿Qué tipos de datos se deben explorar?
Muchas organizaciones se enfrentan a la pregunta sobre ¿Qué información es la que se
debe analizar?, sin embargo, el cuestionamiento debería estar enfocado hacia ¿Qué
problema es el que se está tratando de resolver?.[2]
Si bien sabemos que existe una amplia variedad de tipos de datos a analizar, una buena
clasificación nos ayudaría a entender mejor su representación, aunque es muy probable
que estas categorías puedan extenderse con el avance tecnológico.
1. Web and Social Media: Incluye contenido web e información que es
obtenida de las redes sociales como Facebook, Twitter, LinkedIn, etc,
blogs.
2. Machine-to-Machine (M2M): M2M se refiere a las tecnologías que
permiten conectarse a otros dispositivos. M2M utiliza dispositivos como
sensores o medidores que capturan algún evento en particular (velocidad,
temperatura, presión, variables meteorológicas, variables químicas como
la salinidad, etc.) los cuales transmiten a través de redes alámbricas,
inalámbricas o híbridas a otras aplicaciones que traducen estos eventos
en información significativa.
3. Big Transaction Data: Incluye registros de facturación, en
telecomunicaciones registros detallados de las llamadas (CDR), etc. Estos
datos transaccionales están disponibles en formatos tanto
semiestructurados como no estructurados.
4. Biometrics: Información biométrica en la que se incluye huellas digitales,
escaneo de la retina, reconocimiento facial, genética, etc. En el área de
seguridad e inteligencia, los datos biométricos han sido información
importante para las agencias de investigación.
5. Human Generated: Las personas generamos diversas cantidades de datos
como la información que guarda un call center al establecer una llamada
telefónica, notas de voz, correos electrónicos, documentos electrónicos,
estudios médicos, etc.
Resumen final
La naturaleza de la información hoy es diferente a la información en el pasado. Debido
a la abundancia de sensores, micrófonos, cámaras, escáneres médicos, imágenes, etc. en
nuestras vidas, los datos generados a partir de estos elementos serán dentro de poco el
segmento más grande de toda la información disponible. El uso de Big Data ha ayudado
a los investigadores a descubrir cosas que les podrían haber tomado años en descubrir
por sí mismos sin el uso de estas herramientas. Debido a la velocidad del análisis, es
posible que el analista de datos pueda cambiar sus ideas basándose en el resultado
obtenido y retrabajar el procedimiento una y otra vez hasta encontrar el verdadero valor
al que se está tratando de llegar.
Implementar una solución alrededor de Big Data implica de la integración de diversos
componentes y proyectos que en conjunto forman el ecosistema necesario para analizar
grandes cantidades de datos. Sin una plataforma de Big Data se necesitaría que
desarrollar adicionalmente código que permita administrar cada uno de esos
componentes como por ejemplo: manejo de eventos, conectividad, alta disponibilidad,
seguridad, optimización y desempeño, depuración, monitoreo, administración de las
aplicaciones, SQL y scripts personalizados.
Referencias:
(1) Cisco, Internet será cuatro veces más grande en 2016.
(2) Soares Sunil, Not Your Type? Big Data Matchmaker On Five Data Types You Need
To Explore Today, Artículo Web
Autor: Ricardo Barranco Fragoso
IT Specialist for Information Management, IBM Software Group México
Ahorre dinero y riesgo. Obtenga un informe gratuito del software que
mejor se adapta a su empresa. Utilice el centro de evaluación.

Más contenido relacionado

¿Qué es el Big Data?

  • 1. ¿Qué es el Big Data? Debido al gran avance que existe día con día en las tecnologías de información, las organizaciones se han tenido que enfrentar a nuevos desafíos que les permitan analizar, descubrir y entender más allá de lo que sus herramientas tradicionales reportan sobre su información, al mismo tiempo que durante los últimos años el gran crecimiento de las aplicaciones disponibles en internet (geo-referenciamiento, redes sociales, etc.) han sido parte importante en las decisiones de negocio de las empresas. El presente artículo tiene como propósito introducir al lector en el concepto de Big Data El primer cuestionamiento que posiblemente llegue a su mente en este momento es ¿Qué es Big Data y porqué se ha vuelto tan importante? Pues bien, en términos generales podríamos referirnos como a la tendencia en el avance de la tecnología que ha abierto las puertas hacia un nuevo enfoque de entendimiento y toma de decisiones, la cual es utilizada para describir enormes cantidades de datos (estructurados, no estructurados y semi estructurados) que tomaría demasiado tiempo y sería muy costoso cargarlos a un base de datos relacional para su análisis. De tal manera que, el concepto de Big Data aplica para toda aquella información que no puede ser procesada o analizada utilizando procesos o herramientas tradicionales. Sin embargo, Big Data no se refiere a alguna cantidad de datos específica, ya que es usualmente utilizado cuando se habla en términos de petabytes y exabytes de datos. Entonces ¿Cuánto es demasiada información de manera que sea elegible para ser procesada y analizada utilizando Big Data? Analicemos primeramente en términos de bytes: Gigabyte = 109 = 1,000,000,000 Terabyte = 1012 = 1,000,000,000,000 Petabyte = 1015 = 1,000,000,000,000,000 Exabyte = 1018 = 1,000,000,000,000,000,000 Además del gran volumen de información, ésta existe en una gran variedad de datos que pueden ser representados de diversas maneras y dispositivos. Por ejemplo en móviles, audio, video, sistemas GPS, incontables sensores digitales en equipos industriales, automóviles, medidores eléctricos, veletas, anemómetros, etc., los cuales pueden medir y comunicar el posicionamiento, movimiento, vibración, temperatura, humedad y hasta los cambios químicos que sufre el aire, de tal forma que las aplicaciones que analizan estos datos requieren que la velocidad de respuesta sea lo demasiado rápida para lograr obtener la información correcta en el momento preciso. Estas son las características principales de una oportunidad para Big Data. Es importante entender que las bases de datos convencionales son una parte importante y relevante para una solución analítica. De hecho, se vuelve mucho más vital cuando se usa en conjunto con la plataforma de Big Data. Pensemos en nuestras manos izquierda y derecha, cada una ofrece fortalezas individuales para cada tarea en específico. Por
  • 2. ejemplo, un beisbolista sabe que una de sus manos es mejor para lanzar la pelota y la otra para atraparla; puede ser que cada mano intente hacer la actividad de la otra, sin embargo, el resultado no será el más óptimo. ¿De dónde proviene toda esa información? Los seres humanos estamos creando y almacenando información constantemente y cada vez más en cantidades astronómicas. Se podría decir que si todos los bits y bytes de datos del último año fueran guardados en CD's, se generaría una gran torre desde la Tierra hasta la Luna y de regreso. Esta contribución a la acumulación masiva de datos la podemos encontrar en diversas industrias, las compañías mantienen grandes cantidades de datos transaccionales, reuniendo información acerca de sus clientes, proveedores, operaciones, etc., de la misma manera sucede con el sector público. En muchos países se administran enormes bases de datos que contienen datos de censo de población, registros médicos, impuestos, etc., y si a todo esto le añadimos transacciones financieras realizadas en línea o por dispositivos móviles, análisis de redes sociales (en Twitter son cerca de 12 Terabytes de tweets creados diariamente y Facebook almacena alrededor de 100 Petabytes de fotos y videos), ubicación geográfica mediante coordenadas GPS, en otras palabras, todas aquellas actividades que la mayoría de nosotros realizamos varias veces al día con nuestros "smartphones", estamos hablando de que se generan alrededor de 2.5 quintillones de bytes diariamente en el mundo. 1 quintillón = 10 30 = 1,000,000,000,000,000,000,000,000,000,000 De acuerdo con un estudio realizado por Cisco[1], entre el 2011 y el 2016 la cantidad de tráfico de datos móviles crecerá a una tasa anual de 78%, así como el número de dispositivos móviles conectados a Internet excederá el número de habitantes en el planeta. Las Naciones Unidas proyectan que la población mundial alcanzará los 7.500 millones para el 2016 de tal modo que habrá cerca de 18.900 millones de dispositivos conectados a la red a escala mundial. Esto conllevaría a que el tráfico global de datos móviles alcance 10.8 Exabytes mensuales o 130 Exabytes anuales. Este volumen de tráfico previsto para 2016 equivale a 33.000 millones de DVDs anuales o 813 cuatrillones de mensajes de texto. Pero no solamente somos los seres humanos quienes contribuimos a este crecimiento enorme de información. Existe también la comunicación denominada máquina a máquina (M2M machine-to-machine) cuyo valor en la creación de grandes cantidades de datos también es muy importante. Por ejemplo, sensores digitales instalados en contenedores para determinar la ruta generada durante la entrega de algún paquete para enviar datos a las compañías de transporte, sensores en medidores eléctricos para determinar el consumo de energía a intervalos regulares para que sea enviada esta información a las empresas del sector energético. Se estima que hay más de 30 millones de sensores interconectados en distintos sectores como automotriz, transportes,
  • 3. industrial, servicios, comercial, etc. y se espera que este número crezca en un 30% anualmente. ¿Qué tipos de datos se deben explorar? Muchas organizaciones se enfrentan a la pregunta sobre ¿Qué información es la que se debe analizar?, sin embargo, el cuestionamiento debería estar enfocado hacia ¿Qué problema es el que se está tratando de resolver?.[2] Si bien sabemos que existe una amplia variedad de tipos de datos a analizar, una buena clasificación nos ayudaría a entender mejor su representación, aunque es muy probable que estas categorías puedan extenderse con el avance tecnológico. 1. Web and Social Media: Incluye contenido web e información que es obtenida de las redes sociales como Facebook, Twitter, LinkedIn, etc, blogs. 2. Machine-to-Machine (M2M): M2M se refiere a las tecnologías que permiten conectarse a otros dispositivos. M2M utiliza dispositivos como sensores o medidores que capturan algún evento en particular (velocidad, temperatura, presión, variables meteorológicas, variables químicas como la salinidad, etc.) los cuales transmiten a través de redes alámbricas, inalámbricas o híbridas a otras aplicaciones que traducen estos eventos en información significativa. 3. Big Transaction Data: Incluye registros de facturación, en telecomunicaciones registros detallados de las llamadas (CDR), etc. Estos datos transaccionales están disponibles en formatos tanto semiestructurados como no estructurados.
  • 4. 4. Biometrics: Información biométrica en la que se incluye huellas digitales, escaneo de la retina, reconocimiento facial, genética, etc. En el área de seguridad e inteligencia, los datos biométricos han sido información importante para las agencias de investigación. 5. Human Generated: Las personas generamos diversas cantidades de datos como la información que guarda un call center al establecer una llamada telefónica, notas de voz, correos electrónicos, documentos electrónicos, estudios médicos, etc. Resumen final La naturaleza de la información hoy es diferente a la información en el pasado. Debido a la abundancia de sensores, micrófonos, cámaras, escáneres médicos, imágenes, etc. en nuestras vidas, los datos generados a partir de estos elementos serán dentro de poco el segmento más grande de toda la información disponible. El uso de Big Data ha ayudado a los investigadores a descubrir cosas que les podrían haber tomado años en descubrir por sí mismos sin el uso de estas herramientas. Debido a la velocidad del análisis, es posible que el analista de datos pueda cambiar sus ideas basándose en el resultado obtenido y retrabajar el procedimiento una y otra vez hasta encontrar el verdadero valor al que se está tratando de llegar. Implementar una solución alrededor de Big Data implica de la integración de diversos componentes y proyectos que en conjunto forman el ecosistema necesario para analizar grandes cantidades de datos. Sin una plataforma de Big Data se necesitaría que desarrollar adicionalmente código que permita administrar cada uno de esos componentes como por ejemplo: manejo de eventos, conectividad, alta disponibilidad, seguridad, optimización y desempeño, depuración, monitoreo, administración de las aplicaciones, SQL y scripts personalizados. Referencias: (1) Cisco, Internet será cuatro veces más grande en 2016. (2) Soares Sunil, Not Your Type? Big Data Matchmaker On Five Data Types You Need To Explore Today, Artículo Web Autor: Ricardo Barranco Fragoso IT Specialist for Information Management, IBM Software Group México Ahorre dinero y riesgo. Obtenga un informe gratuito del software que mejor se adapta a su empresa. Utilice el centro de evaluación.