SlideShare una empresa de Scribd logo
INTRODUCCIÓN AL CONCEPTO DE BIG DATA
raineropenschool.com
Rainer Open School – Big Data
INTRODUCCIÓN
Big Data es un término de actualidad, que
parece dar respuesta a todos los problemas
empresariales. Pero ¿qué es exactamente?
¿En qué se diferencia de otras técnicas?
raineropenschool.com
ALGUNOS CONCEPTOS ERRÓNEOS
Big Data no es:
 Cuando hay que analizar más de 1 TB (o 20).
 Lo que sustituye a las BBDD relacionales.
 Algo imprescindible en la Web 13.7.
RESPONDAMOS A ESTOS MITOS…
 Big Data no tiene que ver exactamente con el volumen de
datos. No se puede poner la cifra arbitraria de 1TB o 20
TB como referencia. Más bien hablamos de problemas
que van “demasiado deprisa”. Ahora lo veremos mejor…
 Las BBDD relacionales no están muertas. De hecho,
TODOS los sistemas de Big Data funcionan con ellas y hay
problemas en los que no se pueden sustituir.
 La Web 2.0 introdujo el contenido dinámico (PHP) y la 3.0
la participación del usuario (Redes sociales). A partir de
ahí se ha perdido un poco el norte y esos números son
más un reclamo comercial que un concepto.
ENTONCES ¿QUÉ ES ESO DE BIG DATA?
Velocidad
Volumen
Variedad
Doug Laney definió en 2001 los problemas de
Big Data como aquellos en los que se dan las
características de velocidad, volumen y
variedad en la generación de datos.
VELOCIDAD
La velocidad se refiere a aquellos escenarios,
como la bolsa, en donde la producción de
datos es muy rápida y continua. El mercado
bursátil funciona a toda velocidad.
VOLUMEN
El volumen de los problemas en Big Data
puede ser descomunal. Nunca será posible
aprehender por completo la complejidad del
análisis meteorológico, por ejemplo.
VARIEDAD
La variedad se refiere a que no sabemos qué
formato van a tener los datos analizados. Hoy
los móviles dan coordenadas GPS, fotos o
sonido. ¿Y mañana?
POR TANTO…
Cuando un problema:
 Genera información a una gran velocidad y sin
interrupción.
 Genera un gran volumen de datos, capaz de
desbordar sistemas convencionales.
 Genera datos en cambio constante, sin que
sepamos su contenido o relación entre sí.
…es candidato a un análisis de Big Data.
NUESTRA DEFINICIÓN…
Big Data es un término genérico para
agrupar un conjunto de técnicas y recursos
destinados a analizar información que no
es viable estudiar por medios tradicionales,
con el objetivo de extraer información de
valor y conclusiones útiles.
POR EJEMPLO…
Indexar páginas web es un problema de Big
Data: no paran de generarse, es una
barbaridad de información y no sabemos qué
vamos a encontrar en ellas.
GENERACIÓN CRECIENTE DE INFORMACIÓN
Esta situación es consecuencia de la creciente
velocidad a la que se genera información, en
especial desde la “inflexión digital” hacia
2002, el momento en que se producen más
datos digitales que analógicos.
DESESTRUCTURACIÓN DEL CONTENIDO
Estructurado -> Tablas
Semiestructurado -> XML
Quasiestructurado -> Registros
Desestructurado –> Imágenes
Otra característica de esta tendencia es que la
información cada vez es más desestructurada;
se genera tan rápido que no se organiza muy
bien. ¿Qué estamos buscando, por ejemplo, en
el contenido de una red social?
EVOLUCIÓN DE LOS SISTEMAS DE ANÁLISIS
Ficheros
tabulados
Hojas de
cálculo
Bases de datos
relacionales
(OLAP)
Centros de
Proceso de
Datos (DW-BI)
Entornos
analíticos
(Sandbox)
De esta forma, se produce una evolución
lógica, apareciendo estrategias de análisis
para los problemas que vamos generando
como sociedad.
BUSINESS INTELLIGENCE VS BIG DATA
Los sistemas de BI se centran más en el
análisis de periodos fijos, mientras que Big
Data se preocupa de explorar relaciones:
¿Qué ha pasado? <- vs -> ¿Qué puede pasar?
UNA NUEVA ECONOMÍA DE DATOS
Dispositivos
Recolectores
Agregadores
Usuarios
Las relaciones entre usuarios, tecnología y
proveedores han definido una “economía de
datos”, donde la comprensión de lo que ocurre
proporciona una ventaja competitiva.
EL PAPEL DEL CIENTÍFICO DE DATOS
En este contexto surge la necesidad de un perfil
que ayude a todos los interlocutores: alguien que
sepa de informática, de estadística y de negocios,
sin llegar a ser un programador, un estadístico o
un empresario: el científico de datos.
HABILIDADES DEL CIENTÍFICO DE DATOS
No hay una “carrera” para ser científico de datos,
sino más bien un conjunto de actitudes y
habilidades que favorecen su trabajo:
 Competencias en matemáticas o estadística.
 Competencia básica en programación.
 Pensamiento crítico y escéptico en el análisis.
 Curiosidad y creatividad.
 Capacidad para comunicación y colaboración.
CONCLUSIONES
 El desarrollo de nuestra sociedad de la
información ha generado un valor de negocio en la
comprensión de los datos que genera.
 Esta necesidad requiere nuevas técnicas de
análisis de la información que hagan frente a la
velocidad, volumen y variedad de datos que se
producen.
 El científico de datos es el profesional que ayuda a
todos los demás a comprender y afrontar este tipo
de problemas.
raineropenschool.com
LECTURAS RECOMENDADAS
Data Science & Big Data
Statistics
EMC Education Services
ISBN: 978-1118876138
http://amzn.to/1QTNWH7
Cap. 1, sobre el contenido
de esta presentación
raineropenschool.com
SOBRE EL AUTOR
Rafael Morales
Consultor y formador en
 Sistemas de información (IT).
 Gestión de proyectos (PM).
 Aseguramiento de la calidad (QA).
En LinkedIn: http://bit.ly/20Qh0oZ
Email: contacto@rafael-morales.com
raineropenschool.com
OTROS CONTENIDOS
Puedes encontrar las notas de
esta conferencia y otras obras
del mismo autor en Amazon:
http://amzn.to/1Rp8yM9
Puedes seguir las novedades
y convocatorias de nuevos
seminarios, cursillos y
presentaciones en
raineropenschool.com
raineropenschool.com

Más contenido relacionado

Introducción a Big Data

  • 1. INTRODUCCIÓN AL CONCEPTO DE BIG DATA raineropenschool.com Rainer Open School – Big Data
  • 2. INTRODUCCIÓN Big Data es un término de actualidad, que parece dar respuesta a todos los problemas empresariales. Pero ¿qué es exactamente? ¿En qué se diferencia de otras técnicas? raineropenschool.com
  • 3. ALGUNOS CONCEPTOS ERRÓNEOS Big Data no es:  Cuando hay que analizar más de 1 TB (o 20).  Lo que sustituye a las BBDD relacionales.  Algo imprescindible en la Web 13.7.
  • 4. RESPONDAMOS A ESTOS MITOS…  Big Data no tiene que ver exactamente con el volumen de datos. No se puede poner la cifra arbitraria de 1TB o 20 TB como referencia. Más bien hablamos de problemas que van “demasiado deprisa”. Ahora lo veremos mejor…  Las BBDD relacionales no están muertas. De hecho, TODOS los sistemas de Big Data funcionan con ellas y hay problemas en los que no se pueden sustituir.  La Web 2.0 introdujo el contenido dinámico (PHP) y la 3.0 la participación del usuario (Redes sociales). A partir de ahí se ha perdido un poco el norte y esos números son más un reclamo comercial que un concepto.
  • 5. ENTONCES ¿QUÉ ES ESO DE BIG DATA? Velocidad Volumen Variedad Doug Laney definió en 2001 los problemas de Big Data como aquellos en los que se dan las características de velocidad, volumen y variedad en la generación de datos.
  • 6. VELOCIDAD La velocidad se refiere a aquellos escenarios, como la bolsa, en donde la producción de datos es muy rápida y continua. El mercado bursátil funciona a toda velocidad.
  • 7. VOLUMEN El volumen de los problemas en Big Data puede ser descomunal. Nunca será posible aprehender por completo la complejidad del análisis meteorológico, por ejemplo.
  • 8. VARIEDAD La variedad se refiere a que no sabemos qué formato van a tener los datos analizados. Hoy los móviles dan coordenadas GPS, fotos o sonido. ¿Y mañana?
  • 9. POR TANTO… Cuando un problema:  Genera información a una gran velocidad y sin interrupción.  Genera un gran volumen de datos, capaz de desbordar sistemas convencionales.  Genera datos en cambio constante, sin que sepamos su contenido o relación entre sí. …es candidato a un análisis de Big Data.
  • 10. NUESTRA DEFINICIÓN… Big Data es un término genérico para agrupar un conjunto de técnicas y recursos destinados a analizar información que no es viable estudiar por medios tradicionales, con el objetivo de extraer información de valor y conclusiones útiles.
  • 11. POR EJEMPLO… Indexar páginas web es un problema de Big Data: no paran de generarse, es una barbaridad de información y no sabemos qué vamos a encontrar en ellas.
  • 12. GENERACIÓN CRECIENTE DE INFORMACIÓN Esta situación es consecuencia de la creciente velocidad a la que se genera información, en especial desde la “inflexión digital” hacia 2002, el momento en que se producen más datos digitales que analógicos.
  • 13. DESESTRUCTURACIÓN DEL CONTENIDO Estructurado -> Tablas Semiestructurado -> XML Quasiestructurado -> Registros Desestructurado –> Imágenes Otra característica de esta tendencia es que la información cada vez es más desestructurada; se genera tan rápido que no se organiza muy bien. ¿Qué estamos buscando, por ejemplo, en el contenido de una red social?
  • 14. EVOLUCIÓN DE LOS SISTEMAS DE ANÁLISIS Ficheros tabulados Hojas de cálculo Bases de datos relacionales (OLAP) Centros de Proceso de Datos (DW-BI) Entornos analíticos (Sandbox) De esta forma, se produce una evolución lógica, apareciendo estrategias de análisis para los problemas que vamos generando como sociedad.
  • 15. BUSINESS INTELLIGENCE VS BIG DATA Los sistemas de BI se centran más en el análisis de periodos fijos, mientras que Big Data se preocupa de explorar relaciones: ¿Qué ha pasado? <- vs -> ¿Qué puede pasar?
  • 16. UNA NUEVA ECONOMÍA DE DATOS Dispositivos Recolectores Agregadores Usuarios Las relaciones entre usuarios, tecnología y proveedores han definido una “economía de datos”, donde la comprensión de lo que ocurre proporciona una ventaja competitiva.
  • 17. EL PAPEL DEL CIENTÍFICO DE DATOS En este contexto surge la necesidad de un perfil que ayude a todos los interlocutores: alguien que sepa de informática, de estadística y de negocios, sin llegar a ser un programador, un estadístico o un empresario: el científico de datos.
  • 18. HABILIDADES DEL CIENTÍFICO DE DATOS No hay una “carrera” para ser científico de datos, sino más bien un conjunto de actitudes y habilidades que favorecen su trabajo:  Competencias en matemáticas o estadística.  Competencia básica en programación.  Pensamiento crítico y escéptico en el análisis.  Curiosidad y creatividad.  Capacidad para comunicación y colaboración.
  • 19. CONCLUSIONES  El desarrollo de nuestra sociedad de la información ha generado un valor de negocio en la comprensión de los datos que genera.  Esta necesidad requiere nuevas técnicas de análisis de la información que hagan frente a la velocidad, volumen y variedad de datos que se producen.  El científico de datos es el profesional que ayuda a todos los demás a comprender y afrontar este tipo de problemas. raineropenschool.com
  • 20. LECTURAS RECOMENDADAS Data Science & Big Data Statistics EMC Education Services ISBN: 978-1118876138 http://amzn.to/1QTNWH7 Cap. 1, sobre el contenido de esta presentación raineropenschool.com
  • 21. SOBRE EL AUTOR Rafael Morales Consultor y formador en  Sistemas de información (IT).  Gestión de proyectos (PM).  Aseguramiento de la calidad (QA). En LinkedIn: http://bit.ly/20Qh0oZ Email: contacto@rafael-morales.com raineropenschool.com
  • 22. OTROS CONTENIDOS Puedes encontrar las notas de esta conferencia y otras obras del mismo autor en Amazon: http://amzn.to/1Rp8yM9 Puedes seguir las novedades y convocatorias de nuevos seminarios, cursillos y presentaciones en raineropenschool.com raineropenschool.com