¿Qué es Big Data? Las entrañas de los datos
Lo más importante de Big Data es que supone un nuevo paradigma para el conocimiento. Una concepción sobre el uso de datos que nos debe interesar, ya que hoy en día todos somos fábricas de información. Información que, recogida en cantidad, puede ser reveladora de cuestiones que nos ayuden en el día a día, o puede despojar al navegante de todo tipo de privacidad. Incluso la privacidad a un futuro libre.
Autor: Oriol Calabuig
“En 2004, Walmart echó un vistazo al contenido de sus gigantescas bases de datos de antiguas transacciones: qué artículo había comprado cada cliente y su coste total, qué más había en el carrito de la compra, la hora del día, e incluso el tiempo que hacía. Así, observó que antes de un huracán no sólo aumentaban las ventas de linternas, sino también las de Pop-Tarts, un dulce para el desayuno” (MAYER-SCHÖNBERGE; CUKIER 2013: 37). Existen dinámicas que difícilmente se pueden explicar mediante la vía de la causalidad. Correlaciones poco evidentes, o extrañas, que quizá su razón sea tan compleja que deba ser obviada. Esto aún choca en una sociedad científica como la nuestra, pero el caso es que de mano de las grandes empresas de comunicación y datos se va abriendo la cáscara de esté nuevo mundo basado en la probabilidad.
“En 2004, Walmart echó un vistazo al contenido de sus gigantescas bases de datos de antiguas transacciones: qué artículo había comprado cada cliente y su coste total, qué más había en el carrito de la compra, la hora del día, e incluso el tiempo que hacía. Así, observó que antes de un huracán no sólo aumentaban las ventas de linternas, sino también las de Pop-Tarts, un dulce para el desayuno” (MAYER-SCHÖNBERGE; CUKIER 2013: 37). Existen dinámicas que difícilmente se pueden explicar mediante la vía de la causalidad. Correlaciones poco evidentes, o extrañas, que quizá su razón sea tan compleja que deba ser obviada. Esto aún choca en una sociedad científica como la nuestra, pero el caso es que de mano de las grandes empresas de comunicación y datos se va abriendo la cáscara de esté nuevo mundo basado en la probabilidad.
Las personas nos hemos convertido en un rastro continuo de datos. El banco conoce las transacciones de la cuenta con que operamos, el supermercado registra nuestros hábitos de consumo, cada web que visitamos tiene a mano los clics que hacemos o los tiempos de visita, exponemos la cotidianidad en las redes sociales, las telefónicas saben dónde nos encontramos en cada momento y qué hacemos con el móvil… Estamos registrados. Generamos una cantidad astronómica de datos que siendo efímeros, también son almacenables. Sólo en Internet, este mes se engendrarán unos 70 exabytes de información. Unos 110 mil millones de cds llenos de documentos, música y vídeo. Sólo en Internet. Cabría sumar los datos creados en intranets, por particulares, por empresas, etc. Bien podríamos compararlo con el mercado de la arena. Somos poco conscientes de que una materia que está por todas partes, de valor muy relativo desde nuestra humilde existencia, es una materia básica en el mundo –para la construcción–. Así que quien tiene capacidad para transportar grandes cantidades de tierra, puede obtener enormes beneficios. Un saco de información tiene una utilidad relativa. Más bien de uso personal. Pero cuando traficamos con petabytes o exabytes de datos, y los podemos cruzar entre ellos, aparece un valor incalculable.
El significado de Big Data
Dar un significado teórico a Big Data es complejo porqué más allá de lo que propiamente es, se debe a diferentes contextos actuales que permiten su aparición y tiene de trasfondo un cambio de mentalidad en el conocimiento. Empecemos por una definición simple: “Big Data es en el sector de las TIC una referencia a los sistemas que manipulan grandes conjuntos de datos” (Wikipedia). Esta frase tan llana lleva asociadas muchas ideas que hay que apuntar. Las primeras son las famosas tres Vs, usadas para definir las características clave de Big Data: Volumen, Velocidad y Variedad. A las cuales ya han incluido otras como valor, veracidad, variabilidad, visualización o viralidad –aunque estas últimas se deben matizar y las dejaremos de lado–. Por volumen debemos entender tanto la cantidad de datos que se producen, como la posibilidad de guardarlos y aumentarlos. La velocidad hace referencia a todo el proceso, rapidez en el registro, captación, análisis de los datos, visualización y toma de decisiones. Es importante entender que el objetivo final es, normalmente, la toma de decisiones. Así que es importante llegar al punto final. Y la variedad, la cual nos indica que no se trabaja en una base de datos cuadriculada y ejemplar. Sino que pueden existir documentos diversos, información que deba ser digitalizada, datos de geolocalización, archivos de voz e imágenes… No hay límite. Debemos ser conscientes que existe software capaz de digitalizar fácilmente textos escritos y programas de reconocimiento facial o de voz que pueden llegar a analizar actitudes o transcribir un dialogo. Ya hay empresas que se dedican a extraer sentimientos o conductas de los usuarios en las redes sociales. Eso sí, aún con márgenes de acierto relativos (50% - 70%).
El significado de Big Data
Dar un significado teórico a Big Data es complejo porqué más allá de lo que propiamente es, se debe a diferentes contextos actuales que permiten su aparición y tiene de trasfondo un cambio de mentalidad en el conocimiento. Empecemos por una definición simple: “Big Data es en el sector de las TIC una referencia a los sistemas que manipulan grandes conjuntos de datos” (Wikipedia). Esta frase tan llana lleva asociadas muchas ideas que hay que apuntar. Las primeras son las famosas tres Vs, usadas para definir las características clave de Big Data: Volumen, Velocidad y Variedad. A las cuales ya han incluido otras como valor, veracidad, variabilidad, visualización o viralidad –aunque estas últimas se deben matizar y las dejaremos de lado–. Por volumen debemos entender tanto la cantidad de datos que se producen, como la posibilidad de guardarlos y aumentarlos. La velocidad hace referencia a todo el proceso, rapidez en el registro, captación, análisis de los datos, visualización y toma de decisiones. Es importante entender que el objetivo final es, normalmente, la toma de decisiones. Así que es importante llegar al punto final. Y la variedad, la cual nos indica que no se trabaja en una base de datos cuadriculada y ejemplar. Sino que pueden existir documentos diversos, información que deba ser digitalizada, datos de geolocalización, archivos de voz e imágenes… No hay límite. Debemos ser conscientes que existe software capaz de digitalizar fácilmente textos escritos y programas de reconocimiento facial o de voz que pueden llegar a analizar actitudes o transcribir un dialogo. Ya hay empresas que se dedican a extraer sentimientos o conductas de los usuarios en las redes sociales. Eso sí, aún con márgenes de acierto relativos (50% - 70%).
En resumen, el análisis de datos masivos es un trinomio entre el almacenamiento de magnitudes ingentes de información, tecnología capaz de trabajar con diversidad de datos y el análisis en “tiempo real” del conjunto. Y los resultados se acostumbran a mostrar gráficamente para facilitar la comprensión. Pero todo ello, se debe a un contexto donde la tecnología –hardware y software– es capaz de almacenar, analizar y escudriñar gran diversidad de documentos en poco tiempo y encontrar dinámicas, tendencias o comportamientos. Eso a un coste cada vez más bajo que, de hecho, democratiza su uso –como veremos, no es nuevo–. Seguramente, el tiempo nos lleve a entender Big Data como respuestas intrínsecas en grandes bases de información caótica, pero en la actualidad el punto tecnológico es importante. Ya que tanto el hardware como el software se encuentran a las puertas de esta realidad.
De la causalidad a la probabilidad
Bajo esta capa teórica subyace una idea de más calado. Históricamente, nuestra sociedad ha trabajado con escasez de datos. Donde el positivismo dependiente de métodos científicos, de muestras siempre limitadas, ha llevado la humanidad al descubrimiento de innumerables respuestas a partir de una pregunta. La metodología tradicional: formular una hipótesis y experimentar empíricamente –con pocos datos, pero muy exactos– para confirmarla.
Por su lado, la estadística veía relegado su campo a una segunda división. La abrumadora cuantía de datos que requería la datificación de relaciones en muchos campos o el propio análisis lo hacía inviable. Además, en los casos que se lograba, las herramientas de contabilización y estudio eran tan básicas que era imposible un trabajo correcto sin un gran despliegue económico, humano y tecnológico. Así, a mediados del siglo XX se descubrió las ventajas y características de un buen muestreo: “Los estadísticos han demostrado que la precisión de la muestra mejora acusadamente con la aleatoriedad, no con el mayor tamaño” (MAYER-SCHÖNBERGE; CUKIER 2013: 37). Pero existían ciertos límites, “como una copia fotográfica analógica. A cierta distancia, se ve muy bien, pero cuando se mira más de cerca, se vuelve borrosa” (MAYER-SCHÖNBERGE; CUKIER 2013: 39). Y es que las preguntas que dan forma a un muestreo son sus propios límites. Big Data puede relegar esto al pasado, hacer que la muestra sea el todo mismo. Una “probabilidad absoluta” –avalada por el peso de trabajar con todos los datos posibles– que puede dar respuestas de cierto valor.
“En 2006, Google se lanzó a traducir […] En lugar de páginas de texto bien traducidas en dos idiomas, utilizó un conjunto de datos más basto, pero también mucho más confuso: todo el contenido global de internet” (MAYER-SCHÖNBERGE; CUKIER 2013: 55). La idea era usar la probabilidad para extraer correlaciones de esta enorme base de datos y obtener un traductor. Y el resultado fue revelador: ni mejores algoritmos, ni el aumento de la calidad de la muestra, llegan a los buenos resultados obtenidos de aumentar el campo ingentemente. Así, cuando se trabajan datos masivos, los errores o inexactitudes de la muestra se diluyen parcialmente. “Más que aspirar a erradicar todo atisbo de inexactitud a un coste cada vez más elevado, calculamos con la confusión en mente” (MAYER-SCHÖNBERGE; CUKIER 2013: 58).
En medicina, se pueden comparar todas las secuencias genómicas disponibles con el historial completo de las mismas personas. Las redes sociales pueden mostrar qué tipología de persona es más favorable a una marca. Una empresa de coches puede recoger todos los datos sobre un modelo y descubrir los quilómetros a los que acostumbra a fallar una pieza defectuosa. O un ayuntamiento podría relacionar el uso del metro con el tiempo, la época del año o las noticias del día anterior. Siempre desde la búsqueda de correlaciones, no partiendo de una hipótesis. Como avanzamos al inicio: algunas correlaciones pueden ser tan complejas que debemos obviar su razón. Y es que en el mundo de la probabilidad, ni hace falta una pregunta concreta, ni tiene porque importar la razón de la respuesta. Un choque directo con nuestra concepción científica del universo.
Sólo falta hablar de uno de los aspectos subyacentes más importantes que la estadística permite trabajar: los futuribles. Las encuestas a pie de urna tienen un crédito relativo. Pero la oportunidad de trabajar con muestras tan contundentes, permite aplicar la probabilidad sobre eventos futuros. Como hacen los hombres del tiempo desde hace años. Pero en cualquier área. Y debemos estar alerta, porqué es posible que a más exactitud, más credibilidad obtenga un resultado estadístico.
Los espías ya no llevan prismáticos
Bajo esta capa teórica subyace una idea de más calado. Históricamente, nuestra sociedad ha trabajado con escasez de datos. Donde el positivismo dependiente de métodos científicos, de muestras siempre limitadas, ha llevado la humanidad al descubrimiento de innumerables respuestas a partir de una pregunta. La metodología tradicional: formular una hipótesis y experimentar empíricamente –con pocos datos, pero muy exactos– para confirmarla.
Por su lado, la estadística veía relegado su campo a una segunda división. La abrumadora cuantía de datos que requería la datificación de relaciones en muchos campos o el propio análisis lo hacía inviable. Además, en los casos que se lograba, las herramientas de contabilización y estudio eran tan básicas que era imposible un trabajo correcto sin un gran despliegue económico, humano y tecnológico. Así, a mediados del siglo XX se descubrió las ventajas y características de un buen muestreo: “Los estadísticos han demostrado que la precisión de la muestra mejora acusadamente con la aleatoriedad, no con el mayor tamaño” (MAYER-SCHÖNBERGE; CUKIER 2013: 37). Pero existían ciertos límites, “como una copia fotográfica analógica. A cierta distancia, se ve muy bien, pero cuando se mira más de cerca, se vuelve borrosa” (MAYER-SCHÖNBERGE; CUKIER 2013: 39). Y es que las preguntas que dan forma a un muestreo son sus propios límites. Big Data puede relegar esto al pasado, hacer que la muestra sea el todo mismo. Una “probabilidad absoluta” –avalada por el peso de trabajar con todos los datos posibles– que puede dar respuestas de cierto valor.
“En 2006, Google se lanzó a traducir […] En lugar de páginas de texto bien traducidas en dos idiomas, utilizó un conjunto de datos más basto, pero también mucho más confuso: todo el contenido global de internet” (MAYER-SCHÖNBERGE; CUKIER 2013: 55). La idea era usar la probabilidad para extraer correlaciones de esta enorme base de datos y obtener un traductor. Y el resultado fue revelador: ni mejores algoritmos, ni el aumento de la calidad de la muestra, llegan a los buenos resultados obtenidos de aumentar el campo ingentemente. Así, cuando se trabajan datos masivos, los errores o inexactitudes de la muestra se diluyen parcialmente. “Más que aspirar a erradicar todo atisbo de inexactitud a un coste cada vez más elevado, calculamos con la confusión en mente” (MAYER-SCHÖNBERGE; CUKIER 2013: 58).
En medicina, se pueden comparar todas las secuencias genómicas disponibles con el historial completo de las mismas personas. Las redes sociales pueden mostrar qué tipología de persona es más favorable a una marca. Una empresa de coches puede recoger todos los datos sobre un modelo y descubrir los quilómetros a los que acostumbra a fallar una pieza defectuosa. O un ayuntamiento podría relacionar el uso del metro con el tiempo, la época del año o las noticias del día anterior. Siempre desde la búsqueda de correlaciones, no partiendo de una hipótesis. Como avanzamos al inicio: algunas correlaciones pueden ser tan complejas que debemos obviar su razón. Y es que en el mundo de la probabilidad, ni hace falta una pregunta concreta, ni tiene porque importar la razón de la respuesta. Un choque directo con nuestra concepción científica del universo.
Sólo falta hablar de uno de los aspectos subyacentes más importantes que la estadística permite trabajar: los futuribles. Las encuestas a pie de urna tienen un crédito relativo. Pero la oportunidad de trabajar con muestras tan contundentes, permite aplicar la probabilidad sobre eventos futuros. Como hacen los hombres del tiempo desde hace años. Pero en cualquier área. Y debemos estar alerta, porqué es posible que a más exactitud, más credibilidad obtenga un resultado estadístico.
Los espías ya no llevan prismáticos
El símil para comprender los peligros que entraña la gestión de grandes cantidades de datos son dos libros muy conocidos: 1984 y The Minority Report. Existe la falta de consciencia sobre lo reveladores que pueden ser los datos. Sin ir más lejos: los nuevos contadores digitales de la luz, que registran información a intervalos de 6 segundos, pueden detectar los aparatos en funcionamiento, ya que los electrodomésticos tienen formas de consumo diferenciadas: “el consumo de energía de una familia revela información privada, ya sea acerca de las actividades diarias de los residentes, su estado de salud o sus actividades ilegales” (MAYER-SCHÖNBERGE; CUKIER 2013: 190). Cedemos los datos sin demasiada preocupación y hay pocas leyes que protejan el uso adecuado o la eliminación de datos tras ciertos periodos. Es más, los datos ya son una mercancía. Muchas empresas cobran por los derechos de explotación, algunas los ceden o, directamente, los venden. Tenemos el caso reciente de WhatsApp. Facebook también pago por la base de datos –chats, imágenes, vídeos…– que la empresa de mensajería había acumulado. Donde, muy importante, el número de teléfono vincula al usuario con la cuenta.
Un programa de la policía de Los Ángeles predice las zonas de más crimen
Quizá, el aspecto más peligroso del análisis de datos sean las predicciones probabilistas. Del mismo modo que podemos buscar correlaciones para mejorar la venta de un producto, podemos cruzar informaciones para detectar zonas y horarios de mayor criminalidad, hacer evaluaciones psíquicas con el contexto informativo de alguien o, directamente, buscar al precriminal o la preenfermedad. Y aunque seguramente el uso de datos privados acentúe el peligro, no siempre necesitamos datos personales para poder llevar a cabo praxis muy cuestionables, que dan rienda suelta para que la probabilidad ahogue la libertad. Debemos tener muy presente que los datos no caducan y, muchas veces, sus usos secundarios han sido los más productivos. Es más, las bases de datos son tan ingentes que ni una anonimidad en ellos garantiza no ser descubierto: “En agosto de 2006, AOL hizo públicas un montón de antiguas búsquedas en internet […] Se habían borrado las informaciones personales como nombre de usuario y dirección IP […] en cuestión de días, The New York Times casó búsquedas como ‘solteros 60’, ‘té saludable’ y ‘paisajista en Lilburn (Georgia)’ para lograr identificar al usuario número 4417749 como Thelma Arnold” (MAYER-SCHÖNBERGE; CUKIER 2013: 192). Este, obviamente, no es un caso único.
Con todo lo dicho, podríamos empezar a vislumbrar a qué se dedica la NSA. Este interés repentino en recolectar datos a nivel mundial, inconexos y sin objetivo aparente. También la agencia de inteligencia británica. Hasta el CNI hace lo que puede. Este puede ser el nuevo espionaje: recolectar grandes bases de información, obtenidas con o sin motivo aparente, y usadas secundariamente para rastrear y/o reconocer a alguien. A alguien o a su posible conducta, yendo más allá de los propios datos. En cualquier caso, seamos prudentes. Google tiene mucha más información que cualquier agencia estatal. Y Facebook también. Twitter, Amazon, Yahoo, Microsoft… Son estas empresas las que, por ahora, sustentan un nuevo poder: los datos.
Con todo lo dicho, podríamos empezar a vislumbrar a qué se dedica la NSA. Este interés repentino en recolectar datos a nivel mundial, inconexos y sin objetivo aparente. También la agencia de inteligencia británica. Hasta el CNI hace lo que puede. Este puede ser el nuevo espionaje: recolectar grandes bases de información, obtenidas con o sin motivo aparente, y usadas secundariamente para rastrear y/o reconocer a alguien. A alguien o a su posible conducta, yendo más allá de los propios datos. En cualquier caso, seamos prudentes. Google tiene mucha más información que cualquier agencia estatal. Y Facebook también. Twitter, Amazon, Yahoo, Microsoft… Son estas empresas las que, por ahora, sustentan un nuevo poder: los datos.
Bibliografía
MAYER-SCHÖNBERGER, Viktor; CUKIER, Kenneth. Big data: La revolución de los datos masivos. Edición en castellano: Turner Publicaciones S.L., 2013.
Material de consulta
GARCÍA CAMPOS, Juan Manuel. “El tesoro de los datos masivos”. Magazine - La Vanguardia [en línea], 8 noviembre 2013. [Consulta: 10 marzo 2014]. Disponible en:- See more at: http://www.portalcomunicacion.com/monograficos_det.asp?id=261&lng=esp#sthash.4YUzfRMc.dpuf
http://www.lavanguardia.com/magazine/20131108/54392775355/big-data-datos-masivos-reportaje-en-portada-magazine-10-noviembre-2013.html
”Big data”. Wikipedia, la enciclopedia libre [Wiki en Internet] St. Petersburg (FL): Wikimedia Foundation, Inc. 2001. [Consulta: 18 marzo 2014]. Disponible en:
http://es.wikipedia.org/wiki/Big_data
FOTHERGILL, John (Director). The Age of Big Data [vídeo - documental]. BBC Productions: LAVERTY, Aidan; VAN DER POOL, James (editores). Londres, 2013. Disponible en:
http://www.youtube.com/watch?v=CO2mGny6fFs
[Gráfico] Cisco VNI. “The Zettabyte Era - Trends and Analysis” [en línea] 29 mayo, 2013. Disponible en:
http://www.revistalatinacs.org/068/paper/991_Somosaguas/RLCS_paper991.pdf
No hay comentarios:
Publicar un comentario