Qué es Big Data y análisis de datos

, , Comentarios desactivados en Qué es Big Data y análisis de datos

Big Data es un término cada día más popular dentro del mundo de los negocios online. Su significado literal es “datos a gran escala”, aunque también se le ha dado el significado de herramientas y recursos para almacenar esa información y cómo analizarla, segmentarla y utilizarla a gran velocidad. Tanto se ha desarrollado este concepto y sus aplicaciones que ya existen Master big data y sus salidas profesionales son numerosas.

Qué es Big Data

Breve historia del concepto Big Data

El concepto no es nuevo. De hecho, en el plano digital y como si de una bola de nieve rodando por una pendiente se tratara, la acumulación de datos ha ido creciendo desde hace décadas. Sin embargo, hay un antes y un después: la aparición de Internet, momento en el cual el intercambio y publicación de información ha sido masivo.

Otro factor que ha intervenido en el nacimiento de ese concepto son los algoritmos de empresas como Google, que lograron, a finales del siglo pasado, indexar de forma automática grandes cantidades de información. En este sentido, Big Data, además de la acepción de “gran cantidad de información” tiene otra que es “análisis de esa información”.

Big Data y almacenamiento hardware

Servidores Google

Un ejemplo de Big Data es la propia empresa Google, que indexa al día millones y millones de documentos gracias a su algoritmo inteligente y a la propia naturaleza de la web basada en el hiperenlace. Para poder analizar de forma rápida y precisa esa ingente cantidad de información y devolver resultados relevantes en las conocidas SERPS, Google tuvo que hacer –y sigue haciendo– un esfuerzo titánico en la optimización de sus servidores, tanto en capacidad de almacenar información como en permitir el acceso a ella.

Google es un ejemplo de lo importante del desarrollo hardware como herramienta para mejorar el Big Data Análisis.

De qué información se compone Big Data

Las redes sociales suponen una fuente de datos masiva que requiere análisis. Los perfiles de usuarios en Facebook y Twitter acumulan información como intereses, datos biográficos y otra serie de información que son muy útiles a nivel comercial u orgánico para búsquedas.

Otra información muy importante que nutre aún más el Big Data son los datos financieros de transacciones entre empresas y personas, los cuales son muy importantes para analizar desde el sector bancario al empresarial a nivel facturación.

La propia navegación web, desde hace unos años, se ha convertido en una fuente de información. Las famosas cookies registran cada movimiento que realizamos en la web y esa información es crucial para muchas empresas en sus estrategias de ecommerce y marketing web.

Conectarse a Internet vía inalámbrica y otro medios como bluetooth crea grandes paquetes de información: cantidad de datos emitidos y recibidos, tiempo de conexión… esta información también queda registrada en bases de datos que luego pueden ser utilizadas para mejorar o promocionar servicios de ADSL, 4G, etc.

Un último conjunto de datos, por el momento, son los biométricos, los cuales tienen que ver con huellas digitales, reconocimiento de voz o escaners de retina que, si bien aún no son muy comunes en nuestro día a día, todo apunta a que jugarán un papel muy importante en el sector del tratamiento de la información a nivel seguridad.

De que información se compone Big Data

Big Data Analytics

El análisis de los datos masivos o grandes cantidades de información es ya toda una disciplina dentro de las tecnologías de la información, y las herramientas utilizadas hasta hace unos años para el análisis de unas cantidades de información relativamente pequeñas se han quedado obsoletas. Por ello, como recoge el master big data uned los viejos recursos se han tenido que actualizar o han nacido nuevas estrategias para el Big Data Análisis.

De forma general, existen tres estrategias para el análisis de grandes cantidades de información que llevan asociadas una serie de herramientas o plataformas.

Data Mining

Un concepto nuevo que trabaja directamente con bases de datos y busca, mediante el machine learning y la estadística, predecir patrones de comportamiento en grandes cantidades de información.

Análisis por agrupación

Es la estrategia de análisis de datos de más bajo nivel, pues la fuente de datos está en los clústeres. De alguna forma, aprovecha la creación de patrones del data mining para generar grupos entre esa gran cantidad de información en función de similitudes. El clustering constituye una primera organización de los resultados que sirve para análisis posteriores más personalizados. El lenguaje de programación SAS se está convirtiendo en una referencia en este campo al estar orientado al análisis macro de información en bases de datos.

Por asociación y análisis de texto

Hablaríamos de herramientas de análisis en buscadores, redes sociales o email marketing, donde se busca relacionar variables que los usuarios dejan mientras navegan, realizan una búsqueda u otra acción en la red. La herramienta más común es Google Analytics o sus versiones Twitter y Facebook. No obstante, se han creado marcos de trabajo o Framework como Hadoop, que permite el análisis de datos con varios ordenadores conectados, aprovechando así las prestaciones de cada uno de ellos para conseguir análisis más precisos y rápidos.

Conclusión

Como decíamos al principio, las herramientas clásicas como Analytics se están adaptando a la realidad Big Data. Sin embargo, hay otros recursos diseñados al efecto que tienen algo de ventaja sobre las plataformas clásicas para analizar el flujo e incremento de información a nivel empresarial. Es el caso de Mapreduce y HPCC, para el caso del análisis clustering, o Storm, para el análisis sobre bases de datos y que empresas como Twitter, Yahoo o Baidu utilizan para segmentar y analizar sus contenidos.

Estas herramientas y otras más tienen en común que utilizan estrategias de programación orientadas al análisis de datos en máquinas o servidores conectados (en red), y aprovechar así todo el potencial hardware para producir los mejores análisis de cómo, qué y dónde interactúa el usuario.