SOLICITUD DE NEGOCIO

Lo que realmente es Big Data?

Big Data es la última palabra de moda, y como tal, todo el mundo lo está utilizando para su conveniencia. Esto ha creado inevitablemente cierta confusión. En esta entrada del blog vamos a tratar de aclararlo.

Big data es de dos cosas: de grandes conjuntos de datos normalmente no estructurados y algunas técnicas relativamente nuevas para hacer frente a este tipo de datos. Para obtener una buena perspectiva que tenemos que empezar por revisar las bases de datos relacionales.

En general, la forma tradicional de manejo de datos es mediante el uso de una base de datos relacional. Cuando se utiliza una base de datos para el procesamiento de transacciones en línea, tendemos a ver una configuración independiente para el análisis. Esto se conoce comúnmente como un almacén de datos, que proporciona un alivio de procesamiento de la base de datos principal. También cuenta con algunas herramientas de inteligencia de negocios analítica o la llamada. Las grandes bases de datos relacionales tienden a ser proposiciones caros, como los costos de las unidades de procesamiento y los discos son muy altos.

Bases de datos relacionales se basan en lo que se llama “estructura de enlace temprano”. Lo que esto significa es que usted tiene que saber qué preguntas van a pedir que la base de datos para que pueda diseñar los esquemas, tablas y relaciones. Cualquier nuevas preguntas que no encajan en este esquema requieren alguna modificación del esquema que normalmente implica una buena cantidad de tiempo y buenas habilidades técnicas.

Estas restricciones de bases de datos relacionales se pueden considerar el precio a pagar por tener un sistema que se puede considerar totalmente transaccional, es decir, que cumple totalmente con las propiedades ACID.

Vamos a pasar a la actual “big data”. Puede ser dividido en dos partes. El primero es lo que llamamos nuestra huella digital. Se trata de todos nuestros correos electrónicos, los blogs que leemos y posiblemente escribir, tweets, Registros de Foursquare, entradas de Facebook, etc. La segunda parte es un dato de máquina, como los archivos de registro generados por todos aquellos equipos que apoyan nuestra huella digital. Pero también hay un montón de otros datos de la máquina tal como la obtenida por los sensores que nos presentan con seguimiento de vuelos en tiempo real, etc.

La mayoría de estos datos no es estructurado, que puede ser vagamente definido como un número variable de campos de tamaño variable, que puede ser o no está presente. Big data también tiende a ser grande, muy grande. Basta pensar en los archivos de registro de acceso a la web de un sitio web popular. Puede generar un par de megabytes por día, tal vez incluso por la hora. Además, estos datos tiende a no ser misión crítica. No sólo que, en general no requiere las funcionalidades ofrecidas por un sistema totalmente transaccional. Después de todo, la mayoría de las veces todo lo que hacemos con ella corren algunos análisis.

Ahora que tenemos una mejor comprensión de los grandes datos, vamos a darle la vuelta al paradigma de base de datos relacional de centralizado, de alto rendimiento, el procesamiento completamente transaccional para un procesamiento distribuido con una mayor latencia que podrían cumplir con sólo uno o dos de las propiedades ACID, ya veces ninguno .

Herramientas de datos grandes, como Hadoop y Splunk se basan en este otro paradigma, procesamiento distribuido de datos que también se distribuye. Estas herramientas están diseñadas para funcionar en el hardware de los productos básicos, y son lo suficientemente resistentes para manejar las fallas que se esperan de un hardware barato. Sin embargo, estas herramientas tienen una latencia más alto para procesar estos datos y han disminuido el apoyo de muchas (o todas) las propiedades ACID. Sólo pensar en ello como el precio a pagar para hacer frente a muy grandes de datos no estructurados.

Esto es lo que los grandes datos es sobre todo, un paradigma diferente para el procesamiento de datos.

Una última reflexión, estas herramientas de datos grandes también pueden manejar datos estructurados, que también podría ser pequeña, así que no poner limitaciones a las funcionalidades de estas herramientas.

En la siguiente entrada del blog vamos a explicar con más detalle las herramientas de datos grandes y sus técnicas subyacentes.

The Opallios Advantage

We believe that successful Web 2.0 products need UX and engineering to cohesively work together. In our ecosystem, UX teams work hand-in-hand with our engineering folks in an agile manner to create awesome products for you.

arrow Toll Free : 1-(888)-205-4058
Contact us