Big Data se refiere a conjuntos de datos estructurados y no estructurados complejos masivos que se generan rápidamente y se transmiten a partir de una amplia variedad de fuentes.
Big Data se refiere a conjuntos de datos estructurados y no estructurados complejos masivos que se generan rápidamente y se transmiten a partir de una amplia variedad de fuentes. Estos atributos constituyen los tres VS de Big Data:
- Volumen: Las enormes cantidades de datos que se almacenan.
- Velocidad: la velocidad del rayo a la que se deben procesar y analizar los flujos de datos.
- Variedad: las diferentes fuentes y formularios de las cuales se recopilan los datos, como números, texto, video, imágenes, audio y texto.
En estos días, los datos se generan constantemente cada vez que abrimos una aplicación, buscamos en Google o simplemente viajan el lugar para colocar con nuestros dispositivos móviles. ¿El resultado? Colecciones masivas de información valiosa que las empresas y las organizaciones necesitan administrar, almacenar, visualizar y analizar.
Las herramientas de datos tradicionales no están equipadas para manejar este tipo de complejidad y volumen, lo que ha llevado a una serie de soluciones especializadas de software y arquitectura de big data diseñadas para administrar la carga.
Big Data es esencialmente la disputa de los tres vs para obtener información y hacer predicciones, por lo que es útil echar un vistazo más de cerca a cada atributo.
Big Data es enorme. Si bien los datos tradicionales se miden en tamaños familiares como megabytes, gigabytes y terabytes, Big Data se almacena en petabytes y zettabytes.
Para comprender la enormidad de la diferencia en la escala, considere esta comparación de la Escuela de Información de Berkeley: un gigabyte es el equivalente a un video de siete minutos en HD, mientras que un solo zettabyte es igual a 250 mil millones de DVD.
¿Cómo funciona un Big Data?
Su tecnología está generando datos cada vez que usa su teléfono inteligente, cuando chatea con su familia y amigos en Facebook y cuando compra. Cada vez que se conecte, está produciendo datos y dejando un rastro digital de información. Todos estos datos son muy complejos, hay mucho de muchas fuentes diferentes, y está llegando rápidamente en tiempo real.
Las empresas usan todos estos datos para crear experiencias personalizadas y mejoradas para todos nosotros. Hay miles de millones de gigabytes de datos generados todos los días por personas y tecnologías de todo el mundo. Utilizan estos datos para descubrir qué tipo de bebida nueva le gustaría a las personas, o dónde sería un buen lugar para abrir una nueva ubicación de la tienda.
Pero las empresas no solo están recopilando todos estos datos que estamos generando. En realidad, lo están analizando y encuentran formas de mejorar sus productos y servicios, lo que a su vez da forma a nuestras vidas y las experiencias que estamos teniendo con el mundo que nos rodea. Eso es lo que es Big Data: son todos los datos que se generan en la era digital a partir de todos los diferentes tipos de tecnologías que existen.
Pero, ¿cuál es el propósito específico de Big Data? ¿Qué están haciendo las principales empresas con él? ¿Cómo nos afecta?
- Los datos siempre están siendo generados por las tecnologías digitales, ya sea que estemos utilizando aplicaciones en nuestros teléfonos, interactuando en nuestras redes sociales o comprando productos. Toda esta información se combina con otras fuentes de datos y se convierte en grandes datos.
¿Qué es Big Data y cuáles son sus funcionalidades?
- Volumen: las organizaciones recopilan datos de diferentes fuentes, incluidos dispositivos IoT, transacciones, videos, imágenes, audio, redes sociales y más. En el pasado, almacenar Big Data era un asunto costoso, pero se ha vuelto mucho más asequible debido a la aparición de tecnologías como Data Lakes y Hadoop.
- Velocidad: con el crecimiento de IoT, las empresas generan rápidamente datos que deben manejarse rápidamente. Las etiquetas RFID, los sensores y los medidores inteligentes impulsan la necesidad de lidiar con los torrentes de datos en tiempo real.
- Variedad: la variedad se refiere a datos estructurados, semiestructurados y no estructurados. Datos en forma de correos electrónicos, fotos, videos, audios, PDF, dispositivos y más plantea un desafío serio para el almacenamiento, la minería y el análisis.
- Variabilidad: además de las velocidades y variedades de datos dinámicos, los flujos de datos varían constantemente y son impredecibles. Es vital que las empresas evalúen y administren cargas de datos diarias, estacionales y activadas por eventos.
- Veracidad: Esta idea se refiere a la calidad de los datos. Dado que los datos se originan en diferentes fuentes, es difícil limpiar, transformar, coincidir y vincular datos en todos los sistemas. Debe conectar y correlacionar relaciones, jerarquías y enlaces de información para garantizar una calidad de datos robusta.
Las estrategias de Big Data ayudan a supervisar y mejorar la forma en que adquiere, almacena, administra, comparte y analiza los datos dentro y fuera de la organización. Es vital desarrollar una estrategia comercial sólida considerando los objetivos comerciales existentes y futuros. Pide tratar los big data como un activo comercial valioso en lugar de un subproducto de las aplicaciones.
Los datos de las redes sociales provienen de interacciones en Facebook, YouTube, Instagram, Snapchat y más. Incluye grandes cantidades de datos en forma de imágenes, videos, sonido, texto y voz. Sus datos semiestructurados o no estructurados plantean un desafío único para el almacenamiento, el consumo y el análisis.
Los datos públicos provienen de fuentes de datos abiertos como el portal de datos abiertos de la Unión Europea, lagos de datos, fuentes de nubes, clientes y proveedores.
¿Cómo se genera la información en Big Data?
La nuestra es la era de la tecnología de la información. El progreso en él ha sido exponencial en el siglo XXI, y una consecuencia directa es la cantidad de datos generados, consumidos y transferidos. No se puede negar que el siguiente paso en nuestro avance tecnológico implica implementaciones de la vida real de tecnología de inteligencia artificial. De hecho, se podría decir que ya estamos en medio de ello. Y existe un vínculo definitivo entre las grandes cantidades de información digital que se produce, llamada Big Data cuando excede las capacidades de procesamiento de las herramientas de base de datos tradicionales, y cómo las nuevas técnicas de aprendizaje automático utilizan esos datos para ayudar al desarrollo de la IA.
Sin embargo, esta no es la única aplicación de Big Data, incluso si se ha convertido en la más prometedora. Big Data Analytics ahora es un campo muy investigado que ayuda a las empresas a descubrir ideas innovadoras de los datos disponibles para tomar decisiones mejores e informadas. Según IDC, Big Data y Analytics tenían un ingreso del mercado de más de $ 150 mil millones en todo el mundo en 2018.
· Se estima que habrá 10 mil millones de dispositivos móviles en uso para 2022. Esto es más que toda la población mundial, y esto no incluye computadoras portátiles y escritorios.
· Hacemos más de mil millones de búsquedas de Google todos los días.
· Más de 230 millones de tweets se escriben todos los días.
· Más de 30 petabytes (es decir, 1015 bytes) de datos generados por el usuario se almacenan, acceden y analizan en Facebook.
· Solo en YouTube, se cargan 300 horas de video cada minuto.
¿Cómo se analizan los datos en Big Data?
Big Data Analytics se refiere a recopilar, procesar, limpiar y analizar grandes conjuntos de datos para ayudar a las organizaciones a operacionalizar sus grandes datos.
La recopilación de datos se ve diferente para cada organización. Con la tecnología actual, las organizaciones pueden recopilar datos estructurados y no estructurados de una variedad de fuentes, desde almacenamiento en la nube hasta aplicaciones móviles y sensores de IoT en la tienda y más allá. Algunos datos se almacenarán en almacenes de datos donde las herramientas y soluciones de inteligencia empresarial pueden acceder fácilmente. Los datos crudos o no estructurados que son demasiado diversos o complejos para un almacén pueden asignarse metadatos y almacenarse en un lago de datos.
Una vez que los datos se recopilan y almacenan, debe organizarse correctamente para obtener resultados precisos en consultas analíticas, especialmente cuando es grande y no estructurado. Los datos disponibles están creciendo exponencialmente, lo que hace que el procesamiento de datos sea un desafío para las organizaciones. Una opción de procesamiento es el procesamiento por lotes, que busca grandes bloques de datos con el tiempo. El procesamiento por lotes es útil cuando hay un tiempo de respuesta más largo entre recopilar y analizar datos. El procesamiento de flujo analiza pequeños lotes de datos a la vez, acortando el tiempo de retraso entre la recopilación y el análisis para la toma de decisiones más rápida. El procesamiento de la corriente es más complejo y, a menudo, más caro.
Los datos grandes o pequeños requieren fregado para mejorar la calidad de los datos y obtener resultados más fuertes; Todos los datos deben estar formateados correctamente, y cualquier datos duplicados o irrelevantes debe eliminarse o tener en cuenta. Los datos sucios pueden oscurecer y engañar, creando ideas defectuosas.
Artículos Relacionados: