Es un campo que trata formas de analizar, extraer información de manera sistemática o tratar con conjuntos de datos que son demasiado grandes o complejos para ser manejados por el software tradicional de aplicaciones de procesamiento de datos.
El uso actual del término big data tiende a referirse al uso de análisis predictivo, análisis de comportamiento del usuario u otros métodos avanzados de análisis de datos que extraen valor de los datos, y rara vez a un tamaño particular de conjunto de datos. «Hay pocas dudas de que las cantidades de datos disponibles en la actualidad son realmente grandes, pero esa no es la característica más relevante de este nuevo ecosistema de datos”.
El Big Data se puede describir por las siguientes características:
Volumen: La cantidad de datos generados y almacenados. El tamaño de los datos determina el valor y la perspectiva potencial, y si se puede considerar big data o no.
Variedad: El tipo y naturaleza de los datos. Esto ayuda a las personas que lo analizan a utilizar de manera efectiva la información resultante. Big data se basa en texto, imágenes, audio, video; Además, completa las piezas faltantes a través de la fusión de datos.
Velocidad: En este contexto, la velocidad a la que se genera y procesan los datos para satisfacer las demandas y los desafíos que se encuentran en el camino del crecimiento y el desarrollo. Big Data está a menudo disponible en tiempo real. En comparación con los datos pequeños, los datos grandes se producen de forma más continua. Dos tipos de velocidad relacionados con big data son la frecuencia de generación y la frecuencia de manejo, grabación y publicación.
Veracidad: Es la definición extendida para big data, que se refiere a la calidad de los datos y al valor de los datos. La calidad de los datos capturados puede variar mucho, afectando el análisis preciso.
Los datos deben procesarse con herramientas avanzadas (análisis y algoritmos) para revelar información significativa. Por ejemplo, para administrar una fábrica, se deben considerar los problemas visibles e invisibles con varios componentes.
Los algoritmos de generación de información deben detectar y abordar problemas invisibles como la degradación de la máquina, el desgaste de los componentes, etc. en el piso de la fábrica.
El coronavirus nos obligo a estar en casa y las escuelas privadas y públicas no…