Data Scientist y sus Funciones que nos trae

Las Funciones que nos brinda Data Scientist

Debido a las características únicas de Big Data, la calidad de los datos se enfrenta a muchos desafíos. Se conocen como las 5 V: Volumen, Velocidad, Variedad, Validez y Valor, que definen el problema del Big Data.

Antes de Big Data, podíamos utilizar ETL para recuperar información estructurada almacenada, por ejemplo, en nuestros sistemas ERP y CRM. Pero ahora podemos cargar información adicional de la que la empresa ya no es responsable comentarios o "me gusta" en las redes sociales, resultados de campañas de marketing, datos estadísticos de terceros, etc.

Todos estos datos nos proporcionan información sobre la empresa y sus actividades. Todos estos datos nos proporcionan información sobre las actividades de la empresa. Todos estos datos nos dan información sobre el funcionamiento de nuestros productos o servicios o sobre cualquier problema.

Algunos de los retos cualitativos de Big Data son:

Múltiples fuentes y tipos de datos.

Con tantas fuentes, tipos de datos y estructuras complejas, la complejidad de la integración de datos aumenta.

Las fuentes de Big Data son enormes:

Internet y datos móviles.

Datos del Internet de las cosas.

Datos del sector recogidos por empresas especializadas.

Datos experimentales.

Lo mismo ocurre con el tipo de datos:

Tipos de datos no estructurados: documentos, vídeo, audio, etc.

Tipos de datos semiestructurados: software, hojas de cálculo, informes.

Tipos de datos estructurados

Sólo el 20% de la información está estructurada, lo que puede dar lugar a muchos errores si no se aplica un diseño de calidad de datos.

Gran volumen de datos

Como hemos visto, el volumen de datos es enorme y dificulta la realización de un proceso de calidad de datos en un tiempo razonable.

Es difícil recopilar, limpiar, integrar y producir rápidamente datos de calidad. Convertir los tipos no estructurados en tipos estructurados y procesar los datos lleva mucho tiempo.

 

Alta variabilidad

Los datos cambian rápidamente y, por tanto, son muy efímeros. Para resolver este problema, necesitamos una potencia de cálculo muy elevada.

El tratamiento y el análisis de estos datos, si no se tratan, pueden llevar a conclusiones incorrectas, lo que a su vez puede conducir a errores en la toma de decisiones.

Falta de normas uniformes de calidad de los datos

En 1987, la Organización Internacional de Normalización (ISO) publicó las normas ISO 9000 para la calidad de productos y servicios. Sin embargo, la investigación sobre las normas de calidad de datos no comenzó hasta la década de 1990 y la ISO no publicó las normas de calidad de datos ISO 8000 hasta 2011.

Estas normas deben perfeccionarse y aclararse. Además, la investigación sobre la calidad de los Big Data ha comenzado recientemente y los resultados son muy pobres.

La calidad del Big Data es esencial no sólo para obtener una ventaja competitiva, sino también para evitar cometer graves errores estratégicos y operativos basados en datos de mala calidad, que pueden tener graves consecuencias…

¿Cómo se crea un plan de gobierno de datos para Big Data?

La gobernanza consiste en garantizar que los datos de la base de datos estén autorizados, organizados y tengan los permisos necesarios para ser utilizados, con el menor número de errores posible y manteniendo la confidencialidad y la seguridad. Esto puede parecer una tarea de enormes proporciones, sobre todo si se tiene en cuenta que la realidad de dónde y cómo se almacenan y procesan los datos cambia constantemente.

Cuales funciones tiene la Data Scientist y Meta Data
Data Scientist y Meta Data