MINERIA DE DATOS Y BIG DATA: ¿Es el Científico de Datos, la carrera con el mejor sueldo del futuro?

Primero es necesario comprender las ideas básicas sobre procesamiento de la información digital y sobre conceptos y disciplinas que han surgido en los últimos años, las cuales abordan el problema de la utilización eficiente de los datos tratando de sacarles el máximo partido posible.

Abordaremos conceptos de datos, información, conocimientos y toma de decisiones, cómo se mide la información: bits y bytes; conceptos de minería de datos, Big Data y Ciencia de Datos.

Conceptos Básicos de datos e información

Datos / dato: es un símbolo o conjuntos de símbolos (alfabéticos, numéricos, gráficos), utilizado para representar o describir un valor numérico, un hecho, un objeto o una idea.

Puede describir variables cuantitativas o cualitativas, correspondientes a hechos empíricos, sucesos y entidades.

Por otra parte, la información es un conjunto de datos organizados de forma adecuada para ser objeto de tratamiento.

Una información se puede transmitir o comunicar en forma de mensaje.

Un mensaje o la información, en general, a diferencia de los datos o de las percepciones sensoriales, tiene una estructura útil que permite cambiar el estado de conocimiento de un individuo y modificar las sucesivas interacciones del que la posee con su entorno.

Los datos e información los utilizamos principalmente bajo las formas de:

Textos.
Sonidos.
Imágenes.
Valores numéricos.

Conocimiento y decisiones

Conocimiento: Es el significado extraído de una información.

Facultad del ser humano para comprender por medio de la razón la naturaleza, cualidades y relaciones de las cosas.

Entendimiento, inteligencia, razón natural (RAE, acepción 2).

Por otra parte, la toma decisiones, es un proceso mediante el cual se realiza una elección entre diferentes opciones o formas posibles para resolver diferentes situaciones en la vida, en diferentes contextos.

Consiste, básicamente, en elegir una opción entre las disponibles, a los efectos de resolver un problema actual o potencial.

Estos cuatro conceptos descritos, es decir, datos, información, conocimientos y decisiones, tienen distintos volúmenes de ocupación en nuestros sistemas digitales y su valor esta más o menos oculto.

Así los datos son mas voluminosos y su valor esta implícito, mientras el conocimientos y decisiones ocupan menos espacio y tienen un valor explicito directamente utilizables por los usuarios.

En cierta medida cada nivel representa un resumen o destilación del nivel inmediatamente anterior, como ejemplo de estas ideas: podemos considerar un electrocardiograma que se almacena como una serie de números, o datos aislados.

El conjunto de muestras ordenadas y adecuadamente espaciadas contiene información, pero a nosotros no nos aporta ningún conocimiento, porque no somos los expertos, pero a un experto si le aportará conocimientos, ya que puede extraer su significado, reconocer si hay o no, un síntoma.

Y, es así como el experto puede decidir un tratamiento. Es decir, tomar una decisión.

Prácticamente la totalidad de los dispositivos actuales para el procesamiento automático de la información: computadores, dispositivos de comunicaciones, teléfonos móviles, televisión; son sistemas digitales, estos almacenan transfieren y procesan (transforman) la información en un código binario; es decir, utilizando dos símbolos que frecuentemente se representan por ceros y unos, conviene indicar que aquí los 0 y 1, no son números, sino símbolos que representan uno de dos estados posibles, y dependiendo del soporte de información pueden representar, por ejemplo:

Un nivel de tensión eléctrica (0V; 5V)
Un valor de corriente (0mA, 17mA)
Un estado de magnetización (N o S)
Un estado de magnetización de luz (presencia o ausencia)

¿Como se mide la información: bits y bytes?

Un bit, es la unidad más elemental o capacidad mínima de información. Es una posición o variable que toma el valor 0 o 1.

Un byte, actualmente se considera sinónimo de grupo de 8 bits (históricamente: número de bits necesarios para almacenar un carácter).

Ejemplos de capacidades de información: como el bit y el byte son unidades muy pequeñas y como se realiza en distintos ámbitos de la física, utilizamos múltiplos para medidas de capacidad de información, como el mega, la giga, el tera, el peta.

Sin embargo, en física al kilo es mil, o 10 elevado a 3, el mega un millón, 10 elevados a 6, y así.

Como dos elevado a 10 es 1024, podemos aproximar los múltiplos binarios por los múltiplos decimales, en realidad los múltiplos binarios son un 2,4 por ciento superiores a los múltiplos que se utilizan eventualmente en física.

Tenemos almacenados, cierta cantidad de información en nuestros computadores: un PDF de 420 páginas (1 Mb), un audio 4 min (5 Mb), una película de 2hrs (1,07Gb).

Nuestro universo se desenvuelve alrededor de los datos, tenemos datos científicos, como base de datos de astronomía, genómica, medio ambientales, de transporte, etc.

Ciencias sociales y humanidades, libros digitales, documentos históricos, datos sociales. Empresas y comercio, datos relacionados con ventas de corporaciones, transacciones de mercado, censos, tráfico de aerolíneas.

Entreteniendo y ocio, podemos tener imágenes, películas, archivos mp3, video juegos.

Medicina tenemos datos de pacientes, escáner, radiografías y así sucesivamente.

Industria y energía, grandes cantidades de datos obtenidos de censores.

En internet de las cosas (LoT) determinadas aplicaciones tienen miles e incluso pueden llegar a tener millones de censores que están continuamente produciendo nuevos datos.

¿Qué capacidad de información almacenamos y transmitimos?

Un estudio de la Universidad del Sur de California, en Los Ángeles (Estados Unidos) publicado en la revista “Science” (2010), arrojó los siguientes datos:

En 2007, la humanidad fue capaz de almacenar 295 EB (Exabyte).

La capacidad de almacenamiento de información se duplica aproximadamente cada 3 años.

Los expertos estiman que para el año 2020 el almacén digital de la humanidad llegara a 35 ZB (Zettabyte).

Para dar un ejemplo de la capacidad de la información que almacenamos, imaginemos un disco duro de 4 TB de capacidad con un volumen de 11,7 x 8×2,1 cm.

Si entendemos que 1 ZB es igual a 288.435.456 de discos de 4 BT, que puestos uno encima de otro tendrá una altura de 2,1 cm x 288.435.456 = 3.596 Km.

Con 72 ZB (año 2023) llegaríamos a la luna (384.000 Km).

Sobre la situación actual, podemos observar que somos ricos en datos, pero pobres en conocimientos.

Existen enormes cantidades de datos almacenados infrautilizados.

El progreso y la innovación ya no se ven obstaculizados por la capacidad de recopilar y almacenar datos, sino por la capacidad de gestionar, analizar, sintetizar, visualizar y descubrir el conocimiento implícito de ellos, recopilados de manera oportuna y en una forma escalada.

¿Qué podemos hacer con los datos?

Operaciones básicas

Son las operaciones que en la actualidad ya se realizan rutinariamente, siempre que accedemos a la información digital, entre ellas se encuentran:

Introducir, almacenar y controlar los datos, y las operaciones que se realizan en base de datos convencionales, como es crear, borrar, modificar registros de información, realización de consultas.

Estas operaciones hacen posible la existencia de transacciones, ejemplo comprar un billete o entrada a través de la web, pagar con una tarjeta de crédito, realizar una consulta en un cajero bancario.

Operaciones descriptivas

Tratan de explicar y dar a conocer los datos existentes.

Entre ellas se encuentran agrupar (clustering) que tratan de detectar datos que tienen características similares, y segmentarlos en grupos o clases representativas.

Identificar reglas de asociación que consiste en encontrar relaciones interesantes entre variables, por ejemplo, relacionar unas compras con otras realizadas en internet.

Descubrir secuencias de patrones.

Sintetizar o resumir conjuntos o bases de datos masivos para facilitar la toma de decisiones, generando informes multidimensionales, utilizando herramientas de visualización, que sinteticen la información relevante y sus relaciones.

Un ejemplo de operación descriptiva de síntesis, más abajo se muestra una figura generada automáticamente por una aplicación denominada Gephi, especializada en la visualización de resultados.

La figura corresponde al procesamiento de datos obtenidos a partir de las comunicaciones de usuarios a través de redes sociales, automáticamente el programa de visualización diferencia con distintos colores las cuatro redes sociales o agrupaciones encontradas y regularmente, el grosor de las líneas que enlazan un usuario con otro depende de la frecuencia de conexión entre ellos.

simulacion gephi Pi — Visualización de Resultados Gephi

Operaciones predictivas

Son las que hacen las previsiones para facilitar la toma de decisiones.

Entre ellas se encuentran clasificar o segmentar: tipologías de cliente, preferencias de los usuarios, etc.

Estimar relaciones entre parámetros: análisis de regresión.

Detectar desviaciones o anomalías, detección de acciones fraudulentas, detección de accidentes.

Identificar series temporales, pronósticos sobre nuevos datos o tendencias.

A continuación, vamos a enumerar ejemplos de aplicaciones de procesamiento de alto nivel de datos en distintos ámbitos.

En el ámbito de la salud utilizando técnicas de procesamiento de alto nivel podemos realizar la identificación de terapias para diferentes enfermedades.

Estudio de factores de riesgo en distintas patologías.

Segmentación de pacientes en grupos afines.

Gestión hospitalaria y planificación temporal de salas, urgencias.

Recomendación priorizada de fármacos para una misma patología.

Estudios en genética (ADN).

Ejemplos relacionados con los procesos de producción:

Detección precisa de productos defectuosos.

Localización precoz de defectos.

Identificación de causa de fallos.

Optimización del rendimiento del proceso de producción de forma adaptativa.

Mantenimiento predictivo de máquinas y herramientas.

Ejemplos relacionados con el comercio:

Determinar perfiles de transacciones con tarjetas de crédito.

Tarjetas de descuentos, quejas de clientes, estilos públicos de vida, comentarios en redes sociales, etc.

Encontrar agrupaciones que identifiquen un modelo de cliente con características comunes (intereses, nivel de ingresos, hábitos de gastos, etc.) para realizar un marketing personalizado.

Efectuar predicciones de mercado, basadas en asociaciones entre ventas de productos e información diversa.

Establecer perfiles de cliente, identificando que tipo de clientes compra que productos (agrupación o clasificación), para identificar factores que retengan a los clientes y atraigan a nuevos.

Identificar clientes tanto fieles como fugas.

Ayudar a los clientes de un supermercado a encontrar los productos que estén buscando (por ejemplo, en las compras on-line en un supermercado).

Sugerir o recomendar a los clientes, productos que puedan ser de su interés particular.

Ejemplos en el ámbito de la banca y seguros:

Detectar patrones de uso fraudulento en tarjetas de crédito.

Estudio de concesión de créditos y/o tarjetas.

Determinación del gasto en tarjeta de crédito por grupos de personas.

Identificar reglas de comportamiento del mercado de valores a partir de datos históricos.

Predicción de clientes propensos a suscribir nuevas pólizas de seguros.

Identificar grupos / patrones de riesgo para concesión de seguros.

Identificar tendencias de comportamiento fraudulento en cobros de accidentes de seguros.

Ejemplos en el ambito de la web:

La web es el almacén de información mas grande y diverso de los existentes, existe gran cantidad de datos de donde extraer información útil, con la web 2.0 se esta incrementando la cantidad de información disponible en la nube.

Análisis del comportamiento y perfiles de usuarios. Se pueden realizar análisis de comportamiento y perfiles de usuario.

Potenciación de ventas cruzadas.

Generación de respuestas agrupadas según el tipo de contenido. Recuperación de información en general.

Detección semántica e identificación automática de datos complejos. Análisis de grupos en redes sociales, etc.

Nivel organizativo de los datos

En informática se suelen considerar distintos niveles de organización de los datos, estos niveles los podríamos establecer de la siguiente forma:

Sistemas operativos: archivo y directorio (carpeta).
Base de datos: tenemos la gestión de datos día a día. Procesamiento de transacciones on-line (OLTP On-line Transaction Processing). Dos dimensiones para cada “hecho”: tipo y localización (cliente y productos).
Sistemas de información: Conjunto de elementos (datos / información, personas, técnicas, recursos materiales) orientados al tratamiento y administración de datos e información, organizados y listos para su uso posterior, generados para cubrir una necesidad o un objetivo concreto.
Almacen de datos (Data warehouse): Contienen, además de datos actuales, datos históricos. Procesamiento analítico en línea (OLAP On-line Analytical Processing). Tres dimensiones: (tipo de producto, localización, tiempo) o (clientes, productos, tiempo).
Minería de datos: Extracción de patrones de información desconocidos a partir de grandes cantidades de datos.

Minería de Datos

Es el proceso de extracción de patrones de información implícitos, no triviales, desconocidos y potencialmente útiles, a partir de grandes cantidades de datos.

Existe una cantidad ingente de datos (mina).

Se pretende extraer (minar) conocimiento (la mena) de esos datos, distinguiéndolo de la información irrelevante (la ganga).

Ese término se utiliza por la gran cantidad de datos disponible, puede considerarse como si fuese una mina y pretendemos minar, es decir, extraer de ella la mena que, en el caso, de la minería de datos sería el conocimiento, distinguiéndola de la información irrelevante que en nuestro símil seria la ganga.

La minería de datos también se le conoce con otros nombres:

Descubrimiento de conocimiento en bases de datos (KDD)
Extracción del conocimiento
Análisis inteligente de datos / patrones

Big Data

Big Data

Se refiere a datos cuyo volumen, diversidad y complejidad requieren nuevas arquitecturas hardware, técnicas, algoritmos y análisis para gestionar y extraer valor y conocimiento implícitos (oculto) en ellos.

Usualmente se caracteriza por las 5 V:

1. Volumen (cantidad ingente de datos),

2. Velocidad de generación de nuevos datos (naturaleza dinámica),

3. Variedad (tipologías y formatos muy diversos con calidades diferentes),

4. Veracidad (detectar la fiabilidad de los datos) y

5. Valor (mejorar la comprensión y toma de decisiones siendo de gran utilidad para la humanidad).

Objetivos de la Big Data

Trata de mejorar los computadores, los algoritmos y los sistemas de gestión de almacenamiento para manejar eficientemente cantidades exorbitantes de datos.

Se están desarrollando nuevos algoritmos (random forest RFS, random ferns DFE) y plataformas (Apache Hadoop, Apache Spark) para conseguir estos objetivos:

Se utiliza para poder afrontar de forma eficiente ese gran volumen de datos heterogéneos, y los algoritmos de minería de datos y de aprendizaje automático para poder realizar:

Predicciones,

Clasificación y recomendaciones,

Reconocer patrones o coincidencias descubrir comportamientos o

detectar anomalías.

El último concepto que falta por definir es el de Ciencia de Datos.

Ciencia de Datos

Es una disciplina que se centra en la extracción de conocimiento a partir de los datos.

Es el ámbito de conocimiento que engloba las habilidades asociadas al procesamiento de datos.

Es un campo interdisciplinario que involucra métodos científicos, procesos y sistemas para extraer conocimiento o un mejor entendimiento de datos en sus diferentes formas, ya sea estructurados o no estructurados.

Impulsa avances tanto en el campo de la ingeniería de computadores (centro de datos, arquitecturas distribuidas, database machines, etc.) como en el de análisis de datos (estadística, minería de datos, aprendizaje automático y analítica predictiva).

La ciencia de datos está proyectada para poder:

Trabajar con datos incompletos,

procesar datos que suelen estar desordenados o no estructurados,

analizar los datos para detectar la información que contienen y extraer conocimiento implícito,

gestionar y procesar grandes cantidades de datos inabordables de administrar con técnicas convencionales, e

impulsar decisiones sobre operaciones y productos.

En ciencia de datos, con frecuencia se sigue el siguiente proceso para el descubrimiento de conocimiento:

1.almacenamiento y administración de la información,

2.seleccion o identificación del objetivo que trata de determinar el tipo de conocimiento que se trata de extraer,

3.preprocesamiento de datos que trata de limpiar, completar, ordenar y reducir los datos con objeto de obtener calidad para etapas posteriores,

4. transformación de datos, es decir, proyectar los datos brutos en unas estructuras y formatos adecuados a los objetos establecidos,

5.La minería de datos que como he comentado consiste en la extracción de patrones de conocimientos a partir de los datos estructurados,

6.Etapa de interpretación, evaluación y presentación de resultados por medio de tablas graficas e imágenes de la forma más útil y cómoda para los usuarios finales.

En definitiva, se trata de poner en valor los resultados y conocimientos obtenidos.

La ciencia de datos es interdisciplinaria por una parte tenemos la informática, por otra parte, la estadística y matemáticas y por último el dominio del conocimiento en donde se aplica, así por ejemplo si, aplicamos la ciencia de datos en un entorno empresarial, los especialistas en ciencia de datos deberán conocer con cierto detalle el mundo empresarial.

En la actualidad, hay una gran demanda de puestos de trabajos, en muchas plataformas de empleo se considera como el tercer tipo de empleo de nivel superior solicitado, y una de las profesiones mas atractivas del siglo XXI, pudiéndose estudiar con este curso on-line.

Problemas: seguridad y preservación de datos

Es muy importante y se dedican grandes esfuerzos a:

Mantener la confidencialidad de la información.

Respetar los derechos de propiedad.

Prever el uso fraudulento o delictivo por intrusos.

Mejorar la seguridad para evitar pérdidas por averías.

También existe una gran preocupación por la conservación de los datos a lo largo del tiempo:

Los soportes de información (magnético, eléctricos u ópticos) actuales no son perdurables en el tiempo, deteriorándose o destruyéndose la información que almacenan.

Hay grupos de trabajo dedicados a estudiar este problema. Incluso se está tratando de la posibilidad de tener réplicas de los datos más relevantes del mundo en zonas gélidas donde la conservación seria más fácil.

Como conclusiones podemos afirmar que estamos en la década de los datos, y de ahí vendrá la revolución.

Somos muy ricos en datos, pero pobres en conocimientos.

La Ciencia de Datos se ha convertido en un pilar fundamental sobre el cual se desarrollan los nuevos avances científicos, tecnológicos, sociales, educativos y de la salud.

En definitiva, la Ciencia de Datos está cambiando nuestro mundo en ámbitos muy diversos.

Topocho Digital Noticias