Primero es necesario comprender las ideas básicas sobre procesamiento de la información digital y sobre conceptos y disciplinas que han surgido en los últimos años, las cuales abordan el problema de la utilización eficiente de los datos tratando de sacarles el máximo partido posible.
Abordaremos conceptos de datos, información, conocimientos y toma de decisiones, cómo se mide la información: bits y bytes; conceptos de minería de datos, Big Data y Ciencia de Datos.
Conceptos Básicos de datos e información
Datos / dato: es un símbolo o conjuntos de símbolos (alfabéticos, numéricos, gráficos), utilizado para representar o describir un valor numérico, un hecho, un objeto o una idea.
Puede describir variables cuantitativas o cualitativas, correspondientes a hechos empíricos, sucesos y entidades.
Por otra parte, la información es un conjunto de datos organizados de forma adecuada para ser objeto de tratamiento.
Una información se puede transmitir o comunicar en forma de mensaje.
Un mensaje o la información, en general, a diferencia de los datos o de las percepciones sensoriales, tiene una estructura útil que permite cambiar el estado de conocimiento de un individuo y modificar las sucesivas interacciones del que la posee con su entorno.
Los datos e información los utilizamos principalmente bajo las formas de:
- Textos.
- Sonidos.
- Imágenes.
- Valores numéricos.
Conocimiento y decisiones
Conocimiento: Es el significado extraído de una información.
Facultad del ser humano para comprender por medio de la razón la naturaleza, cualidades y relaciones de las cosas.
Entendimiento, inteligencia, razón natural (RAE, acepción 2).
Por otra parte, la toma decisiones, es un proceso mediante el cual se realiza una elección entre diferentes opciones o formas posibles para resolver diferentes situaciones en la vida, en diferentes contextos.
Consiste, básicamente, en elegir una opción entre las disponibles, a los efectos de resolver un problema actual o potencial.
Estos cuatro conceptos descritos, es decir, datos, información, conocimientos y decisiones, tienen distintos volúmenes de ocupación en nuestros sistemas digitales y su valor esta más o menos oculto.
Así los datos son mas voluminosos y su valor esta implícito, mientras el conocimientos y decisiones ocupan menos espacio y tienen un valor explicito directamente utilizables por los usuarios.
En cierta medida cada nivel representa un resumen o destilación del nivel inmediatamente anterior, como ejemplo de estas ideas: podemos considerar un electrocardiograma que se almacena como una serie de números, o datos aislados.
El conjunto de muestras ordenadas y adecuadamente espaciadas contiene información, pero a nosotros no nos aporta ningún conocimiento, porque no somos los expertos, pero a un experto si le aportará conocimientos, ya que puede extraer su significado, reconocer si hay o no, un síntoma.
Y, es así como el experto puede decidir un tratamiento. Es decir, tomar una decisión.
Prácticamente la totalidad de los dispositivos actuales para el procesamiento automático de la información: computadores, dispositivos de comunicaciones, teléfonos móviles, televisión; son sistemas digitales, estos almacenan transfieren y procesan (transforman) la información en un código binario; es decir, utilizando dos símbolos que frecuentemente se representan por ceros y unos, conviene indicar que aquí los 0 y 1, no son números, sino símbolos que representan uno de dos estados posibles, y dependiendo del soporte de información pueden representar, por ejemplo:
- Un nivel de tensión eléctrica (0V; 5V)
- Un valor de corriente (0mA, 17mA)
- Un estado de magnetización (N o S)
- Un estado de magnetización de luz (presencia o ausencia)
¿Como se mide la información: bits y bytes?
Un bit, es la unidad más elemental o capacidad mínima de información. Es una posición o variable que toma el valor 0 o 1.
Un byte, actualmente se considera sinónimo de grupo de 8 bits (históricamente: número de bits necesarios para almacenar un carácter).
Ejemplos de capacidades de información: como el bit y el byte son unidades muy pequeñas y como se realiza en distintos ámbitos de la física, utilizamos múltiplos para medidas de capacidad de información, como el mega, la giga, el tera, el peta.
Sin embargo, en física al kilo es mil, o 10 elevado a 3, el mega un millón, 10 elevados a 6, y así.
Como dos elevado a 10 es 1024, podemos aproximar los múltiplos binarios por los múltiplos decimales, en realidad los múltiplos binarios son un 2,4 por ciento superiores a los múltiplos que se utilizan eventualmente en física.
Tenemos almacenados, cierta cantidad de información en nuestros computadores: un PDF de 420 páginas (1 Mb), un audio 4 min (5 Mb), una película de 2hrs (1,07Gb).
Nuestro universo se desenvuelve alrededor de los datos, tenemos datos científicos, como base de datos de astronomía, genómica, medio ambientales, de transporte, etc.
Ciencias sociales y humanidades, libros digitales, documentos históricos, datos sociales. Empresas y comercio, datos relacionados con ventas de corporaciones, transacciones de mercado, censos, tráfico de aerolíneas.
Entreteniendo y ocio, podemos tener imágenes, películas, archivos mp3, video juegos.
Medicina tenemos datos de pacientes, escáner, radiografías y así sucesivamente.
Industria y energía, grandes cantidades de datos obtenidos de censores.
En internet de las cosas (LoT) determinadas aplicaciones tienen miles e incluso pueden llegar a tener millones de censores que están continuamente produciendo nuevos datos.
¿Qué capacidad de información almacenamos y transmitimos?
Un estudio de la Universidad del Sur de California, en Los Ángeles (Estados Unidos) publicado en la revista “Science” (2010), arrojó los siguientes datos:
En 2007, la humanidad fue capaz de almacenar 295 EB (Exabyte).
La capacidad de almacenamiento de información se duplica aproximadamente cada 3 años.
Los expertos estiman que para el año 2020 el almacén digital de la humanidad llegara a 35 ZB (Zettabyte).
Para dar un ejemplo de la capacidad de la información que almacenamos, imaginemos un disco duro de 4 TB de capacidad con un volumen de 11,7 x 8×2,1 cm.
Si entendemos que 1 ZB es igual a 288.435.456 de discos de 4 BT, que puestos uno encima de otro tendrá una altura de 2,1 cm x 288.435.456 = 3.596 Km.
Con 72 ZB (año 2023) llegaríamos a la luna (384.000 Km).
Sobre la situación actual, podemos observar que somos ricos en datos, pero pobres en conocimientos.
Existen enormes cantidades de datos almacenados infrautilizados.
El progreso y la innovación ya no se ven obstaculizados por la capacidad de recopilar y almacenar datos, sino por la capacidad de gestionar, analizar, sintetizar, visualizar y descubrir el conocimiento implícito de ellos, recopilados de manera oportuna y en una forma escalada.
¿Qué podemos hacer con los datos?
Operaciones básicas
Son las operaciones que en la actualidad ya se realizan rutinariamente, siempre que accedemos a la información digital, entre ellas se encuentran:
Introducir, almacenar y controlar los datos, y las operaciones que se realizan en base de datos convencionales, como es crear, borrar, modificar registros de información, realización de consultas.
Estas operaciones hacen posible la existencia de transacciones, ejemplo comprar un billete o entrada a través de la web, pagar con una tarjeta de crédito, realizar una consulta en un cajero bancario.
Operaciones descriptivas
Tratan de explicar y dar a conocer los datos existentes.
Entre ellas se encuentran agrupar (clustering) que tratan de detectar datos que tienen características similares, y segmentarlos en grupos o clases representativas.
Identificar reglas de asociación que consiste en encontrar relaciones interesantes entre variables, por ejemplo, relacionar unas compras con otras realizadas en internet.
Descubrir secuencias de patrones.
Sintetizar o resumir conjuntos o bases de datos masivos para facilitar la toma de decisiones, generando informes multidimensionales, utilizando herramientas de visualización, que sinteticen la información relevante y sus relaciones.
Un ejemplo de operación descriptiva de síntesis, más abajo se muestra una figura generada automáticamente por una aplicación denominada Gephi, especializada en la visualización de resultados.
La figura corresponde al procesamiento de datos obtenidos a partir de las comunicaciones de usuarios a través de redes sociales, automáticamente el programa de visualización diferencia con distintos colores las cuatro redes sociales o agrupaciones encontradas y regularmente, el grosor de las líneas que enlazan un usuario con otro depende de la frecuencia de conexión entre ellos.

Operaciones predictivas
Son las que hacen las previsiones para facilitar la toma de decisiones.
Entre ellas se encuentran clasificar o segmentar: tipologías de cliente, preferencias de los usuarios, etc.
Estimar relaciones entre parámetros: análisis de regresión.
Detectar desviaciones o anomalías, detección de acciones fraudulentas, detección de accidentes.
Identificar series temporales, pronósticos sobre nuevos datos o tendencias.
A continuación, vamos a enumerar ejemplos de aplicaciones de procesamiento de alto nivel de datos en distintos ámbitos.
En el ámbito de la salud utilizando técnicas de procesamiento de alto nivel podemos realizar la identificación de terapias para diferentes enfermedades.
Estudio de factores de riesgo en distintas patologías.
Segmentación de pacientes en grupos afines.
Gestión hospitalaria y planificación temporal de salas, urgencias.
Recomendación priorizada de fármacos para una misma patología.
Estudios en genética (ADN).
Ejemplos relacionados con los procesos de producción:
Detección precisa de productos defectuosos.
Localización precoz de defectos.
Identificación de causa de fallos.
Optimización del rendimiento del proceso de producción de forma adaptativa.
Mantenimiento predictivo de máquinas y herramientas.
Ejemplos relacionados con el comercio:
Determinar perfiles de transacciones con tarjetas de crédito.
Tarjetas de descuentos, quejas de clientes, estilos públicos de vida, comentarios en redes sociales, etc.
Encontrar agrupaciones que identifiquen un modelo de cliente con características comunes (intereses, nivel de ingresos, hábitos de gastos, etc.) para realizar un marketing personalizado.
Efectuar predicciones de mercado, basadas en asociaciones entre ventas de productos e información diversa.
Establecer perfiles de cliente, identificando que tipo de clientes compra que productos (agrupación o clasificación), para identificar factores que retengan a los clientes y atraigan a nuevos.
Identificar clientes tanto fieles como fugas.
Ayudar a los clientes de un supermercado a encontrar los productos que estén buscando (por ejemplo, en las compras on-line en un supermercado).
Sugerir o recomendar a los clientes, productos que puedan ser de su interés particular.
Ejemplos en el ámbito de la banca y seguros:
Detectar patrones de uso fraudulento en tarjetas de crédito.
Estudio de concesión de créditos y/o tarjetas.
Determinación del gasto en tarjeta de crédito por grupos de personas.
Identificar reglas de comportamiento del mercado de valores a partir de datos históricos.
Predicción de clientes propensos a suscribir nuevas pólizas de seguros.
Identificar grupos / patrones de riesgo para concesión de seguros.
Identificar tendencias de comportamiento fraudulento en cobros de accidentes de seguros.
Ejemplos en el ambito de la web:
La web es el almacén de información mas grande y diverso de los existentes, existe gran cantidad de datos de donde extraer información útil, con la web 2.0 se esta incrementando la cantidad de información disponible en la nube.
Análisis del comportamiento y perfiles de usuarios. Se pueden realizar análisis de comportamiento y perfiles de usuario.
Potenciación de ventas cruzadas.
Generación de respuestas agrupadas según el tipo de contenido. Recuperación de información en general.
Detección semántica e identificación automática de datos complejos. Análisis de grupos en redes sociales, etc.
Nivel organizativo de los datos
En informática se suelen considerar distintos niveles de organización de los datos, estos niveles los podríamos establecer de la siguiente forma:
- Sistemas operativos: archivo y directorio (carpeta).
- Base de datos: tenemos la gestión de datos día a día. Procesamiento de transacciones on-line (OLTP On-line Transaction Processing). Dos dimensiones para cada “hecho”: tipo y localización (cliente y productos).
- Sistemas de información: Conjunto de elementos (datos / información, personas, técnicas, recursos materiales) orientados al tratamiento y administración de datos e información, organizados y listos para su uso posterior, generados para cubrir una necesidad o un objetivo concreto.
- Almacen de datos (Data warehouse): Contienen, además de datos actuales, datos históricos. Procesamiento analítico en línea (OLAP On-line Analytical Processing). Tres dimensiones: (tipo de producto, localización, tiempo) o (clientes, productos, tiempo).
- Minería de datos: Extracción de patrones de información desconocidos a partir de grandes cantidades de datos.
Minería de Datos
Es el proceso de extracción de patrones de información implícitos, no triviales, desconocidos y potencialmente útiles, a partir de grandes cantidades de datos.
Existe una cantidad ingente de datos (mina).
Se pretende extraer (minar) conocimiento (la mena) de esos datos, distinguiéndolo de la información irrelevante (la ganga).
Ese término se utiliza por la gran cantidad de datos disponible, puede considerarse como si fuese una mina y pretendemos minar, es decir, extraer de ella la mena que, en el caso, de la minería de datos sería el conocimiento, distinguiéndola de la información irrelevante que en nuestro símil seria la ganga.
La minería de datos también se le conoce con otros nombres:
- Descubrimiento de conocimiento en bases de datos (KDD)
- Extracción del conocimiento
- Análisis inteligente de datos / patrones
Objetivos de la Big Data
Ciencia de Datos
Problemas: seguridad y preservación de datos
Como conclusiones podemos afirmar que estamos en la década de los datos, y de ahí vendrá la revolución.
En definitiva, la Ciencia de Datos está cambiando nuestro mundo en ámbitos muy diversos.