Algoritmos: el mundo como laboratorio

Hoy los algoritmos forman parte de nuestra cotidianidad. No los vemos, pero están ahí cuando recibimos recomendaciones en una tienda online, cuando buscamos en el navegador el camino más rápido… Ocultos sí, pero presentes cada vez más en nuestras actividades diarias.

La creciente ubicuidad de los algoritmos sigue su curso y está dando paso a lo que algunos ya definen como la economía del algoritmo. Por eso ha llegado el momento de prestarles una merecida atención, comenzando por cómo se crean.

No todos los algoritmos son creados igual.

Lo primero que uno debe saber es que no todos los algoritmos son creados igual. En algunos casos son el resultado de aplicar un método deductivo buscando explicar el mundo que nos rodea mientras que en otros se aplican métodos inductivos para predecirlo. A esto hay que añadir otra dimensión: la capacidad de incorporar feedback; llegando incluso a generar un proceso de retoalimentación continuo, ya sea para aumentar su precisión como para abrir una puerta a su aprendizaje.

Así que si cruzamos el tipo de conocimiento con la capacidad de incorporar feedback a través sistemas dinámicos aparecen distintos objetivos vinculados a los algoritmos: explicar, predecir, aprender o adquirir una mayor precisión. Estos objetivos se pueden solapar parcialmente pero siempre existirá cierta preponderancia de uno u otro.

Sirva esta figura para ilustrar de forma sintética la combinación de metodologías de conocimiento y estado de los sistemas.

Conocimiento vs sistema.

 AAEAAQAAAAAAAAP-AAAAJGM3YzMyODAzLTQ1MTktNDRhMC05YjZhLWY3OWFlODQ2ZmY3YQ

Algoritmos y conocimiento deductivo: la fórmula de drake.

En 1962 el científico Frank Drake creó una ecuación que hoy se conoce como la Fórmula de Drake y que consistía en determinar la probabilidad de que existiera vida en otras partes del universo. Su objetivo no era realmente el resultado en si mismo, sino estimular a la comunidad científica a aumentar su comprensión sobre qué condiciones debían producirse para que la vida floreciera. Así que con una fuerte carga teórica volcada sobre esta ecuación, los científicos han ido con el tiempo refinándola, incorporando tanto nuevos datos como los avances en nuestro conocimiento… y por el camino mejorando nuestra comprensión. En otras palabras, esta formulación algo estrafalaria no ha tenido un efecto neutro sino que ha dirigido investigaciones posteriores que hoy nos permiten explicar mejor las condiciones para que se dé la vida. 

Lo interesante de este ejemplo, desde la perspectiva que nos ocupa, es que refleja el preponderante carácter explicativo, por encima del predictivo, de los modelos deductivos. Pero, al mismo tiempo, nos muestra como a medida que van apareciendo nuevos datos y que el conocimiento avanza va incrementando su precisión.

Algoritmos y conocimiento inductivo: los experimentos de Dan Ariely.

Desde hace unos años hay dentro de la economía una corriente que ha puesto en jaque los supuestos sobre los que se asienta esta disciplina. Se trata de la economía del comportamiento y uno de sus máximos exponentes es Dan Ariely. Simplificando, este economista, utilizando a universitarios como “cobayas”en sus experimentos, cuestiona uno de los pilares centrales con los que los economistas han representado el mundo: la racionalidad de nuestras decisiones.

Aquí, lo interesante del asunto es que en vez de partir de unos supuestos sobre como se comportan los estudiantes, lo que hace este economista es sencillamente observar, sin establecer ningún supuesto previo ni elaborar ninguna teoría, para luego extraer conclusiones. En definitiva, construye modelos de como funciona el mundo a partir de la experimentación, utilizando la inferencia para predecir comportamientos y así extrapolarlo a otros grupos. Sí, sacrifica parte de la capacidad de explicar a cambio de mejorar la capacidad de predecir. En esencia, lo que hace Dan Ariely es abandonar el conocimiento deductivo y abrazar el inductivo.

Algoritmos: el mundo como laboratorio

La datificación de nuestro entorno y la irrupción de la analítica avanzada nos está permitiendo movernos hacia un conocimiento inductivo utilizando el mundo como laboratorio. Ahora podemos observar no un grupo de estudiantes sino “todos” y luego extraer conclusiones, aunque el precio que se paga siga siendo renunciar a nuestra capacidad de responder el porqué.

Quizá no importe si no podemos explicar el resultado de nuestras predicciones: todo vale si somos capaces de predecir bien. Sin embargo, aquí surgen otras preguntas: ¿Qué pasa si el algoritmo deja de funcionar? o ¿Qué significa predecir bien?

  • Algoritmos con fecha de caducidad. Uno de los ejemplos más conocidos de la caducidad de un algoritmo es el caso de Google flu trends. Durante un tiempo google fue capaz de anticipar brotes de gripe con más precisión, más rápido y más barato que el instituto de salud americano. Sin embargo, con el tiempo Google flu trends perdió su efectividad.  Una explicación plausible es que “murió de éxito” porque una vez que la revista Nature publicó su impresionante logro, se popularizó… y la calidad de los datos se vio afectada. Sea como fuere, un algoritmo que funcionaba dejo de funcionar.
  • Algoritmos “malos”, predicciones “buenas”. Cuando se trata de evaluar si una predicción es buena o mala, generalmente utilizamos su grado de precisión para calificarla en uno u otro lado. Sin embargo, esto esconde una trampa: la paradoja de la precisión. Para ilustrarlo supongamos que queremos construir un modelo para predecir si una determinada persona tiene una mascota exótica en su casa. Pongamos que sabemos que una persona de cada cien mil posee una. Bueno pues si queremos predecir con una alta precisión si alguien tiene o no una mascota exótica bastaría con crear un modelo que consideré que nadie tiene una. Nuestra precisión, medida como número de aciertos, será superior al 99,999% pero nuestro modelo será malo. Su impacto, obviamente, dependerá del contexto. 

Estos dos ejemplos sirven para mostrar algunos de los retos que estos algoritmos afrontan en torno a la calidad de los datos o la selección de modelos. 

Mirando al futuro: métodos inductivos y sistemas dinámicos. 

Si aplicamos métodos inductivos e incorporamos la capacidad de recibir un feedback continuo, entonces el algoritmo resultante irá modificándose para conseguir una mejor predicción. Sería como una algoritmo auto concebido que es capaz de aprender de forma autónoma. En otras palabras, entramos en el terreno de la inteligencia artificial. 

A medida que estos algoritmos ganan presencia en nuestras vidas las implicaciones que ello conlleva son enormes. Aquí surgen cuestiones tanto legales – ¿Qué sucede si un algoritmo genera una accidente? como éticas – ¿ Qué sucede si produce algún tipo de discriminación? como prácticas – ¿ Y si termina destruyendo valor?-.

Ya lo hemos vivido antes con otros avances: el algoritmo es neutro, el uso que hagamos de él no. Por eso debemos entender cuáles son sus limitaciones y cuál el contexto en el que podemos aplicarlos preguntarnos siempre por qué y para qué se crea el algoritmo.

Mientras tanto, estos algoritmos empujarán la automatización hacia nuevas cotas; más allá de tareas repetitivas. Permitiendo que, por ejemplo, las maquinas realicen tareas antes inimaginables controlando el mundo físico que nos rodea.

No, no es ciencia ficción, está a la vuelta de la esquina.  Y aunque todavía permanezcan ocultos, en algún momento tendrán que salir a la luz avivando un debate ineludible.

Nota: es artículo se ha publicado previamente en LinkedIn.

Sobre las estrategias de datos

El valor de una empresa está determinado, cada vez más, por sus activos intangibles y dentro de éstos sus activos digitales se tornan críticos. Ninguna empresa es inmune al proceso de transformación que representa la conversión del mundo analógico en digital y que conlleva la datificación de nuestro entorno. Ahora que, quizá siempre, todos los negocios son negocios de conocimiento la capacidad de extraer valor de los datos gana (enorme) relevancia.

En su orientación al dato, algunas empresas comienzan a preguntarse cómo extraer el máximo valor de los mismos. Hasta ahora, la aproximación ha sido a través de iniciativas departamentales, creando pilotos bajo la dictadura del pay back. Buen comienzo para experimentar y conocer mejor el potencial. Sin embargo, la idea de desarrollar una estrategia (de datos) que trascienda los proyectos abarcando toda la empresa comienza a ganar peso en las empresas españolas.

No cabe duda de que el boom mediático de Big Data (en adelante, datos complejos) ha tenido un efecto arrastre sobre el resto de tecnologías que, aunque con distintos grados de madurez, cubren aspectos como inteligencia de negocio, gestión del dato, analítica de datos o comercio del dato.

Cada una de ellas comienza a clarificar sus ámbitos de uso tales como la toma de decisiones, inteligencia operacional, exploración de escenarios y contraste de hipótesis o la creación de productos y servicios de datos. Sin embargo, existen espacios donde una visión estratégica determinará cuál es la más adecuada.

Por ejemplo, existe una asociación casi directa entre IoT (Internet of Things) y tecnologías para el tratamiento de datos complejos (insisto, Big Data). Pero, antes de correr tanto quizá debemos preguntarnos donde vamos a ubicar la inteligencia: ¿Centralizada en cloud o dispersa en cada activo? ¿Buscamos una respuesta automática con unas reglas predefinidas o de otro tipo?

Por otro lado, la innovación se acelera y para las empresas resulta difícil seguir el dinamismo de una oferta que se encuentra en un momento de explosión “cámbrica” – en Delfos Research hemos detectado más de 400 proveedores con oferta en España – que se manifiesta no sólo en la aparición de nuevas empresas sino también en una mayor amplitud y profundidad de la oferta de las ya existentes.

Además, el mercado se desdibuja toda vez que el software se convierte en servicio y los servicios en software… o que la oferta no sólo proviene de proveedores de tecnología sino de empresas cuya actividad principal es la ingeniería, la producción de energía, las finanzas, la investigación, etc.

Pero si esto no es suficientemente complejo siempre podemos añadir las tendencias del mercado: data lakes, virtualización del dato, sistemas cognitivos, data sharing, etc.

Por todo ello el grupo de comunicación IDG y los analistas de Delfos Research vamos a lanzar la primera guía en España dirigida a facilitar a las empresas el desarrollo de una estrategia de datos incorporando un directorio de proveedores e identificando las principales tendencias del mercado.

Hemos distinguido cinco ámbitos tecnológicos:

  • Inteligencia de negocio. Comprende estrategias, tecnologías y sistemas para mejorar la toma de decisiones como Reporting, OLAP, Cuadros de Mando, Balanced Scorecard, Scoreboards, Data Visualization, Data Storytelling y similares.
  • Analítica de datos. Comprende estrategias, tecnologías y sistemas para el análisis avanzado de datos para identificar patrones y predecir comportamientos como Data Mining, Text Mining, Machine Learning, Inteligencia artificial, Sistemas cognitivos y similares.
  • Datos complejos. Comprende estrategias, tecnologías y sistemas para el procesamiento de datos complejos como batch processing, streaming processing, NoSQL, HPC, MPP, In-Memory y similares.
  • Gestión del dato. Comprende estrategias, tecnologías y sistemas para la gestión del dato incluyendo Data Governance, Data Quality, Data Warehouse, Master Data Management y similares.
  • Comercio del dato. Comprende estrategias, tecnologías y sistemas que permiten la venta a terceros de datos previa alguna o todas las siguientes acciones: captura, filtrado, agregación, transformación o análisis.

Además, identificaremos si la oferta existente se dirige a un departamento, un sector de actividad o un tamaño de empresas específico. Si ofrecen soluciones best of breed, si su oferta es on premise,…

La tarea es titánica, pero tenemos la convicción que será una herramienta útil para acelerar un mercado que trae la promesa de incrementar el valor de las empresas españolas.

Por eso pido vuestra colaboración:

  • Si eres una empresa en fase de desarrollo de una estrategia de datos para ti va dirigida la guía que se publicará junto con la revista digital de Computerworld. Por favor, comparte este artículo.
  • Si por el contrario eres un proveedor con oferta de producto o servicio en este ámbito, por favor, comparte este artículo … Y contacta con nosotros (si aún no has participado).

¡Gracias por vuestra ayuda!

Autores: Fernando Maldonado y Josep Curto.