Compitiendo en ecosistemas

Escoger una solución de datos (ya sea de Business Intelligence, Data Analytics o Big Data) se está volviendo cada vez más complicado y es necesario tener una estrategia adecuada y mecanismos de evaluación eficientes. Por ejemplo, ¿qué librería de machine learning es mejor en las diferentes plataformas?  ¿Sabemos definir qué es mejor?  ¿Qué solución me ofrece mayor versatilidad para mis preguntas? ¿Qué supone para mi organización escoger una plataforma u otra? ¿Debo considerar convertir mi organización en un colaborador de la plataforma?

Tradicionalmente escoger una plataforma de datos ha esta ligado al precio, a la calidad, a las características de producto,… pero actualmente también han emergido otras formas de competición que afectan al mercado de Big Data y Analytics y impactan profundamente en la selección de nuestra plataforma de datos.

Tal y como apuntan Kapoor y Lee en el artículo Coordinating and competing in ecosystems: How organizational forms shape new technology investments, actualmente las organizaciones compiten a través de ecosistemas en los que colaboran y compiten al mismo tiempo.

En el contexto de las estrategias de datos, tradicionalmente fabricantes y proveedores han creado relaciones uno a uno para crear mejores productos y ofrecer valor añadido. Sin embargo, hemos asistido en los últimos años a un fenómeno que se enclava dentro del artículo anteriormente citado: las tecnologías de Big Data y Analytics se articulan a través de ecosistemas y plataformas. La dinámica competitiva ha cambiado. Se compite en la capacidad de innovación presente y futura lo que lleva a considerar modelos de coopetencia construidos en torno a tecnologías open source.

El ejemplo más claro de esto es Apache Hadoop en el que múltiples empresas colaboran para mejorar las componentes del ecosistema y al mismo tiempo ofrecen servicios de valor añadido mediante su propia plataforma en la que han integrado diversas de las componentes.

Cambios en la dinámica competitiva de los proveedores requieren un nuevo enfoque en la evaluación por parte de las empresas.

Tenemos, en realidad, varios escenarios que conviven al mismo tiempo:

  • Fabricantes que siguen el modelo tradicional fundamentados en partnerships con terceros para la reventa y creación de servicios de valor.
  • Fabricantes que colaboran en el diseño y la mejora de tecnologías con otros, pero que a posteriori ofrecen una plataforma integrada sobre la que ofrecen servicios. Por ejemplo, Apache Hadoop o Spark.
  • Fabricantes que ofrecen plataformas de desarrollo (de estrategias de datos) para captar empresas que creen sus nuevos productos fundamentados en sus componentes. Por ejemplo, Amazon, Microsoft o Google.

Elegir un enfoque sobre el resto, limita qué podremos hacer y la forma de hacerlo. A tener en cuenta:

  • La situación del ecosistema: quién participa, de qué forma, en qué condiciones, madurez y evolución.
  • Lock-in: una vez escogido el ecosistema, ¿es para siempre?
  • Open Source: en qué medida se apoya el ecosistema en el open source y bajo qué licencia.
  • Propiedad del dato y del algoritmo: en función del ecosistema es necesario revisar quién es el propietario de estos puntos.

Ante tanta opción, es fácil que una organización quede paralizada y no inicie ninguna acción en su transformación hacia la orientación del dato.

En esta nueva realidad, cambia cómo las organizaciones deben evaluar sus estrategias de datos. Importa el enfoque y no sólo el producto. Y es necesario prepararse para evitar la parálisis. Estamos hablando de nuevos perfiles, nuevos criterios de decisiones y nuevos modelos de colaboración.

¿Estamos preparados para el reto?

GPU Computing: una nueva etapa para Big Data

Ya han pasado más 10 años desde que Hadoop apareció (lo celebramos a principios de 2016). Aunque Big Data no es Hadoop (ya hemos pasado la fase de confusión), este hito nos indica que hemos llegado ya a un cierto punto de madurez respecto a ciertas tecnologías que conforman lo que conocemos.

En fase inicial, los desarrollos de tecnologías de Big Data se han centrado en el software marcando una nueva etapa que se quería diferenciar de soluciones más fundamentadas en el hardware como HPC o appliances analíticas o especializadas en el análisis de datos. Hemos asistido a la aparición de múltiples tecnologías categorizadas en batch processing, stream processing y NoSQL. Pero todas ellas fundamentadas en software y en la creación de ecosistemas alrededor de ellas que pugnan por captar la atención de los desarrolladores. Ya sea Apache Hadoop, Apache Spark o Apache Flink (por citar algunas de ellas).

Hemos vivido una expansión de tecnologías (de software) centradas en mejorar el almacenamiento y el procesamiento del dato. Esta explosión ha derivado en una dificultad inherente no sólo para escoger la solución adecuada sino también el proveedor (algo a lo que hemos querido dar un poco de luz a través de la primera guía de estrategias de datos co-publicada con Computer World España). Ya estamos preparando la segunda versión a ser publicada a principios de 2017.

Y sin embargo, aún tenemos límites en lo que podemos hacer con el software. Es cierto, que se han creado diferentes tecnologías, ecosistemas y arquitectura(s) para mejorar lo que podemos hacer con el dato, pero ¿y si es el momento de introducir nuevos enfoques?

Muchas de las mejoras en el contexto del procesamiento de datos complejos se han articulado alrededor de conceptos como el uso de la computación distribuida (más servidores trabajando de forma conjunta y/o en paralelo, en lugar de un servidor más grande y potente) y la capacidad de usar la memoria (del CPU), así como adaptar algoritmos a su versión distribuida.  Pero para algunos escenarios (como el contexto geoespacial con múltiples agregaciones en paralelo) necesitamos todavía mayor potencia de procesamiento para nuestros algoritmos. Lo que se traduce en crear una arquitectura más compleja a nivel de hardware en las que debemos desplegar y orquestrar nuestras plataformas de datos. Miles de nodos que deben ser gestionados (y esto entra en el campo de los DevOps y los data engineers) para cumplan su cometido. Esto supone mayor dificultad para una organización.

Quizá algunos piensen para que lo necesitamos. ¿No es suficiente con lo que tenemos? No voy a estar en un contexto parecido.

Pensemos en un ejemplo, imaginemos que queremos tener trazabilidad de toda la flota logística de nuestro negocio. Ya sean camiones, coches, motocicletas, bicicletas o drones. Que queremos saber tiempo real dónde están, si llevan retraso y si todo funciona correctamente. Esto puede parece muy simple, pero en función de la cantidad de objetos en esta red logística (y si hablamos de IoT) esto es simplemente en gran reto a resolver. Con esto quiero decir, a medida que planteemos más y más propuestas de valor asociadas a la digitalización completa de un proceso de negocio vamos a necesitar mayor capacidad en nuestra plataforma de datos para poder tener visibilidad completa de lo que está sucediendo.

Afortunadamente, a grandes males, grandes remedios. Un nuevo enfoque ha emergido, GPU Computing, es decir, el uso de los procesadores gráficos para tareas realizadas tradicionalmente por el CPU. Entremos en detalle. Un CPU consiste en una serie de núcleos (pocos) optimizados para hacer procesamiento secuencial mientras que un GPU consiste en arquitectura consistente en miles de pequeños núcleos diseñados para realizar múltiples tareas de forma simultánea.

Inicialmente estos núcleos han sido optimizados para el procesamiento para operaciones gráficas, pero desde hace más de una década se ha extendido las capacidades para ampliar los casos de uso. Por ejemplo, Nvidia lleva tiempo desarrollando este nuevo tipo de GPU y un lenguaje de programación llamado CUDA para crear nuevas aplicaciones. Es decir, no estamos hablando algo completamente nuevo, sino de una tecnología que ha llegado al punto de estar preparada para su despliegue empresarial. La madurez de la que hablan muchos.

Por lo que no es nuevo encontrarse software acelerado por GPU, pero si su uso en el contexto de Big Data. Y eso nos lleva al punto actual en el empresas como Jedox que usa la aceleración por GPU para mejorar el rendimiento de su servidor MOLAP, o Kinetica que ofrece una plataforma de computación in-memory fundamentada en GPU.

Sobre Kinetica

Podemos considerar Kinetica como una de las primeras empresas cuyo producto extiende las capacidades de procesamiento en tiempo real (y también incluye soporte para series temporales, soporte geoespacial y OLAP) de forma integrada abriendo la puerta a casos de uso imposibles antaño (por precio o por capacidades técnicas). Entre sus ejemplos destacan aquellos con componente geoespacial (como el caso de US Portal). Pero destaca no sólo su capacidad de usar GPUs para el análisis sino la posibilidad de combinarlo con CPU y la integración con múltiples fuentes de origen y con algunas de las principales soluciones de BI. La siguiente imagen ilustra su arquitectura.

Kinetica

Arquitectura de Kinetica

Atención con esta empresa, de la que vamos a leer mucho en los próximos meses en lo que se antoja uno de los puntos calientes en este mercado. Grandes empresas ya han apostado por sus soluciones para innovar en sus respectivas plataformas de datos.

No son los únicos (fabricantes) claro. Amazon, Microsoft y Google pronto ofrecerán estas capacidades en su porfolio y muchos de los grandes actores ya tienen en su punto de mira esta tecnología.

¿Estamos preparados para la siguiente revolución del big data fundamentada en GPUs?

Personalized Medicine. A New Healthcare Paradigm Based on ICT Tools

During the last decades, the ICT revolution has dramatically transformed the way people and companies operate. The continuous development of ICT tools, not only has helped organizations to improve their productivity, but also has created completely brand new industries.

However, the healthcare industry has not historically embraced such technologies as fast as others. Traditionally, and in a classic product adoption lifecycle context, healthcare organizations used to be part either of the late majority or the laggards segments. Among others, the most important reasons of the slow deployment are:

  • existence of a high bureaucratic system with a wide number of actors involved in decision making.
  • difficulty to cope with high volumes of heterogeneous data
  • high costs involved in the storage and the analysis of the information.
  • legal issues concerning personal data management and data compilation
  • patient´s mistrust about data management of sensitive information.
  • lack of IT literacy of some segments of the healthcare workforce.

Historically, the main stakeholders of the healthcare system have not had big reasons for changing a classic, bureaucratic and highly profitable system. Large corporations have been interested in maintaining a corrective based and scale intensive model, focus in general diagnosis and treatments. On top of that, public administrations have contributed to create massive public systems whose efficiency is increasingly being questioned.

However, during the last few years, two main forces are producing a turning point, enabling a rapid implementation of ICT tools in healthcare sector. Today, the industry is considered to have a high potential for implementing such solutions. This revolution is generating a paradigm shift, from a traditional medical system, to a personalized medicine approach. A model centered in patient´s particular characteristics.

In developed countries, Governments are deploying a “push strategy” to change the situation. This is the first driver that is speeding up the pace at which the industry is evolving towards technological based models. Since an economic point of view, classic healthcare systems are no longer sustainable. Public institutions are seeing the new personalized medicine paradigm as an opportunity to create better solutions at a considerable lower cost. An example of this approach is the Horizon 2020 Healthcare framework developed by the European Union, funded with more than M€ 450 for the period 2014-20.

The second driver that is enabling this transformation is technology. New text mining and cognitive computing processes are allowing doctors and researchers to use unstructured data. This kind of data can be extracted from papers and other plain text documents and, analyzed as a whole, can provide useful information when diagnosing or treating a patient. Moreover, the cost of computer power needed to analyze huge amounts of data is becoming available at a reasonable cost, allowing activities that could not be imagined only a decade ago.

Data is nowadays present everywhere. Healthcare is a data intensive industry that uses knowledge to transform symptoms and pre-tested hypothesis in diagnostics and treatments. Nowadays, there exists an affordable technology capable of measuring and analyzing the data of the patient on an individual basis allowing, not only to create on-demand treatments, but to develop specific plans to predict and prevent diseases in advance.

The battle of Personalized Medicine has begun. A new dynamic and highly heterogeneous industry is being formed. Pharmaceutical, ICT, Insurance, Telecommunication, Consumer Electronics, are only a few of the sectors that are interested in creating specific divisions to develop products and services in the eHealth market. Based on its core competences, they will offer value propositions that will vary. However, most of them will have to implement big data platforms to turn raw data into meaningful value.

Francisco Parra, Research Analyst @ Delfos Research.

Big Data y Computación Cognitiva

El pasado jueves 19 de febrero, IBM reunió en sus oficinas de Madrid a más de 300 profesionales del sector para mostrar y analizar las aplicaciones que está desarrollando a partir de su sistema cognitivo Watson. Este sistema permite analizar fuentes de datos estructurados tradicionales y nuevas fuentes de información desestructurada e interaccionar con el usuario utilizando el lenguaje natural de forma fácil e intuitiva.

El proyecto Watson se desarrolló en el departamento de I+D de la compañía entre los años 2005 y 2011. Actualmente, IBM se encuentra en las primeras fases de comercialización y pretende realizar una inversión de más de 1.000 millones de dólares en el periodo 2014-2015, destinada fundamentalmente al desarrollo de aplicaciones. El sistema se comercializa mediante el formato cloud y ya cuenta con 25 clientes, entre los que se encuentran 2 empresas españolas: Repsol y Caixabank.

Según Marta Martínez, presidenta de IBM en España, Portugal, Grecia e Israel, Watson presenta 3 capacidades diferenciales al resto de sistemas: i. procesamiento de lenguaje natural, ii. aprendizaje dinámico y iii. evaluación de hipótesis. Apalancado en estos tres aspectos, IBM está trabajando para posicionarse como el referente en este nuevo segmento de negocio, mediante el desarrollo de aplicaciones y servicios que ayuden a los directivos y empleados de las compañías a tomar decisiones más acertadas.

Durante el evento IBM presentó, en colaboración con sus socios, algunos de los proyectos en los que está trabajando, destacando los sectores seguridad y salud. Concretamente en salud, el MD Andesron Cancer Center de Houston está utilizando la tecnología Watson con el objetivo de ofrecer diagnósticos y tratamientos mejores y más personalizados. Para ello, Watson utiliza la base de datos relacional del centro y cruza esta información con más de 23 millones de publicaciones científicas archivadas en el repositorio Pub Med. Con todos estos datos, el sistema permite ahorrar tiempo en la toma de decisiones, mostrando al especialista en un solo panel de control toda la información relevante. Además, el sistema permite analizar la correlación entre las causas y las consecuencias de una determinada enfermedad, por lo que presenta potencial no solo para tratar enfermedades de la mejor forma posible, sino para ayudar a prevenir enfermedades futuras.

Este ejemplo concreto es solo uno de los casos de uso futuros en los que Watson podría ser utilizado. En un mundo donde la capacidad para transformar grandes volúmenes de datos desordenados en información útil, Watson está presentando su candidatura para liderar el sector. Veremos si en los próximos años se acaba incorporando dentro de las herramientas de inteligencia de negocio de las organizaciones.

Francisco Parra, Research Analyst @ Delfos Research.

BIG DATA: Un cambio de enfoque (y II)

Hablamos en el artículo anterior sobre el flujo del dato. Continuamos con las siguientes fases.

Fase de adopción: Lógica del negocio.

Con la involucración del negocio entra en juego un nuevo enfoque que invierte la lógica secuencial del flujo del dato. El punto de partida ya no es la generación de datos, sino una meta de negocio:

La forma en que el negocio adopta Big Data parte de una meta de negocio, evalúa el tipo de decisiones, dota de un contexto a la información, identifica los datos relevantes que se integran y procesan a través de una caja negra, las plataformas.

  • Meta de negocio: La meta de negocio está muy vinculada a la actividad de la empresa. Sin embargo, pueden encontrarse similitudes desde una perspectiva departamental: el departamento financiero; por ejemplo, buscará mitigar riesgos financieros, el departamento de marketing; optimizar el engagement en la fase de exploración de los clientes, el departamento de operaciones; optimizar el mantenimiento de equipos… Cada departamento fijará sus propias metas.
  • Decisiones: En la empresa todas las personas toman decisiones ya sean estas tácticas, operativas o estratégicas. Cada una de estas decisiones tiene características diferentes en cuanto a su número, su frecuencia, tiempos de respuesta o la incertidumbre que las rodea. Por ejemplo, las decisiones tácticas son muy numerosas, se producen con mucha frecuencia, exigen una respuesta rápida y carecen de incertidumbre, lo cual las convierte en candidatas a un mayor grado de automatización. Cada tipo de decisor necesitará funcionalidades e interfaces adaptados a su consumo de información.
  • Contexto de Información: Estas decisiones y sus objetivos de negocio se desarrollan en un contexto de negocio que va desde la planificación hasta su ejecución. En cada una de estas fases las necesidades en cuanto a agilidad o flexibilidad son distintas. Por ejemplo, en la ejecución la necesidad de responder con agilidad a cambios en la demanda es muy alta.
  • Datos relevantes: Existen tres retos a la hora de identificar cuáles son los datos relevantes: tener demasiados, no tenerlos o no saber que los tienes. En el primer caso, recibir datos de distintas fuentes puede provocar la existencia de datos incoherentes o contradictorios. En el segundo, será necesario desarrollar una estrategia para capturar esos datos. Por ejemplo, si son datos personales requerirá desarrollar una estrategia en torno a privacidad del individuo. Y en el tercer caso, será necesario poner los medios para acceder a ellos – Dark Data-.
  • Caja negra: Aunque para el negocio la plataforma tecnológica sea una “caja negra”, la meta de negocio, la tipología de decisiones y el contexto de la información la condicionan. Por ejemplo, en un contexto de ejecución será necesario que la plataforma trabaje en tiempo real mientras que en un contexto de exploración que pueda trabajar sin modelos predefinidos y sin datos pre estructurados.

Adquiriendo una cultura de decisiones basadas en evidencias

Los primeros en darse cuenta del valor que encierra para la empresa la generación de datos han sido los departamentos de tecnología, que han visto en ello la oportunidad de convertirse en catalizadores del cambio que conlleva.

Pero para que este sea efectivo hay que trascender la visión del flujo de datos y adquirir la visión del negocio. Primero consiguiendo la involucración de una unidad de negocio y luego extendiéndola al resto de la empresa.

Por el camino la empresa tendrá que acompasar sus esfuerzos en múltiples frentes: tecnología, procesos, personas… y cultura. La fase mediática con su visión del flujo de datos ha preparado a las empresas en términos de tecnología, ahora toca acelerar el resto, en especial la construcción de una cultura de decisiones basadas en evidencias.

Pero, quién ha dicho que la tecnología no es una palanca para cambiar la cultura.

Quizá ahora cobre sentido el estallido mediático … y por eso siempre es lo mismo.

Fernando Maldonado, Associate Research Analyst @ Delfos Research

BIG DATA: Un cambio de enfoque (I)

Siempre sucede lo mismo: el ciclo de adopción de la tecnología pasa por un estallido mediático, y justo cuando el término empieza a perder su significado, cambia el enfoque y comienza su adopción.

¿Por qué?

Tomemos el caso de Big Data, separando la fase mediática, de educación, de la de adopción.

Fase de educación: El flujo del dato.

La forma en que asimilamos el fenómeno de Big Data es siguiendo el flujo del dato. A saber:

Se están generando nuevos datos susceptibles de ser capturados e integrados en los sistemas de la empresa que una vez transformados en información valiosa será entregada y consumida por los decisores para crear valor.

  • Generación: La proliferación de nuevos dispositivos, sensores, medios sociales, weareables, etc. conlleva un aumento de datos. Pero, no sólo crecen sino que también cambia su patrón de crecimiento – Ej. datos desestructurados, datos en tránsito, meta datos, etc.-. Y con ellos la empresa se enfrenta a sus primeros retos: ¿Dónde los almacenamos? o ¿Cómo integrarlos en la empresa?
  • Captura e integración: La avalancha de nuevos datos pone en jaque las tecnologías existentes – ej. bases de datos relacionales-, propiciando la adopción de nuevas tecnologías – Ej. NoSQL, In menory y Schema-less databases, Hadoop clusters, etc.- para procesar los datos. Pero ¿Qué plataforma elegir? Por ejemplo, Hadoop está basada en open source pero requiere conocimientos técnicos y no está especializada. Cada plataforma tiene sus ventajas e inconvenientes.
  • Transformación: En este punto la atención se desvía al algoritmo, ya no está en la cantidad de datos sino en el filtro, y con ello el foco pasa a cómo extraer significado del dato, a convertirlo en información valiosa. El científico del dato aplica programas y técnicas estadísticas, modelos econométricos, predictivos, etc. Pero encuentra un reto en el sesgo, la calidad de los datos y en encontrar las preguntas adecuadas.
  • Entrega y consumo: Los decisores buscan agilidad en su respuesta ante cambios de mercado y obtener un conocimiento profundo de lo que sucede basado en evidencias pero necesitan ser capaces de accionar esa información y aunque se desarrollan técnicas de visualización que permiten asimilar la información el problema de “la última milla” persiste.
  • La promesa de valor: Esta promesa abarca toda la organización, desde la optimización de precios hasta la creación de nuevos servicios – Ej. Cobrar por mantenimiento predictivo-. Pero la aproximación no puede producirse por big bang, primero hay que probar el valor que hay detrás antes de extenderlo a toda la organización. Ahora el reto es conseguir un sponsor que financie y se involucre en el proyecto.

Continuaremos del tema de Big Data en la segunda parte de este artículo.

Fernando Maldonado, Associate Research Analyst @ Delfos Research

Open Research @ Delfos Research

Have you ever wondered which are the topics of our research? You know the names: Big Data, Business Intelligence, Business Analytics, Data-Driven Companies… There are many facets to be considered! From market evolution to organizational maturity, not a single topic is not worthy to be researched.

We believe that all organizations are going to be deeply transformed by data strategies. Be ready for the change!

For a little glimpse review our Open Research @ Rpubs: https://rpubs.com/delfosresearch and follow our bi-lingual blog (English and Spanish)!

Josep Curto, CEO @ Delfos Research