Compitiendo en ecosistemas

Escoger una solución de datos (ya sea de Business Intelligence, Data Analytics o Big Data) se está volviendo cada vez más complicado y es necesario tener una estrategia adecuada y mecanismos de evaluación eficientes. Por ejemplo, ¿qué librería de machine learning es mejor en las diferentes plataformas?  ¿Sabemos definir qué es mejor?  ¿Qué solución me ofrece mayor versatilidad para mis preguntas? ¿Qué supone para mi organización escoger una plataforma u otra? ¿Debo considerar convertir mi organización en un colaborador de la plataforma?

Tradicionalmente escoger una plataforma de datos ha esta ligado al precio, a la calidad, a las características de producto,… pero actualmente también han emergido otras formas de competición que afectan al mercado de Big Data y Analytics y impactan profundamente en la selección de nuestra plataforma de datos.

Tal y como apuntan Kapoor y Lee en el artículo Coordinating and competing in ecosystems: How organizational forms shape new technology investments, actualmente las organizaciones compiten a través de ecosistemas en los que colaboran y compiten al mismo tiempo.

En el contexto de las estrategias de datos, tradicionalmente fabricantes y proveedores han creado relaciones uno a uno para crear mejores productos y ofrecer valor añadido. Sin embargo, hemos asistido en los últimos años a un fenómeno que se enclava dentro del artículo anteriormente citado: las tecnologías de Big Data y Analytics se articulan a través de ecosistemas y plataformas. La dinámica competitiva ha cambiado. Se compite en la capacidad de innovación presente y futura lo que lleva a considerar modelos de coopetencia construidos en torno a tecnologías open source.

El ejemplo más claro de esto es Apache Hadoop en el que múltiples empresas colaboran para mejorar las componentes del ecosistema y al mismo tiempo ofrecen servicios de valor añadido mediante su propia plataforma en la que han integrado diversas de las componentes.

Cambios en la dinámica competitiva de los proveedores requieren un nuevo enfoque en la evaluación por parte de las empresas.

Tenemos, en realidad, varios escenarios que conviven al mismo tiempo:

  • Fabricantes que siguen el modelo tradicional fundamentados en partnerships con terceros para la reventa y creación de servicios de valor.
  • Fabricantes que colaboran en el diseño y la mejora de tecnologías con otros, pero que a posteriori ofrecen una plataforma integrada sobre la que ofrecen servicios. Por ejemplo, Apache Hadoop o Spark.
  • Fabricantes que ofrecen plataformas de desarrollo (de estrategias de datos) para captar empresas que creen sus nuevos productos fundamentados en sus componentes. Por ejemplo, Amazon, Microsoft o Google.

Elegir un enfoque sobre el resto, limita qué podremos hacer y la forma de hacerlo. A tener en cuenta:

  • La situación del ecosistema: quién participa, de qué forma, en qué condiciones, madurez y evolución.
  • Lock-in: una vez escogido el ecosistema, ¿es para siempre?
  • Open Source: en qué medida se apoya el ecosistema en el open source y bajo qué licencia.
  • Propiedad del dato y del algoritmo: en función del ecosistema es necesario revisar quién es el propietario de estos puntos.

Ante tanta opción, es fácil que una organización quede paralizada y no inicie ninguna acción en su transformación hacia la orientación del dato.

En esta nueva realidad, cambia cómo las organizaciones deben evaluar sus estrategias de datos. Importa el enfoque y no sólo el producto. Y es necesario prepararse para evitar la parálisis. Estamos hablando de nuevos perfiles, nuevos criterios de decisiones y nuevos modelos de colaboración.

¿Estamos preparados para el reto?

GPU Computing: una nueva etapa para Big Data

Ya han pasado más 10 años desde que Hadoop apareció (lo celebramos a principios de 2016). Aunque Big Data no es Hadoop (ya hemos pasado la fase de confusión), este hito nos indica que hemos llegado ya a un cierto punto de madurez respecto a ciertas tecnologías que conforman lo que conocemos.

En fase inicial, los desarrollos de tecnologías de Big Data se han centrado en el software marcando una nueva etapa que se quería diferenciar de soluciones más fundamentadas en el hardware como HPC o appliances analíticas o especializadas en el análisis de datos. Hemos asistido a la aparición de múltiples tecnologías categorizadas en batch processing, stream processing y NoSQL. Pero todas ellas fundamentadas en software y en la creación de ecosistemas alrededor de ellas que pugnan por captar la atención de los desarrolladores. Ya sea Apache Hadoop, Apache Spark o Apache Flink (por citar algunas de ellas).

Hemos vivido una expansión de tecnologías (de software) centradas en mejorar el almacenamiento y el procesamiento del dato. Esta explosión ha derivado en una dificultad inherente no sólo para escoger la solución adecuada sino también el proveedor (algo a lo que hemos querido dar un poco de luz a través de la primera guía de estrategias de datos co-publicada con Computer World España). Ya estamos preparando la segunda versión a ser publicada a principios de 2017.

Y sin embargo, aún tenemos límites en lo que podemos hacer con el software. Es cierto, que se han creado diferentes tecnologías, ecosistemas y arquitectura(s) para mejorar lo que podemos hacer con el dato, pero ¿y si es el momento de introducir nuevos enfoques?

Muchas de las mejoras en el contexto del procesamiento de datos complejos se han articulado alrededor de conceptos como el uso de la computación distribuida (más servidores trabajando de forma conjunta y/o en paralelo, en lugar de un servidor más grande y potente) y la capacidad de usar la memoria (del CPU), así como adaptar algoritmos a su versión distribuida.  Pero para algunos escenarios (como el contexto geoespacial con múltiples agregaciones en paralelo) necesitamos todavía mayor potencia de procesamiento para nuestros algoritmos. Lo que se traduce en crear una arquitectura más compleja a nivel de hardware en las que debemos desplegar y orquestrar nuestras plataformas de datos. Miles de nodos que deben ser gestionados (y esto entra en el campo de los DevOps y los data engineers) para cumplan su cometido. Esto supone mayor dificultad para una organización.

Quizá algunos piensen para que lo necesitamos. ¿No es suficiente con lo que tenemos? No voy a estar en un contexto parecido.

Pensemos en un ejemplo, imaginemos que queremos tener trazabilidad de toda la flota logística de nuestro negocio. Ya sean camiones, coches, motocicletas, bicicletas o drones. Que queremos saber tiempo real dónde están, si llevan retraso y si todo funciona correctamente. Esto puede parece muy simple, pero en función de la cantidad de objetos en esta red logística (y si hablamos de IoT) esto es simplemente en gran reto a resolver. Con esto quiero decir, a medida que planteemos más y más propuestas de valor asociadas a la digitalización completa de un proceso de negocio vamos a necesitar mayor capacidad en nuestra plataforma de datos para poder tener visibilidad completa de lo que está sucediendo.

Afortunadamente, a grandes males, grandes remedios. Un nuevo enfoque ha emergido, GPU Computing, es decir, el uso de los procesadores gráficos para tareas realizadas tradicionalmente por el CPU. Entremos en detalle. Un CPU consiste en una serie de núcleos (pocos) optimizados para hacer procesamiento secuencial mientras que un GPU consiste en arquitectura consistente en miles de pequeños núcleos diseñados para realizar múltiples tareas de forma simultánea.

Inicialmente estos núcleos han sido optimizados para el procesamiento para operaciones gráficas, pero desde hace más de una década se ha extendido las capacidades para ampliar los casos de uso. Por ejemplo, Nvidia lleva tiempo desarrollando este nuevo tipo de GPU y un lenguaje de programación llamado CUDA para crear nuevas aplicaciones. Es decir, no estamos hablando algo completamente nuevo, sino de una tecnología que ha llegado al punto de estar preparada para su despliegue empresarial. La madurez de la que hablan muchos.

Por lo que no es nuevo encontrarse software acelerado por GPU, pero si su uso en el contexto de Big Data. Y eso nos lleva al punto actual en el empresas como Jedox que usa la aceleración por GPU para mejorar el rendimiento de su servidor MOLAP, o Kinetica que ofrece una plataforma de computación in-memory fundamentada en GPU.

Sobre Kinetica

Podemos considerar Kinetica como una de las primeras empresas cuyo producto extiende las capacidades de procesamiento en tiempo real (y también incluye soporte para series temporales, soporte geoespacial y OLAP) de forma integrada abriendo la puerta a casos de uso imposibles antaño (por precio o por capacidades técnicas). Entre sus ejemplos destacan aquellos con componente geoespacial (como el caso de US Portal). Pero destaca no sólo su capacidad de usar GPUs para el análisis sino la posibilidad de combinarlo con CPU y la integración con múltiples fuentes de origen y con algunas de las principales soluciones de BI. La siguiente imagen ilustra su arquitectura.

Kinetica

Arquitectura de Kinetica

Atención con esta empresa, de la que vamos a leer mucho en los próximos meses en lo que se antoja uno de los puntos calientes en este mercado. Grandes empresas ya han apostado por sus soluciones para innovar en sus respectivas plataformas de datos.

No son los únicos (fabricantes) claro. Amazon, Microsoft y Google pronto ofrecerán estas capacidades en su porfolio y muchos de los grandes actores ya tienen en su punto de mira esta tecnología.

¿Estamos preparados para la siguiente revolución del big data fundamentada en GPUs?

Personalized Medicine. A New Healthcare Paradigm Based on ICT Tools

During the last decades, the ICT revolution has dramatically transformed the way people and companies operate. The continuous development of ICT tools, not only has helped organizations to improve their productivity, but also has created completely brand new industries.

However, the healthcare industry has not historically embraced such technologies as fast as others. Traditionally, and in a classic product adoption lifecycle context, healthcare organizations used to be part either of the late majority or the laggards segments. Among others, the most important reasons of the slow deployment are:

  • existence of a high bureaucratic system with a wide number of actors involved in decision making.
  • difficulty to cope with high volumes of heterogeneous data
  • high costs involved in the storage and the analysis of the information.
  • legal issues concerning personal data management and data compilation
  • patient´s mistrust about data management of sensitive information.
  • lack of IT literacy of some segments of the healthcare workforce.

Historically, the main stakeholders of the healthcare system have not had big reasons for changing a classic, bureaucratic and highly profitable system. Large corporations have been interested in maintaining a corrective based and scale intensive model, focus in general diagnosis and treatments. On top of that, public administrations have contributed to create massive public systems whose efficiency is increasingly being questioned.

However, during the last few years, two main forces are producing a turning point, enabling a rapid implementation of ICT tools in healthcare sector. Today, the industry is considered to have a high potential for implementing such solutions. This revolution is generating a paradigm shift, from a traditional medical system, to a personalized medicine approach. A model centered in patient´s particular characteristics.

In developed countries, Governments are deploying a “push strategy” to change the situation. This is the first driver that is speeding up the pace at which the industry is evolving towards technological based models. Since an economic point of view, classic healthcare systems are no longer sustainable. Public institutions are seeing the new personalized medicine paradigm as an opportunity to create better solutions at a considerable lower cost. An example of this approach is the Horizon 2020 Healthcare framework developed by the European Union, funded with more than M€ 450 for the period 2014-20.

The second driver that is enabling this transformation is technology. New text mining and cognitive computing processes are allowing doctors and researchers to use unstructured data. This kind of data can be extracted from papers and other plain text documents and, analyzed as a whole, can provide useful information when diagnosing or treating a patient. Moreover, the cost of computer power needed to analyze huge amounts of data is becoming available at a reasonable cost, allowing activities that could not be imagined only a decade ago.

Data is nowadays present everywhere. Healthcare is a data intensive industry that uses knowledge to transform symptoms and pre-tested hypothesis in diagnostics and treatments. Nowadays, there exists an affordable technology capable of measuring and analyzing the data of the patient on an individual basis allowing, not only to create on-demand treatments, but to develop specific plans to predict and prevent diseases in advance.

The battle of Personalized Medicine has begun. A new dynamic and highly heterogeneous industry is being formed. Pharmaceutical, ICT, Insurance, Telecommunication, Consumer Electronics, are only a few of the sectors that are interested in creating specific divisions to develop products and services in the eHealth market. Based on its core competences, they will offer value propositions that will vary. However, most of them will have to implement big data platforms to turn raw data into meaningful value.

Francisco Parra, Research Analyst @ Delfos Research.