Compitiendo en ecosistemas

Escoger una solución de datos (ya sea de Business Intelligence, Data Analytics o Big Data) se está volviendo cada vez más complicado y es necesario tener una estrategia adecuada y mecanismos de evaluación eficientes. Por ejemplo, ¿qué librería de machine learning es mejor en las diferentes plataformas?  ¿Sabemos definir qué es mejor?  ¿Qué solución me ofrece mayor versatilidad para mis preguntas? ¿Qué supone para mi organización escoger una plataforma u otra? ¿Debo considerar convertir mi organización en un colaborador de la plataforma?

Tradicionalmente escoger una plataforma de datos ha esta ligado al precio, a la calidad, a las características de producto,… pero actualmente también han emergido otras formas de competición que afectan al mercado de Big Data y Analytics y impactan profundamente en la selección de nuestra plataforma de datos.

Tal y como apuntan Kapoor y Lee en el artículo Coordinating and competing in ecosystems: How organizational forms shape new technology investments, actualmente las organizaciones compiten a través de ecosistemas en los que colaboran y compiten al mismo tiempo.

En el contexto de las estrategias de datos, tradicionalmente fabricantes y proveedores han creado relaciones uno a uno para crear mejores productos y ofrecer valor añadido. Sin embargo, hemos asistido en los últimos años a un fenómeno que se enclava dentro del artículo anteriormente citado: las tecnologías de Big Data y Analytics se articulan a través de ecosistemas y plataformas. La dinámica competitiva ha cambiado. Se compite en la capacidad de innovación presente y futura lo que lleva a considerar modelos de coopetencia construidos en torno a tecnologías open source.

El ejemplo más claro de esto es Apache Hadoop en el que múltiples empresas colaboran para mejorar las componentes del ecosistema y al mismo tiempo ofrecen servicios de valor añadido mediante su propia plataforma en la que han integrado diversas de las componentes.

Cambios en la dinámica competitiva de los proveedores requieren un nuevo enfoque en la evaluación por parte de las empresas.

Tenemos, en realidad, varios escenarios que conviven al mismo tiempo:

  • Fabricantes que siguen el modelo tradicional fundamentados en partnerships con terceros para la reventa y creación de servicios de valor.
  • Fabricantes que colaboran en el diseño y la mejora de tecnologías con otros, pero que a posteriori ofrecen una plataforma integrada sobre la que ofrecen servicios. Por ejemplo, Apache Hadoop o Spark.
  • Fabricantes que ofrecen plataformas de desarrollo (de estrategias de datos) para captar empresas que creen sus nuevos productos fundamentados en sus componentes. Por ejemplo, Amazon, Microsoft o Google.

Elegir un enfoque sobre el resto, limita qué podremos hacer y la forma de hacerlo. A tener en cuenta:

  • La situación del ecosistema: quién participa, de qué forma, en qué condiciones, madurez y evolución.
  • Lock-in: una vez escogido el ecosistema, ¿es para siempre?
  • Open Source: en qué medida se apoya el ecosistema en el open source y bajo qué licencia.
  • Propiedad del dato y del algoritmo: en función del ecosistema es necesario revisar quién es el propietario de estos puntos.

Ante tanta opción, es fácil que una organización quede paralizada y no inicie ninguna acción en su transformación hacia la orientación del dato.

En esta nueva realidad, cambia cómo las organizaciones deben evaluar sus estrategias de datos. Importa el enfoque y no sólo el producto. Y es necesario prepararse para evitar la parálisis. Estamos hablando de nuevos perfiles, nuevos criterios de decisiones y nuevos modelos de colaboración.

¿Estamos preparados para el reto?

Artificial Intelligence needs to cross the uncanny valley

Despite the vertiginous advances in cognitive technologies, commercial success will be determined by the willingness of humans to embrace them. Actually, the process of acceptance requires overcoming at some point a strong aversion by users. This dynamics need to be understood in business cases before rushing to make a decision.

The promise of intelligent technologies is fascinating: There is a wave of predictions presenting a future with robots taking over most human tasks, creating a much higher standard of living, where humans will concentrate on value-added tasks (there is a pessimistic current of thinking predicting we will end up as servants to robots, but we are not going to deal with that in this post). The question that is often overlooked is how to make the journey to that promising future.

Technological lifecycle follows a consistently upwards path, which can take the form of an S-curve, linear, or a disruptive leap. However, in the case of human and machine interactions, when assessing the likelihood of acceptance from the user side, the lifecycle path does not apply. The shape of the curve and the process dynamics are quite different. Understanding this difference could make the difference between the success and failure of a given project. This was known about 40 years ago, and the acceptance curve is called the uncanny valley.  The concept was coined by the Japanese robotics researcher Masahiro Mori. It describes our response cycle when interacting with a robot. It is shown in the graph below:

uncanny-valley

Source: ACM, 2016

Initially, our response to the appearance of a robot is positive as the appearance of the robot becomes increasingly human. However at some point, as the robot appears closer to humans, but not quite, it triggers a strong revulsion. That is the uncanny valley. Only when the appearance of the robot becomes practically indistinguishable from that of a human being, the emotional response becomes positive again.

The point here is that the uncanny valley does not apply only to robotics, but to the technologies that represent an interaction between humans and intelligent machines. In this case, the key is to be able to identify the factors defining the human-machine experience, beyond physical appearance.

Different technologies are at different points in the uncanny valley. For instance, digital representations of humans crossed the valley years ago. Other technologies are still making their way up from the bottom of the uncanny valley. We are going to explore two of them, how the uncanny valley applies, and the main implications:

Customer-facing Artificial Intelligence: This is a clear example of the illusion of upward evolution when the uncanny valley is overlooked. The benefits that AI can bring are great: an always-on, self-service offering, which can create top quality experiences when combined with big data and analytics. This has been proposed as the solution to the chronic BPO challenges, as organizations struggle to find contact center staff combining excellence in their skills, job loyalty and competitive salaries.

Basic IVR systems provided a cost-effective solution to simple problems. With the evolution of artificial intelligence, the range of problems that can be solved is potentially much broader. However, when dealing with more sophisticated systems, customer experience can be summarized as frustrating. There is an overall impression that the machine does not understand customer needs, beyond a set of predefined scenarios. This, along with the need to repeat questions several times, leads to an urge to talk to a human being. In the case of chatbots or personal assistants, it just takes a few interactions to reach the limits of that intelligence. Children seem to be particularly talented for that. Both cases reflect they are in the low region in the uncanny valley.

These systems do not yet have the ability to recognize or assess their own limitations. Furthermore, there are unable to deal with uncertainty and ambiguity, which are present to a high degree in human communication. The level of interaction expected needs to be richer than just providing an answer.

Anthropomorphic robots: After creating outstanding value in several sectors (e.g. manufacturing), the robot industry is turning to fulfilling human and social needs, in areas such as elderly care, domestic services, or even children with special needs. In principle, robots can potentially make a substantial improvement in the quality of life of many people.

This case combines both physical appearance and artificial intelligence. One of the companies actively researching in this area is Hanson Robotics, aiming at bringing to the world “humanlike robots with greater-than-human wisdom.” The company believes that showing humanlike face expressiveness and language technology, they can build strong emotional connections, paving the way for the services mentioned above.

I invite the reader to check the link below, and assess where in the uncanny valley this robot is. In order to create an interaction resembling human experience, and be accepted by people (in particularly those with special needs) it seems obvious that they still have a long way to go.

There is an element missing in the cognitive world and artificial intelligence when it comes to complex interaction with humans: emotional intelligence. These machines lack a basic conscience. It seems too obvious the user is dealing with just an algorithm or engine, however sophisticated, and no empathy emerges from those interactions. There is a contrast between the enthusiasm of developers and the reaction of users (or viewers)

This raises a question: if we are willing to trust a robot, knowing that in the end it is a robot. On the other hand, if a given robot passes the Turing test (created to determine if a machine behavior is actually indistinguishable from that of a human), a new breed of problems may appear. A clear example is the computer generated Japanese pop idol Aimi Eguchi, who (which) was a clever digital composite of the features of six existing members of the idol group AKB48, able to fool and later shock millions of fans in 2011.

It is not clear if society will allow robots to enter areas considered genuinely human. We may end up determining limits, establishing which activities can be performed by robots, and which ones will remain in the human domain. This is particularly clear in the case of ethical dilemmas (see the link below).It will be necessary to create a multidisciplinary dialogue addressing these questions.

For the time being, the most immediate step for any organization developing these solutions would be assessing where they are in the uncanny valley, and what steps are necessary to cross it. It is not them who should make the assessment, but their customers, the ultimate decision makers.

 

Recommended links:

Overview: http://cacm.acm.org/magazines/2016/9/206247-the-edge-of-the-uncanny/fulltext

Anthropomorphic robot: http://www.cnet.com/news/crazy-eyed-robot-wants-a-family-and-to-destroy-all-humans/

AI and ethical dilemmas: https://www.linkedin.com/pulse/conciencia-artificial-vs-inteligencia-antonio-j-ramirez (in Spanish)

GPU Computing: una nueva etapa para Big Data

Ya han pasado más 10 años desde que Hadoop apareció (lo celebramos a principios de 2016). Aunque Big Data no es Hadoop (ya hemos pasado la fase de confusión), este hito nos indica que hemos llegado ya a un cierto punto de madurez respecto a ciertas tecnologías que conforman lo que conocemos.

En fase inicial, los desarrollos de tecnologías de Big Data se han centrado en el software marcando una nueva etapa que se quería diferenciar de soluciones más fundamentadas en el hardware como HPC o appliances analíticas o especializadas en el análisis de datos. Hemos asistido a la aparición de múltiples tecnologías categorizadas en batch processing, stream processing y NoSQL. Pero todas ellas fundamentadas en software y en la creación de ecosistemas alrededor de ellas que pugnan por captar la atención de los desarrolladores. Ya sea Apache Hadoop, Apache Spark o Apache Flink (por citar algunas de ellas).

Hemos vivido una expansión de tecnologías (de software) centradas en mejorar el almacenamiento y el procesamiento del dato. Esta explosión ha derivado en una dificultad inherente no sólo para escoger la solución adecuada sino también el proveedor (algo a lo que hemos querido dar un poco de luz a través de la primera guía de estrategias de datos co-publicada con Computer World España). Ya estamos preparando la segunda versión a ser publicada a principios de 2017.

Y sin embargo, aún tenemos límites en lo que podemos hacer con el software. Es cierto, que se han creado diferentes tecnologías, ecosistemas y arquitectura(s) para mejorar lo que podemos hacer con el dato, pero ¿y si es el momento de introducir nuevos enfoques?

Muchas de las mejoras en el contexto del procesamiento de datos complejos se han articulado alrededor de conceptos como el uso de la computación distribuida (más servidores trabajando de forma conjunta y/o en paralelo, en lugar de un servidor más grande y potente) y la capacidad de usar la memoria (del CPU), así como adaptar algoritmos a su versión distribuida.  Pero para algunos escenarios (como el contexto geoespacial con múltiples agregaciones en paralelo) necesitamos todavía mayor potencia de procesamiento para nuestros algoritmos. Lo que se traduce en crear una arquitectura más compleja a nivel de hardware en las que debemos desplegar y orquestrar nuestras plataformas de datos. Miles de nodos que deben ser gestionados (y esto entra en el campo de los DevOps y los data engineers) para cumplan su cometido. Esto supone mayor dificultad para una organización.

Quizá algunos piensen para que lo necesitamos. ¿No es suficiente con lo que tenemos? No voy a estar en un contexto parecido.

Pensemos en un ejemplo, imaginemos que queremos tener trazabilidad de toda la flota logística de nuestro negocio. Ya sean camiones, coches, motocicletas, bicicletas o drones. Que queremos saber tiempo real dónde están, si llevan retraso y si todo funciona correctamente. Esto puede parece muy simple, pero en función de la cantidad de objetos en esta red logística (y si hablamos de IoT) esto es simplemente en gran reto a resolver. Con esto quiero decir, a medida que planteemos más y más propuestas de valor asociadas a la digitalización completa de un proceso de negocio vamos a necesitar mayor capacidad en nuestra plataforma de datos para poder tener visibilidad completa de lo que está sucediendo.

Afortunadamente, a grandes males, grandes remedios. Un nuevo enfoque ha emergido, GPU Computing, es decir, el uso de los procesadores gráficos para tareas realizadas tradicionalmente por el CPU. Entremos en detalle. Un CPU consiste en una serie de núcleos (pocos) optimizados para hacer procesamiento secuencial mientras que un GPU consiste en arquitectura consistente en miles de pequeños núcleos diseñados para realizar múltiples tareas de forma simultánea.

Inicialmente estos núcleos han sido optimizados para el procesamiento para operaciones gráficas, pero desde hace más de una década se ha extendido las capacidades para ampliar los casos de uso. Por ejemplo, Nvidia lleva tiempo desarrollando este nuevo tipo de GPU y un lenguaje de programación llamado CUDA para crear nuevas aplicaciones. Es decir, no estamos hablando algo completamente nuevo, sino de una tecnología que ha llegado al punto de estar preparada para su despliegue empresarial. La madurez de la que hablan muchos.

Por lo que no es nuevo encontrarse software acelerado por GPU, pero si su uso en el contexto de Big Data. Y eso nos lleva al punto actual en el empresas como Jedox que usa la aceleración por GPU para mejorar el rendimiento de su servidor MOLAP, o Kinetica que ofrece una plataforma de computación in-memory fundamentada en GPU.

Sobre Kinetica

Podemos considerar Kinetica como una de las primeras empresas cuyo producto extiende las capacidades de procesamiento en tiempo real (y también incluye soporte para series temporales, soporte geoespacial y OLAP) de forma integrada abriendo la puerta a casos de uso imposibles antaño (por precio o por capacidades técnicas). Entre sus ejemplos destacan aquellos con componente geoespacial (como el caso de US Portal). Pero destaca no sólo su capacidad de usar GPUs para el análisis sino la posibilidad de combinarlo con CPU y la integración con múltiples fuentes de origen y con algunas de las principales soluciones de BI. La siguiente imagen ilustra su arquitectura.

Kinetica

Arquitectura de Kinetica

Atención con esta empresa, de la que vamos a leer mucho en los próximos meses en lo que se antoja uno de los puntos calientes en este mercado. Grandes empresas ya han apostado por sus soluciones para innovar en sus respectivas plataformas de datos.

No son los únicos (fabricantes) claro. Amazon, Microsoft y Google pronto ofrecerán estas capacidades en su porfolio y muchos de los grandes actores ya tienen en su punto de mira esta tecnología.

¿Estamos preparados para la siguiente revolución del big data fundamentada en GPUs?

Algoritmos: el mundo como laboratorio

Hoy los algoritmos forman parte de nuestra cotidianidad. No los vemos, pero están ahí cuando recibimos recomendaciones en una tienda online, cuando buscamos en el navegador el camino más rápido… Ocultos sí, pero presentes cada vez más en nuestras actividades diarias.

La creciente ubicuidad de los algoritmos sigue su curso y está dando paso a lo que algunos ya definen como la economía del algoritmo. Por eso ha llegado el momento de prestarles una merecida atención, comenzando por cómo se crean.

No todos los algoritmos son creados igual.

Lo primero que uno debe saber es que no todos los algoritmos son creados igual. En algunos casos son el resultado de aplicar un método deductivo buscando explicar el mundo que nos rodea mientras que en otros se aplican métodos inductivos para predecirlo. A esto hay que añadir otra dimensión: la capacidad de incorporar feedback; llegando incluso a generar un proceso de retoalimentación continuo, ya sea para aumentar su precisión como para abrir una puerta a su aprendizaje.

Así que si cruzamos el tipo de conocimiento con la capacidad de incorporar feedback a través sistemas dinámicos aparecen distintos objetivos vinculados a los algoritmos: explicar, predecir, aprender o adquirir una mayor precisión. Estos objetivos se pueden solapar parcialmente pero siempre existirá cierta preponderancia de uno u otro.

Sirva esta figura para ilustrar de forma sintética la combinación de metodologías de conocimiento y estado de los sistemas.

Conocimiento vs sistema.

 AAEAAQAAAAAAAAP-AAAAJGM3YzMyODAzLTQ1MTktNDRhMC05YjZhLWY3OWFlODQ2ZmY3YQ

Algoritmos y conocimiento deductivo: la fórmula de drake.

En 1962 el científico Frank Drake creó una ecuación que hoy se conoce como la Fórmula de Drake y que consistía en determinar la probabilidad de que existiera vida en otras partes del universo. Su objetivo no era realmente el resultado en si mismo, sino estimular a la comunidad científica a aumentar su comprensión sobre qué condiciones debían producirse para que la vida floreciera. Así que con una fuerte carga teórica volcada sobre esta ecuación, los científicos han ido con el tiempo refinándola, incorporando tanto nuevos datos como los avances en nuestro conocimiento… y por el camino mejorando nuestra comprensión. En otras palabras, esta formulación algo estrafalaria no ha tenido un efecto neutro sino que ha dirigido investigaciones posteriores que hoy nos permiten explicar mejor las condiciones para que se dé la vida. 

Lo interesante de este ejemplo, desde la perspectiva que nos ocupa, es que refleja el preponderante carácter explicativo, por encima del predictivo, de los modelos deductivos. Pero, al mismo tiempo, nos muestra como a medida que van apareciendo nuevos datos y que el conocimiento avanza va incrementando su precisión.

Algoritmos y conocimiento inductivo: los experimentos de Dan Ariely.

Desde hace unos años hay dentro de la economía una corriente que ha puesto en jaque los supuestos sobre los que se asienta esta disciplina. Se trata de la economía del comportamiento y uno de sus máximos exponentes es Dan Ariely. Simplificando, este economista, utilizando a universitarios como “cobayas”en sus experimentos, cuestiona uno de los pilares centrales con los que los economistas han representado el mundo: la racionalidad de nuestras decisiones.

Aquí, lo interesante del asunto es que en vez de partir de unos supuestos sobre como se comportan los estudiantes, lo que hace este economista es sencillamente observar, sin establecer ningún supuesto previo ni elaborar ninguna teoría, para luego extraer conclusiones. En definitiva, construye modelos de como funciona el mundo a partir de la experimentación, utilizando la inferencia para predecir comportamientos y así extrapolarlo a otros grupos. Sí, sacrifica parte de la capacidad de explicar a cambio de mejorar la capacidad de predecir. En esencia, lo que hace Dan Ariely es abandonar el conocimiento deductivo y abrazar el inductivo.

Algoritmos: el mundo como laboratorio

La datificación de nuestro entorno y la irrupción de la analítica avanzada nos está permitiendo movernos hacia un conocimiento inductivo utilizando el mundo como laboratorio. Ahora podemos observar no un grupo de estudiantes sino “todos” y luego extraer conclusiones, aunque el precio que se paga siga siendo renunciar a nuestra capacidad de responder el porqué.

Quizá no importe si no podemos explicar el resultado de nuestras predicciones: todo vale si somos capaces de predecir bien. Sin embargo, aquí surgen otras preguntas: ¿Qué pasa si el algoritmo deja de funcionar? o ¿Qué significa predecir bien?

  • Algoritmos con fecha de caducidad. Uno de los ejemplos más conocidos de la caducidad de un algoritmo es el caso de Google flu trends. Durante un tiempo google fue capaz de anticipar brotes de gripe con más precisión, más rápido y más barato que el instituto de salud americano. Sin embargo, con el tiempo Google flu trends perdió su efectividad.  Una explicación plausible es que “murió de éxito” porque una vez que la revista Nature publicó su impresionante logro, se popularizó… y la calidad de los datos se vio afectada. Sea como fuere, un algoritmo que funcionaba dejo de funcionar.
  • Algoritmos “malos”, predicciones “buenas”. Cuando se trata de evaluar si una predicción es buena o mala, generalmente utilizamos su grado de precisión para calificarla en uno u otro lado. Sin embargo, esto esconde una trampa: la paradoja de la precisión. Para ilustrarlo supongamos que queremos construir un modelo para predecir si una determinada persona tiene una mascota exótica en su casa. Pongamos que sabemos que una persona de cada cien mil posee una. Bueno pues si queremos predecir con una alta precisión si alguien tiene o no una mascota exótica bastaría con crear un modelo que consideré que nadie tiene una. Nuestra precisión, medida como número de aciertos, será superior al 99,999% pero nuestro modelo será malo. Su impacto, obviamente, dependerá del contexto. 

Estos dos ejemplos sirven para mostrar algunos de los retos que estos algoritmos afrontan en torno a la calidad de los datos o la selección de modelos. 

Mirando al futuro: métodos inductivos y sistemas dinámicos. 

Si aplicamos métodos inductivos e incorporamos la capacidad de recibir un feedback continuo, entonces el algoritmo resultante irá modificándose para conseguir una mejor predicción. Sería como una algoritmo auto concebido que es capaz de aprender de forma autónoma. En otras palabras, entramos en el terreno de la inteligencia artificial. 

A medida que estos algoritmos ganan presencia en nuestras vidas las implicaciones que ello conlleva son enormes. Aquí surgen cuestiones tanto legales – ¿Qué sucede si un algoritmo genera una accidente? como éticas – ¿ Qué sucede si produce algún tipo de discriminación? como prácticas – ¿ Y si termina destruyendo valor?-.

Ya lo hemos vivido antes con otros avances: el algoritmo es neutro, el uso que hagamos de él no. Por eso debemos entender cuáles son sus limitaciones y cuál el contexto en el que podemos aplicarlos preguntarnos siempre por qué y para qué se crea el algoritmo.

Mientras tanto, estos algoritmos empujarán la automatización hacia nuevas cotas; más allá de tareas repetitivas. Permitiendo que, por ejemplo, las maquinas realicen tareas antes inimaginables controlando el mundo físico que nos rodea.

No, no es ciencia ficción, está a la vuelta de la esquina.  Y aunque todavía permanezcan ocultos, en algún momento tendrán que salir a la luz avivando un debate ineludible.

Nota: es artículo se ha publicado previamente en LinkedIn.

Sobre las estrategias de datos

El valor de una empresa está determinado, cada vez más, por sus activos intangibles y dentro de éstos sus activos digitales se tornan críticos. Ninguna empresa es inmune al proceso de transformación que representa la conversión del mundo analógico en digital y que conlleva la datificación de nuestro entorno. Ahora que, quizá siempre, todos los negocios son negocios de conocimiento la capacidad de extraer valor de los datos gana (enorme) relevancia.

En su orientación al dato, algunas empresas comienzan a preguntarse cómo extraer el máximo valor de los mismos. Hasta ahora, la aproximación ha sido a través de iniciativas departamentales, creando pilotos bajo la dictadura del pay back. Buen comienzo para experimentar y conocer mejor el potencial. Sin embargo, la idea de desarrollar una estrategia (de datos) que trascienda los proyectos abarcando toda la empresa comienza a ganar peso en las empresas españolas.

No cabe duda de que el boom mediático de Big Data (en adelante, datos complejos) ha tenido un efecto arrastre sobre el resto de tecnologías que, aunque con distintos grados de madurez, cubren aspectos como inteligencia de negocio, gestión del dato, analítica de datos o comercio del dato.

Cada una de ellas comienza a clarificar sus ámbitos de uso tales como la toma de decisiones, inteligencia operacional, exploración de escenarios y contraste de hipótesis o la creación de productos y servicios de datos. Sin embargo, existen espacios donde una visión estratégica determinará cuál es la más adecuada.

Por ejemplo, existe una asociación casi directa entre IoT (Internet of Things) y tecnologías para el tratamiento de datos complejos (insisto, Big Data). Pero, antes de correr tanto quizá debemos preguntarnos donde vamos a ubicar la inteligencia: ¿Centralizada en cloud o dispersa en cada activo? ¿Buscamos una respuesta automática con unas reglas predefinidas o de otro tipo?

Por otro lado, la innovación se acelera y para las empresas resulta difícil seguir el dinamismo de una oferta que se encuentra en un momento de explosión “cámbrica” – en Delfos Research hemos detectado más de 400 proveedores con oferta en España – que se manifiesta no sólo en la aparición de nuevas empresas sino también en una mayor amplitud y profundidad de la oferta de las ya existentes.

Además, el mercado se desdibuja toda vez que el software se convierte en servicio y los servicios en software… o que la oferta no sólo proviene de proveedores de tecnología sino de empresas cuya actividad principal es la ingeniería, la producción de energía, las finanzas, la investigación, etc.

Pero si esto no es suficientemente complejo siempre podemos añadir las tendencias del mercado: data lakes, virtualización del dato, sistemas cognitivos, data sharing, etc.

Por todo ello el grupo de comunicación IDG y los analistas de Delfos Research vamos a lanzar la primera guía en España dirigida a facilitar a las empresas el desarrollo de una estrategia de datos incorporando un directorio de proveedores e identificando las principales tendencias del mercado.

Hemos distinguido cinco ámbitos tecnológicos:

  • Inteligencia de negocio. Comprende estrategias, tecnologías y sistemas para mejorar la toma de decisiones como Reporting, OLAP, Cuadros de Mando, Balanced Scorecard, Scoreboards, Data Visualization, Data Storytelling y similares.
  • Analítica de datos. Comprende estrategias, tecnologías y sistemas para el análisis avanzado de datos para identificar patrones y predecir comportamientos como Data Mining, Text Mining, Machine Learning, Inteligencia artificial, Sistemas cognitivos y similares.
  • Datos complejos. Comprende estrategias, tecnologías y sistemas para el procesamiento de datos complejos como batch processing, streaming processing, NoSQL, HPC, MPP, In-Memory y similares.
  • Gestión del dato. Comprende estrategias, tecnologías y sistemas para la gestión del dato incluyendo Data Governance, Data Quality, Data Warehouse, Master Data Management y similares.
  • Comercio del dato. Comprende estrategias, tecnologías y sistemas que permiten la venta a terceros de datos previa alguna o todas las siguientes acciones: captura, filtrado, agregación, transformación o análisis.

Además, identificaremos si la oferta existente se dirige a un departamento, un sector de actividad o un tamaño de empresas específico. Si ofrecen soluciones best of breed, si su oferta es on premise,…

La tarea es titánica, pero tenemos la convicción que será una herramienta útil para acelerar un mercado que trae la promesa de incrementar el valor de las empresas españolas.

Por eso pido vuestra colaboración:

  • Si eres una empresa en fase de desarrollo de una estrategia de datos para ti va dirigida la guía que se publicará junto con la revista digital de Computerworld. Por favor, comparte este artículo.
  • Si por el contrario eres un proveedor con oferta de producto o servicio en este ámbito, por favor, comparte este artículo … Y contacta con nosotros (si aún no has participado).

¡Gracias por vuestra ayuda!

Autores: Fernando Maldonado y Josep Curto.

Big Data y Computación Cognitiva

El pasado jueves 19 de febrero, IBM reunió en sus oficinas de Madrid a más de 300 profesionales del sector para mostrar y analizar las aplicaciones que está desarrollando a partir de su sistema cognitivo Watson. Este sistema permite analizar fuentes de datos estructurados tradicionales y nuevas fuentes de información desestructurada e interaccionar con el usuario utilizando el lenguaje natural de forma fácil e intuitiva.

El proyecto Watson se desarrolló en el departamento de I+D de la compañía entre los años 2005 y 2011. Actualmente, IBM se encuentra en las primeras fases de comercialización y pretende realizar una inversión de más de 1.000 millones de dólares en el periodo 2014-2015, destinada fundamentalmente al desarrollo de aplicaciones. El sistema se comercializa mediante el formato cloud y ya cuenta con 25 clientes, entre los que se encuentran 2 empresas españolas: Repsol y Caixabank.

Según Marta Martínez, presidenta de IBM en España, Portugal, Grecia e Israel, Watson presenta 3 capacidades diferenciales al resto de sistemas: i. procesamiento de lenguaje natural, ii. aprendizaje dinámico y iii. evaluación de hipótesis. Apalancado en estos tres aspectos, IBM está trabajando para posicionarse como el referente en este nuevo segmento de negocio, mediante el desarrollo de aplicaciones y servicios que ayuden a los directivos y empleados de las compañías a tomar decisiones más acertadas.

Durante el evento IBM presentó, en colaboración con sus socios, algunos de los proyectos en los que está trabajando, destacando los sectores seguridad y salud. Concretamente en salud, el MD Andesron Cancer Center de Houston está utilizando la tecnología Watson con el objetivo de ofrecer diagnósticos y tratamientos mejores y más personalizados. Para ello, Watson utiliza la base de datos relacional del centro y cruza esta información con más de 23 millones de publicaciones científicas archivadas en el repositorio Pub Med. Con todos estos datos, el sistema permite ahorrar tiempo en la toma de decisiones, mostrando al especialista en un solo panel de control toda la información relevante. Además, el sistema permite analizar la correlación entre las causas y las consecuencias de una determinada enfermedad, por lo que presenta potencial no solo para tratar enfermedades de la mejor forma posible, sino para ayudar a prevenir enfermedades futuras.

Este ejemplo concreto es solo uno de los casos de uso futuros en los que Watson podría ser utilizado. En un mundo donde la capacidad para transformar grandes volúmenes de datos desordenados en información útil, Watson está presentando su candidatura para liderar el sector. Veremos si en los próximos años se acaba incorporando dentro de las herramientas de inteligencia de negocio de las organizaciones.

Francisco Parra, Research Analyst @ Delfos Research.

BIG DATA: Un cambio de enfoque (I)

Siempre sucede lo mismo: el ciclo de adopción de la tecnología pasa por un estallido mediático, y justo cuando el término empieza a perder su significado, cambia el enfoque y comienza su adopción.

¿Por qué?

Tomemos el caso de Big Data, separando la fase mediática, de educación, de la de adopción.

Fase de educación: El flujo del dato.

La forma en que asimilamos el fenómeno de Big Data es siguiendo el flujo del dato. A saber:

Se están generando nuevos datos susceptibles de ser capturados e integrados en los sistemas de la empresa que una vez transformados en información valiosa será entregada y consumida por los decisores para crear valor.

  • Generación: La proliferación de nuevos dispositivos, sensores, medios sociales, weareables, etc. conlleva un aumento de datos. Pero, no sólo crecen sino que también cambia su patrón de crecimiento – Ej. datos desestructurados, datos en tránsito, meta datos, etc.-. Y con ellos la empresa se enfrenta a sus primeros retos: ¿Dónde los almacenamos? o ¿Cómo integrarlos en la empresa?
  • Captura e integración: La avalancha de nuevos datos pone en jaque las tecnologías existentes – ej. bases de datos relacionales-, propiciando la adopción de nuevas tecnologías – Ej. NoSQL, In menory y Schema-less databases, Hadoop clusters, etc.- para procesar los datos. Pero ¿Qué plataforma elegir? Por ejemplo, Hadoop está basada en open source pero requiere conocimientos técnicos y no está especializada. Cada plataforma tiene sus ventajas e inconvenientes.
  • Transformación: En este punto la atención se desvía al algoritmo, ya no está en la cantidad de datos sino en el filtro, y con ello el foco pasa a cómo extraer significado del dato, a convertirlo en información valiosa. El científico del dato aplica programas y técnicas estadísticas, modelos econométricos, predictivos, etc. Pero encuentra un reto en el sesgo, la calidad de los datos y en encontrar las preguntas adecuadas.
  • Entrega y consumo: Los decisores buscan agilidad en su respuesta ante cambios de mercado y obtener un conocimiento profundo de lo que sucede basado en evidencias pero necesitan ser capaces de accionar esa información y aunque se desarrollan técnicas de visualización que permiten asimilar la información el problema de “la última milla” persiste.
  • La promesa de valor: Esta promesa abarca toda la organización, desde la optimización de precios hasta la creación de nuevos servicios – Ej. Cobrar por mantenimiento predictivo-. Pero la aproximación no puede producirse por big bang, primero hay que probar el valor que hay detrás antes de extenderlo a toda la organización. Ahora el reto es conseguir un sponsor que financie y se involucre en el proyecto.

Continuaremos del tema de Big Data en la segunda parte de este artículo.

Fernando Maldonado, Associate Research Analyst @ Delfos Research