Data Science y el embrollo de la reproducibilidad


Desde hace un año la polémica está servida en el ámbito de la Psicología: la mayor parte de los resultados encontrados en distintos experimentos publicados en las más prestigiosas revistas del mundo no han podido ser reproducidos.

La reproducibilidad no es negociable para ninguna disciplina científica, forma parte de su esencia. Por eso el debate sobre sus causas se ha expandido a otros ámbitos científicos y no debería pasar inadvertido en el mundo empresarial donde la orientación al dato busca consolidarse.

En agosto de 2015 se presentó un proyecto inusual que consistió en reproducir distintos experimentos llevados a cabo en el terreno de la psicología. Sus hallazgos fueron contundentes: de cada 100 experimentos tan sólo 36 pudieron reproducirse con éxito.

Existen múltiples explicaciones para este bajo porcentaje. Por ejemplo, es posible que faltase información relevante acerca de las condiciones en las que se creó el experimento o sencillamente que el investigador en su afán de buscar un resultado sorprende generase un sesgo involuntario. Puede incluso que los métodos (P-Value) para validar su reproducción no fueran los adecuados.

Lo cierto es que el hecho de que un experimento no pueda ser reproducido no significa necesariamente que los resultados sean falsos o que no se aplicara una metodología robusta. Es más, este ejercicio dice muy poco acerca de la veracidad del mismo.

Sin embargo, trasladar el debate suscitado al incipiente terreno de la orientación de las empresas al dato debería servir para reflexionar sobre la emergente figura del científico del dato, en cómo afecta a su capacidad para generar confianza en el decisor y en la eficiencia, por medio de la iteración, del propio proceso de análisis.

  • Generar confianza: Imaginemos a ese científico del dato que ha presentado los resultados de su análisis al comité de dirección. El análisis es robusto, las conclusiones pueden activar una decisión que cambiará el rumbo del negocio, la historia está bien elaborada y ha respondido a los porqués planteados. Pero, unas semanas más tarde vuelve con unos resultados distintos… Y aunque aquellos fueran veraces habrá perdido la confianza del decisor. Así que por un lado será necesario establecer mecanismos de revisión y de auditoría, seguimiento de versiones, que se documenten las condiciones en las que el análisis se llevó a cabo… Pero, además, los decisores tendrán que saber que las condiciones varían, que los modelos evolucionan y que la validez no se encuentra en la capacidad de reproducir un resultado. En otras palabras, será necesario construir la confianza trabajando en ambos extremos.
  • Fomentar la iteración: Existe un difícil equilibrio entre la necesidad de definir procesos y la “anarquía metodológica” en la búsqueda de resultados. El científico del dato tendrá que responder frecuentemente a preguntas similares, en la que existan pequeñas variaciones, o extensiones de algunas ya formuladas. Reinventar la rueda para dar respuesta cada vez que se formule una pregunta no solo no es eficiente – falta de reusabilidad – sino que impacta en su reproducibilidad.  Esta requiere que se establezcan procesos que, soportados por una infraestructura, busquen una mayor automatización. En otras palabras, la definición de un proceso que busque la reproducibilidad deberá cimentarse en la reutilización y la automatización para facilitar así la iteración.

Aunque la reproducibilidad es un viejo conocido del científico del dato y se han hecho significativos progresos, lo que ésta polémica nos enseña es que la comunicación y la eficiencia se encuentra en el corazón de su actividad.

Convertir las ciencias sociales en una suerte de nueva física social, ni va a ser fácil, ni va a estar exento de polémica. Tampoco lo va estar la mayor orientación al dato por parte de las empresas. Habrá que seguir trabajando.

PD. Este artículo ha sido previamente publicado en Linkedin

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s