Encuentros Digitales

Ignacio Blanquer, profesor titular del Departamento de Sistemas Informáticos de la Universidad Politécnica de Valencia

Ignacio Blanquer, Departamento de Sistemas Informáticos. Universidad Politécnica de Valencia, nos hablará sobre la jornada de la Fundación Ramón Areces sobre "El impacto de la Nube y el Big Data en la Ciencia" que se celebra el 21 de marzo. Concretamente, él dará una charla sobre el balance de la e-investigación en España. Ha estado involucrado en Computación Paralela y procesamiento de imágenes médicas desde hace 12 años, y ha participado en 25 proyectos de investigación nacionales y europeos. Estará con nosotros en directo el jueves 14 de marzo a partir de las 12:30 horas.

#1

¿Es lo mismo e-Ciencia que Ciencia 2.0 o responden a realidades diferentes? Gracias

No es lo mismo. Podemos entendemos por ciencia 2.0 la aplicación del modelo web 2.0 (contenido colaborativo, edición masiva, redes sociales, etc.) a la ciencia, podemos encontrar ejemplos como ResearchGate, donde los científicos "publicitan" sus resultados y comparten cuestiones y discusiones. La e-Ciencia viene de la mejora del procedimiento científico ("enhanced-Science") a través de infraestructuras basadas en las tecnologías de la información. La e-Ciencia ofrece un paradigma que ha permitido cambiar el método científico en varias disciplinas, introduciendo simulación o el análisis masivo de datos como herramienta cotidiana.

#2

¿Cuál es el nivel de la e-Ciencia en España comparada con los países de nuestro entorno?

El nivel de la e-ciencia en España es objetivamente muy alto, especialmente si lo comparamos con los medios que se dispone. España participa en las tres infraestructuras para e-Ciencia más importantes en Europa (la red GEANT2, la infraestructura Grid EGI y la red de supercomputadores PRACE) de manera destacada. Los científicos españoles participan en puestos destacados en proyectos como el Large Hadron Collider del CERN o la bioinformática. Hay una gran experiencia en la provisión de recursos y el uso de los mismos que debemos potenciar y explotar.

#3

¿La Nube significa para la investigación científica algo más que un ahorro de costes?

El concepto "nube" viene asociado a una forma diferente de proporcionar recursos. Frente al modelo tradicional, en el que la infraestructura se compra (capital), la nube ofrece un modelo de uso como servicio (operación). En el ámbito científico se abre además la posibilidad de habilitar el acceso a los recursos a más gente. Mediante la provisión de servicios en la nube y el desarrollo de aplicaciones adaptadas, es posible hacer disponible a una mayor cantidad de usuarios recursos de computación intensivos bajo demanda. Tenemos ejemplos en aplicaciones científicas que incorporan la posibilidad de ejecutarse en la nube para permitir obtener los resultados más rápidos, sin que requiera por parte de los usuarios científicos ningún conocimiento informático, lo que sería impensable en un modelo tradicional.

#4

¿En qué estado se encuentra la e-investigación en España? ¿De qué manera le están afectando los recortes?

La e-investigación Española está en una posición destacada. Formamos parte del núcleo fuerte de la red de supercomputadores PRACE, somos la nación (en alianza con Portugal) que más ha crecido en usuarios de Grid fuera del ámbito del acelerador de partículas del CERN, y muchos ejemplos más. Evidentemente, el recorte presupuestario puede poner en peligro la posición de liderazgo española, por lo que debemos multiplicar nuestros esfuerzos y reforzar la cooperación con la empresa y la cooperación internacional para compensarlos. Existe una importante capacidad de innovación que debemos explotar.

#5

¿De qué manera beneficia el Big Data a la ciencia?

La ciencia se encuentra en estos momentos en un momento de gran revolución en lo que se ha venido a llamar el cuarto paradigma - un interesantísimo libro. Hemos pasado de una ciencia empírica a una ciencia basada en la formalización teórica, de ésta aproximación al uso de simulación como herramienta cotidiana y de ahí se ha saltado a la exploración de datos masivos. El ejemplo más claro es el análisis de los datos genómicos, cuyo coste de proceso supera en este momento el coste de obtención de las secuencias de ADN - lo que resulta sorprendente ya que sólo 10 años atrás costó más de 280 Millones de dólares obtener el primer genoma humano.

#6

¿Qué descubrimiento científico destacarías que haya sido posible gracias a la e-investigación, a la Nube o al Big Data?

Uno de los mayores impulsores de la e-investigación ha sido el acelerador de partículas del CERN. Es por tanto razonable decir que el mayor descubrimiento ha sido la verificación del Bosón de Higgs, que si bien es un descubrimiento empírico, no habría sido posible sin la e-infraestructura para el diseño y análisis que se creó.

#7

En qué disciplinas o materias destaca más la presencia de la ciencia española en la nube o el big data? ¿Somos buenos realmente en algo? Gracias por la respuesta

Honestamente podemos decir que sí somos buenos en la e-ciencia. Nos avalan las cifras de uso de nuestras infraestructuras científicas y las internacionales. Hay disciplinas que se basan en el uso de infraestructuras de supercomputación en los que los programas más destacados los lideran científicos españoles, como el estudio de la materia condensada o la simulación de flujos turbulentos, por no hablar del análisis genómico. En el acelerador de partículas del CERN (Large Hadron Collider), España tuvo una presencia muy importante en los equipos técnicos que gestionaban los recursos de almacenamiento y proceso en varios de los experimentos, como ATLAS y CMS. Son científicos españoles los que han conseguido obtener premios internacionales en simulación de la actividad cardiaca. En la simulación del diseño del reactor de fusión fría de ITER destacan códigos integrados sobre estas plataformas por científicos españoles.

#8

El hecho de que ahora todo esté en la \'Nube\' ¿de qué manera ha afectado a los procesos de investigación? ¿se han propiciado nuevas colaboraciones? ¿de qué tipo?

La e-ciencia se ha basado enormemente en hacer disponibles a través de internet de datos y aplicaciones de interés para la comunidad científica. El acceso abierto ha supuesto una revolución en disciplinas como la Genómica. En éste ámbito es impensable publicar un artículo científico de relevancia si no se hacen disponibles públicamente los resultados obtenidos y las herramientas utilizadas. De hecho, al "padre" del primer genoma humano lo despidieron de su propia empresa al hacerse patente el hecho de que la comunidad científica sólo aceptaría resultados de acceso público. La nube sólo está generalizando más aún la forma en que se hacen disponibles no solo los datos sino los servicios de proceso.

#9

¿Qué tipo de problemas se consideran dentro del campo de Big Data? y, ¿A partir de qué volumen de datos se empiezan a catalogar como Big Data?

Hay una gran cantidad de disciplinas, pero realmente no hay un límite claro. Depende enormemente del tipo de dato. Por ejemplo, en la última convocatoria de proyectos de la Unión Europea relacionados con el Big Data, se hablaba de dar soporte a problemas que generen centenares de miles de registros por segundo, aunque pocos problemas alcanzan estos ratios. No obstante, podemos hablar de Big Data normalmente cuando el dato individual es muy grande (por ejemplo los archivos de genomas, de mapas climáticos mundiales, de históricos médicos, resultados de simulaciones grandes y dinámicos, etc.).

#10

¿Puede contribuir la nube a generar empleo?

La e-Ciencia es sin duda un factor dinamizador de la innovación. En la actualidad, cualquier empresa innovadora de las que nacen en el seno de las universidades (las llamadas "start-ups" o "spin-offs") ya no se plantea el comprar una infraestructura para dar servicio a sus posibles clientes, al menos, al principio. La fiabilidad de las infraestructuras en la nube permiten escalar la oferta de recursos dependiendo de la demanda, lo que resulta clave para que las empresas pequeñas puedan despegar. La nube facilita la innovación.

#11

¿Qué modelos de programación se utilizan habitualmente para abordar problemas de tipo Big Data?

Nos encontramos en un momento especialmente interesante en este punto. En cuanto al desarrollo de aplicaciones generales, el modelo MapReduce ha sido bastante popular para realizar aplicaciones que requieren analizar grandes cantidades de datos de forma distribuida. Iniciado por google, está disponible para todas las plataformas e infraestructuras Cloud actuales. Junto con MapReduce han aparecido gran cantidad de entornos (dryad, GWT, Azure SDK, etc.) que proporcionan servicios para desarrollar aplicaciones poco acopladas, robustas y altamente escalables.

#12

¿Qué herramientas y/o tecnologías se usan habitualmente para tratar los problemas de tipo Big Data?

En los últimos años ha proliferado lo que viene llamándose bases de datos no relacionales (NoSQL) o bases de datos en tabla (cassandra, dynamo, mongodb, etc.) que permiten gestionar de forma más efectiva grandes cantidades de datos. En cuanto al desarrollo de aplicaciones, citar MapReduce y Hadoop como un modelo popular para adaptar aplicaciones. No obstante, hay una gran variedad de entornos y herramientas, como el SDK de Azure, que permiten una migración sencilla de aplicaciones desde el ordenador personal a la nube, el Google Web Toolkit, que se integra muy bien con los servicios del Google AppEngine, los servicios de AWS de Amazon, etc. En el ámbito científico, proyectos como VENUS-C han desarrollado herramientas para facilitar el desarrollo de aplicaciones.

#13

Es realmente útil ceder tiempo de ordenadores personales para análisis de datos en investigación? Me refiero a programas tipo SETIatHome...

Las infraestructuras de computación voluntaria, que es como técnicamente se suele denominar a estos programas que agrupan miles de ordenadores, se están utilizando de forma efectiva para resolver problemas científicos. En España, el proyecto IBERCIVIS movilizó miles de voluntarios que permitieron resolver una serie de problemas científicos. En Europa, hay una iniciativa llamada EDGI que persigue consolidar este modelo. Además, un factor destacado es que te hace partícipe de los descubrimientos, y está comprobado que despierta el interés de la gente en general por la ciencia.

#14

¿Se puede hablar ya de que la Ciencia de los Datos es una nueva ciencia?

Para responder a esto prefiero citar a otras personas con relevancia. Efectivamente, investigadores tan renombrados como Gordon Bell, Jim Gray o Tony Hey afirman que nos encontramos en el "cuarto paradigma de la ciencia", en la que la investigación se basa en la generación y análisis masivo de datos. Recomiendo leer el libro "The fourth paradigm" que está disponible en internet de forma libre.

#15

¿Qué formación es necesaria para ser un científico de Datos? ¿Qué habilidades? ¿Crees que es una profesión de futuro? Muchas gracias

Sin duda es una profesión de futuro pero no sólo a nivel científico. Ya hay titulaciones de Grado en ingeniero de aplicaciones en la nube y se está ofreciendo mucha formación al respecto. Un ingeniero de datos debe saber de virtualización, monitorización de recursos, aplicaciones distribuidas, entornos de producción colaborativo, sistemas de ficheros de alto rendimiento, bases de datos noSQL y entornos de programación distribuido.

#16

¿No hay una cierta burbuja también en torno a la Nube y el Big Data? No hay tanto de Ciencia como de marketing?

Yo creo que esta situación es muy habitual y esperable. Gartner, en su "hype cycle for Emerging Technologies" , algo así como ciclo de exageraciones de las tecnologías emergentes, enuncia de que las tecnologías empiezan con un impulso tecnológico (se adopta porque es bueno), el pico de las expectativas infladas (se sobrepasan las expectativas razonables), seguido del valle de las desilusiones (se desestiman todos los usos exagerados) y culmina con una subida ligera de su adopción que lleva a la meseta de productividad. Todos estos términos rimbombantes vienen a decir algo así como que siempre se exageran las expectativas de una tecnología nueva pero que con su desarrollo acaba estabilizándose. En resumen, hay que llevar cuidado que no es "nube" todo lo que parece.

Despedida

Quisiera terminar dando las gracias a los lectores por las preguntas que me han formulado, muy interesantes y que me han puesto en más de un aprieto para poder contestarlas. Destacar que de ellas se deduce que hay un interés generalizado en entender el papel de España en las tecnologías en la Nube y el Big Data y una expectativa de que generen riqueza que me parece muy acertado. Y por supuesto animar a todo el mundo a asistir a la jornada que la fundación Ramón Areces organiza al respecto el próximo día 21 de Marzo. Un saludo y gracias de nuevo.