Texto: Diego Pérez Damasco

Imagen: Jon Russell – Flickr-(CC BY 2.0)

Si necesitaras encontrar datos sobre la situación de las víctimas minas explosivas en Colombia, ¿sabrías dónde empezar una búsqueda que te conduzca a una base de datos confiable? Ahora, una nueva herramienta facilita el proceso para llegar a esa información pero está asociada a un nombre no muy querido en las comunidades de datos abiertos: Google.

Google Dataset Search fue lanzado a principios de septiembre de este 2018. ¿De qué se trata? En resumen: indexa bases de datos de todo el mundo, incluyendo múltiples de América Latina. ¿Y qué piensa la comunidad de datos abiertos? Por un lado, genera expectativas positivas sobre la facilidad de encontrar de manera más directa bancos de información; por otro, también ha despertado algunas inquietudes sobre los planes futuros que podría tener el gigante de la red con este proyecto. Para ahondar en el tema, Distintas Latitudes consultó a algunos expertos.

Adriá Mercader, especialista en datos abiertos de Open Knowledge International, considera que la herramienta es beneficiosa para facilitar el descubrimiento de datos para un mayor número de usuarios, a través de una interfaz muy simple, con la que la mayoría ya está familiarizada. Sin embargo, también es cauto en dimensionar el alcance de estos beneficios.

“Google no está almacenando los metadatos o datasets que muestra, simplemente se limita a indexarlos. Desde el resultado, se enlaza a la página de origen, generalmente en un portal de datos abiertos”, dijo Mercader.

“Esta meta-agregación de múltiples portales se ha intentado múltiples veces desde el inicio del movimiento Open Data hace una década. Si bien hay muchos ejemplos de éxito de portales que agregan metadatos a nivel regional o nacional (como por ejemplo data.gov en Estados Unidos, o el portal de datos de la Unión Europea), no ha habido ninguna herramienta que haya dado el salto a un nivel global con resultados significativos. Google tiene los recursos y tecnología para intentarlo con garantías por lo que será interesante ver cómo evoluciona la herramienta”, agregó.

Para Mercader, un beneficio indirecto que tendrá Google Dataset Search es que alentará a los publicadores de datos a proporcionar y mantener mejores metadatos, ya que  entre más calidad en la organización y accesibilidad, serán más relevante en las búsquedas.

El especialista explicó que publicar los datos de forma que puedan ser indexados por parte de Google Dataset Search es relativamente sencillo. La página original donde se publica el conjunto de datos debe contener un fragmento de código estructurado en su código fuente.

Este código en formato JSON (un formato de texto ligero para el intercambio de datos) contiene los metadatos serializados usando schema.org, un vocabulario estándar promovido por Google que ya se usa extensivamente para describir páginas web y enriquecer resultados de búsqueda.

“Si se está usando un software de portal de datos obtener este fragmento de código y incluirlo en la página del conjunto de datos es muy sencillo. Por ejemplo, una de las plataformas más usadas para publicar datos abiertos, CKAN, ya ofrece esta opción mediante el uso de plugins, y estoy convencido que el resto de portales lo ofrecerán en breve”, dijo Mercader.

Riesgos

Jordi Bari, de la Fundación Ciudadano Inteligente, considera que así como Google funciona casi como un monopolio en los motores de búsqueda en general, lo mismo podría suceder con esta herramienta.

“La diferencia que yo veo sobretodo es que ese tipo de contenido últimamente se valora mucho debido a su potencial a la hora de entrenar sistemas de aprendizaje automático”, dijo Bari.

En la misma línea, Mercader resalta que Google continúa siendo una corporación privada con intereses comerciales, por lo cual no sería descartable que a largo plazo la herramienta pudiera evolucionar a un modelo menos transparente, o que no devuelva parte del valor a los publicadores originales.

“Google también tiene un largo historial de cerrar servicios abruptamente, por lo que no recomendaría que los publicadores considerasen Google Dataset Search como su interfaz principal con los usuarios, o diseñaran técnicamente su solución alrededor suyo”, dijo Mercader.

“También es importante tener en cuenta cuestiones sobre privacidad. Sería interesante conocer si Google hace algún seguimiento de las búsquedas y los conjuntos de datos que los usuarios exploran, y si estos se integran en otros servicios de Google. Ahora mismo no se menciona en ningún lugar”, agregó.

Para Bari, también sería negativo que Google intentase acaparar los esfuerzos realizados en el ámbito de la normalizacion del conocimiento, en cuanto al manejo y estandarización de bases de datos.

Estas opiniones nos permiten ver que  es muy pronto para saber con certeza qué esperar de este nuevo servicio de Google. De entrada, los beneficios parecerían ser mayoría para las personas usuarios de bases de datos abiertas y quienes quieren hacerlas llegar a un público mayor.

No obstante, con el cada vez más acelerado uso de inteligencia artificial para entrenar algoritmos mediante motores de búsqueda, el valor de esta herramienta —desde la perspectiva de Google— es realmente alto, y solo con el tiempo quedarán claras posible implicaciones secundarias.