• Aarón Almansa

Bases de Datos Neuronales

Al organizar la información, las bases de datos relacionales son un componente esencial de casi todos las aplicaciones informáticas y servicios online. La estructura de la información de estos sistemas de bases de datos convencionales es rígida, se basa en datos estructurados y limita la forma en que se pueden utilizar:

  • Se requiere un esquema de datos preestablecido (Campos, Tablas, Relaciones)

  • Los datos deben almacenarse de manera que cumplan con el esquema

  • La extracción de la información exige construir consultas con una sintaxis bien definida y escrita en SQL (lenguaje de consulta estructurado)

  • Las consultas deben ser rigurosas y precisas para obtener la información correcta

Sin embargo, la información no siempre está disponible en estas bases de datos, y de hecho son los datos no estructurados los que proporcionan la información más relevante para una empresa u organización. Por lo tanto, aprovechar la abundancia de datos no estructurados disponibles hoy en día, sigue siendo todavía un reto por resolver.

Con este objetivo, Facebook está desarrollando un nuevo enfoque llamado bases de datos neuronales, que pretende ofrecer sistemas capaces de buscar datos no estructurados (grandes colecciones de texto, archivos de audio, canciones, imágenes, videos, conferencias, textos redes sociales…) de forma similar a cómo lo hacen los sistemas tradicionales en una base de datos estructurada típica. Con esta tecnología se podrán ejecutar consultas complejas como por ejemplo preguntar directamente en Wikipedia “Lista todos los futbolistas españoles menores de 18 años que han debutado en primera división en una de las 5 grandes ligas europeas en el siglo 21”


Las bases de datos neuronales intentan cerrar una brecha importante entre los campos de las bases de datos tradicionales y la tecnología NLP (Procesamiento del Lenguaje Natural).

NLP ha logrado ya un progreso muy significativo en el uso de consultas en lenguaje natural sobre datos estructurados estándar, y permite plantear consultas ad-hoc como "¿Cuántos equipos ganaron partidos fuera de casa por más de 2 goles ?" . Pero el problema sigue siendo que estos sistemas no pueden consultar una colección de información que no esté organizada en una base de datos relacional estructurada (con un esquema preestablecido).


Por otro lado, los modelos predictivos basados en machine learning pueden proporcionar resultados potentes para temas cuya definición es algo vaga y que involucran datos que no encajan en un esquema predefinido. Por ejemplo: "¿Esta publicación contiene discursos de incitación al odio?". Sin embargo, no disponen de los beneficios de composición y relación que ofrecen las bases de datos estructuradas, y eso hace que sea muy complicado extenderlos a obtener respuestas a temas estrechamente relacionados, pero no directamente visibles como por ejemplo "¿Qué % de críticas son positivas en películas de terror estrenadas en la década de 1980 ?" O incluso "¿Cuántos directores menores de 30 años hicieron películas de terror con críticas positivas en la década de los 80 ?"


Con la increíble cantidad de datos disponibles que existen fuera de las bases de datos tradicionales, ya sea en sitios web como Wikipedia o en publicaciones en las redes sociales, enseñar a los sistemas informáticos a realizar este tipo de consultas de datos complejas, será extremadamente útil en una amplia gama de aplicaciones y casos de uso.

Ese es el objetivo de las bases de datos neuronales, y aunque todavía es un proyecto en curso que necesita tiempo y trabajo adicional significativo para poder llegar a implementar sistemas en producción que funcionen con estas capacidades, parece claro que es el camino a seguir.

Paper Link: https://aclanthology.org/2021.acl-long.241.pdf



7 visualizaciones0 comentarios

Entradas Recientes

Ver todo