Las bases de datos son almacenes que nos permiten guardar grandes cantidades de información de forma organizada. Suelen contener datos relacionados con diversas temáticas y categorizados, aunque comparten entre sí algún tipo de vínculo. La mayoría de las bases de datos están en formato digital y ofrecen un gran abanico de soluciones al almacenamiento de datos.

Existe software denominado SGBD (Database Management System – DBMS en inglés), que permiten el almacenamiento y recuperación de datos de forma rápida y estructurada. En este artículo veremos la tipología de las bases de datos de menor a mayor grado de complejidad.

Bases de datos relacionales

Es el modelo más utilizado para representar problemas y para administrar datos de forma dinámica. Se basa en el uso de “relaciones”. Se compone principalmente de tablas que están formadas por registros y campos (Comparando con Excel, serían hojas formadas por filas y columnas). Las tablas se relacionan entre sí por los campos comunes (productos, servicios, etc.). La información puede ser recuperada mediante “consultas” que permiten administrar con gran flexibilidad la información.

Lo más habitual es que estas consultas se construyan mediante un lenguaje SQL, Structured Query Language (Lenguaje Estructurado de Consultas), un estándar implementado por los principales sistemas de gestión de base de datos. Para su diseño, estas bases de datos experimentan un proceso denominado “normalización de una base de datos”, que garantiza la coherencia entre los datos.

Bases de datos multidimensionales

Funcionan mediante cubos OLAP (On Line Analytical Processing), están pensadas para el desarrollo de aplicaciones muy concretas. Organizan su análisis de datos mediante dimensiones. No poseen demasiadas diferencias con las anteriores, salvo en un nivel conceptual. En la base de datos multidimensionale los atributos de una tabla pueden ser de dos clases. Pueden representar dimensiones de una tabla o métricas de consulta. Su destino suele ser el área de Business Intelligence de las empresas y su uso para la creación de cuadros de mando.

Bases de datos documentales

Permiten la realización de búsquedas más potentes y la indexación a texto completo, lo que las capacita para almacenar grandes cantidades de información de antecedentes históricos.

Bases de datos jerárquicas

La organización de los datos se realiza en forma de árbol invertido, en la que un nodo padre de información puede tener varios hijos. El nodo sin ascendencia se denomina raíz, mientras que los nodos sin descendencia son conocidos como hojas. Este tipo de base de datos es muy utilizado en aplicaciones que trabajan con una gran cantidad de información y datos muy compartidos, pues permiten crear estructuras estables de enorme rendimiento. Sin embargo, su incapacidad para representar correctamente la redundancia de datos limita su efectividad.

Bases de datos deductivas

Las bases de datos deductivas permiten, como su nombre indica, inferir deducciones. Se construyen almacenando reglas y hechos. También se denominan bases de datos lógicas, pues basan su funcionamiento en la lógica matemática. Las bases de datos deductivas satisfacen las limitaciones de la base de datos relacional, al poder responder a consultas recursivas y deducir relaciones indirectas entre los datos almacenados.

Bases de datos orientadas a objetos

La orientación a objetos ofrece buena flexibilidad para manejar requisitos y no está limitada por el tipo de dato ni los lenguajes de consulta de los sistemas de gestión de bases de datos tradicionales. Proporcionan al diseñador la capacidad de especificar tanto la estructura de objetos complejos como las operaciones que se pueden ejercer sobre dichos objetos. Los usuarios pueden definir operaciones como parte de la definición de las bases de datos. Las operaciones (funciones) se especifican en dos partes. La signatura o interfaz de cada operación consta de su nombre más los tipos de datos de su argumento o parámetro. El método o implementación de la operación es especificado de forma separada, pudiéndose modificar sin afectar a la interfaz. Los programas de aplicación de los usuarios pueden invocar dichas operaciones a través de sus nombres y argumentos, dando igual la manera concreta de su implementación, lo que se resume en la independencia entre los programas y las operaciones.

Si quieres ampliar tu conocimiento en bases de datos y Big Data, contacta con nosotros o apúntate a nuestros eventos a través de nuestro MeetUp

MÁSTER EXPERTO EN BIG DATA & ANALYTICS

Gracias al Master en Big Data Analytics 100% Online tendrás amplios conocimientos sobre las herramientas y técnicas analíticas necesarias para la modelización de los principales retos de negocio, con el fin de mejorar la toma de decisiones a través de los datos y el conocimiento.

Una de las labores principales del científico de datos Big Data es la conversión de datos en conocimiento útil para la empresa. Para realizar este interesante trabajo necesitan utilizar herramientas Big Data específicas, tanto de pago como de Open Source. De hecho, según la decimosexta encuesta de KDNuggets, el 64 por ciento de los científicos de datos utilizan ambas herramientas Big Data.

Desde la perspectiva de Datahack, las diez herramientas Big Data imprescindibles para la correcta labor del científico de datos son las siguientes:

1.- SQL. Structured Query Language. Requiere manejo de fórmulas algebraicas y cálculo relacional. Es un lenguaje de acceso a base de datos.

2.- Python.  Es un lenguaje avanzado de programación interpretado que posee una sintaxis capaz de producir código legible. Permite tanto programación dirigida a objetos como funcional e incluso imperativa (Instrucciones que le explican al ordenador cómo debe realizar una determinada tarea). Además, puede utilizarse en múltiples plataformas

3.- R. Es la más usada de las herramientas Big Data entre los científicos de datos, lo que asegura la existencia de multitud de paquetes y librerías fácilmente reutiizables. Es un lenguaje de programación con software de código abierto, destinado a la programación estadística y los entornos gráficos

4.- KNIM. Konstanz Information Miner, construido bajo la plataforma Eclipse, es una plataforma de minería de datos que permite el desarrollo de modelos en un entorno visual.

5.- RapidMiner. Permite desarrollar procesos analíticos de un entorno gráfico. Antiguamente era denominado YALE (Yet Another Learning Environment). Proporciona más de quinientos operadores dedicados al análisis de datos, incluyendo los necesarios para realizar operaciones input y output, pre-procesamiento y visualización. Tiene la ventaja de poder usar los algoritmos de Weka.

6.- Tableau. Se centra en la visualización de datos.

7.- Hadoop. Esta herramienta está actualmente considerada como el framework estándar para el procesamiento y almacenamiento de grandes volúmenes de datos.

8.- Spark. Es una ventana de trabajo de desarrollo. Su motor rápido le permite procesar datos a gran escala además de realizar procesamiento en memoria.

9.- SAS.  SAS es la líder de las herramientas Big Data en el mercado del Business Intelligence.

10.- Excel. Esta herramienta de Microsoft es esencial como herramienta de creación y gestión de bases de datos.

chevron-down