Normalización de BD
NORMALIZACIÓN DE BASE DE DATOS
¿Qué es la normalización?
La normalización es el proceso mediante el cual se transforman datos complejos a un conjunto de estructuras de datos más pequeñas, que además de ser más simples y más estables, son más fáciles de mantener. También se puede entender la normalización como una serie de reglas que sirven para ayudar a los diseñadores de bases de datos a desarrollar un esquema que minimice los problemas de lógica. Cada regla está basada en la que le antecede. La normalización se adoptó porque el viejo estilo de poner todos los datos en un solo lugar, como un archivo o una tabla de la base de datos, era ineficiente y conducía a errores de lógica cuando se trataban de manipular los datos.
La normalización también hace las cosas fáciles de entender. Los seres humanos tenemos la tendencia de simplificar las cosas al máximo. Lo hacemos con casi todo, desde los animales hasta con los automóviles. Vemos una imagen de gran tamaño y la hacemos más simple agrupando cosas similares juntas. Las guías que la normalización provee crean el marco de referencia para simplificar una estructura de datos compleja.
Otra ventaja de la normalización de base de datos es el consumo de espacio. Una base de datos normalizada ocupa menos espacio en disco que una no normalizada. Hay menos repetición de datos, lo que tiene como consecuencia un mucho menor uso de espacio en disco.
El proceso de normalización tiene un nombre y una serie de reglas para cada fase. Esto puede parecer un poco confuso al principio, pero poco a poco se va entendiendo el proceso, así como las razones para hacerlo de esta manera.
Grados de normalización
Existen básicamente tres niveles de normalización: Primera Forma Normal (1NF), Segunda Forma Normal (2NF) y Tercera Forma Normal (3NF). Cada una de estas formas tiene sus propias reglas. Cuando una base de datos se conforma a un nivel, se considera normalizada a esa forma de normalización. No siempre es una buena idea tener una base de datos conformada en el nivel más alto de normalización, puede llevar a un nivel de complejidad que pudiera ser evitado si estuviera en un nivel más bajo de normalización.
En la tabla siguiente se describe brevemente en que consiste cada una de las reglas, y posteriormente se explican con más detalle.
Regla |
Descripción |
PRIMERA FORMA NORMAL (1FN) |
Incluye la eliminación de los grupos repetidos |
SEGUNDA FORMA NORMAL (2FN) |
Asegura que todas las columnas que no son clave sean completamente dependientes de la clave primaria (PK). |
TERCERA FORMA NORMAL (3FN) |
Elimina cualquier dependencia transitiva. Una dependencia transitiva es aquella en la cual las columnas que no son clave son dependientes de otras columnas que tampoco son clave. |
Primera Forma Normal
La regla de
Poner la base de datos en
Segunda Forma Normal
La regla de
Tercera Forma Normal
Una tabla está normalizada en esta forma si todas las columnas que no son clave son funcionalmente dependientes por completo de la llave primaria y no hay dependencias transitivas. Comentamos anteriormente que una dependencia transitiva es aquella en la cual existen columnas que no son clave que dependen de otras columnas que tampoco son clave. Cuando las tablas están en
Un dato sin normalizar no cumple con ninguna regla de normalización. Para explicar con un ejemplo en que consiste cada una de las reglas, vamos a considerar los datos de la siguiente tabla.
Id-Orden |
Fecha |
Id-Cliente |
Nom-Cliente |
Estado |
Num-Item |
Desc-Item |
Cant |
Precio |
2301 |
23/02/10 |
101 |
Marioni |
CA |
3786 |
RED |
3 |
35 |
2301 |
23/02/10 |
101 |
Marioni |
CA |
4011 |
RAQUETA |
6 |
65 |
2301 |
23/02/10 |
101 |
Marioni |
CA |
9132 |
PAQ 3 |
8 |
4.75 |
2302 |
25/02/10 |
107 |
Hernandez |
WI |
5794 |
PAQ 6 |
4 |
5.0 |
2303 |
27/02/10 |
110 |
We-Sport |
MI |
4011 |
RAQUETA |
2 |
65 |
2303 |
27/02/10 |
110 |
WE-Sport |
MI |
3141 |
FUNDA |
2 |
10 |
Al examinar estos registros, podemos darnos cuenta que contienen un grupo repetido para NUM_ITEM, DESC_ITEM, CANT y PRECIO. La 1FN prohíbe los grupos repetidos, por lo tanto tenemos que convertir a la primera forma normal. Los pasos a seguir son:
» Tenemos que eliminar los grupos repetidos.
» Tenemos que crear una nueva tabla con
Los registros quedan ahora conformados en dos tablas que llamaremos ORDENES y ARTICULOS-ORDENES
- ORDENES
Id-Orden |
Fecha |
Id-Cliente |
Nom-Cliente |
Estado |
2301 |
23/02/10 |
101 |
Marioni |
CA |
2302 |
25/02/10 |
107 |
Hernandez |
WI |
2303 |
27/02/10 |
110 |
We-Sport |
MI |
- ARTICULOS-ORDENES
Id-Orden |
Num-Item |
Desc-Item |
Cant |
Precio |
2301 |
3786 |
RED |
3 |
35 |
2301 |
4011 |
RAQUETA |
6 |
65 |
2301 |
9132 |
PAQ 3 |
8 |
4.75 |
2302 |
5794 |
PAQ 6 |
4 |
5.0 |
2303 |
4011 |
RAQUETA |
2 |
65 |
2303 |
3141 |
FUNDA |
2 |
10 |
Ahora procederemos a aplicar la segunda formal normal, es decir, tenemos que eliminar cualquier columna no clave que no dependa de la llave primaria de la tabla. Los pasos a seguir son:
» Determinar cuáles columnas que no son llave no dependen de la llave primaria de la tabla.
» Eliminar esas columnas de la tabla base.
» Crear una segunda tabla con esas columnas y la(s) columna(s) de
La tabla ORDENES está en 2FN. Cualquier valor único de ID_ORDEN determina un sólo valor para cada columna. Por lo tanto, todas las columnas son dependientes de la clave primaria ID_ORDEN.
Por su parte, la tabla ARTICULOS_ORDENES no se encuentra en 2FN ya que las columnas PRECIO y DESC_ITEM son dependientes de NUM_ITEM, pero no son dependientes de ID_ORDEN. Lo que haremos a continuación es eliminar estas columnas de la tabla ARTICULOS_ORDENES y crear una tabla ARTICULOS con dichas columnas y la clave primaria de la que dependen.
Las tablas quedan ahora de la siguiente manera.
- ARTICULOS_ORDENES
Id-Orden |
Num-Item |
Cant |
2301 |
3786 |
3 |
2301 |
4011 |
6 |
2301 |
9132 |
8 |
2302 |
5794 |
4 |
2303 |
4011 |
2 |
2303 |
3141 |
2 |
- ARTICULOS
Num-Item |
Desc-Item |
Precio |
3786 |
RED |
35 |
4011 |
RAQUETA |
65 |
9132 |
PAQ 3 |
4.75 |
5794 |
PAQ 6 |
5.0 |
4011 |
RAQUETA |
65 |
3141 |
FUNDA |
10 |
La tercera forma normal nos dice que tenemos que eliminar cualquier columna no llave que sea dependiente de otra columna no llave. Los pasos a seguir son:
» Determinar las columnas que son dependientes de otra columna no llave.
» Eliminar esas columnas de la tabla base.
» Crear una segunda tabla con esas columnas y con la columna no llave de la cual son
dependientes.
Al observar las tablas que hemos creado, nos damos cuenta que tanto la tabla ARTICULOS, como la tabla ARTICULOS_ORDENES se encuentran en 3FN. Sin embargo la tabla ORDENES no lo está, ya que NOM_CLIENTE y ESTADO son dependientes de ID_CLIENTE, y esta columna no es la clave primaria.
Para normalizar esta tabla, moveremos las columnas no llave y la columna llave de la cual dependen dentro de una nueva tabla CLIENTES. Las nuevas tablas CLIENTES y ORDENES se muestran a continuación.
- ORDENES
Id-Orden |
Fecha |
Id-Cliente |
2301 |
23/02/10 |
101 |
2302 |
25/02/10 |
107 |
2303 |
27/02/10 |
110 |
- CLIENTES
Id-Cliente |
Nom-Cliente |
Estado |
101 |
Marioni |
CA |
107 |
Hernandez |
WI |
110 |
We-Sport |
MI |
¿Qué tan lejos debe llevar la normalización?
La siguiente decisión es ¿qué tan lejos debe llevar la normalización? La normalización es una ciencia subjetiva. Determinar las necesidades de simplificación depende de nosotros. Si nuestra base de datos va a proveer información a un solo usuario para un propósito simple y existen pocas posibilidades de expansión, normalizar los datos hasta la 3FN quizá sea algo exagerado. Las reglas de normalización existen como guías para crear tablas que sean fáciles de manejar, así como flexibles y eficientes. A veces puede ocurrir que normalizar los datos hasta el nivel más alto no tenga sentido.
¿Se están dividiendo tablas sólo para seguir las reglas o estas divisiones son en verdad prácticas?. Éstas son el tipo de cosas que como diseñadores de la base de datos, necesitamos decidir, y la experiencia y el sentido común nos pueden auxiliar para tomar la decisión correcta. La normalización no es una ciencia exacta, más bien es subjetiva.
Existen seis niveles más de normalización. Ellos son Forma Normal Boyce- Codd, Cuarta Forma Normal (4NF), Quinta Forma Normal (5NF) o Forma Normal de Proyección-Unión, Forma Normal de Proyección-Unión Fuerte, Forma Normal de Proyección-Unión Extra Fuerte y Forma Normal de Clave de Dominio. Estas formas de normalización pueden llevar las cosas más allá de lo que necesitamos. Éstas existen para hacer una base de datos realmente relacional. Tienen que ver principalmente con dependencias múltiples y claves relacionales.
En resumen
La normalización es una técnica que se utiliza para crear relaciones lógicas apropiadas entre tablas de una base de datos. Ayuda a prevenir errores lógicos en la manipulación de datos. La normalización facilita también agregar nuevas columnas sin romper el esquema actual ni las relaciones.
Existen varios niveles de normalización: Primera Forma Normal, Segunda Forma Normal, Tercera Forma Normal, Forma Normal Boyce-Codd, Cuarta Forma Normal, Quinta Forma Normal o Forma Normal de Proyección-Unión, Forma Normal de Proyección-Unión Fuerte, Forma Normal de Proyección-Unión Extra Fuerte y Forma Normal de Clave de Dominio.
Cada nuevo nivel o forma nos acerca más a hacer una base de datos verdaderamente relacional. Se expusieron las primeras tres formas. Éstas proveen suficiente nivel de normalización para cumplir con las necesidades de la mayoría de las bases de datos. Normalizar demasiado puede conducir a tener una base de datos ineficiente y hacer a su esquema demasiado complejo para trabajar. Un balance apropiado de sentido común y práctico puede ayudarnos a decidir cuándo normalizar.