Ir al contenido principal

Heaps en SQL Server: tablas sin índice clustered y sus consecuencias

Definición

En SQL Server las tablas pueden tener o no tener un índice clustered. El índice clustered es por el que SQL ordena físicamente los datos (las filas de las tablas) en disco.

El índice clustered le sirve a SQL para buscar, ordenar y agrupar registros de manera eficiente. Así, no tener un índice clustered en una tabla puede llevarnos a problemas de rendimiento. Cuando una tabla no tiene índice clustered, se llama heap.

El problema

Los heaps mantienen los registros en las páginas de datos en el mismo orden en el que se han insertado. Esto hace que los heaps resulten más rápidos a la hora de realizar un INSERT, ya que no han de insertarse en una posición en concreto, sino directamente a continuación del último registro existente para la tabla en cuestión.

Sin embargo, cualquier otra operación que requiera un orden en los datos será más lenta. Esto se aplica a SELECT, DELETE y UPDATE, salvo que se quieran efectuar estas operaciones sobre la tabla completa.

Lo que la MSDN nos dice de los heaps es que:
  • A veces, hay buenos motivos para dejar una tabla como heap en lugar de crear un índice clustered, pero para usar los heaps de forma eficaz se requieren conocimientos avanzados. La mayoría de las tablas deben tener un índice clustered cuidadosamente elegido.
  • Si una tabla es un heap y no tiene ningún índice no clustered, debe examinarse la tabla completa (table scan) cuando se busca una fila.
Es decir, en general los heaps no son aceptables. Solamente bajo ciertos escenarios muy estudiados para los que una ordenación de los datos no es necesaria y un mantenimiento de índices por parte de SQL implicaría un sobrecoste innecesario (por ejemplo, una tabla con una lista de provincias de España, para la que siempre se devuelve la lista completa y nunca se busca información para un registro concreto).

En cualquier otro caso, cualquier consulta sobre una tabla sin índice clustered obligará a SQL Server a recorrer la tabla entera en busca del registro o registros solicitados. Evidentemente, cuanto mayor sea la tabla, mayor será el problema de rendimiento que esta situación puede generar.

Cómo detectarlo

El script a continuación ayuda a detectar heaps en nuestras bases de datos:

SELECT OBJECT_NAME(i.object_id) AS TableName, p.rows
FROM sys.indexes i
INNER JOIN sys.partitions p ON p.object_id = i.object_id AND p.index_id = i.index_id
WHERE i.index_id = 0
ORDER BY p.rows DESC

La solución

En general, con cada heap hay que pararse y determinar cuál debería ser su índice clustered. El candidato más idóneo para ser índice clustered suele ser siempre la clave primaria, aunque existen excepciones. Si la tabla sólo tiene clave primaria, ésta debe ser clustered siempre. El resto de los casos podemos estudiarlo, aunque existen algunas directrices:

  • Suelen ser los campos que usamos para hacer búsquedas y joins sobre la tabla.
  • Suelen ser los campos por los que se referencia a la tabla desde otras tablas. 
  •  Hay que intentar que el índice clustered de una tabla tenga el mínimo tamaño posible.

Todo esto señala, como decíamos, a la clave primaria de la tabla. Pero, en ocasiones, creamos claves alternativas a la primaria que se ajustan mejor a esta definición.

Referencias:

Comentarios

Publicar un comentario

Entradas populares de este blog

Aprendiendo a usar LEFT OUTER JOIN

En esta entrada pretendemos explicar los diferentes resultados obtenidos por distintas construcciones de consultas que, aparentemente, deberían producir el mismo conjunto de resultados. Así, veremos las diferencias entre filtrar los resultados de una query en la unión (Join) mediante condiciones ON y mediante cláusulas WHERE.

Variantes del SELECT COUNT con DISTINCT

Seguramente, muchos de vosotros habréis usado en innumerables ocasiones la función de T-SQL COUNT , que no hace sino devolver un número de registros: de una tabla, de un conjunto de resultados, etc... En una de sus aplicaciones, combinado con el DISTINCT -uno de los dos argumentos que admite- COUNT nos devuelve el número de valores únicos no nulos de la tabla o conjunto de resultados que estemos consultando. Pero ¡ojo! Cuidado con la sintaxis , o podemos obtener el valor equivocado sin darnos cuenta. No es lo mismo: SELECT COUNT (DISTINCT NombreCampo) FROM NombreTabla que: SELECT COUNT(*), DISTINCT NombreCampo FROM NombreTabla

Script para obtener el tamaño de todas las tablas de la base de datos

En algunas ocasiones podemos vernos con la necesidad de conocer qué tablas de nuestra base de datos están ocupando más espacio en disco. Por ejemplo, si disponemos de SQL Server Express , cuyas bases de datos están limitadas a 4GB o 10GB, según la versión que estemos usando -4, hasta 2005; 10, a partir de 2008-, aparte de usar las opciones de comprimir la base de datos, poner el log en el modo simple de recuperación o ajustar las políticas de crecimiento automático de nuestros ficheros, podemos necesitar averiguar qué tablas crecen más para tomar las decisiones oportunas.