domingo, 24 de julio de 2016

Agrupación de Datos Relacionados

Objetivos:
•Utilizar la operación ROLLUP para generar valores subtotales.
•Utilizar la operación CUBE para generar valores desde varias tablas.
•Utilizar la función GROUPING para identificar los valores de fila creados por ROLLUP o CUBE.
•Utilizar GROUPING SETS para generar un juego de resultados único.

NOTA: Usamos como ejemplo la base de datos: ORCL, la cual viene por defecto en cualquier versión de ORACLE.
_____________________________________________________________________________________
Revision Funciones de Grupo.
Puede utilizar la cláusula GROUP BY para dividir las filas de una tabla en grupos. Puede utilizar entonces las funciones de grupo para devolver información de resumen para cada grupo. Las funciones de grupo pueden aparecer en listas de selección y en cláusulas ORDER BY  y HAVING. Oracle Server aplica las funciones de grupo a cada grupo de filas y devuelve una sola fila de resultados para cada grupo. 

Tipos de funciones de grupo: Cada una de las funciones de grupo AVG, SUM, MAX, MIN, COUNT, STDDEV y VARIANCE acepta un argumento. Las funciones AVGSUMSTDDEV y VARIANCE operan sólo en valores numéricos. MAX y MIN pueden operar en valores de datos numéricos, de carácter o de fecha. COUNT devuelve el número de filas no nulas para la expresión específica. 

Sintaxis:
SELECT [column,] group_function(column). . .
FROM table
[WHERE condition]
[GROUP BY group_by_expression]
[ORDER BY column];


Instrucciones para Utilizar Funciones de Grupo.
•Los tipos de datos para los argumentos pueden ser CHAR, VARCHAR2, NUMBER o DATE
•Todas las funciones de grupo, excepto COUNT(*), ignoran los valores nulos. Para sustituir con un valor los valores nulos, utilice la función NVLCOUNT devuelve un número o cero. 

•Oracle Server clasifica implícitamente el juego de resultados en orden ascendente de las columnas de agrupamiento especificadas si se utiliza una cláusula GROUP BY. Para sustituir esta clasificación por defecto, puede utilizar DESC en una cláusula ORDER BY.

Ejemplo:
SELECT AVG(salary), STDDEV(salary),
       COUNT(commission_pct),MAX(hire_date)
FROM   employees
WHERE  job_id LIKE 'SA%';

/*El ejemplo calcula el salario medio, la desviación estándar en el salario, el número de empleados que ganan una comisión y la fecha de contratación máxima para los empleados cuyo JOB_ID empiece con 'SA'.*/

---
Revisión de la Cláusula GROUP BY.

Ejemplo:
SELECT   department_id, job_id, SUM(salary),  
         COUNT(employee_id)
FROM     employees
GROUP BY department_id, job_id;
/*Oracle Server evalúa el ejemplo pasado de la siguiente forma: 
•La cláusula SELECT especifica que se deben recuperar las siguientes columnas: 
-Columnas de identificador de departamento y de identificador de puesto de la tabla EMPLOYEES.
-Suma de todos los salarios y número de empleados en cada grupo que ha especificado en la cláusula GROUP BY.
•La cláusula GROUP BY  especifica cómo se deben agrupar las filas en la tabla. El salario total y el número de empleados se calculan para cada identificador de puesto dentro de cada departamento. Las filas se agrupan por identificador de departamento y después por puesto dentro de cada departamento.*/
---
Revision Cláusula HAVING.
Se forman los grupos y se calculan las funciones de grupo antes de que se aplique la cláusula HAVING a los grupos. La cláusula HAVING puede ir delante de la cláusula GROUP BY, pero se recomienda colocar primero la cláusula GROUP BY, porque resulta más lógico. 

Oracle Server sigue estos pasos si se utiliza la cláusula HAVING:
1. Agrupa las filas.
2. Aplica las funciones de grupo a los grupos y muestra los grupos que cumplen los criterios de la cláusula HAVING.

Ejemplo:
SELECT   department_id AS "Departamento", 
                  job_id AS "Empleo", 
                  SUM(salary) AS "Salario",  
                  COUNT(employee_id) AS "Cantidad"
FROM     employees
GROUP BY department_id, job_id
HAVING SUM(salary) > 30000
AND    COUNT(employee_id)  < 10;
/*El ejemplo muestra la suma de salarios y la cantidad de empleados por empleo dentro de cada departamento. La cláusula HAVING, filtra solo los grupos que tengan la suma de salarios mayor que 30,000 y que haya menos de 10 empleados con ese puesto.*/
_____________________________________________________________________________________
GROUP BY con los Operadores ROLLUP y CUBE.
Especifique los operadores ROLLUP y CUBE en la cláusula GROUP BY de una consulta. El agrupamiento con ROLLUP genera un juego de resultados que contiene las filas agrupadas normales y las filas subtotales. La operación CUBE de la cláusula GROUP BY agrupa las filas seleccionadas basándose en los valores de todas las combinaciones posibles de expresiones de las especificaciones y devuelve una sola fila de información resumida para cada grupo. Puede utilizar el operador CUBE para generar filas de valores derivados de varias tablas. 

•Utilice ROLLUP o CUBE con GROUP BY para generar filas superagregadas mediante referencias cruzadas a columnas. 
•El agrupamiento con ROLLUP genera un juego de resultados que contiene las filas agrupadas normales y los valores subtotales. 
•El agrupamiento con CUBE genera un juego de resultados que contiene las filas de ROLLUP y las filas de valores derivados de varias tablas.

Nota: Al trabajar con ROLLUP y CUBE, asegúrese de que las columnas que vayan después de GROUP BY tengan relaciones significativas y reales entre sí, ya que, de lo contrario, los operadores devolverán información irrelevante.

Operador ROLLUP.
El operador ROLLUP proporciona agregados y superagregados para expresiones dentro de una sentencia GROUP BY. Los escritores de informes pueden utilizar el operador ROLLUP para extraer estadísticas e información de resumen de los juegos de resultados. Los agregados acumulativos se pueden utilizar en informes, diagramas y gráficos. 

El operador ROLLUP crea agrupamientos moviéndose en una dirección, de derecha a izquierda, a lo largo de la lista de columnas especificada en la cláusula GROUP BY. A continuación, aplica la función agregada a estos agrupamientos. 

Nota:
•Para generar subtotales en n dimensiones (es decir, n columnas de la cláusula GROUP BY) sin un operador ROLLUP, se deben enlazar n+1 sentencias SELECT con UNION ALL. Esto hace que la ejecución de la consulta resulte ineficiente, ya que cada sentencia SELECT provoca acceso a tablas. El operador ROLLUP recopila sus resultados con un solo acceso a tablas. El operador ROLLUP es útil cuando hay muchas columnas implicadas en la generación de subtotales. 
•Los subtotales y los totales se generan con ROLLUP. CUBE genera totales también, pero acumula eficazmente en cada dirección posible, lo que genera datos de valores derivados de varias tablas.

Sintaxis:
SELECT [column,] group_function(column). . .
FROM table
[WHERE condition]
[GROUP BY [ROLLUP] group_by_expression]
[HAVING having_expression];
[ORDER BY column];


Ejemplo:
SELECT department_id, job_id, SUM(salary)
FROM employees
WHERE department_id < 60
GROUP BY ROLLUP(department_id, job_id);
/*En el ejemplo: 
•Los salarios totales de todos los identificadores de puesto de un departamento para los departamentos cuyo identificador es menor que 60 se muestran mediante la cláusula GROUP BY. 
•El operador ROLLUP muestra: 
-Salario total de cada departamento cuyo identificador es menor que 60 
-Salario total de todos los departamentos cuyo identificador es menor que 60, independientemente de los identificadores de puesto.

En este ejemplo, 1 indica un grupo totalizado tanto por DEPARTMENT_ID como por JOB_ID, 2 indica un grupo totalizado sólo por DEPARTMENT_ID y 3 indica la suma total.

El operador ROLLUP crea subtotales que acumulan desde el nivel más detallado hasta la suma total, después de la lista de agrupamiento especificada en la cláusula GROUP BY. Primero, calcula los valores agregados estándar para los grupos especificados en la cláusula GROUP BY (en el ejemplo, la suma de salarios agrupados en cada puesto de un departamento). A continuación, va creando subtotales de mayor nivel progresivamente, de derecha a izquierda en la lista de columnas de agrupamiento. (En el ejemplo, se calcula la suma de salarios para cada departamento, seguida de la suma de los salarios para todos los departamentos). 
•Dadas n expresiones en el operador ROLLUP de la cláusula GROUP BY, la operación da como resultado n + 1 (en este caso, 2 + 1 = 3) agrupamientos.
•Las filas basadas en los valores de las n primeras expresiones se denominan filas o filas normales y las demás, filas superagregadas.*/
---
Operador CUBE.
El operador CUBE es un conmutador adicional de la cláusula GROUP BY de una sentencia SELECT. El operador CUBE se puede aplicar a todas las funciones agregadas, incluidas AVG, SUM, MAXMIN y COUNT. Se utiliza para generar juegos de resultados que se suelen utilizar para informes de datos derivados de varias tablas. Mientras que ROLLUP genera sólo una fracción de posibles combinaciones de subtotales, CUBE genera subtotales para todas las posibles combinaciones de agrupamientos especificados en la cláusula GROUP BY y una suma total. 

El operador CUBE se utiliza con una función agregada para generar filas adicionales en un juego de resultados. Las columnas incluidas en la cláusula GROUP BY son de referencia cruzada y se utilizan para generar un superjuego de grupos. La función agregada especificada en la lista de selecciones se aplica a estos grupos para generar valores de resumen para las filas superagregadas adicionales. El número de grupos adicionales del juego de resultados lo determina el número de columnas incluidas en la cláusula GROUP BY

De hecho, todas las posibles combinaciones de las columnas o las expresiones de la cláusula GROUP BY se utilizan para generar superagregados. Si tiene n columnas o expresiones en la cláusula GROUP BY, habrá 2n posibles combinaciones superagregadas. Matemáticamente, estas combinaciones forman un cubo de n dimensiones, de ahí el nombre del operador. 

Mediante la aplicación o herramientas de programación, estos valores superagregados se pueden proporcionar a diagramas y gráficos que expresarán los resultados y las relaciones eficazmente y de forma visual.

Sintaxis:
SELECT [column,] group_function(column)...
FROM table
[WHERE condition]
[GROUP BY [CUBE] group_by_expression]
[HAVING having_expression]
[ORDER BY column];

Ejemplo:
SELECT department_id, job_id, SUM(salary)FROM employeesWHERE department_id < 60GROUP BY CUBE (department_id, job_id);


/*La salida de la sentencia SELECT del ejemplo se puede interpretar así:
•El salario total de todos los puestos dentro de un departamento (para los departamentos cuyo identificador es menor que 60) se muestra mediante la cláusula GROUP BY.
•Salario total de los departamentos cuyo identificador es menor que 60.
•Salario total de todos los puestos, independientemente del departamento.
•Salario total de los departamentos cuyo identificador es menor que 60, independientemente de los cargos.

En este ejemplo, 1 indica la suma total. 2 indica las filas totalizadas sólo por JOB_ID. 3 indica algunas de las filas totalizadas por DEPARTMENT_ID y JOB_ID. 4 indica algunas de las filas totalizadas sólo por DEPARTMENT_ID.

El operador CUBE también ha realizado la operación ROLLUP para mostrar los subtotales de los departamentos cuyo identificador es menor que 60 y el salario total de los de los departamentos cuyo identificador es menor que 60, independientemente de los cargos. Además, el operador CUBE muestra el salario total de todos los puestos, independientemente del departamento.*/
---
Nota: De forma parecida al operador ROLLUP, para generar subtotales en n dimensiones (es decir, n columnas de la cláusula GROUP BY) sin un operador CUBE, se deben enlazar 2n sentencias SELECT con UNION ALL. Así pues, un informe de tres dimensiones requiere que se enlacen 23 = 8 sentencias SELECT con UNION ALL.

Función GROUPING.
La función GROUPING se puede utilizar con los operadores CUBE o ROLLUP para entender mejor el modo en que se ha obtenido un valor de resumen. 

La función GROUPING utiliza una sola columna como argumento. El valor de expr en la función GROUPING  se debe corresponder con una de las expresiones de la cláusula GROUP BY. La función devuelve un valor de 0 ó 1. 

Los valores devueltos por la función GROUPING son útiles para: 
•Determinar el nivel de agregación de un subtotal dado; es decir, el grupo o los grupos en los que se basa el subtotal 
•Identificar si un valor NULL en la columna de expresiones de una fila del juego de resultado indica: 
-Un valor NULL de la tabla base (valor NULL almacenado) 
-Un valor NULL creado por ROLLUP CUBE (como resultado de una función de grupo en esa expresión) 

Un valor de 0 devuelto por la función GROUPING basándose en una expresión indica una de estas posibilidades: 
•Se ha utilizado la expresión para calcular el valor agregado. 
•El valor NULL de la columna de expresiones es un valor NULL almacenado. 

Un valor de 1 devuelto por la función GROUPING basándose en una expresión indica una de estas posibilidades: 
•No se ha utilizado la expresión para calcular el valor agregado. 
•El valor NULL de la columna de expresiones se crea mediante ROLLUP o CUBE como resultado del agrupamiento.
Sintaxis:
SELECT    [column,] group_function(column) ..,
          GROUPING(expr)
FROM       table
WHERE    condition]
[GROUP BY [ROLLUP][CUBE] group_by_expression]
[HAVING   having_expression]
[ORDER BY column];

Ejemplo:
SELECT   department_id DEPTID, job_id JOB,  
         SUM(salary),
         GROUPING(department_id) GRP_DEPT,
         GROUPING(job_id) GRP_JOB
FROM     employees
WHERE    department_id < 50
GROUP BY ROLLUP(department_id, job_id);

/*En el ejemplo, observe el valor de resumen 4400 de la primera fila (etiquetado como 1). Este valor de resumen es el salario total del identificador de puesto AD_ASST dentro del departamento 10. Para calcular este valor de resumen, se han tenido en cuenta las columnas DEPARTMENT_ID y JOB_ID. Así pues, se devuelve un valor de 0 para las expresiones GROUPING(department_id) y GROUPING(job_id). 

Observe el valor de resumen 4400 de la segunda fila (etiquetado como 2). Este valor es el salario total del departamento 10 y se ha calculado teniendo en cuenta la columna DEPARTMENT_ID; así pues, GROUPING(department_id) ha devuelto un valor de 0. Como la columna JOB_ID no se ha tenido en cuenta para calcular este valor, se ha devuelto un valor de 1 para GROUPING(job_id). En la quinta fila, puede observar una salida parecida. 
En la última fila, observe el valor de resumen 54800 (etiquetado como 3). Es el salario total para los departamentos cuyo identificador es menor que 50 y todos los cargos. Para calcular este valor de resumen, no se ha tenido en cuenta ninguna de las columnas DEPARTMENT_ID y JOB_ID. Así pues, se devuelve un valor de 1 para las expresiones GROUPING(department_id) y GROUPING(job_id).*/
---
GROUPING SETS.
GROUPING SETS es una extensión adicional de la cláusula GROUP BY que se puede utilizar para especificar varios agrupamientos de datos. Esto facilita una agregación eficiente y, por tanto, facilita el análisis de datos en varias dimensiones.

Ahora se puede escribir una sola sentencia SELECT mediante GROUPING SETS para especificar varios agrupamientos (que también pueden incluir operadores ROLLUP o CUBE), en lugar de varias sentencias SELECT combinadas mediante los operadores UNION ALL.

•Se utiliza la sintaxis de GROUPING SETS para definir varios agrupamientos en la misma consulta.
•Se calculan todos los agrupamientos especificados en la cláusula GROUPING SETS y los resultados de agrupamientos individuales se combinan con una operación UNION ALL.
•Eficiencia de los juegos de agrupamientos:
–Sólo se requiere una transferencia sobre la tabla base.
–No es necesario escribir sentencias UNION complejas.
–Cuantos más elementos tenga GROUPING SETS, mayor será la ventaja en el rendimiento.

Ejemplo:
SELECT   department_id, job_id,
         manager_id,AVG(salary)
FROM     employees
GROUP BY GROUPING SETS
((department_id,job_id), (job_id,manager_id));
/*La consulta calcula agregados en los dos agrupamientos. La tabla se divide en los siguientes grupos: •Identificadores de puesto, identificadores de supervisor.
•Identificadores de departamento, identificadores de puesto.

Se calculan los salarios medios de cada uno de estos grupos. El juego de resultados muestra el salario medio de cada uno de los dos grupos.

En la salida, el grupo marcado como 1 se puede interpretar como:
•El salario medio de todos los empleados con el identificador de puesto AD_VP a las órdenes del supervisor 100 es de 17000.
•El salario medio de todos los empleados con el identificador de puesto AD_MGR a las órdenes del supervisor 101 es de 12000 y así sucesivamente.

El grupo marcado como 2 en la salida se interpreta como:
•El salario medio de todos los empleados con el identificador de puesto FI_MGR del departamento 100 es de 12000.
•El salario medio de todos los empleados con el identificador de puesto FI_ACCOUNT en el departamento 100 es de 7920 y así sucesivamente.*/
---
/*El ejemplo anterior también se puede escribir así:*/
SELECT  department_id, job_id, NULL as manager_id, 
        AVG(salary) as AVGSAL
FROM    employees
GROUP BY department_id, job_id
UNION ALL
SELECT  NULL, job_id, manager_id, AVG(salary) as AVGSAL
FROM    employees
GROUP BY job_id, manager_id;
/*En ausencia de un optimizador que busque en los bloques de consulta para generar el plan de ejecución, la consulta anterior necesitaría dos exploraciones de la tabla base, EMPLOYEES. Esto podría resultar muy ineficiente. Por tanto, se recomienda utilizar la sentencia GROUPING SETS.*/
_____________________________________________________________________________________
Columnas Compuestas.
Una columna compuesta es una recopilación de columnas que se tratan como una unidad durante el cálculo de agrupamientos. Especifique las columnas entre paréntesis como en la siguiente sentencia: 

ROLLUP (a, (b, c), d)

Aquí, (b, c) forma una columna compuesta y se trata como una unidad. Por lo general, las columnas compuestas son útiles en ROLLUP, CUBE y GROUPING SETS. Por ejemplo, en CUBE ROLLUP, las columnas compuestas provocarían el salto de la agregación en determinados niveles. 

Es decir, GROUP BY ROLLUP(a, (b, c)) es equivalente a:
GROUP BY a, b, c 
UNION ALL
GROUP BY
UNION ALL
GROUP BY ()

Aquí, (b, c) se trata como una unidad y ROLLUP no se aplica en (b, c). Es como si se tiene un alias, por ejemplo, z, para (b, c) y la expresión GROUP BY se reduce a GROUP BY ROLLUP(a, z)

NotaGROUP BY () normalmente es una sentencia SELECT con valores NULL para las columnas a y b y sólo la función agregada. Esto se utiliza generalmente para generar sumas totales.

SELECT NULLNULL, aggregate_col
FROM <table_name>
GROUP BY ( );

Compare esto con la operación ROLLUP normal, como en:
GROUP BY ROLLUP(a, b, c)

que sería:
GROUP BY a, b, c
UNION ALL
GROUP BY a, b
UNION ALL
GROUP BY a
UNION ALLGROUP BY ()

De forma parecida,
GROUP BY CUBE((a, b), c)

sería equivalente a:
GROUP BY a, b, c
UNION ALL
GROUP BY a, b
UNION ALL
GROUP BY c
UNION ALL
GROUP BY ()


La siguiente tabla muestra una especificación de juegos de agrupamientos y la especificación GROUP BY equivalente.
Sentencias GROUPING SETS
Sentencias GROUP BY Equivalentes

GROUP BY GROUPING SETS(a, b, c)
GROUP BY a UNION ALL
GROUP BY b UNION ALL
GROUP BY c
GROUP BY GROUPING SETS(a, b,(b, c))
(La expresión GROUPING SETS tiene una columna compuesta).
GROUP BY a UNION ALL
GROUP BY b UNION ALL
GROUP BY b, c
GROUP BY GROUPING SETS((a, b, c))
GROUP BY a, b, c

GROUP BY GROUPING SETS(a, (b), ())
GROUP BY a UNION ALL
GROUP BY b UNION ALL
GROUP BY ()
GROUP BY GROUPING SETS
(a,ROLLUP(b, c))
(La expresión GROUPING SETS tiene una columna compuesta).

GROUP BY a UNION ALL

GROUP BY ROLLUP(b, c)
Ejemplo:
SELECT   department_id, job_id, manager_id,  
         SUM(salary)
FROM     employees  GROUP BY ROLLUP( department_id,(job_id, manager_id));
/*El ejemplo calcula los siguientes agrupamientos: 
•(department_id, job_id, manager_id) 
•(department_id) 
•( ) 

Y muestra lo siguiente: 
•Salario total de todos los puestos y supervisor (etiquetado como 1) 
•Salario total de todos los departamentos, los puestos y los supervisores (etiquetado 
como 2) 
•Salario total de todos los departamentos (etiquetado como 3) 
•Suma total (etiquetado como 4)*/
---
/*Este ejemplo también se puede escribir así:*/
SELECT department_id, job_id, manager_id, SUM(salary)
FROM employees
GROUP BY department_id,job_id, manager_id
UNION ALL
SELECT department_id, TO_CHAR(NULL),TO_NUMBER(NULL), SUM(salary)
FROM employees
GROUP BY department_id
UNION ALL
SELECT TO_NUMBER(NULL), TO_CHAR(NULL),TO_NUMBER(NULL), SUM(salary)
FROM employees
GROUP BY ();

En ausencia de un optimizador que busque en los bloques de consulta para generar el plan de ejecución, la consulta anterior necesitaría tres exploraciones de la tabla base, EMPLOYEES. Esto podría resultar muy ineficiente. Por tanto, se recomienda utilizar columnas compuestas.

Columnas Concatenadas o Agrupamientos Concatenados.
Los agrupamientos concatenados ofrecen una forma concisa de generar combinaciones de agrupamientos útiles. Para especificar los agrupamientos concatenados, se muestran varios juegos de agrupamientos, cubos y acumulaciones, y se separan con comas. 

GROUP BY GROUPING SETS(a, b), GROUPING SETS(c, d) 

Este ejemplo SQL define los siguientes agrupamientos: 

•(a, c), (a, d), (b, c), (b, d) 

La concatenación de juegos de agrupamientos es muy útil por estos motivos: 
Facilidad de desarrollo de consultas: No es necesario enumerar manualmente todos los agrupamientos. 
Uso por las aplicaciones: El SQL generado por aplicaciones OLAP suele implicar la concatenación de juegos de agrupamientos, en la que cada juego de agrupamientos define los agrupamientos necesarios para una dimensión.

Ejemplo:
SELECT   department_id, job_id, manager_id,  
         SUM(salary) 
FROM     employees
GROUP BY department_id, 
         ROLLUP(job_id), 
         CUBE(manager_id);
/*El ejemplo da como resultado los siguientes agrupamientos: 
•(job_id, manager_id) (1)
•(department_id,job_id, manager_id) (2)
•(job_id)(3)
•(department_id,manager_id)(4)
•(department_id) (5)
Se calcula el salario total de cada uno de estos grupos.*/

_____________________________________________________________________________________
_____________________________________________________________________________________
Fuente: Base de Datos Oracle 10g: Conceptos Fundamentales de SQL 1