Excel Y La Estadistica - P. Vidales

EXCEL Y LA ESTADÍSTICA
Ejercicios resueltos
2
P.VIDALES
3
1.3 ENTORNO DE EXCEL 2013, 2010 Y 2007. LIBROS Y HOJAS DE
CÁLCULO
1 3.1 Introducción de datos y fórmulas
1 3.2 Series de datos. Autocompletar
1.4 FÓRMULAS
1.4.1 Barra de fórmulas
1.4.2 Rellenar una hoja mediante una fórmula
1.5 OPERADORES
1 5.1 Orden de los operandos y preferencia de los operadores en las
fórmulas
1 5.2 Tipos de operadores
1 5.3 Fórmulas matriciales
1 5.4 Paleta de fórmulas
1 5.5 Rangos con nombre
1.6 V NCULACIÓN DE L BROS
1 6.1 Crear una fórmula para calcular datos en otra hoja o en otro libro
1 6.2 Vínculo a una hoja de cálculo en otro libro
1.7 MOSTRAR FÓRMULAS Y VALORES EN UNA HOJA DE CÁLCULO
1.8 FUNCIONES DE HOJA DE CÁLCULO
1 8.1 Funciones anidadas dentro de funciones
1 8.2 Categorías de funciones en Excel 2010
1.9 COMPLEMENTOS EN EXCEL Y LA ESTADÍSTICA
VARIABLES ESTADÍSTICAS Y DISTRIBUCIONES DE FRECUENCIAS

2.1 VARIABLES ESTADÍSTICAS
2.2 DISTRIBUCIONES DE FRECUENCIAS Y SU F NALIDAD
2.3 INTERPRETAR LAS DISTR BUCIONES DE FRECUENCIAS
5
2.4 FORMALIZAR LAS DISTR BUCIONES DE FRECUENCIAS
2.5 REPRESENTAR DISTRIBUCIONES DE FRECUENCIAS
2 5.1 Representaciones para variables cualitativas: diagramas de
rectángulos, diagramas de sectores y pictogramas
2 5.2 Representaciones para variables cuantitativas sin agrupar:
diagramas de barras, en escalera y polígonos de frecuencias
2 5.3 Representaciones para variables cuantitativas agrupadas:
histogramas y polígonos de frecuencias simples y acumulados
2.6 GRÁFICOS EN EXCEL
2.7 EXCEL Y LAS DISTR BUCIONES DE FRECUENCIAS
2.7.1 La función FRECUENCIA de Excel
2.7.2 Distribuciones de frecuencias e histogramas con herramientas de
análisis de Excel
MEDIDAS DE POSICIÓN, DISPERSIÓN Y FORMA

3.1 EXPRESIÓN CUANTITATIVA DE LAS DISTRIBUCIONES
3.2 MED DAS DE POSICIÓN: MEDIA MEDIANA MODA CUANTILES
PERCENT LES Y MOMENTOS
3.3 MED DAS DE DISPERSIÓN
3.4 MED DAS DE FORMA
3.5 ANÁLISIS EXPLORATORIO DE DATOS
3.6 GRÁFICO DE SIMETRÍA
3.7 GRÁFICO NORMAL DE PROBABIL DAD
3.8 FUNCIONES DE EXCEL PARA MEDIDAS DE POSICIÓN,
DISPERSIÓN Y FORMA
3.9 MED DAS DE POSICIÓN, DISPERSIÓN Y FORMA CON
HERRAMIENTAS DE ANÁLISIS
Al pulsar Aceptar en la Figura 3-19, se obtiene la Figura 3-20 con todos
los estadísticos incluido el radio del intervalo de confianza para la
6
4.15 EXCEL Y LA CORRELACIÓN MÚLT PLE CON HERRAMIENTAS DE
ANÁLISIS
4.15.1 Correlación y matriz de correlaciones
4.15.2 Covarianza y matriz de covarianzas
4.16 EXCEL Y LAS TABLAS DE CONTINGENCIA MEDIANTE TABLAS
D NÁMICAS
4.16.1 Excel y las tablas de contingencia para dos variables cualitativas
4.16.2 Excel y las tablas de contingencia para dos variables, una
cualitativa y otra cuantitativa
4.16.3 Excel y las tablas de contingencia para más de dos variables
4.17 EXCEL Y LOS CONTRASTES DE ASOCIACIÓN E
INDEPENDENCIA
NÚMEROS ÍNDICES Y MEDIDAS DE CONCENTRACIÓN

5.1 NÚMEROS ÍNDICES S MPLES
5.2 NÚMEROS ÍNDICES COMPLEJOS NO PONDERADOS
5.3 NÚMEROS ÍNDICES COMPLEJOS DE PRECIOS NO
PONDERADOS
5.4 NÚMEROS ÍNDICES COMPLEJOS PONDERADOS
5.5 NÚMEROS ÍNDICES COMPLEJOS DE PRECIOS PONDERADOS
5.6 NÚMEROS ÍNDICES COMPLEJOS PONDERADOS CUÁNTICOS O
DE PRODUCCIÓN
5.7 PROP EDADES DE LOS NÚMEROS ÍNDICES
5.8 ÍNDICES EN CADENA
5.9 CAMBIO DE BASE Y ENLACES DE NÚMEROS ÍNDICES
5.10 DEFLACTACIÓN DE SERIES ESTADÍSTICAS
5.11 PARTICIPACIÓN Y REPERCUSIÓN
5.12 ÍNDICES OFICIALES
8
5.13 TASAS DE VARIACIÓN
5.14 MED DAS DE CONCENTRACIÓN
5.15 ÍNDICE DE CONCENTRACIÓN DE G NI
5.16 CURVA DE CONCENTRACIÓN DE LORENTZ
9
1.1 INTRODUCCIÓN
La estadística es una materia en alza, en una época en la que los
datos son un activo muy importante y el análisis cuantitativo tiene aplicaciones
muy relevantes en diferentes campos de la ciencia como la economía, las
finanzas, la ingeniería, la matemática en general, la sociología, la psicología, la
biología, la medicina, etc. Es clave para empezar a trabajar en estadística, sea
cual sea el campo en que se aplique, la comprensión de los propios conceptos
estadísticos, para posteriormente realizar la operatoria matemática necesaria
para desarrollarlos a través del software, que facilita obtener los resultados de
los procedimientos estadísticos de forma rápida y con menos errores que cuando
las operaciones se realizaban manualmente.
Este libro trata los temas elementales de la estadística desde una

óptica aplicada, pero a la vez formal. Se presentan coincenzudamente los
conceptos, intentando que sean inteligibles para lectores con formación diversa
(ciencias, letras, etc.) Las técnicas estadísticas se describen en lenguaje
asequible, y se elimina el problema de la operatoria tediosa matemática
utilizando un programa tan sencillo y disponible para todos como es Excel. Los
cap tulos se complementan con ejercicios resueltos totalmente, tanto con su
operatoria matemática habitual, como con el apoyo del software, con la finalidad
de facilitar al lector la comprensión de los conceptos. También se proponen
ejercicios cuya solución se aporta al lector en archivos Excel disponibles en la
página web de la editorial.
11
Por otra parte, Excel también implementa determinados
complementos para ampliar el campo de trabajo en diferentes áreas. Uno de
estos complementos lo constituyen las Herramientas para análisis que se
insertan en el grupo Análisis de la ficha Datos de la cinta de opciones de Excel.
Al final de este capítulo se muestra la forma de utilizar estos complementos en
Excel.
También existen otras herramientas adicionales como Solver, que

permiten trabajar en temas estadísticos como la programación lineal,
optimización, etc.
15
1.3 ENTORNO DE EXCEL 2013, 2010 Y 2007. LIBROS Y
HOJAS DE CÁLCULO
Al iniciar Excel 2013, 2010 0 2007 se observa un entorno de
trabajo similar. La Figura 1-3 muestra el entorno de Excel 2010, pero las otras
versuiiones presentan un entorno idéntico y las posibilidades de rabajo en
Estadístiva Descriptiva son similares. Destacan la Cinta de opciones con sus
fichas y sus grupos de opciones en cada ficha, la barra de herramientas de
acceso rápido y la barra de estado con los botones de visualización y el Zoom.
La Cinta de opciones presenta fichas orientadas a tareas que

contienen grupos lógicos de comandos (opciones). Se ha diseñado para
encontrar fácilmente los comandos necesarios para realizar tareas que antes
estaban ocultos en complejos menús y barras de herramientas, y que ahora se
agrupan de modo lógico en las fichas Inicio, Insertar, Diseño de página,
Fórmulas, Datos, Revisar y Vista.
En determinados grupos de las fichas de la Cinta de opciones
aparecen iniciadores de cuadros de diálogo, que son pequeños iconos que se
sitúan en la parte inferior izquierda del grupo y que abren cuadros de diálogo.
Por ejemplo, el grupo Fuente de la ficha Inicio en la Figura 1-3 presenta a su
derecha un iniciador que abre el cuadro de diálogo Formato de celdas con su
pestaña Fuente seleccionada.
La Barra de herramientas de acceso rápido aparece de forma

predeterminada en la parte superior izquierda de la ventana de Excel (Figura 1-
3) y proporciona acceso rápido a herramientas que se utilizan con frecuencia.
16
funciones, etc.
Una Hoja de cálculo u Hoja de trabajo (abreviadamente Hoja) es

un conjunto de celdas distribuidas en filas y columnas. Las hojas se utilizan para
introducir, mostrar y analizar datos. Si se crea un gráfico, éste podrá colocarse
en la hoja de cálculo con sus datos correspondientes o en una hoja de gráfico.
Un Libro de trabajo (abreviadamente Libro) es un conjunto de

hojas diferentes, que normalmente están relacionadas entre sí. El libro
corresponde al concepto de archivo. Excel nombra por defecto las hojas del
mismo libro como Hoja1, Hoja 2, etcétera. Los nombres de las distintas hojas del
mismo libro aparecen en etiquetas en la parte inferior de la ventana de la hoja de
cálculo (Figura 1-3). Para moverse de una hoja a otra, haga clic en las etiquetas
de las hojas. En la línea superior de la pantalla de entrada en Excel 2010 con
todos sus elementos, tenemos la Barra del t tulo del libro y los botones de
Windows.
El título del libro es por defecto Libro1, mientras no se guarde
como archivo y se le dé otro nombre. Los botones de Windows, que aparecen a la
derecha de la barra de título, se utilizan, respectivamente, para minimizar,
maximizar y cerrar el libro de Excel activo (libro de trabajo).
Pueden introducirse y modificarse los datos en varias hojas de

cálculo del mismo libro y pueden ejecutarse cálculos basándose en los datos de
las distintas hojas de cálculo del mismo libro simultáneamente.
El libro de trabajo se corresponde con el concepto de fichero o

archivo de datos de Excel, de modo que cuando se guarda el fichero actual,
realmente se están guardando todas las hojas del libro de trabajo actual en el
fichero especificado. Un libro de trabajo puede contener, además de una o más
hojas de cálculo, una o varias hojas de gráficos cuyo contenido puede ser
cualquier tipo de gráfico representativo de los datos contenidos en la hoja.
Los libros de trabajo ayudan a organizar los proyectos y a guardar

los objetos que estén relacionados entre sí en un mismo lugar. Excel permite dar
nombre a las hojas de cálculo, añadir nuevas hojas y eliminar hojas vacías o no
utilizadas. Finalmente, cada ventana de un libro de trabajo contiene barras de
18
desplazamiento que se pueden utilizar para pasar de una hoja de cálculo a la
siguiente o para hacer desplazamientos de un lugar a otro dentro de la hoja de
cálculo activa.
19
Un valor numérico puede ser un entero (como 32), un número
decimal (como 499,95), una fracción entera (como 10 3/4), o un número en
notación científica (como 4,09 E+13). En los números, se pueden utilizar
símbolos matemáticos, como el símbolo de suma (+), el de resta (-), el de tanto
por ciento (%), fracciones (/) y exponenciales (E). Asimismo, es posible utilizar
el símbolo de dólar ($). Si se introduce un número demasiado grande como para
ser presentado en una celda, Excel mostrará el número en notación científica o
mostrará ####### en la celda, para advertirle de que necesita incrementar el
ancho de la misma.
De todos modos, Excel siempre guarda internamente el número

que se ha introducido, y este valor subyacente se podrá ver en la barra de
fórmulas cuando la celda esté activa. Por defecto, los valores numéricos son
siempre alineados a la derecha de la celda.
Cuando se introduce más de un número, después de haber

introducido el primero se pueden utilizar las teclas de flecha (o teclas de
dirección) para desplazarse a una nueva celda e introducir el siguiente número.
Por ejemplo, si se escribe un número y se pulsa la tecla de flecha hacia abajo, el
puntero de celda se desplazará una línea hacia abajo. Las teclas de flecha hacia
la izquierda, hacia arriba y hacia la derecha hacen que se mueva el puntero una
celda a la izquierda, hacia arriba y hacia la derecha, respectivamente.
En Microsoft Excel, un número puede tener sólo los siguientes

caracteres: 0 1 2 3 4 5 6 7 8 9 + - ( ) , / $ % . E e. Por otra parte, Excel ignora los
signos más (+) a la izquierda, y trata a los puntos como separadores de miles o
separadores decimales (igualmente las comas). Todas las demás
combinaciones de números y caracteres no numéricos son consideradas texto.
Para evitar introducir una fracción como fecha, coloque un cero (0) delante de
cada fracción; por ejemplo, escriba 0 1/2. Delante de los números negativos,
sitúe un signo menos (-), o bien encierre los números entre paréntesis ( ).
Dentro de una celda, todos los números se alinean a la derecha por defecto (si
no se produce la alineación al pulsar Enter o TAB, el número está mal escrito).
Para cambiar la alineación, seleccione la celda o celdas que
21
el número deseado. Esto no afectará a los datos que haya indicado en las celdas
antes de seleccionar la opción Número fijo de decimales. Para anular
temporalmente la opción Número fijo de decimales, especifique un separador de
decimales al escribir el número. Se pueden elegir los caracteres para separar
decimales y miles con las opciones Usar separadores del sistema, Separadores
de decimales y Separadores de miles de la Figura 1-8.
26
Figura 1-8
28
También es posible especificar el tipo de serie de relleno
utilizando el botón secundario del ratón para arrastrar el controlador de relleno
sobre el rango y después hacer clic en el comando adecuado del menú contextual
de la Figura 1-16. Por ejemplo, si el valor inicial es la fecha ENE-2002, haga clic
en Rellenar meses para obtener la serie FEB-2002, MAR-2002, etc. También
puede hacer clic en Rellenar años para obtener la serie ENE-2003, ENE-2004,
etc.
32
41
49
% Porcentaje
^ Exponente
* y/ Multiplicación y división
+ y- Suma y resta
& Conecta dos cadenas de texto (concatenación)
= < > <= >= <> Comparación
51
1.6 VINCULACIÓN DE LIBROS
Pueden compartirse los datos almacenados en hojas de cálculo y
libros diferentes mediante la utilización de vínculos o de referencias externas. La
vinculación resulta especialmente útil cuando no conviene conservar grandes
modelos de hoja de cálculo en el mismo libro.
61
el nombre de la otra hoja de cálculo o del otro libro contiene caracteres no
alfabéticos, se deberá poner el nombre (o la ruta de acceso) entre comillas
sencillas.
65
funciones de texto (Figura 1-53) y las funciones lógicas (Figura 1-54).
77
79
1.9 COMPLEMENTOS EN EXCEL Y LA ESTADÍSTICA
Como ya habíamos anticipado al principio del cap tulo, Excel 2010
dispone de complementos adicionales (Herramientas para análisis, Solver, etc.)
que pueden cargarse después de la instalación del programa y que incorporan
funcionalidades adicionales para el trabajo en estadística. Para cargar o
descargar un complemento de Excel, se tendrán en cuenta los pasos siguientes:
Haga clic en el Archivo y, a continuación, pulse en Opciones.
En la Figura 1-55 haga clic en la categoría Complementos de

panel izquierdo.
En el cuadro Administrar (Figura 1-55), haga clic en

Complementos de Excel y, a continuación, en Ir.
En el cuadro Complementos disponibles (Figura 1-56), active la

casilla de verificación situada junto al complemento que desea
cargar y, luego, haga clic en Aceptar. Si el complemento que
desea utilizar no aparece en la lista del cuadro Complementos
disponibles, haga clic en Examinar y, a continuación, busque el
complemento. Los complementos que no están disponibles en el
equipo se pueden descargar de Descargas en Office Online.
87
2.1 VARIABLES ESTADÍSTICAS
En el trabajo estadístico la información se recoge en variables.
Estas variables se organizan de forma ordenada y se almacenan en ficheros.
Posteriormente será posible operar con estas variables y aplicar funciones a las
mismas para realizar las transformaciones y los análisis estadísticos que se
desee. Las variables pueden contener datos numéricos (variables cuantitativas)
y datos categóricos no cuantificables numéricamente (variables cualitativas). El
sexo, la profesión y el lugar de origen serían variables cualitativas. La estatura y la
edad serían ejemplos de variables cuantitativas.
Las variables cuantitativas pueden ser discretas y continuas.
Una variable es discreta cuando toma una cantidad finita o numerable

de valores aislados, es decir, entre cada dos valores consecutivos no se puede
intercalar ningún otro valor de la variable. El número de hijos, el número de
parados y el número de caras obtenido al lanzar tres monedas al aire serían
ejemplos de variables cuantitativas discretas.
Una variable es continua cuando toma una infinidad no numerable de

valores, es decir, entre cada dos valores cualesquiera siempre existen infinitos
valores de la variable. La fuerza física, la longitud y el peso serían ejemplos de
variables cuantitativas continuas.
Las variables cualitativas suelen clasificarse, según la naturaleza de los

datos categóricos que representan, en variables nominales y variables ordinales.
Las variables nominales describen las categorías directamente por su

contenido, por ejemplo, las categorías de la variable cualitativa sexo son varón y
mujer. A veces suelen asignarse por comodidad códigos numéricos a las
distintas categorías de una variable cualitativa nominal, por ejemplo, varón=1 y
hembra=2, en cuyo caso hay que resaltar que dichos códigos siguen siendo
variables cualitativas no tratables numéricamente.
Las variables ordinales describen las categorías por el orden que

ocupan, por ejemplo, los valores (categorías) de la variable cualitativa
92
“satisfacción en el trabajo” pueden ordenarse en “satisfación baja” (valores entre
0 y 10 según una determinada escala de puntuación que varía entre 0 y 30),
“satisfación media” (valores entre 10 y 20) y “satisfacción alta” (valores entre 30 y
40).
Las variables cuantitativas suelen clasificarse en variables ratio, que

toman valores numéricos puntuales, y variables por intervalos, en las cuales se
agrupan los valores numéricos en intervalos convenientes con vistas a facilitar el
trabajo.
93
2.2 DISTRIBUCIONES DE FRECUENCIAS Y SU
FINALIDAD
Cuando se analiza una característica medida por una variable
cualquiera resultado de un determinado proceso (de producción, de medida,
económico, financiero, sociológico, médico, biológico, demográfico, etc.), los
datos que obtenemos siempre están dispersos y nunca tienen un único valor
constante. Una vez que sabemos que los datos relativos a las distintas
características van a estar dispersos, nos surge el problema de detectar el
patrón en la variabilidad de los datos. Para ayudar a esta tarea existen
herramientas estadísticas básicas como las distribuciones de frecuencias y los
histogramas, así como técnicas sencillas de análisis exploratorio de datos.
Cuando los datos están dispersos, la dispersión sigue un cierto patrón.

Inicialmente los datos no nos dicen nada por sí mismos, pero si los dividimos en
clases o celdas ordenadamente, puede aclararse la forma de su dispersión, es
decir, puede aclararse la forma de cómo están distribuidos. Esta forma de la
distribución de los datos inherente a su variabilidad se denomina distribución de
frecuencias.
Normalmente es posible ver la forma general de una distribución si se

recogen cien o más valores y se prepara convenientemente una tabla de
frecuencias con diez o veinte clases. Pero la distribución se puede ver aún con
mayor claridad en forma de representación gráfica mediante un histograma de
frecuencias. El histograma es una representación visual de los datos en la que
pueden observarse más fácilmente tres propiedades esenciales de una
distribución como son: forma, tendencia central o acumulación y dispersión o
variabilidad. De esta forma, el histograma da una idea del proceso, lo que un
simple examen de los datos tabulados no hace.
Hay muchos métodos para construir histogramas. Cuando los

datos son numerosos, es muy útil reunirlos en clases y se recomienda utilizar
entre 4 y 20 clases (o celdas). A menudo conviene elegir un número total de
clases igual aproximadamente a la raíz cuadrada del tamaño de la muestra. Las
clases deben tener amplitud uniforme y se construye la primera de ellas
comenzando con un límite inferior sólo un poco menor que el valor más pequeño
94
de los datos. Se construye la última clase finalizando con un límite superior sólo
un poco mayor que el valor más grande de los datos. Para realizar el histograma
se marcan las clases sobre el eje de abscisas, y sobre cada clase se levanta un
rectángulo de altura proporcional al número de observaciones de la variable
(frecuencia absoluta) que caen en la clase.
El agrupamiento de los datos en clases condensa los datos

originales, lo que da como resultado una pérdida de algo de detalle. Así, cuando
el número de observaciones es relativamente pequeño, o cuando las
observaciones sólo toman pocos valores, puede construirse el histograma a
partir de la distribución de frecuencias de los datos sin agrupar, dando lugar a
los diagramas de barras.
Las distribuciones de frecuencias son la herramienta más sencilla

y más utilizada y eficaz cuando estamos rodeados de montones de datos, que no
nos dicen nada si no hacemos más que enumerarlos. Al expresar estos datos en
forma de una distribución de frecuencias, ya nos proporcionan diversas ideas.
Puesto que las distribuciones de frecuencias se utilizan muy a menudo, es
necesario conocer la finalidad de las mismas y su interpretación y uso.
El fin principal de la preparación de una distribución de

frecuencias es, usualmente, uno de los siguientes:
Dejar bien visible la distribución de la variable estudiada e

identificar su forma.
Analizar, controlar y mostrar las capacidades de los procesos de

los que derivan sus datos, tanto cualitativa como cuantitativamente.
Ayudar a determinar el promedio, la desviación estándar, los

coeficientes de asimetría y curtosis, así como otras medidas
características de una distribución.
Probar a qué tipo de distribución matemática se puede acoplar

estadísticamente la distribución empírica de los datos relativos a la
95
variable estudiada.
96
2.3 INTERPRETAR LAS DISTRIBUCIONES DE
FRECUENCIAS
Las distribuciones de frecuencias facilitan que todo el mundo vea y
comprenda intuitivamente la forma de los valores de la variable que representa.
Sin embargo hay que prestar atención a la interpretación de las distribuciones.
Cuando se miran las distribuciones de frecuencias, se tiene que prestar atención
a los puntos siguientes:
¿Está el promedio de la distribución en una posición adecuada?
¿Cómo es la dispersión de la distribución respecto al promedio?
¿Cuál es la relación entre valores tales como la desviación

estándar, el valor medio, el rango, etc?
¿Hay algunos huecos, como dientes que faltan, o subidas o

bajadas repentinas como las púas de un peine, en la distribución?
¿Hay algunos puntos aislados fuera del cuerpo principal de la

distribución?
¿Son aceptables los valores máximo y mínimo de la distribución?
¿Es asimétrica la distribución, con un extremo mucho más largo

que el otro, o bien es simétrica?
¿Tiene aspecto de acantilado la parte izquierda o la derecha de

la distribución?
¿Tiene más de un pico la distribución?
¿Es demasiado agudo o demasiado chato el pico de la

distribución?
97
98
2.5 REPRESENTAR DISTRIBUCIONES DE
FRECUENCIAS
El objetivo esencial de las representaciones gráficas de las
distribuciones de frecuencias es obtener una idea general sobre sus
propiedades en un simple vistazo. Observando un histograma de frecuencias
podemos deducir si la variable se aproxima a la normalidad o si es simétrica, así
como otras propiedades que posteriormente pueden ser analizadas de modo
formal utilizando contrastes u otras herramientas adecuadas.
A la hora de representar distribuciones de frecuencias será

necesario tener presente en primer lugar si la variable es cualitativa o
cuantitativa. En segundo lugar, y ya dentro de las variables cuantitativas, habrá
que tener presente si la distribución es agrupada o no agrupada. Teniendo en
cuenta estas características de la variable cuya distribución de frecuencias se
representa podemos clasificar los gráficos como sigue:
102
frecuencias es el polígono de frecuencias acumuladas, que se utiliza cuando se
trabaja con frecuencias absolutas o relativas acumuladas y que se construye
levantando en el extremo superior de cada intervalo de clase una ordenada igual
a la frecuencia acumulada correspondiente y uniendo a continuación dichas
ordenadas.
Los puntos que se unen serán (Li+1, Ni). La primera ordenada se une
al extremo inferior del primer intervalo prolongándose el polígono desde este
punto hacia la izquierda sobre el eje X, y prolongándose también el polígono a
partir de la ordenada del extremo superior del último intervalo con una paralela
al eje de abscisas. De esta forma, la ordenada correspondiente a cada valor de
la variable X mide el número de observaciones para las cuales la variable toma
valores menores o iguales que la abscisa (concepto que aproxima la función de
distribución de la variable X).
La Figura 2-11 muestra el polígono de frecuencias simple relativo

a la variable X.
116
2.6 GRÁFICOS EN EXCEL
La forma más habitual de crear un gráfico en Excel consiste en
seleccionar los datos para la construcción del gráfico en la hoja de cálculo y
utilizar el tipo de gráfico que se quiera crear del grupo Gráficos de la ficha
Insertar (Figura 2-13) en la que hemos seleccionado el tipo Línea (gráficos de
líneas). También se pueden utilizar los tipos Columna (Figura 2-14), Barra
(Figura 2-15), Circular (Figura 2-16), Área (Figura 2-17), Dispersión (Figura
2-18) y Otros gráficos (Figura 2-19). Es posible ver todos los tipos de gráfico
disponibles haciendo clic en la opción Todos los tipos de gráfico cualquier
Figura anterior. Se obtiene la Figura 2-20.
119
la Figura 2-21) que contiene las tres fichas Diseño, Presentación y Formato que
permiten la edición de un gráfico ya existente. La ficha Diseño permite cambiar el
tipo de gráfico, los datos del mismo, los diseños a utilizar, los estilos y la
ubicación. La ficha Presentación (Figura 2-22) permite trabajar con el área del
gráfico, etiquetas, t tulos, ejes, fondos, líneas de tendencia y todos los elementos
habituales que componen un gráfico. La ficha Formato (Figura 2-23) permite
trabajar con estilos de forma, estilos de Word Art, así como con el tamaño y la
organización del gráfico.
128
2.7 EXCEL Y LAS DISTRIBUCIONES DE FRECUENCIAS
Excel permite trabajar con distribuciones de frecuencias por dos vías
distintas. Por un lado, aporta la función FRECUENCIA, disponible desde las
primeras versiones del programa. Por otro lado, el complemento de Análisis de
datos incorpora la opción Histograma, que permite hallar distribuciones de
frecuencias para variables aleatorias cuantitativas y representarlas mediante los
correspondientes histogramas de frecuencias.
131
2.7.1 La función FRECUENCIA de Excel
La función FRECUENCIA de Excel calcula las frecuencias
absolutas de los valores de una variable en un rango de intervalos o grupos
cuyos extremos se conocen. Debe introducirse como una fórmula de matrices,
debido a que FRECUENCIA devuelve una matriz. Su sintaxis es la siguiente:
FRECUENCIA(datos;grupos)
El argumento datos es una matriz de un conjunto de valores o una

referencia a un conjunto de valores x1, x2,..., xn cuyas frecuencias se desea
calcular (columna DATOS de la Figura 2-24). El argumento grupos es una
matriz de intervalos o una referencia a extremos superiores de intervalos L1,
L2,..., Lk dentro de los cuales desea agrupar los valores del argumento datos
(columna NTERVALOS de la Figura 2-15). L1, L2,..., Lk representan los
intervalos (-∞,L1], (L1,L2],..., (Lk-1, Lk], (Lk, ∞). Si grupos no contiene ningún
valor, FRECUENCIA devolverá el número de elementos contenido en datos.
La función FRECUENCIA se introduce como una fórmula

matricial después de seleccionar un rango de celdas adyacentes en las que se
desea que aparezca el resultado de la distribución (Figura 2-24).
132
Haga clic en la opción En una hoja nueva para insertar una hoja
nueva en el libro actual y pegar los resultados comenzando por la celda A1 de la
nueva hoja de cálculo. Para asignar un nombre a la nueva hoja de cálculo,
escríbalo en el cuadro.
Pulse en la opción En un libro nuevo para crear un nuevo libro y

pegar los resultados en una hoja nueva del libro creado.
Active la casilla Pareto (Histograma ordenado) para presentar los

datos en orden de frecuencia descendente en la tabla de resultados. Si esta
casilla está desactivada, Microsoft Excel presentará los datos en orden
ascendente, y omitirá las tres columnas situadas más a la derecha que
contienen los datos ordenados.
Active la casilla Porcentaje acumulado para generar una columna

de tabla de resultados con porcentajes acumulados y para incluir una línea de
porcentaje acumulado en el gráfico de histograma. Desactívela para omitir los
porcentajes acumulados.
Active la casilla Crear gráfico para generar un gráfico de

histograma incrustado con la tabla de resultados.
En la Figura 2-33 se muestra la salida correspondiente al

Histograma de la variable Datos, con extremos de intervalos de clase dados por
la columna Intervalos para el cuadro de diálogo Histograma de la Figura 2-32.
142
Dado que estamos ante una variable cuantitativa con datos sin agrupar
podemos representarla mediante el diagrama de barras o mediante el polígono
de frecuencias (Figura 2-47) obtenidos mediante los mismos pasos del ejercicio
anterior.
El diagrama de barras y el polígono de frecuencias suelen ofrecer

información sobre la simetría y la normalidad de la distribución. En este caso
vemos que estas representaciones no se desvían demasiado de una campana de
Gauss, lo que indica que puede admitirse la normalidad de los datos. En cuanto
a la simetría se observa que la parte izquierda de la distribución aglomera más
frecuencia, por lo que podría haber una asimetría débil en esa dirección. No
obstante, podría admitirse también la simetría, al igual que la normalidad con un
margen de error no muy elevado.
161
detectar qué patrón sigue dicha variabilidad para determinar mejor la estructura
de los datos. En primer lugar será conveniente realizar una ordenación de los
datos según su magnitud, es decir, una tabla de frecuencias, que aportará algo
de luz sobre la distribución de frecuencias subyacente.
Como se trata de una variable cuantitativa con 154 valores

comprendidos entre 13 y 49, será necesario agruparlos en intervalos o clases.
Para ello tomamos 12 intervalos de igual anchura (12 es un entero que aproxima
bien la raíz cuadrada de N = 154). La anchura de los intervalos será (49 – 13)/12
= 3.
Para hallar las frecuencias absolutas por clases, se utiliza la

función FRECUENCIA de Excel con la sintaxis que se observa en la Figura 2-
54, previa introducción de los datos de la variable (Xi) y de la columna de
extremos superiores de los intervalos (menos el último). Hay que tener en cuenta
el rango seleccionado para escribir la fórmula y que hay que pulsar
Mayus+Control+Enter para ejecutarla. Se obtiene la Figura 2-55.
Conocidas las frecuencias absolutas, ya podemos construir la

tabla de frecuencias tal y como se ha hecho en los ejercicios anteriores (Figura
2-56).
170
Figura 2-64
185
Figura 2-65
187
3.1 EXPRESIÓN CUANTITATIVA DE LAS
DISTRIBUCIONES
En el capítulo anterior se han definido los conceptos básicos en el
estudio de una distribución de frecuencias de una variable. En el presente
cap tulo estudiaremos las distintas formas de resumir dichas distribuciones
mediante medidas de posición (o de centralización), teniendo presente el error
cometido en el resumen mediante las correspondientes medidas de dispersión. A
su vez, analizaremos la forma de la distribución mediante las medidas de forma.
El histograma de frecuencias ya nos daba una representación visual de las tres
propiedades más importantes de los datos muestrales relativos a variables: la
forma de su distribución, su tendencia central y su dispersión. Ahora se trata de
cuantificar estos conceptos.
Por otra parte, también en este cap tulo se tratan las técnicas de análisis
exploratorio de datos, que amplían la información ofrecida por las medidas de
concentración, dispersión y forma de una distribución. Mediante las técnicas de
análisis exploratorio se estudian exhaustivamente las distribuciones de
frecuencias y se detectan las posibles anomalías que presentan las
observaciones.
189
3.2 MEDIDAS DE POSICIÓN: MEDIA, MEDIANA,
MODA, CUANTILES, PERCENTILES Y
MOMENTOS
La finalidad de las medidas de posición es encontrar unos valores
que sinteticen las distribuciones de frecuencias. En vez de manejar todos los
datos sobre las características o variables, tarea que puede ser pesada,
podemos caracterizar su distribución de frecuencias mediante algunos valores
numéricos, eligiendo como resumen de los datos un valor central alrededor del
cual se encuentran distribuidos los valores de la variable. El valor de la variable
elegido para representar a una distribución se llama promedio o medida de
posición, y es un valor representativo de todos los valores que toma la variable.
Debe hallarse entre el mayor y el menor valor de la variable.
Pero estas medidas de posición de una distribución de frecuencias han de

cumplir determinadas condiciones para que sean verdaderamente
representativas de la variable a la que resumen. Toda síntesis de una distribución
se considerará como operativa si intervienen en su determinación todos y cada
uno de los valores de la distribución, siendo única para cada distribución de
frecuencias, y siendo siempre calculable y de fácil obtención. A continuación, se
hace una relación de las medidas de posición más comunes utilizadas en
estadística.
Media aritmética: Se define como la suma de todos los valores de la distribución

dividida por el número total de datos. La expresión matemática que representa la
media aritmética coincide con el momento de primer orden respecto al origen.
Pero esto sólo es válido en el supuesto más sencillo, en el que los datos de la
variable están sin agrupar. En el caso de que tuviésemos una distribución con
datos agrupados en intervalos, los valores individuales de la variable serían
desconocidos y, por tanto, no podríamos utilizar la fórmula anterior. En este
supuesto, los datos estarán agrupados en clases, y se postula la hipótesis de
que el punto medio del intervalo de clase (marca de clase) representa
adecuadamente el valor medio de dicha clase, por lo que aplicaríamos la fórmula
original de la media simple para dichos valores. En el caso de que la variable
presente valores anormalmente extremos, éstos pueden distorsionar la media
aritmética, haciéndola incluso poco representativa. A los estadísticos que no son
190
3.3 MEDIDAS DE DISPERSIÓN
Las medidas de dispersión permiten calcular la representatividad de una
medida de posición, para lo cual será preciso cuantificar la distancia de los dife-
rentes valores de la distribución respecto a dicha medida. A tal distancia es a lo
que, en términos estadísticos, denominaremos variabilidad o dispersión de la
distribución. Las medidas de dispersión tienen como finalidad estudiar hasta qué
punto, para una determinada distribución de frecuencias, las medidas de
tendencia central o de posición son representativas como síntesis de toda la
información de la distribución. Medir la representatividad de una medida de
posición equivale a cuantificar la separación de los valores de la distribución
respecto a dicha medida. Por ejemplo, si queremos estudiar en qué grado una
media aritmética nos marca una tendencia central generalizable del
comportamiento de todos los elementos del conjunto estudiado, tendremos que
fijarnos en la separación o desviación de cada valor respecto a la media. Si
todos los valores están cercanos al valor medio, éste será representativo de
ellos.
A la mayor o menor separación de los valores de una distribución

respecto de otro, que se pretende que sea su síntesis, se le llama dispersión o
variabilidad. Será, pues, tanto más representativa la media aritmética de una
variable cuanto más agrupados en torno a ella estén los valores promediados;
por el contrario, será tanto más rechazable, por no ser representativa, cuanta
mayor dispersión exista de los valores de la variable respecto a la media.
Resulta pues necesario para completar la información que pueda

deducirse de una medida de posición o centralización, acompañarla de uno o
varios coeficientes que nos midan el grado de dispersión de la distribución de la
variable respecto de esa medida de centralización. Estos coeficientes son los
que llamamos medidas de dispersión. Inicialmente, se distingue entre medidas
de dispersión absolutas y relativas, entendiéndose por relativas las que no
dependen de las unidades de medida. Posteriormente, se clasifican las medidas
absolutas y relativas según sean medidas referidas a promedios o no lo sean.
Entre las medidas de dispersión absolutas no referidas a promedios

tenemos el recorrido, o diferencia entre el mayor valor y el menor valor de una
199
Índice de dispersión respecto a la mediana: Se usa para resolver el problema de
comparación de medianas de varias distribuciones, que pueden venir, en general,
en unidades diferentes. Se define como la relación por cociente entre la
desviación media respecto de la mediana y la mediana aritmética VMe = DMe /
M e. Evidentemente, a menor índice de dispersión mejor es la mediana.
204
3.5 ANÁLISIS EXPLORATORIO DE DATOS
Los estadísticos descriptivos más habitualmente utilizados han
sido la media y la desviación típica. Sin embargo, el uso automático de estos
índices no es muy aconsejable. La media y la desviación típica son índices
convenientes sólo cuando la distribución de datos es aproximadamente normal o,
al menos simétrica y unimodal. Pero las variables objeto de estudio no siempre
cumplen estos requisitos. Por lo tanto es necesario un examen a fondo de la
estructura de los datos.
Actualmente se utilizan las novedosas técnicas del análisis

exploratorio de datos, mediante las cuales se pueden analizar los datos
exhaustivamente y detectar las posibles anomalías que presentan las
observaciones. J. W. Tuckey ha sido uno de los pioneros en la introducción de
este tipo de análisis.
Se recomienda iniciar un análisis con gráficos que permitan
visualizar su estructura. Por ejemplo, para datos cuantitativos es aconsejable
comenzar con el histograma de frecuencias. El paso siguiente suele ser
examinar la posible presencia de valores atípicos (outliers) en el conjunto de
datos. Para ello, suelen utilizarse los propios histogramas u otros tipos de
gráficos más avanzados como los gráficos de caja y bigote o histogramas
digitales (gráficos de tallo y hojas).
Las técnicas de análisis exploratorio de datos amplían la

información ofrecida por las medidas de concentración, dispersión y forma de
una distribución. Mediante las técnicas de análisis exploratorio se estudian
exhaustivamente las distribuciones de frecuencias y se detectan las posibles
anomalías que presentan las observaciones, su simetría y su grado de
normalidad.
211
3.6 GRÁFICO DE SIMETRÍA
El gráfico de simetría (Figura 3-1) es una herramienta que
permite analizar visualmente el grado de simetría de una variable. En el eje de
abscisas se representan las distancias de los valores de la variable a la mediana
que quedan por debajo de ella, y en el eje de ordenadas se representan las
distancias de los valores de la variable a la mediana que quedan por encima de
ella. Si la simetría fuese perfecta, el conjunto de puntos resultante sería la
diagonal principal. Mientras más se aproxime la gráfica a la diagonal más
simetría existirá en la distribución de la variable.
Para el ejemplo de la variable X, variable definida por el número de

litros consumidos por los automóviles cada 1000 kilómetros que venimos
considerando durante todo el capítulo, tenemos el gráfico de simetría siguiente:
212
la mediana.
4. Se toman los valores positivos de di ordenados de menor a mayor y se les

denomina pi. Estos valores serán las distancias sobre la mediana.
5. Se toman los valores negativos de di ordenados de menor a mayor y se les

denomina ni. Estos valores cambiados de signo serán las distancias bajo
la mediana.
6. Se grafican los puntos de coordenadas (-ni, pi).
214
del rango de entrada están organizados en filas o en columnas.
Rótulos en la primera fila y rótulos en la primera columna: si la primera fila del

rango de entrada contiene rótulos, active la casilla de verificación Rótulos en la
primera fila. Si los rótulos están en la primera columna del rango de entrada,
active la casilla de verificación Rótulos en la primera columna. Esta casilla de
verificación estará desactivada si el rango de entrada carece de rótulos;
Microsoft Excel generará los rótulos de datos correspondientes para la tabla de
resultados.
Nivel de confianza para la media: active esta casilla si desea incluir una fila
correspondiente al nivel de confianza de la media en la tabla de resultados. En el
cuadro, escriba el nivel de confianza que desee utilizar. Por ejemplo, un valor de
95% calculará el nivel de confianza de la media con un nivel de importancia del
5%.
Késimo mayor: active esta casilla si desea incluir una fila correspondiente al
valor k-ésimo mayor de cada rango de datos en la tabla de resultados. En el
cuadro, escriba el número que va a utilizarse para k. Si escribe 1, esta fila
contendrá el máximo del conjunto de datos.
Késimo menor: active esta casilla si desea incluir una fila correspondiente al
valor k-ésimo menor de cada rango de datos en la tabla de resultados. En el
cuadro, escriba el número que va a utilizarse para k. Si escribe 1, esta fila
contendrá el mínimo del conjunto de datos.
Rango de salida: introduzca la referencia correspondiente a la celda superior

izquierda de la tabla de resultados. Esta herramienta genera dos columnas de
información por cada conjunto de datos. La columna de la izquierda contiene los
rótulos de estadística, y la columna de la derecha contiene las estadísticas.
Excel escribirá una tabla de estadísticas de dos columnas por cada columna o
fila del rango de entrada, dependiendo de la opción que se haya seleccionado en
el cuadro Agrupado por.
En una hoja nueva: haga clic en esta opción para insertar una hoja nueva en el
libro actual y pegar los resultados comenzando por la celda A1 de la nueva hoja
236
de cálculo. Para darle un nombre a la nueva hoja de cálculo, escr balo en el
cuadro.
En un libro nuevo: haga clic en esta opción para crear un nuevo libro y pegar los
resultados en una hoja nueva del libro creado.
Resumen de estadísticas: seleccione esta opción si desea que Excel genere un

campo en la tabla de resultados por cada una de las siguientes variables
estadísticas: media, error típico (de la media), mediana, moda, desviación
estándar, varianza, curtosis, coeficiente de asimetría, rango, mínimo, máximo,
suma, cuenta, mayor (#), menor (#) y nivel de confianza.
237
Figura 3-25
Al hacer clic en Aceptar, se obtiene la pantalla Estadística

descriptiva, cuyos campos se rellenan como se indica en la Figura 3-26. Al
hacer clic en Aceptar, se obtiene la Figura 3-27, que presenta varios de los
estadísticos pedidos en el problema. Se observa que la moda (peso más
frecuente) y la mediana (peso tal que la mitad de los restantes pesos sean
inferior a él) coinciden y valen 106. Como el coeficiente de asimetría (0,38) y el
coeficiente de curtosis (-0,044) están en el intervalo [-2, 2], la distribución de los
pesos podrá considerarse realmente normal.
251
Dado el valor positivo del coeficiente de asimetría de Pearson, se
concluye que la distribución es simétrica positiva.
El coeficiente de asimetría de Fisher se calcula como sigue:
Dado el valor positivo del coeficiente de asimetría de Fisher, se

concluye que la distribución es simétrica positiva.
Para cuantificar el grado de apuntamiento de la distribución se calcula el

coeficiente de curtosis como sigue:
Este resultado nos dice que la distribución es ligeramente leptocúrtica,

es decir, un poco más apuntada que la normal.
Un criterio bastante efectivo para comprobar la normalidad de los datos

es observar los valores de los coeficientes de asimetría y curtosis. Si ambos
coeficientes caen en el intervalo (-2, 2) se considera que los datos provienen de
una distribución normal. En nuestro caso g1=1,16 y g2=1,17, valores que caen
dentro del intervalo (-2, 2), lo que indica posible presencia de normalidad en los
datos.
286
Capítulo 4
VARIABLE N-DIMENSIONAL. CORRELACIÓN

Y REGRESIÓN. TABLAS DE CONTINGENCIA
287
4.1 DISTRIBUCIONES BIDIMENSIONALES DE
FRECUENCIAS
Si X e Y son dos variables observadas, la distribución bidimen-
sional (X,Y) será (xi,yi,nij). Cada frecuencia corresponde ahora a un par de
valores (variables cuantitativas) o modalidades (variables cualitativas): el primer
elemento del par corresponde al valor de la primera característica observada, el
segundo hace referencia a la segunda de tales características, y el tercero a la
frecuencia conjunta. Evidentemente, sería posible realizar un estudio por
separado de la distribución de X e Y, y resumir estos caracteres por medio de
sus medidas de posición y dispersión descritas en el cap tulo anterior; tales
distribuciones recibirán el nombre de distribuciones marginales. Sin embargo,
nuestro interés en este punto se centra en el análisis simultáneo de ambas
características; es decir, en la distribución conjunta de las mismas, con el fin de
establecer si existe relación entre ellas y en qué grado. Los pares que contienen
los valores de las variables o atributos junto con sus correspondientes
frecuencias, suelen disponerse en una tabla de doble entrada, que recibe el
nombre de tabla de correlación en el caso de que ambos caracteres sean
cuantitativos, y tabla de contingencia cuando son cualitativos. Estos dos tipos de
tablas serán objeto de nuestra atención en los apartados siguientes.
288
4.2 TABLA DE CORRELACIÓN: DISTRIBUCIONES
MARGINALES Y DISTRIBUCIONES
CONDICIONADAS
Queremos estudiar conjuntamente dos caracteres cuantitativos, X e Y,
sobre una población, apareciendo X con h niveles e Y con k. Para ello,
seleccionamos una muestra de tamaño N y la sometemos a observación,
disponiendo los resultados en una tabla de doble entrada, donde x1, ..., xh e y1,
..., yk representan los valores observados para cada variable, y nij la frecuencia
absoluta conjunta, es decir, las veces que aparecen simultáneamente el valor i-
ésimo de X y j-ésimo de Y.
289
nij = frecuencia absoluta del valor (Xi,Yj) de la distribución conjunta (X,Y).
= frecuencia absoluta del valor Xi de la variable

marginal X.
290
= frecuencia absoluta del valor Yj de la variable
marginal Y.
= frecuencia relativa del valor (Xi,Yj) de la distribución

conjunta (X,Y).
= frecuencia relativa del valor Xi de la variable marginal X.
= frecuencia relativa del valor Yj de la variable marginal

Y.
Se cumple que:
291
En esta tabla, ni. y n.j nos proporcionan las frecuencias marginales. Es
decir, el número de veces que aparece el valor i-ésimo de X, con independencia
de cuál sea el valor de Y, es ni., y el número de veces que aparece el valor j-
ésimo de Y, independientemente de cuál sea el valor de X con el que se da
conjuntamente Y, es n.j. De esta forma tenemos que las distribuciones
marginales de X e Y vienen dadas por (xi; ni.) y (yj; n.j ). Estas distribuciones
marginales pueden expresarse como sigue:
Dado que estas distribuciones marginales son variables

unidimensionales, es posible calcular todo tipo de medidas de centralización,
dispersión y forma, mediante los procedimientos ya vistos en el capítulo anterior.
292
A partir de la tabla de correlación es posible formar un nuevo tipo de
distribuciones, que denominaremos distribuciones condicionadas debido a que
para su obtención es preciso definir previamente una condición. Esta condición
hará referencia a la fijación a priori de un valor (o valores) de una de las
variables, para posteriormente calcular la distribución de la otra variable sujeta a
esa condición. Si fijamos la variable Y en el valor y2 (podríamos fijar más de un
único valor), la distribución de la variable X condicionada a que Y tome el valor
y2 vendrá dada por:
Donde X/Y=y2 nos dará los valores que puede tomar la variable X cuando
Y toma el valor y2, y ni/j=2 nos da las frecuencias con que se presenta cada uno
de los valores.
En general, dado que se pueden establecer condiciones sobre Y y X

calculando posteriormente la distribución de X o Y sujeta a esa condición, nos
encontramos distribuciones que, de manera genérica, tendrán la forma:
293
Dado que estas distribuciones condicionadas son variables
unidimensionales, es posible calcular todo tipo de medidas de centralización,
dispersión y forma, mediante los procedimientos ya vistos en el capítulo anterior.
Para todas las distribuciones condicionadas, será posible trabajar con

frecuencias relativas en vez de con frecuencias absolutas. Tenemos lo siguiente:
294
Otra relación importante entre distribuciones condicionadas, marginales y
conjunta es la siguiente:
295
4.3 COVARIANZA
Pero, puesto que no interesan únicamente las distribuciones
marginales, sino también la conjunta, es preciso introducir medidas que hagan
referencia a esta última distribución.
El momento bidimensional de orden (r,s) centrado en el origen, se define

como:
El momento bidimensional de orden (r,s) centrado en las medias, se define

como:
Los momentos de la distribución marginal de X se calcularán como ar0

(los centrados en el origen) y mr0 (los centrados en la media). Concretamente
a10 es la media de X, y m20 es la varianza de X. De la misma forma, los
momentos de la distribución marginal de Y se calcularán como a0s (los
centrados en el origen) y m0s (los centrados en la media). Concretamente, a01
es la media de Y, y m02 es la varianza de Y.
De entre las medidas relativas a la distribución conjunta, la de mayor

interés en todo análisis estadístico es la covarianza sxy, que se define como m11.
Su fórmula será:
296
La covarianza es una medida de gran importancia por su signo, más que
por el valor que pueda alcanzar; el signo indica el sentido de la variación
conjunta de las variables que estamos considerando. De esta forma, si la
covarianza es positiva, quiere decir que ambas variables varían en el mismo
sentido alrededor de sus medias, mientras que si la variación de las mismas
tiene lugar en sentido contrario, la covarianza tomará valores negativos.
En ocasiones, suele utilizarse la cuasicovarianza debido a sus

propiedades muestrales. La expresión de la cuasicovarianza es:
297
4.4 VARIABLES INDEPENDIENTES
¿Cómo podemos detectar la existencia de independencia entre dos
variables? ¿qué instrumentos estadísticos son los que nos permiten señalar la
ausencia de tal relación? Para detectar la no presencia de asociación entre dos
caracteres analizados sobre la misma población, se procede a elaborar la tabla
de correlación (para variables cuantitativas) o de contingencia (para variables
cualitativas), y se calculan las respectivas distribuciones conjuntas, marginales y
condicionadas. Las variables son independientes si se cumple cualquiera de las
dos siguientes condiciones equivalentes:
Las frecuencias relativas condicionadas coinciden con sus respectivas
frecuencias relativas marginales, lo que nos indica que el
condicionamiento, en cuanto tal, no existe. Ha de cumplirse que fi/j = fi.= ni.
/N y fj/i =f.j= n.j /N para todo i,j.
La frecuencia relativa conjunta es igual al producto de las frecuencias

relativas marginales, es decir, nij /N = (ni. /N)*(n.j /N) Û fij = fi. f.j para
todo i,j.
Cuando las dos variables son independientes, la covarianza es cero,

aunque debemos señalar que el recíproco no es siempre cierto (es decir, la
covarianza nula no implica necesariamente que ambas variables sean
independientes).
298
4.5 COEFICIENTE DE CORRELACIÓN LINEAL ENTRE
DOS VARIABLES. REGRESIÓN SIMPLE
MÍNIMO CUADRÁTICA
Se llama correlación al grado de dependencia mutua entre dos
variables. El coeficiente de correlación intenta medir la intensidad con que dos
variables están relacionadas. Este concepto está directamente relacionado con el
concepto de curva de regresión. Mediante la regresión simple mínimo
cuadrática, se expresa la estructura funcional de la relación existente entre dos
variables, ajustando la nube de puntos dada por los pares de valores de las dos
variables a una curva de la forma mejor posible (minimizando la varianza del
error). El ajuste será de la forma Y=f(x)+e o X=f(Y)+e, donde e denota el error
cometido cuya varianza debe ser mínima. El coeficiente de correlación mide la
calidad de ese ajuste.
Cuando la curva es una recta, la regresión se llama lineal, y en

este caso el coeficiente de correlación se llama coeficiente de correlación lineal,
y mide el grado de asociación lineal que existe entre las variables. El ajuste será
de la forma Y = a + b X + e (recta de regresión de Y sobre X), o X = c + d Y + e
(recta de regresión de X sobre Y), donde a = ,b=
, c= yd = .
A los parámetros a y b se les denomina coeficientes de regresión

de Y sobre X, y a los parámetros c y d se les llama coeficientes de regresión de X
sobre Y. También se pueden expresar las rectas de regresión de Y sobre X y X
sobre Y respectivamente de la forma
299
.
Si suponemos el ajuste de la forma Y = a + b X + e (recta de regresión

de Y sobre X), el criterio de mínimos cuadrados considera que la función que
mejor se ajusta a los datos es la que minimiza la varianza del error e, lo que es
equivalente a minimizar:
Derivando respecto de los parámetros a y b e igualando a cero

tenemos:
Las soluciones a y b de este sistema de ecuaciones normales son a
= y b= , lo que hace que la recta

de regresión de Y sobre X sea:
300
Y= a+ bX = + xÞ
Razonando de forma similar, se obtienen la recta de regresión de X sobre

Y.
La expresión del coeficiente de correlación lineal entre las variables X e Y

viene dado por la expresión:
Si r = 1 existe correlación perfecta positiva, y la relación funcional entre

ambas variables es exacta y positiva, variando las dos en el mismo sentido (al
aumentar una aumenta la otra, y al disminuir una disminuye la otra). Si r = - 1
existe correlación perfecta negativa, y la relación funcional entre ambas variables
es exacta y negativa, variando las dos en el sentido opuesto (al aumentar una
disminuye la otra, y al disminuir una aumenta la otra). Si r = 0 la correlación es
nula, y las variables no están asociadas, siendo imposible encontrar una relación
funcional entre ellas.
Si 0 < r < 1 la correlación es positiva, pero el grado de asociación

entre las dos variables será mayor a medida que r se acerca más a 1, y será
301
menor a medida que r se acerca más a cero. Si - 1 < r < 0 la correlación es
negativa, pero el grado de asociación entre las dos variables será mayor a
medida que r se acerca más a -1, y será menor a medida que r se acerca más a
cero.
El cuadrado del coeficiente de correlación r 2, denotado en general por

R2, se denomina coeficiente de determinación y representa el porcentaje de
variabilidad de la variable dependiente que es explicada por la regresión. Dada
su definición, R2 puede expresarse de forma general en función de la varianza de
Y y de la varianza residual como sigue:
En general, se trata de una medida de la bondad del ajuste por

regresión. Si R2 se aproxima a la unidad el ajuste es bueno y si R2 se acerca a
cero el ajuste es malo. Esta definición e interpretación de R2 es válida para
cualquier tipo de ajuste aunque no sea lineal.
En cuanto a relación entre correlación e independencia, se observa que al

definir el coeficiente de correlación lineal como r = Sxy /(Sx Sy), si las variables
son independientes estarán incorrelacionadas, ya que r=0 debido a que Sxy es
cero cuando hay independencia. Ahora bien, el recíproco no es necesariamente
cierto, ya que dos variables pueden estar incorrelacionadas linealmente y ser
dependientes, puesto que al ser r=0, lo único que podemos decir es que la
asociación lineal es nula, pero esas variables pueden depender según otro tipo
302
de asociación (parabólica, exponencial, etc.)
303
4.6 REGRESIÓN PARABÓLICA
Si suponemos el ajuste de la forma Y = a + b X + c X 2 + e (curva de

regresión parabólica de Y sobre X), el criterio de mínimos cuadrados considera
que la función que mejor se ajusta a los datos es la que minimiza la varianza del
error e, lo que es equivalente a minimizar:
Derivando respecto de los parámetros a, b y c e igualando a cero

tenemos:
Las soluciones a, b y c de este sistema de ecuaciones normales

proporcionan la ecuación de la parábola que mejor ajusta los datos en el sentido
304
de mínimos cuadrados.
305
4.7 REGRESIÓN POLINÓMICA
Si suponemos el ajuste de la forma Y = a + b X + c X 2 + d X 3 + … + e

(curva de regresión polinómica de Y sobre X), el criterio de mínimos cuadrados
considera que la función que mejor se ajusta a los datos es la que minimiza la
varianza del error e, lo que es equivalente a minimizar:
Derivando respecto de los parámetros a, b, c, d,… e igualando a

cero tenemos:
Las soluciones a, b, c, d,… de este sistema de ecuaciones
306
normales proporcionan la ecuación polinómica que mejor ajusta los datos en el
sentido de mínimos cuadrados.
307
4.8 REGRESIÓN HIPERBÓLICA, POTENCIAL Y
EXPONENCIAL
Si suponemos el ajuste de la forma Y = a + b / X + e (curva de regresión
hiperbólica de Y sobre X), podemos realizar la transformación Z=1/X, con lo que
la ecuación a ajustar resulta ser Y = a + b Z + e (curva de regresión lineal de Y
sobre X), regresión que ya sabemos resolver. Una vez realizado el ajuste se
deshace el cambio en la ecuación resultante.
Si suponemos el ajuste de la forma Y=aXb(curva de regresión potencial

de Y sobre X), podemos aplicar logaritmos, con lo que la ecuación a ajustar
resulta ser LnY=Lna+bLnX+e (curva de regresión lineal de Y sobre X),
regresión que ya sabemos resolver. Realizado el ajuste lineal se obtienen Lna y
b, es decir, ya conocemos a y b.
Si suponemos el ajuste de la forma Y=abX (curva de regresión

exponencial de Y sobre X), podemos aplicar logaritmos, con lo que la ecuación a
ajustar resulta ser LnY=Lna+XLnb+e (curva de regresión lineal de Y sobre X),
regresión que ya sabemos resolver. Una vez realizado el ajuste lineal se
obtienen Lna y Lb, es decir, ya conocemos a y b.
308
4.9 COEFICIENTE DE CORRELACIÓN POR RANGOS
Es muy típico considerar, sobre todo en variables cualitativas, el
coeficiente de correlación entre los rangos de los valores de las variables. Se
entiende por rango de un valor de una variable el lugar que ocupa dicho valor en
el conjunto total de valores de la variable, suponiendo una ordenación de menor a
mayor. Sean Ai y Bi las diferentes modalidades de dos variables cualitativas X e
Y. Sean xi e yi los rangos o números de orden que le corresponden a Ai y Bi,
supuestas ordenadas estas modalidades, con la escala que se determine, y de
menor a mayor. Se define el coeficiente de correlación por rangos de Spearman
para las variables cualitativas X e Y como el coeficiente de correlación lineal de
las variables cuyos valores son xi e yi.
Este valor se utiliza para medir el grado de asociación de las

variables cualitativas X e Y basándonos en la concordancia o discordancia de las
clasificaciones por rangos de sus modalidades. El coeficiente de correlación por
rangos también se utiliza para variables cuantitativas, con la aclaración de que el
grado de asociación obtenido no es el de los valores de las variables, sino el de
las clasificaciones por rangos de dichos valores. Este coeficiente viene dado por:
siendo di = xi - yi. Este coeficiente también se denomina coeficiente de

correlación ordinal, y por ser un coeficiente de correlación varía entre -1 y 1.
Cuando la concordancia entre los rangos es perfecta, entonces di = xi - yi = 0 y r
=1. Cuando la discordancia es perfecta, r = -1. Cuando no hay ni concordancia ni
discordancia, r = 0.
309
4.10 DISTRIBUCIONES DE MÁS DE DOS
DIMENSIONES: MATRIZ DE COVARIANZAS Y
MATRIZ DE CORRELACIONES
Cuando se tiene una variable tridimensional (X,Y,Z) o enedimensional
en general, también se puede realizar la descripción y análisis de las
distribuciones de frecuencias subyacentes. La complejidad crece cuando el
número de variables o factores que se analizan simultáneamente aumenta, pero
conocido el procedimiento para el caso tridimensional, su gener alización al n-
dimensional es inmediata. El análisis es igualmente válido cuando los caracteres
analizados son de naturaleza cuantitativa o cualitativa.
Al igual que en las distribuciones bidimensionales, la forma más usual de

representación de distribuciones tridimensionales son las tablas de correlación
(referentes a caracteres cuantitativos) o las tablas de contingencia (referentes a
caracteres cuantitativos). Como sucedía en el caso de la distribución bi-
dimensional, se pretende que las frecuencias, tanto conjuntas y marginales como
condicionadas, sean fácilmente localizables, y también sus respectivas
distribuciones.
Un elemento esencial en el estudio de variables enedimensionales es la

matriz de covarianzas, que resume las covarianzas para todos los posibles
pares de variables de entre n dadas X1, X2, ..., Xn. Se define como:
310
donde cada sij representa la covarianza entre Xi y Xj para todo i,j.
El signo de cada sij indica el sentido de la variación conjunta de las dos

variables Xi y Xj que estamos considerando. Si la covarianza es positiva, quiere
decir que ambas variables varían en el mismo sentido, mientras que si la
variación de las mismas tiene lugar en sentido contrario, la covarianza tomará
valores negativos.
Con la matriz de covarianzas analizamos simultáneamente el

sentido de la variación conjunta de todos los posibles pares de variables Xi y Xj
para todo i,j.
Otro elemento esencial en el estudio de variables enedimensionales es la

matriz de correlaciones, que resume las correlaciones para todos los posibles
pares de variables de entre n dadas X1, X2,...,Xn. Se define como:
311
donde cada rij es el coeficiente de correlación entre Xi y Xj para todo i,j.
Si dada una serie de variables X1, X2, ..., Xn, se trata de estudiar el grado
de dependencia simultánea entre todas ellas (o bien entre grupos de ellas),
puede utilizarse la matriz de correlaciones. Si en base a la intensidad con que
dependen se puede establecer una función que explique una variable mediante
todas las demás, que se supone son sus causas influyentes, estamos ante un
problema de regresión múltiple, que será estudiado en cap tulos posteriores.
Mediante el coeficiente de correlación lineal múltiple se estudia el grado

de asociación lineal simultánea entre todas las variables, mientras que mediante
los coeficientes de correlación simples r ij se mide el grado de asociación entre
las variables Xi y Xj sin tener en cuenta a las demás variables.
312
4.11 VARIABLES CUALITATIVAS: TABLAS DE
CONTINGENCIA Y DISTRIBUCIONES
MARGINALES Y CONDICIONADAS
En los apartados anteriores hemos trabajado con variables cuyos
valores son cuantificables numéricamente, es decir, hemos estudiado la
denominada estadística de variables, que incluye las diferentes técnicas para
analizar la información disponible acerca de un determinado fenómeno colectivo
cuyos sucesos vienen expresados en términos cuantitativos o numéricos (renta,
salarios, precios, etc.). Sin embargo, cuando esos sucesos vienen referidos a
cualidades o características no medibles del fenómeno estudiado (color,
nacionalidad, enfermedades, etc.), estaremos hablando de lo que definimos como
estadística de atributos, que se ocupa de las variables cualitativas.
En la estadística de atributos, bien establecemos un determinado

orden o rango entre las observaciones (cuando estas son susceptibles de
aparecer en una determinada escala ordinal), bien procedemos al simple
recuento de las distintas modalidades en que se divide el atributo o cualidad en la
serie de objetos o individuos que se estén analizando (cuando la información
aparezca en escala nominal). En este último caso, el carácter numérico surge al
efectuar el recuento, obteniéndose de este modo la distribución de frecuencias
del atributo o variable cualitativa correspondiente.
Pero, aunque se obtenga la distribución de frecuencias para la

variable cualitativa, no tendría sentido el empleo de promedios, tales como la
media aritmética o geométrica. Cuando las observaciones aparecen en una
escala nominal, sólo la moda puede utilizarse como medida resumen de posición
o centralización. Si las observaciones responden a una escala ordinal, puede
determinarse, además del valor modal, también la mediana.
Consideramos una población (o una muestra) compuesta por N individuos

sobre los que se pretende analizar simultáneamente dos atributos o factores
(variables cualitativas). Designemos como A1, ..., Ah y como B1, ..., Bk las h y k
modalidades del factor A y del factor B respectivamente, y por nij el número de
313
individuos que presentan a la vez las modalidades A¡ y Bj. La tabla estadística
que describe estos N individuos, denominada tabla de contingencia, será una
tabla de doble entrada como la siguiente:
Al igual que en el caso de las variables cuantitativas, en esta tabla ni. y n.j
nos proporcionan las frecuencias marginales; es decir, el número de veces que
aparece la modalidad i-ésima de A, con independencia de cuál sea la modalidad
de B, es ni., y el número de veces que aparece la modalidad j-ésima de B,
independientemente de cuál sea la modalidad de A con el que se da
314
conjuntamente B, es n.j. De esta forma tenemos que las distribuciones
marginales de A y B vienen dadas por (Ai; ni.) y (Bj; n.j).
A partir de la tabla de contingencia es posible formar un nuevo tipo de

distribuciones, que denominaremos distribuciones condicionadas debido a que
para su obtención es preciso definir previamente una condición. Esta condición
hará referencia a la fijación a priori de una modalidad (o modalidades) de una de
las variables cualitativas o factores, para posteriormente calcular la distribución
de la otra variable cualitativa sujeta a esa condición. Si fijamos la variable B en el
valor B2 (podríamos fijar más de un único valor), la distribución de la variable A
condicionada a que B tome el valor B2 vendrá dada por:
Donde A/B2 nos dará los valores que puede tomar la variable A cuando la
B toma el valor B2, y ni/2 nos da las frecuencias con que se presenta cada uno de
los valores (modalidades).
En general, dado que se pueden establecer condiciones sobre A y B

calculando posteriormente la distribución de A o B sujeta a esa condición, nos
encontramos distribuciones que, de manera genérica, tendrán la forma:
315
Para todas las distribuciones será posible trabajar con frecuencias
relativas en vez de con frecuencias absolutas.
316
4.12 INDEPENDENCIA Y ASOCIACIÓN DE VARIABLES
CUALITATIVAS: COEFICIENTES
En cuanto a la independencia de variables cualitativas, ya fue tratada al
hablar de la independencia de variables cuantitativas, aunque este concepto toma
aquí especial relevancia, pues en el caso de variables cualitativas la falta de
independencia suele denominarse asociación, y el análisis del grado de
asociación entre variables cualitativas tiene fuerte incidencia en la estadística de
atributos. Ya hemos visto que de forma análoga a lo que ocurre en el caso de dos
variables cuantitativas, la observación simultánea de dos atributos da lugar a una
tabla de doble entrada, en donde nij indica el número de objetos o individuos que
poseen conjuntamente las modalidades indicadas en la fila i-ésima y en la
columna j-ésima de la tabla de contingencia. También hemos visto que las
distribuciones que se refieren a uno solo de los dos atributos o variables
cualitativas se denominan igualmente distribuciones marginales.
Se dice que dos atributos A y B son independientes, cuando entre

ellos no existe ningún tipo de influencia mutua. Si dos atributos, A y B, son
independientes estadísticamente, la frecuencia relativa conjunta será igual al
producto de las frecuencias marginales respectivas. Para que A y B sean
independientes, habrá de cumplirse que nij = (ni.n.j)/N para todo i,j. En la
práctica basta con que la relación se verifique para (h-1)(k-1) valores de nij, ya
que entonces se verificará para todos los restantes.
Si designamos como nij la frecuencia conjunta correspondiente a

las modalidades Ai del atributo A y Bj de B, y por nij la frecuencia teórica que
correspondería en el caso de que ambos atributos fuesen independientes, esto
es, nij = (ni.n.j)/N, i=1,...,h, j=1,...,k, siendo N el total de elementos que se
estudian, definimos el coeficiente de contingencia (c 2)como sigue:
317
c2=
Este coeficiente también se denomina en la literatura estadística

cuadrado de la contingencia, y puede expresarse de forma más sencilla para el
cálculo como sigue:
c2=
El coeficiente de contingencia c 2 se utiliza para realizar un contraste

formal para la hipótesis nula de independencia de los atributos A y B cuya
información muestral se recoge en la tabla de contingencia dada. La hipótesis
alternativa es la existencia de asociación entre los atributos A y B. El contraste se
basa en que, bajo la hipótesis nula de independencia de los atributos A y B, el
estadístico c 2 se distribuye según una chi-cuadrado con (h-1)(k-1) grados de
libertad.
Cuando el tamaño muestral es pequeño (N menor que 150), se

utiliza el test exacto de Fisher para contrastar la independencia de atributos. En
este caso suele introducirse una corrección por continuidad en el estadístico de
la chi-cuadrado, tomando en su lugar para el contraste de independencia el
estadístico corregido de Yates, cuya expresión es la siguiente:
318
c2=
Como concepto contrario al de independencia tenemos el de

asociación. Se dice que A y B están asociados cuando aparecen juntos en
mayor número de casos del que cabría esperar si fuesen independientes. Según
que esa tendencia a coincidir o no coincidir esté más o menos marcada,
tendremos distintos grados de asociación. Para medirlos se han ideado diversos
procedimientos, denominados coeficientes de asociación, entre los que
destacaremos los siguientes:
Cuadrado medio de la contingencia: Se trata de una medida de asociación

sencilla, que no es más que el cociente entre el coeficiente de
contingencia c 2 y el tamaño de la muestra (N), con lo cual se elimina el
efecto del tamaño muestral. Este coeficiente alcanza el valor máximo (uno)
cuando entre los dos atributos existe asociación perfecta estricta. El valor
del coeficiente es cero si los atributos son independientes. Se trata de una
medida muy sensible a la presencia de totales marginales desequilibrados,
por lo cual, cuando esta circunstancia se presenta, los valores tomados por
esta medida pueden llevarnos a conclusiones falsas. Tanto el coeficiente de
contingencia como el cuadrado medio de la contingencia no pueden ser
nunca negativos. La expresión del cuadrado medio de la contingencia será :
F2 = c 2/N =
319
Coeficiente de contingencia C de K. Pearson: Se trata de un coeficiente
definido como C = (c 2/(N+c 2)) 1/2. El coeficiente C tiene un campo de
variación entre 0 y 1, de manera que su valor es cero cuando existe una
carencia absoluta de asociación entre los atributos, o sea, cuando los
atributos son independientes. Cuando los atributos muestran una total
asociación entre sí, el coeficiente se aproxima a uno, pero sólo se
alcanzaría el valor uno en el caso ideal de infinitas modalidades. Se puede
demostrar que en el caso de una tabla de contingencia cuadrada (h=k), el
límite superior de C es S=((h-1)/h) 1/2, lo que permitiría calcular un nuevo
valor para esta medida, llamado coeficiente ajustado, que vendría dado por
CA=C/S. Este coeficiente ajustado podría resultar de interés, puesto que
proporciona una idea del verdadero grado de asociación, al evaluar la
discrepancia entre el valor obtenido y el máximo que podría alcanzar para
la tabla dada. La expresión del coeficiente de contingencia C de K. Pearson
será:
El coeficiente T de Tschuprow: Se trata de un coeficiente que depende de

c 2, del número de filas y columnas de la tabla de contingencia y del total de
elementos N. El coeficiente varía entre 0 y 1, pero no alcanza el máximo
valor cuando la tabla analizada es rectangular, y sí cuando la tabla es
cuadrada. La expresión de este coeficiente es la siguiente:
320
También se cumple que:
El coeficiente V de Cramer: Se trata de un coeficiente que toma el valor 1

cuando existe asociación perfecta entre atributos, cualquiera que sea el
número de filas y columnas de la tabla de contingencia analizada. Cuando
la tabla es cuadrada se tiene V=T, y en caso contrario, se tiene V>T. Su
expresión es :
donde m = min(h-1,k-1)
Coeficientes Lambda de Goodman y Kruskall: Se trata de coeficientes que

ya no dependen de c 2. Suponiendo que se ha elegido Y como factor
explicado y X como explicativo, se evalúa la capacidad de X para predecir Y
mediante el coeficiente ly, cuya expresión es :
321
De la misma forma, suponiendo que se ha elegido X como factor
explicado e Y como explicativo, se evalúa la capacidad de Y para predecir X
mediante el coeficiente lx, cuya expresión es:
Tanto lx como ly varían entre 0 y 1, y están especialmente

pensadas como medidas asimétricas. Por ello, cuando no es posible determinar
de manera objetiva cuál de los dos factores es el explicativo o el explicado, se
debe optar por la utilización de la versión simétrica de estas medidas, cuyo valor
es:
322
El valor de l está comprendido entre lx y ly, y presenta como
inconveniente su gran sensibilidad a la presencia de totales marginales
desequilibrados. Si l se aproxima a uno existe asociación entre X e Y, y si se
aproxima a cero existirá independencia.
323
4.13 FUNCIONES DE EXCEL PARA CORRELACIÓN Y
REGRESIÓN SIMPLE
Excel dispone de varias funciones que permiten trabajar con
coeficientes de correlación, regresión y otros conceptos sobre variables
multidimensionales. Ya sabemos que para ver las funciones de la categoría
Estadísticas, se hace clic sobre el icono Insertar función, , de la barra de

fórmulas (o se elige la opción Insertar del grupo Biblioteca de funciones de la
ficha Fórmulas), con lo que se obtiene la Figura 4-1, en cuyo cuadro Seleccionar
una categoría se elige Estadísticas, presentándose todas las funciones de dicha
categoría elegida en el cuadro Seleccionar una función (Figura 4-2).
Si en el cuadro Seleccionar una función hacemos clic con el ratón

sobre una función, por ejemplo la función COEF.DE.CORREL, se obtiene la
paleta de la función con su sintaxis (Figura 4-3). Una vez completados los
argumentos (variables X e Y de la Figura 4-4), se obtiene el resultado en la parte
inferior de la paleta. Al pulsar Aceptar, la fórmula y su resultado se insertan en la
celda activa de la hoja de cálculo.
324
325
Figura 4-1 Figura 4-2
326
327
A continuación, se presenta una relación de funciones de Excel
para correlación, regresión y variables multidimensionales, acompañada de un
ejemplo referido a las variables X e Y de la hoja de cálculo de la Figura 4-4
cuyos valores ocupan los rangos A2 A11 y B2:B11.
Devuelve
COVAR(x;y)
COVAR(A2:A11;B2:B11)
Devuelve
328
COEF.DE.CORREL(x;y)
COEF.DE.CORREL(A2:A11;B2:B11)
Da el coe
COEFICIENTE.R2(y;x)
COEFICIENTE.R2(B2:B11;A2:A11)
Da la pen
PENDIENTE(y;x)
PENDIENTE(B2:B11;A2:A11)
INTERSECCION.EJE(y;x) Da la orde
INTERSECCION.EJE(B2:B11;A2:A11)
PRONOSTICO(z;y;x) Halla la p
PRONOSTICO(2;B2:B11;A2:A11) variable in
TENDENCIA(y;x;z;constante) Halla las
TENDENCIA(A2:A8;B2:B8;B9:B11) para los v
Constante
especifica
CRECIMIENTO(y;x;z;constante) Halla las
CRECIMIENTO(A2:A8;B2:B8;B9: B11;0) para los v
Constante
especifica
Devuelve
329
ERROR.TIPICO.XY(y;x) error típic
ERROR.TIPICO(B2:B11;A2:A11) para un va
Estas funciones pueden escribirse directamente sobre las celdas

de la hoja de cálculo de igual modo que cualquier otra fórmula. La Figura 4-5
presenta varias funciones de cálculo de medidas de correlación y regresión
situadas en las celdas de la hoja de cálculo y referidas a los valores de las
variables X e Y que ocupan las dos primeras columnas de la hoja. La Figura 4-6
presenta los resultados de las fórmulas.
Figura 4-5
330
Figura 4-6
A continuación, para algunas funciones se presenta su paleta,

omitiéndose dicha presentación para paletas de funciones muy similares en su
sintaxis (figuras 4-7 a 4-10).
331
Figura 4-7
332
Figura 4-8
333
Figura 4-9
334
Figura 4-10
Como ejemplo de ajuste por regresión simple con Excel

consideramos las variables R (renta personal en unidades monetarias) y H
(número de personas que se van de vacaciones al extranjero), cuyos valores
para un determinado país son los siguientes:
335
a) Justificar si puede aceptarse una dependencia estadística lineal entre R y H.
b) En caso positivo, hallar la recta de ajuste y representar la nube de puntos
ajustada.
Introducimos en la hoja de cálculo las variables R y H como

columnas de la misma y, a continuación, situamos las fórmulas como se indica
en la Figura 4-11. Los resultados se presentan en la Figura 4-12.
336
Figura 4-11
Figura 4-12
Se observa que el coeficiente de correlación entre R y H es

r=0,986, lo que asegura la fuerte dependencia lineal positiva entre las dos
variables.
337
Con vistas a realizar un ajuste entre ambas variables, lo lógico es
que el número de personas que se van de vacaciones al extranjero dependa de
la renta personal, con lo que hemos de hallar la función lineal f tal que H=f(R),
es decir, tenemos que hallar la recta de regresión de H sobre R, cuya pendiente
ha resultado ser b=0,057 y cuya ordenada en el origen ha resultado ser
a=-17,34. Por lo tanto, la recta de regresión de H sobre R es H=-17,34+0,057R,
que nos define la relación lineal entre el número de personas que se van de
vacaciones al extranjero y su renta personal.
Podemos representar la recta de regresión marcando el rango de

las dos variables y haciendo clic en la opción Dispersión sólo con marcadores
del grupo Gráficos de la ficha Insertar (Figura 4-13). Se obtiene la nube de
puntos de la regresión (Figura 4-14). A continuación, se elige la opción Agregar
línea de tendencia del menú emergente resultante al hacer clic con el botón
derecho del ratón sobre el grafo de la línea de ajuste (Figura 4-15),
seleccionando en la solapa Tipo tendencia lineal (Figura 4-16), mientras que en
la solapa Opciones se elige presentar la ecuación en el gráfico y el valor de R-
cuadrado (Figura 4-17). Al pulsar Aceptar, se obtiene la Figura 4-18, que
presenta la nube de puntos ajustada a la recta de regresión cuya ecuación
también aparece sobre el gráfico. El alto valor de R2 indica un buen ajuste.
338
Figura 4-13
339
Figura 4-14
340
Figura 4-15
341
342
343
Figura 4-18
Como ejemplo adicional consideramos las variables Q
(producción en millones de unidades monetarias) y E (exportaciones en
milllones de unidades monetarias), cuyos valores durante cuatro años para un
determinado sector económico son los siguientes:
344
a) Si se estima que las producciones en los ejercicios 1988, 1999 y 2000 van a
ser de 640, 690 y 720 millones, respectivamente, y que las condiciones del
mercado internacional no van a variar, ¿cuál será el volumen de exportaciones
previsible para esos años?
b) ¿En qué medida esta previsión puede ser o no aceptable?
c) ¿Cuáles serían las previsiones considerando una línea de ajuste

exponencial?
Lógicamente, el volumen de exportaciones dependerá de la

producción, con lo que hemos de hallar la función f tal que E=f(P), es decir, la
recta de regresión de E sobre P. Una vez calculada la ecuación de esta recta,
podría usarse para predecir el volumen de exportaciones relativo a una
producción de 640 millones. No obstante, Excel dispone de funciones para
predicción que no necesitan del cálculo previo de la ecuación de regresión, y
que son las que utilizaremos aquí.
Comenzamos introduciendo en la hoja de cálculo las variables E y

P como columnas de la misma. A continuación, situamos las fórmulas de los
coeficientes de correlación, determinación y error típico como se indica en la
345
Figura 4-19. Los resultados se presentan en la Figura 4-20, e indican que el
ajuste por regresión ha sido bueno, al ser el coeficiente de correlación muy
próximo a la unidad (0,9493) y el coeficiente de determinación superior al 90%.

Para realizar la predicción lineal mínimo cuadrática múltiple (sin
constante en el modelo), se ha utilizado la función matricial TENDENCIA
(Figura 4-21) y se han obtenido previsiones de exportaciones de 125,6, 136,5 y
141,3 millones para los años 1998, 1999 y 2000, respectivamente. Las
346
predicciones según la línea de ajuste exponencial Q = bEx se han calculado
mediante la función matricial CREC M ENTO (Figura 4-22), y se han obtenido
previsiones de exportaciones de 576,5, 947,3 y 1 276,1 millones para los años
1998, 1999 y 2000, respectivamente (lógicamente mayores que para el caso de
la predicción lineal). Los valores aceptables de los coeficientes de correlación y
regresión y el valor bajo del error típico indican que las predicciones realizadas
pueden ser bastante fiables.
347
348
4.14 EXCEL Y LOS AJUSTES POR REGRESIÓN
POLINÓMICA, LOGARÍTMICA,
EXPONENCIAL Y POTENCIAL
Consideramos la serie de inversiones realizadas por una empresa
en 10 períodos consecutivos que se presenta en la Figura 4-23. Con la finalidad
de predecir correctamente la inversión empresaril futura, se trata de ajustar la
serie a una línea de tendencia cúbica, exponencial, potencial, logarítmica y de
media móvil de orden 2 para decidir finalmente cuál de los modelos ofrece
mejores prediciones.
Se comienza seleccionando los datos de la serie y eligiendo la opción

Línea en el grupo Gráficos de la pestaña Insertar (Figura 4-23). Se obtiene el
gráfico de líneas de la serie de la Figura 4-24. Se hace clic con el botón derecho
del ratón sobre la línea y en el menú emergente resultante se elige Agregar línea
de tendencia (Figura 4-25). Eligiendo las opciones indicadas en la Figuras 4-25,
4-27, 4-29, 4-31 y 4-33, se obtienen las líneas de tendencia e las Figuras 4-26, 4-
28, 4-30, 4-32 y 4-34, Se observa que la mejor linea de tendenia es la cúbica
porque tiene el mayor valor de R2.
349
Figura 4-23
350
Figura 4-24
351
352
353
354
355
356
357
358
359
360
361
4.15 EXCEL Y LA CORRELACIÓN MÚLTIPLE CON
HERRAMIENTAS DE ANÁLISIS
Excel proporciona herramientas de análisis para medir la relación
entre dos conjuntos de datos. El cálculo de la correlación devuelve la covarianza
de dos conjuntos de datos dividida por el producto de sus desviaciones estándar.
Se puede utilizar la herramienta Coeficiente de correlación para

determinar si dos conjuntos de datos varían conjuntamente; es decir, si los
valores altos de un conjunto están asociados con los valores altos del otro
(correlación positiva), si los valores bajos de un conjunto están asociados con
los valores bajos del otro (correlación negativa), o si los valores de ambos
conjuntos no están relacionados (correlación con tendencia a cero). Cuando se
consideran más de dos variables, esta herramienta devuelve la matriz de
correlaciones entre ellas.
Asimismo, Excel también permite hallar el promedio del producto

de desviaciones de variables respecto de sus medias (covarianza) mediante la
herramienta Covarianza. La covarianza es una medida de la relación entre dos
rangos de datos, y también se puede utilizar para determinar si dos rangos de
datos varían conjuntamente. Cuando se consideran más de dos variables, esta
herramienta devuelve la matriz de covarianzas entre ellas.
362
4.15.1 Correlación y m atriz de correlaciones
La opción Análisis de datos del grupo Análisis de la ficha Datos
(Figura 4-35) nos lleva al cuadro de diálogo Análisis de datos de la Figura 4-36.
Si en la lista Funciones para análisis elegimos Coeficiente de correlación, se
obtendrá el cuadro de diálogo de la Figura 4-37, que permite calcular la matriz
de correlaciones de las variables especificadas en el campo Rango de entrada.
363
364
Figura 4-37
En el campo Rango de entrada introduzca la referencia de celda del

rango de datos que desee analizar (rango que contiene las variables cuya
correlación o matriz de correlaciones se va a calcular). La referencia deberá
contener dos o más rangos adyacentes organizados en columnas o filas. En el
campo Agrupado por haga clic en el botón Filas o Columnas para indicar si los
datos del rango de entrada están organizados en filas o en columnas. Si la
primera fila del rango de entrada contiene rótulos, active la casilla de
verificación Rótulos en la primera fila. Si los rótulos están en la primera columna
del rango de entrada, active la casilla de verificación Rótulos en la primera
columna. Esta casilla de verificación estará desactivada si el rango de entrada
carece de rótulos. Microsoft Excel generará los rótulos de datos
365
correspondientes para la tabla de resultados.
En cuanto a las Opciones de salida, en el campo Rango de salida

introduzca la referencia correspondiente a la celda superior izquierda de la
tabla de resultados (matriz de correlaciones). Microsoft Excel sólo completará
media tabla, ya que la correlación entre dos rangos de datos es independiente
del orden en que se procesen dichos rangos. Las celdas de la tabla de
resultados con coordenadas de filas y de columnas iguales contendrán el valor
1, ya que cada conjunto de datos está perfectamente correlacionado consigo
mismo. Haga clic en la opción En una hoja nueva para insertar una hoja nueva
en el libro actual y pegar los resultados comenzando por la celda A1 de la nueva
hoja de cálculo.
Para darle un nombre a la nueva hoja de cálculo, escríbalo en el
cuadro. Haga clic en la opción En un libro nuevo para crear un nuevo libro y
pegar los resultados en una hoja nueva del libro creado. En la Figura 4-38, se
muestra la matriz de correlaciones de las variables X, Y y Z para las opciones
de entrada en el cuadro Coeficiente de correlación de la Figura 4-37. Se
observa la escasa relación existente entre las variables, ya que todos los
coeficientes de correlación son muy pequeños.
Figura 4-38
366
4.15.2 Covarianza y m atriz de covarianzas
La opción Análisis de datos del grupo Análisis de la ficha Datos
(Figura 4-35) nos lleva al cuadro de diálogo Análisis de datos de la Figura 4-39.
Si en la lista Funciones para análisis elegimos Covarianza, se obtendrá el
cuadro de diálogo de la Figura 4-40, que permite calcular la matriz de
correlaciones de las variables del campo Rango de entrada.
Figura
4-39
367
En el cuadro Rango de entrada introduzca la referencia de celda del

rango de datos a analizar (rango que contiene las variables cuya covarianza o
matriz de covarianzas se quiere calcular). La referencia deberá contener dos o
más rangos adyacentes organizados en columnas o filas. En el campo Agrupado
368
por haga clic en el botón Filas o Columnas para indicar si los datos del rango de
entrada están organizados en filas o en columnas.
Si la primera fila del rango de entrada contiene rótulos, active la
casilla de verificación Rótulos en la primera fila. Si los rótulos están en la
primera columna del rango de entrada, active la casilla de verificación Rótulos
en la primera columna. Esta casilla de verificación estará desactivada si el rango
de entrada carece de rótulos. Excel generará los rótulos de datos
correspondientes para la tabla de resultados.
En cuanto a las Opciones de salida, en el campo Rango de salida

introduzca la referencia correspondiente a la celda superior izquierda de la
tabla de resultados (matriz de covarianzas). Microsoft Excel sólo completará
media tabla, ya que la covarianza entre dos rangos de datos es independiente
del orden en que se procesen dichos rangos. Las celdas de la tabla de
resultados con coordenadas de filas y de columnas iguales contendrán el valor
de la varianzas de las variables. Haga clic en la opción En una hoja nueva para
insertar una hoja nueva en el libro actual y pegar los resultados, comenzando
por la celda A1 de la nueva hoja de cálculo. Para darle un nombre a la nueva hoja
de cálculo, escr balo en el cuadro. Haga clic en la opción En un libro nuevo para
crear un nuevo libro y pegar los resultados en una hoja nueva del libro creado.
En la Figura 4-41 se muestra la matriz de covarianzas de las variables X, Y y Z
para las opciones de entrada en el cuadro Covarianza de la Figura 4-40.
369
4.16 EXCEL Y LAS TABLAS DE CONTINGENCIA
MEDIANTE TABLAS DINÁMICAS
En Excel es posible construir tablas de contingencia a través de
las tablas dinámicas. Una tabla dinámica o informe de tabla dinámica es una
tabla interactiva que se puede utilizar para presentar tablas cruzadas y
distribuciones de frecuencias que resumen rápidamente grandes volúmenes de
datos. Podrán elegirse las variables de sus filas y columnas a medida para ver
diferentes resúmenes de los datos de origen. Las variables a tabular serán
dinámicas, es decir, a partir de un conjunto extenso de información previamente
almacenada de forma bruta en múltiples variables, se cruzarán entre sí las
variables que se desee, filtrando los datos y mostrando los detalles de las áreas
que consideremos de interés.
La información de las tablas dinámicas puede graficarse, dando

lugar a los gráficos dinámicos o informes de gráfico dinámico, que se
corresponden con los histogramas de frecuencias.
Como veremos a continuación con ejemplos, en Excel es posible

construir tablas de contingencia para dos variables cualitativas, para una
variable cuantitativa y otra cualitativa, y para tres o más variables.
370
4.16.1 Excel y las tablas de contingencia para dos
variables cualitativas
La tabla siguiente muestra los datos relativos a los resultados de
una encuesta de opinión (favorable o desfavorable) sobre un determinado
acontecimiento, realizada a un conjunto de hombres y mujeres pertenecientes a
una determinada clase social y con una edad conocida.
371
372
Se trata de crear una tabla de contingencia que cruce las
variables cualitativas sexo y opinión. Posteriormente, se especificará la tabla de
contingencia anterior según los valores de la variable clase.
Para crear una tabla de contingencia, utilice el Asistente para

tablas y gráficos dinámicos como guía para buscar y especificar los datos de
origen que desea analizar y para crear el diseño de la tabla. Los pasos para
crear una tabla de contingencia comienzan por abrir el libro en que se desee
crear la tabla y hacer clic en una celda de la hoja que contiene los datos.
A continuación, haga clic en Tablas dinámicas en el grupo Tablas

de la ficha Insertar (Figura 4-42). En el Asistente para tablas y gráficos
dinámicos (Figura 4-43) especifique la zona de la hoja que contiene los datos a
analizar y la esquina superior izquierda de la hoja que contendrá el informe de
tabla de dinámica que se va a generar. Se obtiene la Figura 4-44.
373
Figura 4-42 Figura
4-43
374
Figura 4-44
Para diseñar el informe, se arrastran los campos cuyos valores

van a situarse en filas en la tabla, desde la barra de herramientas Tabla dinámica
a la zona Coloque campos de fila aquí (o a la zona Etiquetas de fila de la parte
inferior derecha encabezada por Arrastrar campos entre las áreas siguientes), y
se arrastran los campos cuyos valores van a situarse en columnas a la zona
Coloque campos de columna aquí (o a la zona Etiquetas de columna). Al
arrastrar el campo por cuyos valores se tabula a la zona Coloque los campos de
375
valor aquí (o a la zona Valores), se obtiene la tabla dinámica.
Para diseñar nuestro informe de tabla dinámica, se arrastran los

campos cuyos valores van a situarse en filas en la tabla, desde la parte superior
derecha de la figura (encabezada por Lista de campos de tabla dinámica) a la
zona Etiquetas de fila (en nuestro caso Sexo). También se arrastran los campos
cuyos valores van a situarse en columnas a la zona Etiquetas de columna (en
nuestro caso OPINION). Por último, se arrastra el campo por cuyos valores se
tabula (en nuestro caso OPINION) a la zona Valores. Se obtiene la tabla
dinámica de la Figura 4-45.
La Lista de campos de tabla dinámica de la Figura 4-45 permite
agregar campos a las filas y a las columnas de la tabla de contingencia para
obtener tablas múltiples. Por ejemplo, si arrastramos a la zona de columnas el
campo Clase, se obtiene la tabla de contingencia triple de la Figura 4-46.
376
377
Figura 4-45
378
Figura 4-46
379
4.16.2 Excel y las tablas de contingencia para dos
variables, una cualitativa y otra
cuantitativa
Con los datos del ejemplo anterior, se trata ahora de obtener la
tabla de contingencia que cruza la variable cualitativa OPINION con la variable
cuantitativa EDAD. Ahora se trata de cruzar la OPINION con la EDAD para
tabular el número de personas que con las distintas edades tienen las diferentes
opiniones.
Para crear este tipo de tabla de contingencia, se utiliza el

Asistente para tablas y gráficos dinámicos igual que en el apartado anterior, con
la única diferencia de que en la pantalla de diseño se arrastra Edad a Etiquetas
de fila, Opinion a Etiquetas de columna y Edad a Valores. Se obtiene la tabla
dinámica de la Figura 4-47.
380
381
Figura 4-47
Como la variable que resume los datos es ahora una variable

cuantitativa (Edad), la función de resumen es por defecto la función Suma. No
obstante, puede utilizarse cualquier otra. Si se hace clic en la flecha situada a la
derecha de Suma de Edad, se obtendrá el menú emergente de la Figura 4-48 en
el que se elige la opción Configuración de campo de valor que nos permite
elegir cualquier función para resumir los datos (en nuestro caso la función
Cuenta) de las mostradas en la Figura 4-49. Se obtiene la nueva tabla de
contingencia pedida, que se muestra en la Figura 4-50.
382
383
384
Figura 4-50
385
4.16.3 Excel y las tablas de contingencia para m ás
de dos variables
Con los datos del ejemplo anterior realizaremos una tabla de
contingencia tridimensional que cruce la variable EDAD (filas) con las variables
OPINIÓN y SEXO (columnas). Posteriormente, realizar una tabla de
contingencia que cruce la EDAD con OPINION y SEXO para la clase media.
El camino para realizar tablas de contingencia de tres o más

variables es el mismo que en los casos anteriores, teniendo presente que a la
hora de diseñar la tabla hay que situar en F LA y COLUMNA las variables
adecuadas.
Para realizar una tabla de contingencia tridimensional que cruza
la variable EDAD (filas) con las variables OPINION y SEXO (columnas), se
realiza el diseño de la tabla tal y como se indica en la Figura 4-51.
386
Figura 4-51
Para aumentar las dimensiones de una tabla de contingencia,

puede utilizarse también la zona de arrastre de campos Filtro de informe. Por
ejemplo, podemos realizar la tabla tridimensional del ejemplo anterior para cada
valor de la variable CLASE (con lo cual ya estamos introduciendo una cuarta
dimensión). Para ello, llevamos el campo CLASE a la zona Filtro de informes, y
situamos los demás campos como en el párrafo anterior. Se obtiene la tabla
dinámica de la Figura 4-52, que presta la nueva dimensión CLASE en su parte
superior. Por defecto, la tabla se realiza considerando todas las clases, pero
387
pueden obtenerse tablas que crucen EDAD con OP NION y SEXO para cada
valor de CLASE haciendo clic en el triángulo situado en la parte inferior del
campo Todas (Figura 4-53). Por ejemplo, en la Figura 4-54 se cruza EDAD con
OPINION y SEXO para la clase media.
Figura 4-52
388
Figura 4-53
389
Figura 4-54
390
4.17 EXCEL Y LOS CONTRASTES DE ASOCIACIÓN E
INDEPENDENCIA
En Excel es muy sencillo calcular el cuadrado de la contingencia
c2 a partir de las frecuencias absolutas Oj de las propias celdas de la tabla de
contingencia y de las frecuencias esperadas Ej = (Total Columna)(Total
Fila)/(Total General). La expresión del estadístico c2 para contrastar la
independencia es:
A partir del valor de este estadístico, podemos contrastar la

independencia de dos variables aleatorias cualitativas a un nivel alfa calculando
el valor cr tico correspondiente a ese nivel alfa según una chi-cuadrado con (r-
1)(s-1) grados de libertad, siendo r y s el número de filas y columnas,
respectivamente, de la tabla de contingencia.
Una vez calculadas las frecuencias esperadas Ej, Excel dispone
de la función PRUEBA.CHI(rango_tabla; rango_Ej), que devuelve el valor del
estadístico c2 (cuadrado de la contingencia).
Excel también dispone de la función PRUEBA.CHI.INV(alfa;

grados), que devuelve el valor cr tico de una chi-cuadrado correspondiente al
nivel alfa y a los grados de libertad especificados.
Si el valor del estadístico es mayor que el valor cr tico, se

rechazará la hipótesis de independencia entre las dos variables cualitativas. En
caso contrario, se acepta la hipótesis de independencia.
A partir del valor del cuadrado de la contingencia pueden

calcularse el resto de las medidas de asociación entre las variables cualitativas
391
estudiadas en este cap tulo.
Como ejemplo, con los datos anteriores estudiaremos la

independencia entre las variables cualitativas OPINION y SEXO. Además,
cuantificaremos el grado de asociación entre las dos variables citadas a partir
de los coeficientes de asociación estudiados en este cap tulo.
Comenzamos creando la tabla de contingencia 2*2 a partir del

diseño de la Figura 4-55. A continuación, construimos la tabla de frecuencias
esperadas (Figura 4-57) mediante las fórmulas de la Figura 4-56.
392
Figura 4-55
393
Figura 4-56
Figura 4-57
394
A partir de los valores de la tabla de contingencia y de los valores
de la tabla de frecuencias esperadas, podemos calcular el valor del cuadrado de
la contingencia y el valor crítico al 95%. Para calcular c2, hacemos clic en ,

y en la categoría Estadísticas seleccionamos la función PRUEBA.CHI (Figura
4-58), rellenando su paleta como se indica en la Figura 4-59 (previamente nos
hemos situado en la celda de la hoja en la que se insertará el resultado de la
función), para hallar el p-valor (0,456). Para hallar el valor c2 (0,554), usamos la
paleta de la función PRUEBA.CHI. NV de la Figura 4-60. De igual forma, se
calcula el valor crítico del 95% (3,841) con la paleta de la función
PRUEBA.CHI.INV de la Figura 4-61. En la Figura 4-62 se observa que el valor
del estadístico c2 es menor que el valor cr tico (3,84), con lo que se acepta la
hipótesis de independencia (además, el p-valor es mayor que 0,05). La Figura 4-
63 muestra las fórmulas.
395
396
397
Figura 4-62
398
Figura 4-63
Para calcular el resto de los coeficientes de asociación

estudiados en este cap tulo, se utilizan las fórmulas de la Figura 4-64, que
ofrecen los resultados de la Figura 4-65.
399
Figura 4-64
400
Figura 4-65
Vemos que los coeficientes de asociación están muy próximos a

cero, lo que indica la debilidad de la asociación entre las dos variables SEXO y
OPINION.
El resultado anterior concuerda con la aceptación de la hipótesis

de independencia entre ellas, ya corroborada anteriormente.
Los coeficientes de asociación se han calculado mediante las

siguientes expresiones:
El valor del cuadrado medio de la contingencia será:
401
F2 = c 2/N = =0,030789
El valor del coeficiente de contingencia C de K. Pearson será:
=0,172827
El valor del coeficiente T de Tschuprow se calcula así:
=0,175468
El coeficiente V de Cramer se calcula mediante la expresión:
402
= 0,175468 donde m = min(h-1,k-1)=1
El coeficiente Lambda de Goodman y Kruskall ly se calcula de la

forma siguiente:
=-0,44444
EJERCICIOS RESUELTOS
Ejercicio 1. Se han estudiado los pesos en kg y las tallas en cm de 70 individuos
obteniéndose los datos de la tabla siguiente:
403
1. Hallar el peso medio y la talla media así como el error cometido al
resumir pesos y tallas por sus valores medios ¿Qué media es mejor?
2. Hallar la distribución según las tallas de los individuos que pesan 54 kilos
y la distribución según los pesos de los individuos que miden entre 161
cm y 167 cm. Hallar media y varianza de las dos distribuciones
condicionadas.
Si llamamos X a la variable pesos e Y a la variable tallas, los datos

pueden arreglarse en una tabla de doble entrada como sigue para realizar los
cálculos:
X/Y 160 162 164 166
48 3 2 2 1
51 2 3 4 2
54 1 3 6 8
57 0 0 1 2
404
60 0 0 0 2
n.j 6 8 13 15
n.jyj 960 1296 2132 2490
n.jyj2 153600 209952 349648 413340
La tabla anterior puede obtenerse a través de Excel mediante los cálculos

que se especifican en la Figura 4-66.
Figura 4-66
Para hallar el peso medio y la talla media se calcularán las medias

de las distribuciones marginales de X e Y respectivamente. Asimismo, para
cuantificar el error cometido al resumir pesos y tallas por sus valores medios se
cuantificarán los coeficientes de variación de Pearson para ambas marginales.
Las distribuciones marginales de X e Y son las siguientes:
X ni. Y
405
48 8 160
51 14 162
54 24 164
57 14 166
60 10 168
170
Tenemos lo siguiente:
406
Se observa que el menor coeficiente de variación es el relativo a la talla
media, que resulta ser así un promedio más adecuado.
La distribución según las tallas de los individuos que pesan 54

kilos es la distribución de Y condicionada a X=54, y la distribución según los
pesos de los individuos que miden entre 161 cm y 167 cm es la distribución de X
condicionada a Y=162,164,166.
X/Y=162,164,166 ni/j=2,3,4 Y/X=54
48 5 160
51 9 162
54 17 164
57 3 166
60 2 168
170
La tabla Excel que genera estas distribuciones se presenta en la Figura

4-67.
407
Figura 4-67
La media y la varianza de cada una de estas dos distribuciones

condicionadas se calcula de la misma forma que para cualquier distribución de
frecuencias.
408
Ejercicio 2. Se considera la variable bidimensional (X,Y) cuya distribución de
frecuencias se presenta en la tabla siguiente:
1. Estudiar si las dos variables son independientes utilizando la distribución

conjunta y las marginales.
2. Estudiar si las dos variables son independientes utilizando las
distribuciones marginales y las condicionadas.
3. Hallar la covarianza de X e Y
409
Para estudiar la independencia de las dos variables utilizando la
distribución conjunta y las marginales tenemos que comprobar que fij = fi.f.j "i,j.
La primera tarea será construir una tabla con la distribución conjunta (fij
= nij/N) y con las marginales (fi.= ni./N y f.j = n.j/N) como se indica en la
Figura 4-68.
X/Y 15 24
12 3 4
15 6 8
19 9 12
n.j 18 24
fij
0,03571429 0,04761905
0,07142857 0,0952381
0,10714286 0,14285714
f.j 0,21428571 0,28571429
Figura 4-68
Ya estamos en condiciones de comprobar que fij = fi.f.j "i,j. Para

ello ordenamos los cálculos fi.f.j como se indica a continuación:
0,21428*0,16666 0,28571*0,16666
0,21428*0,33333 0,28571*0,33333
0,21428*0,5 0,28571*0,5
410
Observamos que, una vez realizados estos cálculos, se obtiene la
tabla de la distribución conjunta fij.
fij 0,035714286 0,04761905
0,071428571 0,0952381
0,107142857 0,14285714
0,214285714 0,28571429
Las fórmulas de Excel de la Figura 4-69 nos llevan a las

distribuciones marginales y conjuntas de la Figura 4-70.
411
412
Figura 4-69
Figura 4-70
Para estudiar la independencia de las dos variables utilizando las

distribuciones marginales y las condicionadas tenemos que comprobar que fj/i =
f.j "i,j.
fi/j=1 fi/j=2 fi/j=3
fj/i=1 3/14 4/14 2/14

fj/i=2 6/28 8/28 4/28
413
fj/i=3 9/42 12/42 6/42
f.j 18/84 24/84 12/84
Los cálculos se arreglarían en Excel según las fórmulas de la Figura 4-

71.
Figura 4-71
Observamos que se cumple fj/i = f.j "i,j ya que:
3/14 = 6/28 = 9/42 = 18/84

4/14 = 8/28 = 12/42 = 24/84
2/14 = 4/28 = 6/42 =12/84
5/14=10/28=15/42=30/84
Para estudiar la independencia de las dos variables utilizando las

distribuciones marginales y las condicionadas también podríamos comprobar
que fi/j = fi. "i,j.
fi/j=1 fi/j=2 fi/j=3
3/18 4/24 2/12
414
6/18 8/24 4/12
9/18 12/24 6/12

n.j 18 24 12

72.
Figura 4-72
Observamos que se cumple fi/j = fi. "i,j ya que:
3/18 = 4/24 = 2/12 = 5/30 = 14/84

6/18 = 8/24 = 4/12 = 10/30 = 28/84
9/18 = 12/24 = 6/12 = 15/30 = 42/84
La covarianza entre X e Y viene dada por la expresión:
Luego para su cálculo necesitamos las medias de las dos
415
marginales X e Y, que se calcularán con los datos de la tabla de la Figura 4-73
X/Y 15 24
12 3 4
15 6 8
19 9 12
n.j 18 24
Figura 4-73

74.
Figura 4-74
416
La covarianza, que será cero debido a la independencia, puede calcularse
como sigue:
La covarianza también puede calcularse de la forma siguiente:
Para realizar el cálculo de

se utiliza la tabla siguiente:
X/Y 15 24 27 30 ni. xiy1n1j xiz2n2j
417
12 3 4 2 5 14 540 1
15 6 8 4 10 28 1350 28
19 9 12 6 15 42 2565 54
n.j 18 24 12 30 84 4455 95

75.
Figura 4-75
Ejercicio 3. En una empresa se toma una muestra de 100 trabajadores con la

finalidad de estudiar si hay relación entre su edad X y los días que están de baja
en el año Y. Se obtienen los siguientes resultados:
418
1. ¿Es simétrica la distribución del número de días de baja de los
trabadores?
2. ¿Cuál es la edad más frecuente de los trabajadores que piden la baja?
3. Ajustar mediante un modelo exponencial los días de baja en función de la
edad.
4. Realizar el mismo ajuste considerando un modelo lineal.
5. ¿Cuál de los ajustes es el mejor?
Para realizar los cálculos necesarios elaboramos la tabla siguiente:
X/Y 10 30 50 ni.
24 28 2 0
35 26 15 4
45 6 14 5
n.j 60 31 9
yjn.j 600 930 450
yj2n.j 6000 27900 22500
419
yj3n.j 60000 837000 1125000
N.j 60 91 100

76.
Figura 4-76
Realizamos los siguientes cálculos:
420
Para estudiar la asimetría del número de días de baja de los trabajadores
calculamos el coeficiente de asimetría de Fisher de la variable marginal Y como
sigue:
421
Se observa que hay una ligera asimetría hacia la derecha, pero
muy pequeña. Los días de baja se distribuyen casi simétricamente a lo largo del
año.
Para calcular la edad más frecuente de los trabajadores que piden

la baja hallaremos la moda de la variable marginal X. Observamos que el
intervalo modal es [30,40] ya que es el que tiene mayor frecuencia ni. El cálculo
de la moda se realiza como sigue:
años
Ahora intentaremos ajustar los días de baja en función de la edad

de los trabajadores mediante un modelo de regresión exponencial de ecuación y
= abx.
La regresión exponencial es equivalente a la regresión lineal con

variable dependiente Log(y) y con variable independiente x. Los cálculos para
esta regresión se presentan en la tabla siguiente:
X/Z 1 1,4771 1,699 ni. x
422
24 28 2 0 30
35 26 15 4 45
45 6 14 5 25
n.j 60 31 9 100
z jn. j 60 45,790 15,291 121,0811
zj2n.j 60 67,6365 25,97940 153,6159

77.
Figura 4-77
El parámetro Log(b) se estima por mínimos cuadrados mediante:
423
El parámetro Log(a) se estima por mínimos cuadrados mediante:
Los parámetros finales buscados a y b del modelo exponencial se

estimarán mediante:
El modelo estimado tiene la ecuación y = 3,99(1,04)x.
Para medir la calidad de este ajuste podemos utilizar el coeficiente

de determinación R2, que se calcula como:
424
El ajuste no es de calidad porque R2 está más cerca de cero que
de la unidad.
El ajuste por regresión lineal es de la forma y = a + bx siendo:
El coeficiente de determinación será en este caso el cuadrado del

coeficiente de correlación, que se calcula como sigue:
425
Para realizar el cálculo de
se utiliza la tabla siguiente:
X/Y 10 30 50 ni. xiy1n1j xiy2n2
24 28 2 0 30 6720
35 26 15 4 45 9100
45 6 14 5 25 2700
n.j 60 31 9 100 18520

78.
426
Figura 4-78
El ajuste lineal tampoco es de calidad porque R2 está más cerca

de cero que de la unidad. Además, el ajuste exponencial es mejor que el ajuste
lineal porque su coeficiente de determinación es mayor (0,26 > 0,2536).
Ejercicio 4. Consideramos la siguiente variable aleatoria bidimensional:
1. Calcular medias y varianzas marginales de X e Y.

2. Relacionar la media marginal de Y y la media de las medias
condicionadas de Y a X.
3. Calcular la media y varianza condicionada de la distribución de X
condicionada a los valores 5 y 9 de Y.
4. Calcular la recta de regresión de X sobre Y.
Comenzaremos resumiendo los datos de muestra variable

bidimensional en la tabla de doble entrada que se presenta a continuación:
427
Para realizar los cálculos necesarios elaboramos la tabla
siguiente:
X/Y 2 5 9 10
3 0 2 1 2
4 2 1 0 3
6 3 0 4 2
n.j 5 3 5 7
yjn.j 10 15 45 70
yj2n.j 20 75 405 700

79.
428
Figura 4-79
Las medias y varianzas marginales se calculan como se indica a

continuación:
429
Las distribuciones condicionadas de Y a todos los valores de X, así como
los cálculos requeridos se presentan a continuación:
Y/X=3 n.j yjn.j Y/X=4 n.j yjn.j Y/X=6 n.j
2 0 0 2 2 4 2 3
5 2 10 5 1 5 5 0
9 1 9 9 0 0 9 4
10 2 20 10 3 30 10 2
5 39 6 39 9
430
Se observa que se cumple:
luego la media marginal de Y es igual a la media de las medias condicionadas

de Y a X.
La media y la varianza de X condicionadas a los valores 5 y 9 de Y

se calcula de la misma forma que para cualquier distribución de frecuencias.
X/Y=5,9 ni. Xini. Xi2ni.
3 3 9 27
4 1 4 16
6 4 24 144
8 37 187
431
La recta de regresión de X sobre Y tiene como ecuación
La tabla siguiente permite el cálculo de .
X/Y 2 5 9 10 ni. xiy1n1j
3 0 2 1 2 5 0
4 2 1 0 3 6 16
6 3 0 4 2 9 36
n.j 5 3 5 7 20 52

80.
Figura 4-80
432
La recta de regresión de X sobre Y tiene como ecuación
Para medir la calidad de este ajuste suele calcularse el coeficiente

de correlación, o su cuadrado, el coeficiente de determinación.
El coeficiente de determinación tan bajo indica que el ajuste no es de

calidad, y el coeficiente de correlación tan bajo indica que las variables X e Y
están muy poco relacionadas.
Ejercicio 5. Se han obtenido datos sobre el consumo (C) y la renta mensual

(RM) de 100 familias, expresadas en 104 unidades monetarias, obteniéndose la
siguiente tabla bidimensional de frecuencias:
C 15 25 35 45
RM
30 10 15
40 5 20 25
50 15 5 5
433
a) Ajustar los datos a una relación lineal adecuada entre el consumo y la renta.
b) Medir el grado de representatividad de la relación lineal anterior.
c) Calcular el consumo esperado para una renta de 60*104 unidades monetarias.
d) Obtener las distribuciones marginales de las variables C y RM y sus medias,
varianzas, desviaciones típicas y coeficientes de asimetría y curtosis.
En este ejercicio es esencial la forma en que se ofrecen los datos

para su tratamiento en Excel. Observamos que los valores de las variables vienen
dados en forma de tabla bidimensional de frecuencias absolutas. La primera
tarea será introducir adecuadamente los valores de las dos variables como dos
columnas de la hoja de cálculo Excel. El par de valores RM=30 y C=15 se
introduce 10 veces, el par de valores RM=40 C=15 se introduce 5 veces, y así
sucesivamente; se introduce cada par de valores tantas veces como indique su
frecuencia absoluta.
Es lógico que el consumo de las familias dependa de su renta mensual,

con lo que hemos de hallar la función f tal que C=f(RM), es decir, la recta de
regresión de C sobre RM. Una vez calculada la ecuación de esta recta, la
utilizaremos para predecir el consumo esperado para una renta de 60*104
unidades monetarias.
Una vez introducidos los datos de las variables, utilizamos las funciones
de Excel que permiten calcular el coeficiente de correlación y la pendiente y
ordenada en el origen de la recta de regresión de C sobre RM (Figura 4-81). La
Figura 4-82 presenta los resultados.
434
Figura 4-81
Figura 4-82
Se observa que el coeficiente de correlación entre C y RM es 0,4613, que

no es un valor lo suficientemente alto como para asegurar una dependencia
fuerte entre las dos variables.
435
No obstante, correlación débil no implica independencia, por lo
que puede hallarse la recta de regresión de C sobre RM, pero con la precaución
de que dicha relación lineal entre ambas variables puede no ser buena, y sobre
todo pueden no ser fiables las predicciones basadas en dicha relación de
linealidad. Una vez calculadas la pendiente y la ordenada en el origen de la recta
de regresión, tenemos la relación C=7,5+0,5RM.
Una vez calculada la ecuación de la recta de regresión, la

utilizaremos para predecir el consumo esperado relativo a una producción de
60*104 unidades monetarias, que vendrá dado por C=7,5+0,5*60*104 = 37,5*104
unidades monetarias.
Esta predicción puede no ser lo suficientemente buena, ya que el
contraste de ajuste por regresión aceptaba la incorrelación entre las variables, y
el coeficiente de correlación no es muy próximo a la unidad (0,4949).
La predicción también puede calcularse mediante la función

PRONOSTICO de Excel, tal y como se indica en la Figura 4-83.
Figura 4-83
436
Para hallar las medias, varianzas, desviaciones típicas y coeficientes de
variación, asimetría y curtosis de las distribuciones marginales de C y RM,
seleccionamos la opción Análisis de datos del menú Herramientas, y elegimos
Estadística descriptiva en Funciones para análisis (Figura 4-84). Rellenamos la
pantalla Estadística descriptiva como se indica en la Figura 4-85. Al pulsar
Aceptar, se obtienen los resultados de la Figura 4-86.
437
438
Figura 4-86
Para hallar las propias distribuciones marginales de C y RM,
seleccionamos la opción Análisis de datos en el grupo Análisis de la ficha Datos,
y elegimos Histograma en Funciones para análisis (Figura 4-87). Rellenamos la
pantalla Histograma como se indica en la Figura 4-88. Al pulsar Aceptar, se
obtiene la distribución e histograma de RM. Repitiendo el proceso para C
(Figura 4-89), se obtiene la marginal de C. Los resultados se observan en la
Figura 4-90.
439
Figura 4-87
440
441
442
Figura 4-90
Ejercicio 6. Consideramos la distribución bidimensional de las variables presión
(P) y tiempo de aplicación de dicha presión (T) sobre determinadas piezas para
el control de su calidad de fabricación.
T 0 5 10 15 20
443
P
66 1 1 0 1 2
68 3 2 1 0 1
70 0 1 9 1 2
72 1 2 1 2 1
74 3 1 2 1 2
a) Estudiar el grado de dependencia lineal existente entre las dos variables.

b) Hallar las distribuciones marginales de P y T y sus coeficientes de variación,
tercer cuartil y percentil 15.
c) Hallar la distribución de P condicionada a que T=10, así como su esperanza,
varianza, moda, mediana, tercer cuartil y coeficiente de variación.
d) Hallar la distribución de T condicionada a que P=72, así como su esperanza,
varianza, moda, mediana, tercer cuartil y coeficiente de variación.
e) Para la distribuciones de T condicionadas a P=66,68,70,72,74,
respectivamente, y las de P condicionadas a T=0,5,10,15,20, respectivamente.
La primera tarea será introducir adecuadamente los valores de las

dos variables como dos columnas de la hoja de cálculo. El par de valores P=66 y
T=0 se introduce una vez, el par de valores P=68 y T=0 se introduce 3 veces, y
así sucesivamente, se introduce cada par de valores tantas veces como indique
su frecuencia absoluta.
Una vez introducidos los datos de las variables, utilizamos la

función de Excel que permite calcular el coeficiente de correlación (Figura 4-
91).
444
Figura 4-91
También puede usarse la paleta de la función COEF DE.CORREL,
tal y como se indica en la Figura 4-92 (basta hacer clic en y hacer doble
clic en la función).
445
Figura 4-92
Se observa que el coeficiente de correlación entre P y T es 0,0073,

que es un valor muy próximo a cero, con lo que el grado de dependencia entre
las dos variables es prácticamente nulo. No tendría sentido hacer un ajuste por
regresión.
La forma más rápida de hallar las propias distribuciones

marginales de P y T, es elegir la opción Análisis de datos en el grupo Análisis de
la ficha Datos y seleccionar Histograma en Funciones para análisis (Figura 4-
93). Rellenamos la pantalla Histograma como se indica en la Figura 4-94, y al
pulsar Aceptar, se obtiene la distribución e histograma de P. Repitiendo el
proceso para T (Figura 4-95), se obtiene la marginal de T. Los resultados se
observan en la Figura 4-96.
446
Figura 4-93
447
448
449
Figura 4-96
El camino más sencillo para calcular coeficientes de variación,

cuartiles y percentiles de las distribuciones marginales de P y T, es utilizar las
respectivas funciones de Excel, tal y como se indica en la Figura 4-97. La Figura
4-98 presenta los resultados.
Para hallar la distribuciones condicionadas de P a todos los

valores de T, utilizamos la opción Tabla dinámica del grupo Tablas de la ficha
450
Insertar. La pantalla de diseño se rellena llevando la variable P a F LA, y la
variable T a COLUMNA y a VALORES, y utilizando la función CUENTA como
función de resumen. Al pulsar Aceptar, se obtiene la Figura 4-99, cuyas
columnas son distribuciones de P condicionadas al valor de T que encabeza la
columna (la tercera columna presenta la condicionada de P a T=10).
451
Para hallar la distribuciones condicionadas de T a todos los
valores de P, utilizamos la opción Informes de tabla y gráfico dinámico del menú
Datos, rellenando la pantalla de diseño llevando la variable T a FILA y la variable
P a COLUMNA y a VALORES, y utilizando la función CUENTA como función de
resumen. Al pulsar Aceptar, se obtiene la Figura 4-100, cuyas columnas son
distribuciones de T condicionadas al valor de P que encabeza la columna (la
cuarta columna presenta la condicionada de T a P=72).
Para calcular estadísticos relativos a las distribuciones

condicionadas, bastaría con introducir sus valores en columnas de Excel y
aplicar las fórmulas correspondientes. No obstante, para calcular la media,
varianza, moda, mediana, tercer cuartil y coeficiente de variación de la
distribución de P condicionada a T=10, bastaría fijarse en que esos valores de P
ocupan el rango A18 A21. Por lo tanto, plantearíamos las fórmulas de la Figura
4-101 para obtener los resultados de la Figura 4-102. En el caso del cálculo de
la media, varianza, moda, mediana, tercer cuartil y coeficiente de variación de la
distribución de T condicionada a P=72, introducimos sus valores en una columna
de la hoja de cálculo y aplicamos las fórmulas de la Figura 4-103 para obtener
los resultados de la Figura 4-104.
Figura 4-101
452
Figura 4-102
453
Figura 4-103
454
Figura 4-104
Ejercicio 7. Los ahorros S y los ingresos Y mensuales en cientos de euros de

una muestra de 10 familias de una determinada región se presentan en la tabla
siguiente:
1. Ajustar los datos anteriores a un modelo lineal que explique los ahorros
familiares en función de los ingresos para la región dada.
455
2. Ajustar los datos anteriores a un modelo lineal parabólico que explique
los ahorros familiares en función de los ingresos para la región dada.
3. ¿Qué ajuste es mejor?
4. ¿Qué ahorro se puede prever para una familia de la región que ingrese
2500 euros mensuales?
Comenzaremos elaborando una tabla de datos adecuada para los

cálculos a realizar en el problema:
Si yi Siyi yi 2 Si
1,9 20,5 38,95 420,25
1,8 20,8 37,44 432,64
2 21,2 42,4 449,44
2,1 21,7 45,57 470,89
1,9 22,1 41,99 488,41
2 22,3 44,6 497,29
2,2 22,2 48,84 492,84
2,3 22,6 51,98 510,76
2,7 23,1 62,37 533,61
3 23,5 70,5 552,25
SUMAS → 21,9 220 484,64 4848,38
La tabla anterior se obtiene mediante las fórmulas de Excel de la Figura

4-105.
456
Figura 4-105
El modelo lineal puede ajustarse

mediante el sistema de ecuaciones normales siguiente:
457
Luego el modelo lineal ajustado será:
Para medir la calidad del ajuste lineal utilizamos el coeficiente de

correlación, o su cuadrado, el coeficiente de determinación, que se calcula como
sigue:
Se observa que la calidad del ajuste es buena porque el coeficiente de

determinación es alto (el coeficiente de correlación vale
, que es un valor elevado

indicativo del alto grado de relación entre el ahorro y la renta de las familias).
El modelo lineal parabólico

puede ajustarse mediante el sistema de ecuaciones normales siguiente:
458
La solución de este sistema ofrece los parámetros del modelo parabólico
(b0=85,713, b1= -7,962 y b2 = 0,189). Luego el modelo ajustado será:

determinación, que se calcula como sigue:
El ajuste parabólico es de mayor calidad que el lineal porque tiene un

coeficiente de determinación mayor. Por lo tanto se usará el modelo parabólico
para hacer predicciones.
459
La tabla siguiente ordena los cálculos para hallar
Si yi (Si-(85,713-7,962yi+0,189
1,9 20,5
1,8 20,8
2 21,2
2,1 21,7
1,9 22,1
2 22,3
2,2 22,2
2,3 22,6
2,7 23,1
3 23,5
La tabla anterior se obtiene mediante las fórmulas de Excel de la Figura

4-106.
460
Figura 4-106
Para saber qué ahorro se puede prever para una familia de la

región que ingrese 2500 euros mensuales, realizamos la correspondiente
predicción para yi = 25 cientos de euros mediante el modelo parabólico recién
estimado. Tenemos:
Ejercicio 8. Para describir la distribución de la renta de las personas físicas

suele utilizarse la ley de Pareto que viene definida por la siguiente ecuación:
461
donde y es el porcentaje de personas con una renta igual o inferior a x siendo x0
la renta mínima y b un parámetro estructural. Se pide ajustar una ley de Pareto a
los datos siguientes:
Se trata de un ajuste de tipo hiperbólico potencial. Todo este tipo

de ajustes se resuelve aplicando logaritmos para linealizar de la siguiente forma:
El modelo lineal puede ajustarse

mediante el sistema de ecuaciones normales siguiente:
462
Luego el modelo lineal ajustado será:
Una tabla adecuada para los cálculos sería la siguiente:
n(xi) yi Zi= Ln(1-yi) ZiLn(xi)
0,7 0,033 -0,03355678 -0,0234
1,2 0,107 -0,1131687 -0,1358
1,5 0,22 -0,24846136 -0,3726
1,8 0,373 -0,46680874 -0,8402
2,2 0,55 -0,7985077 -1,7567
2,7 0,753 -1,39836694 -3,7755
3,2 0,88 -2,12026354 -6,7848
3,5 0,96 -3,21887582 -11,266
4 1
16,8 3,876 -8,39800958 -24,955
463
correlación, o su cuadrado, el coeficiente de determinación, que se calcula como
sigue:
La tabla anterior puede obtenerse mediante las fórmulas de Excel de la

Figura 4-107.
Figura 4-107
Se observa que la calidad del ajuste lineal es buena porque el coeficiente
464
de determinación es alto (el coeficiente de correlación vale
, que es un valor elevado indicativo del alto

grado de relación entre Zi y Ln(xi), y por tanto entre xi e yi).
Para ver la forma del modelo de Pareto deshacemos el cambio de variable

como sigue:
El modelo de Pareto ajustado será el siguiente:
Ejercicio 9. La inversión K y el producto interior bruto y se relacionan mediante la

expresión y = aKc, (denominada en términos económicos función simple de
Cobb-Douglas). Se pide ajustar una función de Cobb-Douglas a los datos
siguientes:
465
Se trata de un ajuste de tipo potencial. Todo este tipo de ajustes se
resuelve aplicando logaritmos para linealizar de la siguiente forma:
El modelo lineal puede ajustarse mediante el

sistema de ecuaciones normales siguiente:
Luego el modelo de Cobb-Douglas ajustado será:
Una tabla adecuada para los cálculos sería la siguiente:
Ki yi Zi = log(yi) xi
0,6 2,6 0,41497335
0,6 2,9 0,462398
466
0,8 3,4 0,53147892
1 4,1 0,61278386
1,3 5,1 0,70757018
1,4 6 0,77815125
1,6 7,2 0,8573325
1,9 9,2 0,96378783
2,2 11,2 1,04921802
2,5 13,1 1,1172713
2,9 15,2 1,18184359
3,5 17,3 1,2380461
3,9 19,9 1,29885308
SUMAS → 11,213708
La Figura 4-108 muestra las fórmulas de Excel adecuadas a la tabla

anterior.
467
Figura 4-108
Para medir la calidad del ajuste potencial medimos la del ajuste
lineal al que es equivalente utilizando el coeficiente de correlación, o su
cuadrado, el coeficiente de determinación, que se calcula como sigue:
Se observa que la calidad del ajuste lineal es muy buena porque el

coeficiente de determinación es alto (el coeficiente de correlación vale
468
, que es un valor muy próximo a 1 indicativo del
alto grado de relación entre Zi y xi, y por tanto entre xi e yi).
Ejercicio 10. Consideramos las variables X, Y ,Z cuyos valores son los

siguientes:
6. Hallar la matriz de correlaciones deduciendo el grado de dependencia de

las variables.
7. Hallar la matriz de covarianzas e interpretar el resultado.
En primer lugar introducimos como tres columnas de Excel las

variables X, Y y Z. A continuación, seleccionamos la opción Análisis de datos del
grupo Análisis del menú Datos, y elegimos Estadística descriptiva en Funciones
para análisis (Figura 4-109). Rellenamos la pantalla Estadística descriptiva
como se indica en la Figura 4-110. Al pulsar Aceptar, se obtienen los resultados
de la Figura 4-111.
469
Figura 4-109
470
Figura 4-110
471
Figura 4-111
Para calcular la matriz de correlaciones, seleccionamos la opción

Análisis de datos del grupo Análisis del menú Datos, y elegimos Coeficiente de
correlación en Funciones para análisis (Figura 4-112). Rellenamos la pantalla
Coeficiente de correlación como se indica en la Figura 4-113 Al pulsar Aceptar,
se obtiene la matriz de correlaciones de la Figura 4-114.
472
473
Figura 4-114
En la salida anterior, se observa que el coeficiente de correlación entre

las variables X e Y es 0,9899, entre X y Z es 0,9802, y entre Y y Z es 0,9830, lo
que indica la fuerte dependencia lineal positiva entre cada par de variables. La
matriz de correlaciones tiene la forma siguiente:
Para hallar la matriz de covarianzas, seleccionamos la opción

Análisis de datos del grupo Análisis del menú Datos, y elegimos Covarianza en
Funciones para análisis (Figura 4-115). Rellenamos la pantalla Covarianza
como se indica en la Figura 4-116. Al pulsar Aceptar, se obtiene la matriz de
covarianzas de la Figura 4-117.
474
475
Figura 4-117
A la vista de los resultados, podemos decir que como todas las

covarianzas son positivas, los pares de variables varían en el mismo sentido
alrededor de sus medias.
Por otro lado, como la covarianza entre X e Y es 12, entre X y Z es 7,96 y

entre Y y Z es 10,8 y además las varianzas de X, Y y Z son respectivamente 8,96,
16,4 y 7,36 la matriz de covarianzas tiene la forma siguiente:
Ejercicio 11. Se pregunta a 50 economistas, 40 ingenieros y 10 abogados si

creen que la bolsa en el próximo mes va a bajar, subir o permanecer igual. El 20
% de los economistas opina que subirá, mientras que el 40% de ellos piensa
que bajará. El 50 % de los ingenieros se inclina porque permanecerá igual, y tan
sólo el 5% cree que bajará. Por último, la mitad de los abogados se decanta por
la subida y la otra mitad cree que bajará.
a) Resumir los datos en la variable bidimensional que cruza la profesión con el
476
pronóstico y presentar la tabla de contingencia correspondiente.
b) Hallar las distribuciones marginales del atributo profesión y del atributo
pronóstico y realizar un diagrama de barras para el atributo F.
c) Hallar la distribución de la profesión condicionada al valor igual del atributo
pronóstico.
d) ¿Existe relación entre los pronósticos sobre la evolución del mercado bursátil
y la profesión del encuestado?
Comenzaremos calculando la tabla de contingencia relativa al

problema (Figura 4-118).
Figura 4-118
La siguiente tarea será introducir los datos de los dos atributos como
dos variables en la hoja de cálculo. Denominamos P a la variable pronóstico, y F
a la variable profesión. P puede tomar los valores B (baja), I (igual) y S (sube). F
puede tomar los valores E (economista), I (Ingeniero) y A (abogado). El valor EB
de la variable bidimensional lo introducimos 20 veces (la E en la columna de la
varible F y la B en la columna de la variable P), el valor EI 20 veces, el valor ES
10 veces, el valor IB 10 veces, el valor II 20 veces, el valor IS 18 veces, el valor
AB 5 veces, y el valor AS 5 veces.
Para crear la tabla de contingencia 3*3, utilizamos el Asistente

para tablas y gráficos dinámicos (opción Tablas dinámicas del grupo Tablas de
la ficha Insertar) rellenando la pantalla de diseño situando la variable P en
COLUMNA y la variable F en F LA y VALORES, para obtener la tabla de
477
contingencia de la Figura 4-119.
Figura 4-119
La distribución marginal de F ya se observa sobre la tabla de

contingencia (zona en negrita de la Figura 4-120). Lo mismo ocurre con la
distribución marginal de P (zona en negrita de la Figura 4-121). Para hallar un
diagrama de barras para el atributo F, basta pulsar el icono (opción

Columna del grupo Gráficos de la ficha Insertar) estando posicionados sobre
cualquier celda de la tabla de contingencia. Se obtiene el gráfico dinámico de la
Figura 4-122, que presenta un diagrama de barras para F subdividido por
clases correspondientes a los valores de P.
478
479
Figura 4-122
480
La distribución de la Profesión condicionada al valor Igual del atributo
Pronóstico, está formada por la zona en negrita de la figura 5-123. Para ver si
existe relación entre los atributos Pronóstico y Profesión, calculamos medidas
de asociación y realizamos el contraste de independencia de la chi-cuadrado
según las fórmulas de la Figura 4-124. Se obtienen los resultados de la Figura
4-125.
Figura 4-123
481
Figura 4-124
482
Figura 4-125
Se observa que el p-valor del contraste de la chi-cuadrado es menor que
0,05, lo que indica que las variables no son independientes. Además, el valor del
estadístico de la chi-cuadrado es superior al valor crítico al 95%, lo que
corrobora la dependencia de las variables.
Como ya sabemos que no hay independencia, la siguiente tarea

es medir el grado de asociación de P y F. Para ello, utilizamos los valores de las
diferentes medidas de asociación, que como es lógico son bastante altos (se
alejan bastante de cero), lo que nos muestra que existe un cierto grado de
483
asociación entre las variables.
484
Capítulo 5
NÚMEROS ÍNDICES Y MEDIDAS DE

CONCENTRACIÓN
485
5.1 NÚMEROS ÍNDICES SIMPLES
En los capítulos anteriores se han caracterizado las distribuciones
de una y varias variables por una serie de medidas que intentaban sintetizar el
conjunto de toda la información disponible (medidas de posición), pasando
después al estudio de la variabilidad (medidas de dispersión) y de las medidas de
forma (asimetría y curtosis). El problema que ahora se nos presenta es la
comparación de magnitudes simples o complejas referidas a una situación
inicial, que se fijará previamente de la forma más adecuada posible a los
objetivos que se persigan y que condiciona la comparación. En cuanto a las
magnitudes complejas, habrá que tener en cuenta la homogeneidad de las
unidades y el problema de la agregación. También se estudiará en este capítulo
la deflactación de series estadísticas y los índices o medidas de concentración.
Consideraremos un número índice simple como una medida que

nos da la evolución de una magnitud en el tiempo. Más formalmente, definiremos
un número índice como aquella medida estadística que nos permite estudiar los
cambios que se producen en una magnitud simple o compleja con respecto al
tiempo o al espacio; es decir, vamos a comparar dos situaciones, una de las
cuales se considera de referencia. Si la magnitud estudiada es simple, el índice
se llama simple, y si la magnitud estudiada es compleja, el índice se llama
complejo.
Sea Xi una magnitud simple y sean xi0 y xit los valores de dicha magnitud
en los períodos base y actual respectivamente. El número índice simple Ii para la
magnitud citada se define como:
Ii = I0t(i) = xit / xi0
que mide la variación en tanto por uno que ha sufrido la magnitud Xi entre los
dos períodos considerados. Generalmente, estos índices se suelen expresar en
porcentajes, multiplicándolos por cien.
Índices simples de precios, cantidad y valor
486
Entre los números índices simples más usuales tenemos los índices de
precios, los índices de cantidades, de producción o cuánticos, y los índices de
valor. Un índice simple de precios, o precio relativo, es la razón entre el precio de
un bien en el período actual pit y el precio del mismo en el período base pio. Se
puede escribir:
P0t = pit / pi0
De la misma forma, un índice simple de cantidad, producción, cuántico o

cantidad relativa, puede definirse como la razón entre la cantidad producida o
vendida de un bien en sus períodos actual qit y base qio. Se puede escribir:
Q0t = qit / qi0
Un índice simple de valor, o valor relativo, se define como el cociente entre

el valor de un bien en el período actual (producto del precio de ese bien y la
cantidad producida en el período actual pit*qit) y el valor de ese bien en el período
base (pi0*qi0). Tendremos que:
V0t = pit*qit / pi0*qi0 = (pit/pi0) * (qit/qi0)
Por lo tanto, se cumple que el índice de valor es igual al índice de precios

por el índice de cantidades, o, lo que es lo mismo, que el valor relativo de un bien
es igual al producto de su precio relativo y su cantidad relativa.
487
5.2 NÚMEROS ÍNDICES COMPLEJOS NO
PONDERADOS
En la práctica, los números índices simples no suelen utilizarse
aisladamente. Por lo general, no estamos interesados en comparar precios,
cantidades o valores de bienes individuales, sino en comparar dichas magnitudes
para grandes grupos de bienes. Como consecuencia de ello, la información
suministrada por los índices simples de cada uno de los diferentes bienes debe
ser resumida en un único índice al que vamos a denominar complejo.
Un índice complejo ha de ser sencillo, pero a la vez ha de reunir la
mayor cantidad posible de información. Así, podemos considerar dos tipos de
índices complejos, en los que va a primar, en mayor o menor medida, cada una de
las características anteriores. Si se prefiere sencillez, tendremos los índices
complejos no ponderados, y si, por el contrario, lo que se desea es que
contengan la mayor cantidad de información posible, se utilizarán los índices
complejos ponderados.
Los índices complejos no ponderados van a ser medias aritméticas,

geométricas, armónicas y agregativas de los índices simples. Pero todas las
medias calculadas serán no ponderadas. Esto es lógico, pues para resumir la
información obtenida a través de los índices simples, lo natural es promediar
éstos. En los apartados siguientes se definirán los índices complejos sin
ponderar más usuales.
Índice media aritmética, geométrica y armónica de índices simples
Sea la magnitud compleja X formada por las magnitudes simples X1, X2,
..., Xi, ..., XN que toman los siguientes valores:
Período base Período actual Índices simples
x10 x1t I1 = x1t / x10

. . .
. . .
488
xi0 xit Ii = xit / xi0
. . .
. . .
xN0 xNt IN = xNt / xN0
El índice complejo sin ponderar media aritmética resume los diferentes

índices simples Ii considerando su media aritmética sin ponderar, con lo que su
expresión será:
El índice complejo sin ponderar media geométrica resume los diferentes

índices simples Ii considerarando su media geométrica sin ponderar, con lo que
su expresión será:
El índice complejo sin ponderar media armónica resume los diferentes

índices simples Ii considerando su media armónica sin ponderar, con lo que su
expresión será:
489
Índice media agregativa
Este tipo de índice considera, en vez de las medias entre los diferentes
índices simples, la relación por cociente entre las sumas de los diferentes
valores de la magnitud en los dos períodos. Su expresión es:
490
5.3 NÚMEROS ÍNDICES COMPLEJOS DE PRECIOS NO
PONDERADOS
En los epígrafes siguientes se tratan los índices complejos de
precios no ponderados más habituales. Estos indices van a tener la ventaja de su
sencillez de cálculo, pero tienen la desventaja de no tener en cuenta la
importancia relativa de cada uno de los diferentes bienes en el conjunto total, ya
que no son ponderados. También es una desventaja el hecho de que las unidades
utilizadas para medir los precios de cada bien afectan al valor de los índices, con
lo que estos no resultan homogéneos.
Índice de Sauerbeck
Se trata de una media aritmética no ponderada de índices simples de

precios Ii=pit /pi0. Con lo que el índice de Sauerbeck será:
que es simplemente la media aritmética de los precios relativos de los bienes

considerados.
Índice de Bradstreet-Dûtot
Es la media agregativa sin ponderar de los precios, y su expresión es la

siguiente:
491
492
Los números índices complejos ponderados tienen en cuenta la
diferente importancia relativa de cada una de las magnitudes simples dentro del
conjunto de todas ellas. Para ello, es necesario afectar a cada magnitud simple, y
por tanto a sus índices, de unas ponderaciones que midan su peso relativo dentro
del conjunto en que se consideren.
Índice media aritmética, geométrica y armónica de índices simples
Supongamos que las diferentes ponderaciones o pesos asignados a los

índices simples que van a constituir el índice complejo son w1, w2,..., wi,...wn.
Según el tipo de media ponderada utilizado para calcular el índice complejo
obtendríamos los siguientes números índices:
El índice complejo ponderado media aritmética resume los diferentes

índices simples Ii considerando su media aritmética ponderada, con lo que su
expresión será:
El índice complejo ponderado media geométrica resume los diferentes

índices simples Ii considerando su media geométrica ponderada, con lo que su
expresión será:
493
El índice complejo ponderado media armónica resume los diferentes
índices simples Ii considerando su media armónica ponderada, con lo que su
expresión será:
Índice media agregativa
Este tipo de índice considera, en vez de las medias ponderadas entre los
diferentes índices simples, la relación por cociente entre las sumas de los
diferentes valores ponderados de la magnitud en los dos períodos. Su expresión
es:
494
495
5.5 NÚMEROS ÍNDICES COMPLEJOS DE PRECIOS
PONDERADOS
En el trabajo con los índices complejos de precios ponderados es
fundamental el tipo de ponderaciones utilizado. Entre los sistemas de
ponderaciones propuestos tradicionalmente, tenemos:
wi = pi0*qi0, que es el valor de la cantidad consumida del bien i-ésimo en

el período base, a precios de dicho período.
wi = pit*qit, que es el valor actual de la cantidad consumida del bien i-

ésimo, a precios actuales.
wi = pi0*qit, que es el valor de precios del período base de la cantidad

consumida del bien i en el período actual.
wi = pit*qi0, que es el valor actual de la cantidad consumida del bien i en el

período base.
Las diferentes ponderaciones dan lugar a los diferentes índices

complejos de precios ponderados. Los más habituales se estudian en los
epígrafes siguientes.
Índice de Laspeyres
Es la media aritmética ponderada de los índices simples de precios. El

criterio de ponderación seguido es wi=pi0*qi0; luego la expresión del índice
será:
496
Índice de Paasche
Es también una media aritmética ponderada de índices simples de

precios, pero en este caso el coeficiente de ponderación es wi=pi0*qit, con lo
que la expresión del índice será:
La fórmula de Paasche exige calcular las ponderaciones qit para cada

período corriente. El cálculo de este índice es laborioso, y presenta el
inconveniente adicional de que el índice de precios de cada año sólo se puede
comparar con el del año base, debido a que las ponderaciones varían de período
en período, siendo por tanto distintas en los diferentes índices calculados.
Índice de Edgeworth
497
Es una media agregativa ponderada de precios cuyo coeficiente de
ponderación es wi=qi0+qit. Su expresión será:
Índice ideal de Fisher
Se trata de la media geométrica de los índices de precios complejos

ponderados de Laspeyres y Paasche; es decir:
498
CUÁNTICOS O DE PRODUCCIÓN
La evolución de las magnitudes también puede estudiarse a través
de sus cantidades físicas. Los números índices cuánticos o de producción tienen
como objetivo estudiar las variaciones habidas en la producción física de un
conjunto de bienes y servicios, para medir su evolución en el tiempo. Los más
importantes se ven en los epígrafes siguientes.
Índice cuántico de Laspeyres
Es la media aritmética ponderada de los índices simples de cantidades. El

criterio de ponderación seguido es wi=pi0*qi0; luego la expresión del índice
será:
Índice cuántico de Paasche
Es también una media aritmética ponderada de índices simples de

cantidades, pero en este caso el coeficiente de ponderación es wi=pit*qi0, con lo
que la expresión del índice será:
499
Índice ideal de Fisher
Se trata de la media geométrica de los índices cuánticos complejos

ponderados de Laspeyres y Paasche; es decir:
Lo mismo que para los índices de precios, el índice cuántico de

Laspeyres es el que más se utiliza.
500
5.7 PROPIEDADES DE LOS NÚMEROS ÍNDICES
Existen determinadas propiedades que serían deseables para todo
número índice. Las más importantes son las siguientes:
Existencia: Todo número índice debe existir, ha de tener un valor finito

distinto de cero. Por ejemplo, los índices de media geométrica y armónica
se anulan si algún xit es cero y, por lo tanto, en este caso, no están
determinados.
Identidad: Si se hacen coincidir el período base y el período actual, el

número índice debe ser igual a la unidad. Esta propiedad debe cumplirse
necesariamente, puesto que los números índices miden variaciones entre
dos períodos, y al hacer coincidir éstos, el número índice no debe reflejar
ninguna variación.
Inversión: Si designamos como I0t un número índice con base 0 y período

actual t, al intercambiar los períodos entre sí (It0), el nuevo índice debe
cumplir que I0t = 1/It0 => It0*I0t = 1.
Circular: Si consideramos los períodos 0, t, t , t , se debe cumplir que

I0t*Itt *It 0=1 y I0t*Itt *It t *It 0=1. Como consecuencia de esta propiedad
y de la inversión, tenemos que I0t*Itt = I0t y I0t*Itt *It t = I0t
Proporcionalidad: Si en el período actual todas las magnitudes sufren una

variación proporcional, el número índice debe quedar lógicamente afectado
por la misma variación, es decir, si los valores xit sufren una variación
proporcional de orden k, de forma que los nuevos valores en el período t
son xit = xit + kxit = (1+k)xit, el nuevo índice simple será I i = xit /xi0 =
(1+k)xit /xi0=(1+k)Ii.
Homogeneidad: Un número índice no debe venir afectado por un cambio en
501
las unidades de medida.
Sería deseable que estas propiedades que, en general, se cumplen para

los índices simples, se verificasen también en los complejos, pero esto no
siempre ocurre. La idoneidad de un índice puede basarse en el grado de
cumplimiento de las propiedades citadas, y por esta vía puede intentarse
determinar cuál de todos los índices ya definidos es el más idóneo para ser
utilizado en la medición de las variaciones de los precios o las cantidades. Las
propiedades de existencia y unicidad las cumplen todos los índices definidos. Las
propiedades de inversión y circularidad las verifican solamente los índices de
Bradstreet-Dûtot, Edgeworth y Fisher. La proporcionalidad la satisfacen todos los
índices algebraicamente, si bien desde el punto de vista económico hay que
hacer algunas objeciones para los índices de Paasche, Edgeworth y Fisher.
502
5.8 ÍNDICES EN CADENA
Los índices en cadena son une serie de índices en los que la base es
siempre el período precedente, con lo que cada uno de ellos ofrece una
comparación porcentual respecto al período anterior. A través de este
procedimiento, y partiendo de una serie de enlaces relativos, podemos conseguir
una serie de índices referidos a una base común aplicando la propiedad circular.
La nueva serie obtenida nos permitirá efectuar comparaciones a medio y largo
plazo.
Si tenemos datos sobre una magnitud, referidos a los instantes

consecutivos en el tiempo 0, 1, 2,..., t -1, t, podemos expresar el número índice en
el instante t con base en el instante 0 como producto de una cadena de índices
cuyas bases son los instantes consecutivos, de la siguiente forma:
I0,1*I1,2*It-1,t = I0,t
503
5.9 CAMBIO DE BASE Y ENLACES DE NÚMEROS
ÍNDICES
A medida que pasa el tiempo, mantener el período base de un
índice puede resultar inadecuado. Existe pérdida de representatividad de los
índices al irnos alejando del período base, sobre todo cuando para ponderar
magnitudes actuales se utilizan pesos relativos referidos al período base. Este
problema se resuelve haciendo un cambio de base a un período más cercano al
actual. Para poder relacionar series de índices referidos a distintos períodos
base, se utilizan los enlaces técnicos entre ambas series. Para efectuar el
cambio de base nos basaremos en la propiedad de inversión de los números
índices.
Sea la siguiente serie de números índices referidos al período de base 0.

Supongamos que deseamos efectuar un cambio de período base desde el
período 0 al h. Obtenemos así una nueva serie referida a dicho período base h.
Período Índice base 0 Índice base h
0 I00 I0h
1 I10 I1h
. . .
. . .
i Ii0 Iih
. . .
. . .
h Ih0 Ihh
. . .
. . .
t It0 Ith
La nueva serie de índices se obtendrá teniendo en cuenta que
504
Iih = Ii0/Ih0 * Ihh = Ii0 / Ih0
donde Ih0 es el índice que hace de enlace técnico entre las dos series.
505
5.10 DEFLACTACIÓN DE SERIES ESTADÍSTICAS
De forma muy simple, puede decirse que deflactar es eliminar el efecto de

los precios que puede existir en la variación total de una magnitud. De este
modo, puede conocerse la alteración de la magnitud debida exclusivamente al
cambio en las cantidades (variación en términos reales o a precios constantes).
Así, deflactando una serie a precios corrientes (serie en la que las
modificaciones de sus términos recogen el efecto de los precios y de las
cantidades), se obtiene otra a precios constantes o en términos reales (serie en
la que las variaciones de sus elementos son debidas únicamente al efecto de las
cantidades). Para pasar de una serie en pesetas corrientes a una en pesetas
constantes, dividiremos la serie primitiva por un índice de precios adecuado, ya
que de esta forma se puede eliminar la influencia de los precios. El paso de una
serie de valores corrientes a constantes se conoce con el nombre de deflactación
de la serie, y al índice elegido para efectuar dicha transformación se le llama
deflactor.
En el caso de las magnitudes complejas, los deflactores son índices de

precios que se obtienen mediante ponderaciones de la evolución de los precios
de los bienes y/o servicios que integran la magnitud estudiada. No existe un
deflactor único que pueda utilizarse con cualquier serie. La utilización de uno u
otro dependerá de la magnitud económica que esté recogida en la serie. Así, por
ejemplo, si se pretende deflactar una serie temporal de consumo privado o medir
la variación de la capacidad adquisitiva de los trabajadores, lo más indicado será
tomar como deflactor el índice de precios al consumo, y si la serie fuese el
producto interior bruto habría que emplear el deflactor implícito del PIB.
506
5.11 PARTICIPACIÓN Y REPERCUSIÓN
Supongamos que todas las magnitudes simples que componen un
índice complejo sufren una variación que podemos expresar por Dp1t, Dp2t,..,
DpNt. El índice presentará una variación total debida a todas estas variaciones, y
cada una de sus componentes contribuirá con una variación particular,
denominada repercusión, a la variación del índice general. La suma de todas las
repercusiones individuales de cada componente es igual a la variación total del
índice general.
Se entiende por participación de la componente i en la variación del índice

general, la relación por cociente entre la repercusión de la componente i y la
suma de repercusiones de todas las componentes.
lustraremos estos conceptos aplicándolos al índice de Laspeyres de

precios. Si todas las magnitudes simples que componen el índice complejo de
Laspeyres de precios sufren una variación que podemos expresar por Dp1t,
Dp2t, ..., DpNt, el nuevo índice será:
donde
507
La variación en porcentaje del índice general se expresa como:
Llamaremos repercusión, en valor absoluto, de la variación de la

componente i en el índice general, a la expresión:
En porcentaje, la variación de la componente i en el índice general será:
508
La participación en porcentaje de la componente i en la variación del
índice general será la relación por cociente entre la repercusión en porcentaje y
la suma de repercusiones en porcentaje de todas las componentes, expresada en
tanto por ciento. Su expresión será:
509
5.12 ÍNDICES OFICIALES
Índice de precios al consumo
Entre los índices de precios de mayor importancia se encuentra el índice

de precios al consumo ( PC), que tiene por objeto medir la evolución en el tiempo
de los precios, basándose en un conjunto determinado de bienes y servicios, que
componen la llamada cesta de la compra, para un determinado estrato de
población convenientemente elegido.
En casi todos los países el índice elegido para el PC es un índice tipo

Laspeyres. En España, para determinar la cesta de la compra, se obtiene a través
de la Encuesta de Presupuestos Familiares, y referido a un determinado estrato
de población, el conjunto de bienes y servicios que dicho grupo adquiere
normalmente, y que le proporciona el mismo nivel de vida a lo largo de un período
de tiempo no demasiado amplio. Una vez determinada la cesta de la compra, se
valoran las correspondientes cantidades consumidas a precios del período base
y del actual. Su cociente nos dará el índice del coste de la vida.
Índices de producción y precios industriales
Recogen las variaciones de la oferta industrial dentro de la mayoría de las

ramas de la actividad económica. El índice de producción industrial ( PI) tiene
por objeto indicar la evolución en volumen de la parte del Producto Interior Bruto
(P B) que tiene su origen en la industria, es decir, el valor añadido bruto al coste
de los factores de las diversas ramas industriales y del conjunto del sector
industrial. De esta forma, el IPI sintetiza en un número restringido de cifras o,
aún mejor, en una única serie estadística, la multitud de informaciones
estadísticas sobre las cantidades de bienes producidos por la industria de un
país. Este índice es uno de los principales instrumentos con que se cuenta para
el análisis económico coyuntural, especialmente cuando se utiliza en
combinación con otros indicadores, tales como los relativos al comercio exterior,
el empleo o el paro. Se utiliza, asimismo, para la actualización a corto plazo de
las cifras relativas al producto interior bruto (en las cuentas nacionales
trimestrales o en las primeras estimaciones de las cuentas nacionales anuales).
Para su cálculo se utiliza la fórmula del índice complejo ponderado de Laspeyres
510
para cantidades.
El índice de precios industriales ( PRI) es un indicador que mide la
evolución de los precios en el primer paso de comercialización de los productos,
es decir, en la fase de venta de éstos a los precios de producción, esto es, sin
incluir los impuestos indirectos que los gravan. Se refiere únicamente a
productos industriales de producción nacional, con exclusión de los servicios,
tales como instalaciones, transportes, comercialización, reparaciones, etc.
Este índice sirve de indicador de la evolución coyuntural de los

precios de producción, tanto en general, como por sectores. También sirve de
base para el estudio y determinación de la política de precios más conveniente en
relación con la redistribución de las rentas. También se usa como un instrumento
para las revisiones de precios en la contratación a largo plazo, así como para
detectar en sus inicios las presiones inflaccionistas o deflaccionistas. También
sirve como instrumento técnico para la deflacción de ciertos indicadores
coyunturales de la industria, y de los datos relativos a las transacciones sobre
productos industriales en el marco de las tablas Input Output y de la contabilidad
nacional. Para su cálculo se utiliza la fórmula del índice complejo ponderado de
Laspeyres para precios.
Índices de salarios
Reflejan las variaciones del salario total de los trabajadores por unidad de
tiempo. Suelen ser del tipo media aritmética ponderada, recogiendo la variación
de la relación por cociente entre las remuneraciones en el período base y el
actual.
Índices de comercio exterior
Este tipo de índices suele analizar la evolución de la balanza comercial, e

involucra un gran volumen de transacciones. Los más importantes son los
siguientes:
Índices de ventaja comparativa revelada: Analizan el comercio exterior por

sectores, y los más usuales son el saldo comercial relativo (SCR) y el
índice de contribución al saldo (ICS). Ambos índices se construyen a partir
511
del saldo comercial de cada sector. Si llamamos Xi y M i a las exportaciones
e importaciones del sector i, sus expresiones son:
Índices de especialización (IE) y dependencia (ID) comercial: Comparan

la estructura comercial española con la de una agrupación de países de
referencia, por ejemplo la Unión Europea, considerando por separado la
vertiente exportadora de la importadora. Si consideramos las exportaciones
e importaciones del sector i (Xi y M i) relativas a España (ESP) y a la Unión
Europea (UE), estos índices se expresan de la siguiente manera:
512
Índice de comercio intraindustrial: Se utiliza cuando en los diferentes
sectores se produce simultáneamente la exportación e importación de un
mismo tipo de productos. Su expresión es:
513
Índices de competitividad: Se utilizan para medir la competitividad de las
economías, y se basan en la evolución de los precios y los tipos de cambio.
Los más importantes son el tipo de cambio efectivo nominal (TCEN), que
se utiliza para medir la evolución de una moneda en un período determinado
(marcado por el año 0 que es el base y el año t que es en el que se realiza
el cálculo) frente a un conjunto de monedas correspondientes a una
agrupación de países con los que mantiene intercambios, y el tipo de
cambio efectivo real (TCER), que es un ajuste del anterior introduciendo
un factor que refleja las variaciones de precios relativos entre el país que
elabora el índice y los demás a lo largo de un período determinado. Sus
expresiones son las siguientes:
donde W i = (Xi+M i)/(X+M), siendo Xi las exportaciones españolas con

destino al país i, M i las importaciones españolas procedentes del país i, X
514
el total de exportaciones españolas destinadas al conjunto de países en
cuestión, y M el total de importaciones españolas procedentes del conjunto
de países. Ci0 y Cit representan las cotizaciones oficiales de la peseta
frente a la moneda del país i en el año base y en el año t respectivamente. Pt
y P0 son los índices de precios de España en los instantes base, y t, y Pi0 y
Pit son los índices de precios del país i en el año base y en el año t.
Índice de relaciones de cambio: También se denomina relación real de

intercambio, y viene expresada por R = Pp(X) / Pp(M); es decir, es el
cociente de índices de precios de Paasche de exportaciones y de
importaciones.
Índices de cotización de valores en bolsa
Miden las fluctuaciones en la cotización que se registran diariamente, y

hacen referencia a la cotización de los valores en el momento de cierre de la
sesión.
Indicadores de la coyuntura
Son un conjunto de índices (precios, producción, salarios, etc.) que nos

dan una idea aproximada sobre la evolución de la economía de un país, y permiten
un análisis a corto plazo de sus distintos aspectos.
515
5.13 TASAS DE VARIACIÓN
Expresan el porcentaje que representa la variación absoluta de
una magnitud, en un intervalo temporal determinado, sobre el valor inicial de
dicha magnitud, que normalmente se corresponde con el del año anterior. Esto
es:
Donde v es una magnitud cualquiera, i es el período inicial de intervalo de

variación, f es el período final de intervalo de variación, vf - vi es la variación
absoluta, y TV es la tasa de variación expresada en tantos por uno.
Evidentemente, se cumple que:
Otro concepto muy utilizado es el de tasa de variación media acumulativa,

que expresa el porcentaje de variación que una magnitud debería haber
experimentado período tras período para, desde su valor inicial, alcanzar su valor
final. Se define como:
Donde n es el número de períodos entre el año inicial y el final, o bien el

número de datos de la serie menos uno. Evidentemente, se cumple que:
516
517
5.14 MEDIDAS DE CONCENTRACIÓN
Las medidas de concentración tratan de poner de relieve el mayor o menor
grado de igualdad en el reparto del total de los valores de una variable. Son, por
tanto, indicadores del grado de equidistribución de la variable. Estos indicadores
no deben confundirse con las medidas de dispersión, ya que desde el punto de
vista estadístico la dispersión hace referencia a la variabilidad de los datos, a las
diferencias que entre ellos existen y, por tanto, a la mayor o menor
representatividad de los promedios.
Estas medidas tienen especial aplicación a variables económicas

(rentas, salarios, etc.). En una distribución estadística, de rentas por ejemplo,
desde el punto de vista de la equidad económica, ni la media, ni siquiera la
varianza son significativas. Lo que verdaderamente interesa es la mayor o menor
igualdad en su reparto entre los componentes de la población, es decir, que esté
equitativamente repartida. Para este fin, están concebidos los estudios sobre
concentración, entendiéndose por concentración la mayor o menor equidad en el
reparto de la suma total de la variable considerada. Es decir, si suponemos que
la distribución es de rentas, y que tenemos n rentistas cuyas rentas son x1 £ x2 £
x3 £ ... £ xn, nos interesa estudiar hasta qué punto la suma total de rentas
x1+x2+...+xn está equitativamente repartida.
Las situaciones extremas se producen (a) cuando de los n

rentistas, sólo uno percibe el total de renta y los demás nada (concentración
máxima, es decir, x1= x2 = x3 = ... = xn-1= 0 y xn ¹ 0), y (b) cuando todos los
rentistas perciben la misma cantidad (concentración mínima o equidistribución,
es decir x1 = x2 = x3 = ... = xn).
Las medidas de concentración más utilizadas en el reparto de la renta

son el índice de Gini, la curva de Lorentz, y el porcentaje de población bajo el
umbral de pobreza.
518
5.15 ÍNDICE DE CONCENTRACIÓN DE GINI
Sea una distribución de frecuencias relativa a rentas (xi,ni), de la que

vamos a considerar las siguientes características:
Los productos xi*ni, que nos indicarán la renta total percibida por los ni
rentistas de renta individual xi.
Las frecuencias absolutas acumuladas Ni.

Los totales acumulados ui de los productos xi*ni, o sea, u1 = x1n1, u2 =
x1n1 + x2n2, ..., un = x1n1 + x2n2 + ... + xnnn. De esta forma, ui será la
renta total percibida por los Ni primeros rentistas.
Las frecuencias acumuladas relativas, que expresaremos en tantos por

ciento, y que aquí llamaremos pi, es decir, pi = (Ni/N)*100.
Una medida que expresa cada ui en tantos por ciento de un. A este
porcentaje le llamamos qi. Tendremos que qi = (ui/un) *100.
Se define el índice de concentración de Gini mediante la expresión:
519
Sabemos que si la concentración es mínima, es decir, si la renta está
repartida por igual, pi = qi, con lo que IG =0. En el caso de concentración
máxima, solamente el último trabajador percibe renta, por lo que, q1 = q2 = ... =
qn-1 = 0, con lo que IG =1. El campo de variación de IG va, pues, de cero a uno, y
su valor responderá a una distribución tanto más justa de la renta o del salario
cuanto más próximo esté a cero.
520
5.16 CURVA DE CONCENTRACIÓN DE LORENTZ
La distribución de salarios, o de rentas, se puede materializar
gráficamente, obteniéndose la llamada curva de concentración o curva de
Lorentz. Para construirla, dibujamos un cuadrado cuyos lados están divididos en
una escala de 1 a 100. En el vértice inferior izquierdo está el origen de
coordenadas, en el eje de abscisas representamos los valores pi, y en el de
ordenadas los valores qi. A continuación, representamos los puntos (pi,qi), que,
al unirlos entre sí, nos determinan una poligonal llamada curva de Lorentz.
La curva de Lorentz es siempre creciente, resultando que la curva que

indica la concentración mínima (equidistribución) es la diagonal del cuadrado
(ya que pi = qi para concentración mínima). Cuanto más próxima esté la curva a
la diagonal del cuadrado que parte del orígen, mayor equidistribución existirá. La
curva de Lorentz es más curvada cuanto más desigual sea la distribución y más
fuerte la concentración.
PROBLEMAS RESUELTOS
Ejercicio 1. La evolución de las ganancias de una empresa del ramo del
automóvil desde el año 1950 hasta 1960 se presenta en la tabla siguiente:
3. Hallar los índices de ganancias tomando como base el año 1950.

4. Cambiar de base los índices anteriores tomando como nuevo período
base el año 1960.
Los números índices simples de ganancias con base en 1950 se

calcularán de acuerdo a la tabla siguiente, cuya estructura puede implementarse
en Excel):
521
Año Ganancias Índices simples
1950 g0 100
1951 g1 (g1/g0)*100
1952 g2 (g2/g0)*100
1953 g3 (g3/g0)*100
1954 g4 (g4/g0)*100
1955 g5 (g5/g0)*100
1956 g6 (g6/g0)*100
1957 g7 (g7/g0)*100
1958 g8 (g8/g0)*100
1959 g9 (g9/g0)*100
1960 g10 (g10/g0)*100
Una vez realizados los cálculos de la tabla anterior tenemos los

siguientes resultados para los índices simples:
Año Ganancias Índices simples
1950 12 100
1951 14 116,6666667
1952 18 150
1953 18 150
1954 19 158,3333333
1955 15 125
522
1956 12 100
1957 16 133,3333333
1958 20 166,6666667
1959 24 200
1960 35 291,6666667
Para realizar el cambio de base desde base 0 a base i tendremos en

cuenta las siguientes transformaciones de índices simples Ii.
t Índices en base 0 Índices en base i
0 0 ( 0/Ii)*
1 I1 (I1/Ii)*
2 I2 (I2/Ii)*
3 I3 (I3/Ii)*
4 I4 (I4/Ii)*
5 I5 (I5/Ii)*
6 6 ( 6/Ii)*
7 I7 (I7/Ii)*
8 I8 (I8/Ii)*
9 I9 (I9/Ii)*
10 I10 (I10/Ii)*
La estructura de la tabla anterior puede implementarse fácilmente

en fórmulas de Excel.
523
Una vez realizados los cálculos de la tabla anterior tenemos los
siguientes resultados para los índices simples en base 1960:
Índices simples
Año Ganancias
en base 1950
1950 12 100
1951 14 116,6666667
1952 18 150
1953 18 150
1954 19 158,3333333
1955 15 125
1956 12 100
1957 16 133,3333333
1958 20 166,6666667
1959 24 200
1960 35 291,6666667
Ejercicio 2. El precio de un artículo de consumo descendió en 1964 un 20% con

respecto al año anterior, pero aumentó un 50% respecto al año 1959. Hallar el
número índice de precios de 1963 tomando como año base 1959.
Los datos del problema nos dicen que:

I 63,64 = 80
I59,64 = 150
524
Por las propiedades de los índices podemos hacer lo siguiente:
Ejercicio 3. En 1960 el precio de un bien de consumo aumentó en un 60% por

encima del que tenía en 1953, mientras que su producción disminuyó en un 40%.
¿En qué porcentaje aumentó o disminuyó el índice de valor de dicho bien en 1960
con respecto a 1953?
Según el enunciado del problema tenemos que:
Ahora calculamos el índice de valor de la siguiente forma:
Como la base en 1953 es 100 y el índice de valor en 1960 es 96, dicho índice de
valor ha disminuido en un 4%.
Ejercicio 4. Hallar los números índices de precios de Laspeyres, Paasche y

Edgeworth con base 1980 = 100 de tres artículos de consumo, A , B y C, dados
los precios y cantidades correspondientes a los años 1980 a 1984 que se
presentan en la siguiente tabla:
525
Artículo A Artículo B Artículo C
Años
Precio Cantidad Precio Cantidad Precio
Cantidad
1980 2 10 5 12
10 3
1981 2 12 6 10
11 2
1982 3 15 6 5
12 3
1983 4 20 7 6
12 1
1984 4 18 8 5
13 2
Para calcular los índices de precios de Laspeyres, Paasche y Edgeworth

nos basaremos en sus expresiones generales definidas mediante:
526
Para hallar el índice de precios de Laspeyres en el año 1981 con
base en 1980 (Lp81,80) es necesario hallar å(P81*Q80)/å (P80*Q80)*100. De la
misma forma se calculan los índices de precios de Laspeyres en los años 1982,
1983 y 1984 con base en 1980 (Lp82,80; Lp83,80 y Lp84,80) usando las
expresiones: å(P82*Q80)/å(P80*Q80)*100, å(P83*Q80)/å(P80*Q80)*100 y
å(P84*Q80)/å(P80*Q80)*100.
La Figura 5-1 presenta las fórmulas de Excel adecuadas, y la

Figura 5-2 los resultados.
527
Figura 5-1
Figura 5-2
Para hallar los índices de precios de Paasche en los años 1981,

1982, 1983 y 1984 con base en 1980 (Pp81,80; Pp82,80; Pp83,80 y Pp84,80),
usamos: å (P81*Q81)/ å (P80*Q81)*100, å(P82*Q82)/å(P80*Q82)*100,
å(P83*Q83)/å(P80*Q83)*100 y å(P84*Q84)/å (P80*Q84)*100, para conseguir los
valores 112,8, 130,6, 167,5 y 170,4 respectivamente.
La Figura 5-3 muestra las fórmulas de Excel, y la Figura 7-4 los
resultados.
528
Figura 5-3
Figura 5-4
Para hallar los índices de precios de Edgeworth en los años 1981,

1982, 1983 y 1984 con base en 1980 (Ep81,80; Ep82,80; Ep83,80 y Ep84,80), se
usan las expresiones: å(P81*(Q80+Q81))/å(P80*(Q80+Q81))*100, å(P82*
(Q80+Q82))/å(P80*(Q80+Q82))*100, å(P83*(Q80+Q83))/å(P80*
(Q80+Q83))*100 y å(P84*(Q80+Q84))/å(P80*(Q80+Q84))*100, para obtener los
valores 113,2, 127,7, 154,7 y 163,9 respectivamente.
529
La Figura 5-5 muestra las fórmulas, y la Figura 5-6, los
resultados.
Figura 5-5
Figura 5-6
Para realizar cálculos con números índices siempre es conveniente

introducir como columnas los datos de los diferentes años.
530
Ejercicio 5. Con los datos del producto interior bruto a precios de mercado
(P Bpm) y del deflactor implícito del P Bpm (D Ppm) de la economía española
recogidos en el cuadro presentado a continuación:
PIBpm D Ppm
P Bpm DIPpm
Años corriente Base 1980 Años corriente
Base 1980
1970 2574,6 24,3 1982 19562,3 127,2

1971 2911,2 26,2 1983 22531,8
143,7
1972 3417,3 28,6 1984 25519,5
160,7
1973 4156,3 32,1 1985 28200,9
173,1
1974 5102,0 37,2 1986 32324,0
192,2
1975 6018,3 43,6 1987 36144,0
203,3
1976 7234,2 51,0 1988 40158,7
214,8
1977 9178,4 62,5 1989 45006,0
230,1
1978 11230,7 75,2 1990 50125,3
247,0
1979 13157,7 87,7 1991 54791,1
263,9
1980 15209,1 100,0 1992 58677,2 279,8
1. Hallar P B a precios del mercado en pesetas constantes del año 1980

para 1970-1992.
2. Calcular las tasas de variación interanual del P Bpm en pesetas
constantes del año 1980.
531
3. Hallar índices con base 1974 de la serie P Bpm en pesetas constantes del
año 1980.
4. Hallar P B a precios del mercado en pesetas constantes del año 1986
para 1970-1992.
Como la serie del deflactor que el enunciado proporciona ya está

expresada tomando como base el año 1980 (obsérvese que el valor del DIP en
1980 es igual a 100), no habrá que realizar ninguna transformación previa. Así,
dividiendo cada uno de los términos de la serie del PIBpm en términos corrientes
entre el deflactor correspondiente y multiplicando por cien el resultado, se
obtendrá la serie del PIBpm expresada en pesetas constantes del año 1980.
Comenzamos introduciendo los datos del problema como dos variables

(columnas) de la hoja de cálculo llamadas PIBpmC y DIPpm80. A su vez,
creamos la columna llamada PIBpmK80 con la fórmula (PIBpmC/DIPpm80)*100
(Figura 5-7).
Los datos así obtenidos expresan cuál fue la producción de cada año
valorada a precios del año 1980 (Figura 5-8). Así pues, cualquier variación en
los elementos de la serie obtenida será producto de modificaciones sólo en las
cantidades producidas, y no en los precios.
532
533
Los datos así obtenidos expresan cuál fue la producción de cada

año valorada a precios del año 1980. Así pues, cualquier variación en los
elementos de la serie obtenida será producto de modificaciones sólo en las
cantidades producidas, y no en los precios. Analizando la serie P BpmK80
obtenida, se observa que en la economía española, a lo largo del período 1970-
1992, el producto interior bruto a precios de mercado creció en términos reales
534
de modo generalizado, excepto en el año 1981.
Para calcular las tasas de variación interanual del PIBpmK80

creamos la columna de nombre TVP BpmK80 con la expresión PIBpmK80/
P BpmK80(-1)*100 tal y como se indica en la Figura 5-9. La nueva serie
TVPIBpmK80 que, contempla las tasas porcentuales de variación interanuales de
la serie del producto interior bruto a precios de mercado en pesetas constantes
de 1980, tal y como se observa en la Figura 5-10.
535
Analizando la nueva serie TVPIBpmK80, se observa el ritmo al que ha ido

creciendo el P Bpm español a precios constantes durante el período 1970-1992.
El período 1970-1974 pertenece a una etapa de desarrollo de la economía
española; el período 1975-1985 constituye un período de crisis; el período 1986-
1990 es un período de recuperación; y en el período 1991-1992 aparece una
nueva etapa de crisis.
536
Para calcular los números índices con base en el año 1974 de la
serie TVPIBpmK80 creamos la columna Ind74 mediante la expresión
(P BpmK80/13715,1)*100, donde 13715,1 es el valor del PIBpm de 1974 en
pesetas constantes de 1980 (Figura 5-11). Se obtiene la nueva serie Ind74, que
contempla la serie de números índices pedidos (Figura 5-12).
Figura 5-11
537
Figura 5-12
Para hallar la serie del PIBpm a precios constantes del año 1986,
necesitamos los datos del deflactor del P B en base 1986. Como el enunciado
538
nos proporciona la serie del deflactor en base 1980, será necesario realizar el
cambio de base. Para ello, creamos la columna llamada D Ppm86 con la
expresión (DIPpm80/192,2)*100 (Figura 5-13), donde192,2 es el deflactor
implícito del PIBpm de 1986 en base 1980. Se obtiene la nueva serie DIPpm86
con los datos del deflactor del PIBpm en base 1986 (Figura 5-14).
539
Figura 5-13
540
Figura 5-14
541
Ahora ya podemos hallar la serie del P Bpm a precios constantes
de 1986. Para ello creamos la columna de nombre P BpmK86 con la expresión
(P BpmC/DIPpm86)*100 (Figura 5-15) para obtener los datos de la Figura 5-16.
542
543
Figura 5-15
544
545
Figura 5-16
Ejercicio 6. Una fábrica de automóviles produce cuatro modelos, cuyos precios
de venta, costes de materiales empleados y números de unidades producidas en
los últimos tres años fueron los siguientes:
_________1985_______ _________1986________
_________1987________
Modelos Precio Nº de Precio Nº de Precio
Nº de
venta Coste unidades venta Coste unidades venta
Coste unidades
205 0,9 0,4 3 200 1,1 0,5 4 100 1,2

0,6 5 600
309 1,3 0,6 4 200 1,3 0,7 3 000 1,5
0,7 4 300
405 1,9 1,0 2 300 2,0 1,1 2 400 2,1
1,3 2 000
605 3,8 2,2 1 700 4,1 2,5 1 500 4,3
2,8 1 200
1. Hallar el índice de producción de Laspeyres para 1986 y 1987, con base

1985.
2. Hallar los índices cuánticos de Paasche, con la misma base.
3. Hallar los índices de precios de Laspeyres, con la misma base.
En los índices de cantidades, las ponderaciones han de ser valores

añadidos, para evitar dobles contabilizaciones y sobreestimaciones. Luego las
ponderaciones serán los valores precio de venta-coste.
El índice de producción de Laspeyres tiene la siguiente expresión:
546
Para calcularlo construiremos una tabla con variables (columnas)
que reflejan los precios de venta, costes y cantidades para los cuatro modelos de
automóviles. Para calcular el índice de producción de Laspeyres en el año 1986
con base en 1985 usamos la expresión definida como Lq86,85 = å(Q86*(P85 -
C85)) /SUM(Q85*(P85 - C85))*100. Se obtiene el valor 93,3. De la misma forma
se calcula el índice de producción de Laspeyres en el año 1987 con base en
1985, utilizando la expresión Lq87,85 = å(Q87*(P85 - C85))/SUM(Q85*(P85 -
C85))*100, para obtener el valor 102,1. La Figura 5-17 muestra las fórmulas y la
Figura 5-18 los resultados.
Figura 5-17
547
Figura 5-18
El índice de cantidades de Paasche tiene la siguiente expresión:
Para calcular los índices de cantidades de Paasche en los años 1986 y

1987 con base 1985, usamos: Pq86,85 = å(Q86*(P86-C86))/SUM(Q85*(P86-
C86))*100 y Pq87,85 = å(Q87*(P87 - C87)) /SUM(Q85*(P87 - C87))*100, para
obtener los valores 95,6 y 105,5 respectivamente. La Figura 5-19 muestra las
fórmulas de Excel y la Figura 5-20 muestra los resultados.
548
Figura 5-19
Figura 5-20
549
El índice de precios de Laspeyres se calcula mediante la siguiente
expresión:
Para calcular los índices de precios de Laspeyres en los años 1986 y

1987 con base en 1985, utilizaremos las expresiones definidas por Lp86,85 =
å(P86*Q85)/SUM(P85*Q85)*100 y Lp86,85 = å(P87*Q85)/SUM(P85*Q85)*100,
para obtener los valores 107,2 y 116,2 respectivamente. La Figura 5-21 muestra
las fórmulas de Excel y la Figura 5-22 muestra los resultados.
550
Ejercicio 7. Consideremos cuatro productos de una industria, cuyos precios de

venta y producción son los siguientes:
1979 1988
Productos
Precio Cantidad Precio
Cantidad
Producto A 225 200 314 320

Producto B 75 15 82
21
Producto C 68 10 75
14
Producto D 109 34 120 50
Hallar el índice de valor para 1988 con base en 1979.
En este problema suponemos que los precios que nos dan representan
también el valor añadido de cada producto, que es tanto como decir que el coste
de las materias primas empleadas es cero. Pueden asimilarse a este caso, en
551
parte, las industrias integrales y las industrias de la primera fase del proceso
productivo.
Comenzamos introduciendo los datos en una tabla creando variables

(columnas) que reflejan los precios y cantidades para los cuatro productos. Para
hallar el índice de valor de la producción para 1988 base 1979, utilizamos Iv87,86
= å(P88*Q88)/ å(P79*Q79)*100. Se obtiene el índice de valor 216,29. La Figura
5-23 muestra las fórmulas de Excel y la Figura 5-24 muestra los resultados.
Figura 5-23
552
Figura 5-24
Ejercicio 8. A partir de los datos que se exponen a continuación, calcular el tipo

de cambio efectivo nominal TCEN de la peseta frente al conjunto de países de la
Unión Europea.
Países CO85 CO91 X

M P91
Francia 19,00 18,42 1244,354,9 1467,708,8

120,2
Alemania 57,99 62,64 992,575,6 1565,523,7
110,7
Italia 8,92 8,38 706,740,4 971,727,0
140,0
Reino Unido 219,46 183,29 477,873,8
728,191,2 141,3
Países Bajos 51,41 55,58 267,741,4
339,545,9 107,7
Bélgica-Luxemburgo 287,41 304,23 193,745,9
553
287,477,0 114,6
Portugal 98,96 71,93 410,428,3
263,276,2 190,6
Dinamarca 16,10 16,24 54,288,1
75,441,8 124,1
Irlanda 180,53 167,31 21,658,3
74,245,1 121,4
Grecia 123,43 5 7,09 47,621,1
24,182,1 265,9
La expresión del TCEN es la siguiente:
donde W i = (Xi+M i)/(X+M), siendo Xi las exportaciones españolas con destino

al país i, M i las importaciones españolas procedentes del país i, X el total de
exportaciones españolas destinadas al conjunto de países en cuestión, y M el
total de importaciones españolas procedentes del conjunto de países. Ci0 y Cit
representan las cotizaciones oficiales de la peseta frente a la moneda del país i
en el año base y en el año t respectivamente. Pt y P0 son los índices de precios
de España en los instantes base, y t, y Pi0 y Pit son los índices de precios del
país i en el año base y en el año t.
Comenzamos introduciendo los datos ordenadamente en una tabla

creando variables (columnas) que reflejan las magnitudes del problema. Para
calcular el indicador TCEN, generamos la variable de expresión:
554
Para hallar el TCEN basta con hacer el producto de los elementos
de la columna TCENt y multiplicar por 100; es decir, elevaremos a la potencia 10
la media geométrica de la variable TCENt y multiplicaremos por 100. La Figura
5-25 muestra las fórmulas, y la Figura 5-26, los resultados.
Figura 5-25
555
Figura 5-26
Ejercicio 9. Dada la tabla de exportaciones (X) e importaciones (M) españolas y

comunitarias por sectores del año 1989 que se presenta a continuación:
España 1989
UE 1989
Sector
X M X M
1. Productos alimenticios 5424 .418

87820 97225
2. Bebidas y tabaco 686 741
556
16380 11633
3. Materias primas 1634 4824
31401 65480
4. Productos energéticos 1906 7148
34794 86508
5. Aceites y grasas 383 217
4002 4266
6. Productos químicos 3902 6307
124782 108157
7. Productos manufacturados 9001 8178
197244 194880
8. Maquinaria y material de transporte 15230 24.112
393977 348614
9. Artículos diversos 4514 5996
127949 130465
Total 42680 62941
1018349 1047228
1. Hallar los indicadores de ventaja comparativa revelada, saldo comercial

relativo (SCR) e índice de contribución al saldo (ICS).
2. Hallar los índices de especialización (IE) y de dependencia ( D).
3. Hallar el índice de comercio intraindustrial (ICI).
Los indicadores de ventaja comparativa revelada analizan el

comercio exterior por sectores, y los más usuales son el saldo comercial relativo
(SCR) y el índice de contribución al saldo (ICS). Ambos índices se construyen a
partir del saldo comercial de cada sector. Si llamamos Xi y M i a las
exportaciones e importaciones del sector i, sus expresiones son:
557
Para resolver este problema comenzamos construyendo una tabla
con los datos en las columnas XE (exportaciones españolas), ME (importaciones
españolas), XUE (exportaciones de la Unión Europea), y MUE (importaciones de
la Unión Europea). Para hallar el saldo comercial relativo, creamos la columna
llamada SCR con la expresión (XE-ME)/(XE+ME)*100. Sectores con SCR
positivo indican que el país presenta ventaja comparativa para el sector en
cuestión.
Para hallar el índice de contribución al saldo, creamos la columna

llamada ICS, con la expresión ((XE-ME)/(XE+ME) - å(XE-ME) / å(XE+ME))
*100. Para simplificar las expresiones usamos como apoyo S = XE+ME y D=XE-
ME. Sectores con ICS positivo contribuyen positivamente al saldo comercial
español, dado que su saldo comercial relativo es superior al de la economía
española en su conjunto.
Los índices de especialización (IE) y dependencia ( D) comercial

comparan la estructura comercial española con la de una agrupación de países
de referencia, por ejemplo la Unión Europea, considerando por separado la
vertiente exportadora de la importadora. Si consideramos las exportaciones e
importaciones del sector i (Xi y M i) relativas a España (ESP) y a la Unión
Europea (UE), estos índices se expresan de la siguiente manera:
558
El índice de comercio intraindustrial se utiliza cuando en los
diferentes sectores se produce simultáneamente la exportación e importación de
un mismo tipo de productos. Su expresión es:
559
Para hallar el índice de especialización, que ya es un indicador de
comparación de la estructura comercial española con la de la Unión Europea,
creamos la columna llamada E mediante la fórmula ((XE/å(XE))/(XUE/
å(XUE)))*100. Para sectores con IE superior a 100, sus exportaciones tienen
una representación mayor en España que en el conjunto de la Unión Europea.
Para hallar el índice de dependencia, que es otro indicador de

comparación de la estructura comercial española con la de la Unión Europea,
creamos la columna llamada D, mediante la fórmula ((ME/å(ME))/(MUE/
å(MUE)))*100. Para sectores con D inferior a 100, sus importaciones tienen
una representación menor en España que en el conjunto de la Unión Europea.
Para hallar el índice de comercio intraindustrial, que es otro

indicador de comparación de la estructura comercial española con la de la Unión
Europea cuando se produce simultáneamente la exportación y la importación de
un mismo tipo de productos, creamos la columna llamada ICI mediante la fórmula
(1-| XE-ME| /(XE+ME))*100. Para sectores con ICI próximo a 100, existe un
elevado índice de comercio intraindustrial.
La Figura 7-27 muestra todas las fórmulas para la generación de todas las
series utilizas durante el problema, y la Figura 7-28 presenta los resultados, en
los que pueden analizarse los comentarios realizados a lo largo del problema.
560
Figura 7-27
561
Figura 7-28
Ejercicio 10. Tenemos los siguientes datos sobre el índice de precios al

consumo (IPC) con base 1983 = 100:
Grupos Índices Ponderaciones

Índice mensual
base 1983 = 100 medio
de 1986
1. Alimentos, bebidas y tabaco 100 330,3

136,9
2. Vestido y calzado 100 87,4
134,1
3. Vivienda 100 185,7
122,1
562
4. Menaje 100 74,1
131,5
5. Servicios médicos y sanitarios 100
23,9 123,8
6. Transportes y comunicaciones 100 143,8
121,3
7. Esparcimiento, enseñanza y cultura 100 69,6
129,6
8. Otros bienes y servicios 100
85,2 137,9
Total 100 1000,0

130,5
1. Hallar las repercusiones y participaciones de cada uno de los grupos del

PC en la variación sufrida por el índice general en 1986.
2. ¿Qué grupos son los más y los menos afectados por la subida de
precios?
La serie de repercusiones en la variación global del IPC desde 1983 a

1986 para los distintos grupos, viene dada por la fórmula Ri=DIiW i/åW i. Para
resolver este problema comenzamos creando una tabla e introduciendo los datos
del problema en las columnas de nombres IPC83, W e IPC86. Para hallar las
repercusiones creamos la columna llamada REP con la fórmula (IPC86 -
PC83)*W/å(W). Se obtiene la nueva serie REP de repercusiones en la variación
global del IPC desde 1983 a 1986 para los distintos grupos.
Para hallar la participación de cada grupo en la variación del PC,

utilizamos la fórmula Pi=Ri/DLp. Pero DLp es un dato del problema en su fila de
totales, que vale 130,5 - 100 = 30,5. Si este dato no fuese dado, se calcularía
mediante la fórmula de Laspeyres Lp = åIiWi/åWi.
Para hallar las participaciones, creamos la columna llamada PAR

con la fórmula (REP/30,5)*100. Se obtiene la nueva serie PAR de participaciones
de cada grupo en la variación global del IPC desde 1983 a 1986. La Figura 7-29
563
presenta las fórmulas, y la Figura 7-30 presenta los resultados.
Figura 7-29
Figura 7-30
Ejercicio 11. Hallar el índice bursátil para 1986, con base 1980=100, de la
564
siguiente cartera de valores (volumen de negocio en 109 pesetas):
1980 1986
Cotización Volumen negociado Cotización
Bancos 230 25,4 614

Eléctricas 94 10,3 153
Inmobiliarias 112 7,1 510
Monopolios 125 8,9 325
Químicas 82 2,1 184
Metalúrgicas 75 0,8 415
Inversión mobiliario 60 3,4 825
Varios 107 0,5 407
Como norma general, los índices de cotizaciones de bolsa suelen ser

medias ponderadas de índices simples de cotizaciones Ct/C0 del tipo Laspeyres,
usando como ponderaciones W los volúmenes de contratación de cada título en el
año base, con lo que IB=å(Cit/Ci0)W i0/åW i0.
Comenzamos introduciendo los datos en la hoja de cálculo creando las

variables con los datos del problema. Para calcular el índice de cotizaciones en
bolsa en el año 1986 con base en 1980, utilizamos la expresión definida mediante
SUM((CO86/CO80)*W80)/SUM(W80)*100. Para facilitar los cálculos se
introduce la abreviatura B=(CO86/CO80)*W80. La Figura 7-31 muestra todas
las fórmulas para la generación de todas las series utilizadas durante el
problema, y la Figura 7-32 presenta los resultados.
565
El resultado nos indica que desde el año 1980 al año 1986, el valor de la
cartera de valores aumentó en un 238,175 por ciento.
Ejercicio 12. Se consideran dos distribuciones de salarios en dos fábricas A y B

por día y trabajador. Los datos son los siguientes:
Fábrica A Fábrica B
566
Salario Nº de trabajadores Salario Nº de
trabajadores
800 20 800 10
1 000 10 1 000 30
1 200 10 1 200 30
1 500 10 1 500 20
7 500 50 7 500 10
1. Analizar ambas distribuciones de salarios mediante el índice de

concentración de Gini. ¿Cuál de los dos salarios es más equitativo?
2. Hallar los puntos de las curvas de Lorentz para analizar la concentración
de las distribuciones de salarios en las dos fábricas y comentar los
resultados.
Comenzamos creando una tabla con los datos de las dos distribuciones
de salarios en sus columnas. Para calcular los índices de Gini relativos a ambas
distribuciones, creamos las columnas de nombres pA, pB, pTnA y pTnB (sumas
acumuladas de nA, nB, T*nA y T*nB respectivamente).
Luego, creamos las columnas qA = pTnA)/å(TnA)*100 y qB =

pTnB)/å(TnB)*100 respectivamente.
Para calcular el índice de Gini de la distribución A, utilizamos la

fórmula dada por å(pA-qA)/(å(pA) -100). Se obtiene el índice 0,778.
Para calcular el índice de Gini de la distribución B, utilizaremos la

fórmula dada por å(pB - qB)/(å(pB) -100). Se obtiene el índice 0,404.
Dado que el índice de Gini de la empresa A es mayor que el de la empresa

B, la concentración de salarios es mayor en la empresa A, luego la mejor
distribución de salarios entre sus trabajadores la tiene la empresa B.
La Figura 7-33 presenta las fórmulas para el cálculo de los índices de Gini
de las empresas A y B, y la Figura 7-34 presenta los resultados.
567
Figura 7-33
Figura 7-34
Para representar las curvas de Lorentz de las empresas A y B,

graficaremos los pares de puntos (pA,qA) y (pB, qB).
Para representar la curva de Lorenz de la empresa A, seleccionamos las

dos columnas pA y qA en la hoja de cálculo (Figura 7-35), hacemos clic en la
568
opción Dispersión con líneas suavizadas del grupo Gráficos de la ficha Insertar
y obtenemos la curva de Lorenz de la empresa A (Figura 7-36). Realizando
pasos similares para la empresa B, se obtiene su curva de Lorenz (Figura 7-37).
Figura 7-35
569
La curva de Lorentz de la empresa A está más alejada de la diagonal que la
de la empresa B, luego la distribución de la renta es mejor en la empresa B,
siendo la concentración menor en dicha empresa. No olvidemos que la curva de
Lorentz es más curvada (se aleja más de la diagonal) cuanto más desigual sea
la distribución y más fuerte la concentración.
570
571

Excel Y La Estadistica - P. Vidales

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Excel Y La Estadistica - P. Vidales

Cargado por

Copyright:

Formatos disponibles

EXCEL Y LA ESTADÍSTICA

VARIABLES ESTADÍSTICAS Y DISTRIBUCIONES DE FRECUENCIAS

MEDIDAS DE POSICIÓN, DISPERSIÓN Y FORMA

NÚMEROS ÍNDICES Y MEDIDAS DE CONCENTRACIÓN

Este libro trata los temas elementales de la estadística desde una

También existen otras herramientas adicionales como Solver, que

La Cinta de opciones presenta fichas orientadas a tareas que

La Barra de herramientas de acceso rápido aparece de forma

Una Hoja de cálculo u Hoja de trabajo (abreviadamente Hoja) es

Un Libro de trabajo (abreviadamente Libro) es un conjunto de

Pueden introducirse y modificarse los datos en varias hojas de

El libro de trabajo se corresponde con el concepto de fichero o

Los libros de trabajo ayudan a organizar los proyectos y a guardar

De todos modos, Excel siempre guarda internamente el número

Cuando se introduce más de un número, después de haber

En Microsoft Excel, un número puede tener sólo los siguientes

Para cambiar la alineación, seleccione la celda o celdas que

Haga clic en el Archivo y, a continuación, pulse en Opciones.

En la Figura 1-55 haga clic en la categoría Complementos de

En el cuadro Administrar (Figura 1-55), haga clic en

En el cuadro Complementos disponibles (Figura 1-56), active la

Las variables cuantitativas pueden ser discretas y continuas.

Una variable es discreta cuando toma una cantidad finita o numerable

Una variable es continua cuando toma una infinidad no numerable de

Las variables cualitativas suelen clasificarse, según la naturaleza de los

Las variables nominales describen las categorías directamente por su

Las variables ordinales describen las categorías por el orden que

Las variables cuantitativas suelen clasificarse en variables ratio, que

Cuando los datos están dispersos, la dispersión sigue un cierto patrón.

Normalmente es posible ver la forma general de una distribución si se

Hay muchos métodos para construir histogramas. Cuando los

El agrupamiento de los datos en clases condensa los datos

Las distribuciones de frecuencias son la herramienta más sencilla

El fin principal de la preparación de una distribución de

Dejar bien visible la distribución de la variable estudiada e

Analizar, controlar y mostrar las capacidades de los procesos de

Ayudar a determinar el promedio, la desviación estándar, los

Probar a qué tipo de distribución matemática se puede acoplar

¿Está el promedio de la distribución en una posición adecuada?

¿Cómo es la dispersión de la distribución respecto al promedio?

¿Cuál es la relación entre valores tales como la desviación

¿Hay algunos huecos, como dientes que faltan, o subidas o

¿Hay algunos puntos aislados fuera del cuerpo principal de la

¿Son aceptables los valores máximo y mínimo de la distribución?

¿Es asimétrica la distribución, con un extremo mucho más largo

¿Tiene aspecto de acantilado la parte izquierda o la derecha de

¿Tiene más de un pico la distribución?

¿Es demasiado agudo o demasiado chato el pico de la

A la hora de representar distribuciones de frecuencias será

La Figura 2-11 muestra el polígono de frecuencias simple relativo

El argumento datos es una matriz de un conjunto de valores o una

La función FRECUENCIA se introduce como una fórmula

Pulse en la opción En un libro nuevo para crear un nuevo libro y

Active la casilla Pareto (Histograma ordenado) para presentar los

Active la casilla Porcentaje acumulado para generar una columna

Active la casilla Crear gráfico para generar un gráfico de

En la Figura 2-33 se muestra la salida correspondiente al

El diagrama de barras y el polígono de frecuencias suelen ofrecer

Como se trata de una variable cuantitativa con 154 valores

Para hallar las frecuencias absolutas por clases, se utiliza la

Conocidas las frecuencias absolutas, ya podemos construir la

Pero estas medidas de posición de una distribución de frecuencias han de

Media aritmética: Se define como la suma de todos los valores de la distribución

A la mayor o menor separación de los valores de una distribución