Apuntes Estadistica Descriptiva-2008

!
""
7.1.- Introduccin
!
"
La palabra estadstica proviene del latn status o estado, sin embargo, esta
palabra slo describe en parte su significado real, es decir, solo describe la funcin
de la estadstica de llevar registros ordenados de datos para describir el estado de
las cosas. La estadstica como se concibe hoy en da va ms all de esta simple
funcin.
En forma muy general, la estadstica es la ciencia que se ocupa de la recoleccin,
clasificacin, organizacin, anlisis, sntesis e interpretacin de datos. En palabras
sencillas podramos decir que la estadstica es la ciencia de los datos
En trminos generales la estadstica aborda dos tipos de problemas:
Resumir, describir y explorar datos.
Utilizar datos de una muestra para inferir la naturaleza del conjunto del cual se
escogi la muestra.
As, la estadstica se divide en dos partes ntimamente relacionadas:
Estadstica Descriptiva.- Esta es la parte de la estadstica que se dedica a la
organizacin, sntesis y descripcin de conjuntos de datos.
Esta es importante, ya que antes de que la mente humana pueda interpretar (hacer
inferencias es interpretar) un conjunto de datos, especialmente cuando estos son
demasiados, es necesario resumirlos o representarlos de manera clara, simplificada o
reducida.
Estadstica Inferencial.- Esta rama de la estadstica trata el problema de inferir la
naturaleza de un conjunto de datos a partir de una muestra de dichos datos.
Al conjunto total de donde se toman los datos que se desea describir se denomina la
poblacin, mientras que una muestra es un subconjunto de datos seleccionados
de la poblacin.
La estadstica se puede ver como el conjunto de herramientas que nos permiten
establecer inferencias estadsticas (conclusiones fundamentadas en datos) a partir de
muestras tomadas de una poblacin sobre la cual se realizan las inferencias. Por lo
tanto, la estadstica proporciona tcnicas para
El muestreo (la toma de datos)
La descripcin, anlisis y representacin de los datos
El planteamiento y validacin de hiptesis basadas en los datos

La obtencin de modelos de comportamiento de la poblacin basadas en los
datos
En la siguiente figura se ilustran las diferentes partes del proceso que van desde la
toma de datos a la elaboracin de inferencias estadsticas:
160
H istog ram a d e la P o b lacio n
140
&
Frecuencia
120
'
(
'
!
100
80
$
%&
( %)&
%&
60
40
20
0
-4
-2
0
Clas es
Histograma de la Muestra
16
14
Frecuencia
12
10
8
'
!
6
4
2
0
-4
-2
0
Clases
#
%
( #
#
&
% )&
% &
7.2.- Muestreo aleatorio: Una muestra confiable no es cualquier muestra. Un proceso

de muestreo que nos permite tener datos no contaminados de origen debe ser:
Aleatorio. Es decir, debe ser imposible predecir cual es el siguiente dato de la
poblacin a ser tomado en la muestra.
Equiprobable. Todos los datos de la poblacin deben tener la misma
probabilidad de ser tomados en la muestra. Esto nos garantiza que no se dar
ms preferencia a algunos sectores de la poblacin que a otros.
Independiente. La inclusin de un dato en la muestra no debe afectar la
probabilidad de que otro dato sea o no tomado en ella. Esto significa que el
muestreo en general debe ser con reemplazo.
Poblaciones infinitas. Para poblaciones infinitas, el muestreo con o sin reemplazo no
produce diferencias apreciables, ya que el devolver una muestra o no antes de tomar la
siguiente no altera la poblacin. Para propsitos prcticos una poblacin finita muy
grande puede considerarse casi infinita.
Ejercicio:
Al efectuar un estudio de las corrientes de carga de los sistemas de alimentacin de
computadoras en 146 instalaciones de los Estados Unidos (IEEE Transactions on
Industry App. Julio/Agosto 1990) se detect que menos del 10% de estas instalaciones
tenia una corriente elevada del neutro respecto a la corriente nominal.
a) Cual es la poblacin de inters?
b) Cual es la muestra?
c) Hacer una inferencia sobre la poblacin basada en la muestra.
Tipos de datos. Los datos pueden ser de tipo Cuantitativo o bien pueden ser
Cualitativos (o categricos) estos ltimos no tienen interpretacin de cantidad, solo
pueden clasificarse en base a criterios.
Son ejemplos de datos cualitativos: Ocupaciones de los egresados de Ingeniera
Elctrica, Empresas dedicadas a la comercializacin de circuitos Integrados,- Materiales
usados en la construccin, etc.
7.3.- Tablas de Frecuencia e Histograma

Toma de datos.- Como ya se mencion, los datos con que cuenta la estadstica son
datos tomados de una muestra, no de la poblacin total, si se tomaran datos de la
poblacin total no habra necesidad de hacer inferencias, ya que se contara con toda la
informacin de la poblacin y en lugar de inferir bastara con consultar el dato
correspondiente. Sin embargo, en una poblacin muy numerosa es imprctico y costoso
tomar datos de toda la poblacin, por ello es necesario seleccionar muestras y a partir
de los datos de la muestra hacer inferencias.
En la medida de lo posible es recomendable manejar datos cuantitativos, ya que estos
permiten una representacin ms adecuada para extraer informacin visual. Existe una
gran cantidad de herramientas dedicadas a la representacin de los datos que nos
permiten extraer informacin visual ms rpida que la inspeccin dato por dato. Estas
herramientas se ilustrarn con el siguiente ejemplo:
Ejemplo.
La siguiente es una muestra de las calificaciones de 20 alumnos, obtenidas en un curso
anual de Matemticas:
3.6
7.0
2.4
8.0
5.5
7.0
6.5
5.7
6.4
2.7
6.5
7.6
6.5
8.6
6.6
5.5
7.4
7.8
6.3
7.2
Ordenamiento de datos.
El simple ordenamiento de los datos nos permitir observar algunos comportamientos a
simple vista que no son fciles de obtener con los datos desordenados. Para el
ejemplo, ordenamos los datos del 0 al 10 como sigue:
2.4, 2.7, 3.6, 5.5, 5.5, 5.7, 6.0, 6.3, 6.4, 6.5, 6.5, 6.5, 7.0, 7.0, 7.2, 7.4, 7.6, 7.8, 8.0, 8.6
No. De alumnos
Opcionalmente podemos adems hacer una representacin grfica de los datos con
respecto al orden indicando adems los que se repiten y cuantas veces lo hacen.
4
3
2
1
0
2.4
2.7
3.6
5.5
5.7
6.3
6.4
6.5
7.2
7.4
7.6
7.8
8.6
Calificacin
Tanto la lista ordenada como la grfica anterior nos proporcionan una mayor
informacin a simple vista; por ejemplo, es fcil advertir de ambas que:
- La mayor parte de alumnos obtuvieron calificaciones entre 5.5 y 8
- Nadie obtuvo calificaciones menores de 2.4 ni mayores de 8.6.
Diagrama de Tallo y Hojas.
Esta es una de las tcnicas ms simples para representar los datos y consiste en
clasificarlos en renglones de acuerdo a un tallo consistente en el primer dgito,
anotando en forma de lista los dgitos siguientes formando las hojas para cada tallo. De
esta manera se obtiene un diagrama en el que la longitud de las ramas nos dice a
simple vista en que tallo caen ms o menos datos. Para el ejemplo este diagrama
quedara como sigue
Tallo
2
3
5
6
7
8
H o j a s
.4
.6
.5
.3
.0
.0
.7
.5
.4
.0
.6
.7
.5
.2
.5
.4
.5
.6
.6
.8
Tablas de Frecuencia.
La misma informacin puede ser representada en una Tabla de Frecuencias la cual se
presenta a continuacin para el mismo ejemplo:
Calificacin Frecuencia Frecuencia Frecuencia Frec. Rel.
xi
fi
Acumulada Relativa Acumulada
2.4
1
1
0.05
0.05
2.7
1
2
0.05
0.10
3.6
5.5
5.7
6.0
6.3
6.4
6.5
7.0
7.2
7.4
7.6
7.8
8.0
8.6
1
2
1
1
1
1
3
2
1
1
1
1
1
1
3
5
6
7
8
9
12
14
15
16
17
18
19
20
0.05
0.10
0,05
0.05
0.05
0.05
0.15
0.10
0.05
0.05
0.05
0.05
0.05
0.05
0.15
0.25
0.3
0.35
0.4
0.45
0.6
0.7
0.75
0.8
0.85
0.9
0.95
1.0
La frecuencia de un dato es simplemente el nmero de veces que aparece dicho

dato.
La frecuencia relativa es el cociente de la frecuencia entre el total de datos.
As, si el dato xi se repite fi veces en una muestra de n datos:
- Su frecuencia ser fi
- Su frecuencia relativa ser fi/n
La frecuencia relativa tambin puede expresarse en porcentaje simplemente
multiplicndola por 100 y nos indica el porcentaje de veces que aparece el dato
respecto al total.
La frecuencia acumulada de un dato ser la suma de todas las frecuencias de los
datos menores o iguales a l y la frecuencia relativa acumulada es simplemente la
frecuencia acumulada dividida entre el nmero total de datos.
Datos Agrupados
Cuando las muestras de datos son muy grandes, la representacin anterior puede ser
muy complicada o hasta confusa, en este caso conviene agrupar los datos de acuerdo
a la definicin de clases a las que pertenecen los datos:
Para ello se elige primeramente un intervalo (I) que contenga todos los datos y luego se
divide este intervalo en subintervalos llamados Intervalos de Clase o Clases. A los
puntos medios de estos intervalos se les llama Marcas de clase.
Al nmero de datos de una clase se le llama Frecuencia de clase y a su cociente
entre n (nmero de datos de la muestra) se le llama Frecuencia relativa de clase
Ejemplo:
Para el ejemplo de las calificaciones podemos elegir el intervalo total de muchas

maneras, por ejemplo como el intervalo del 2 al 9, es decir, I=[2,9]. Si dividimos este
intervalo en 5 intervalos de clase, la tabla de frecuencias para los datos agrupados
quedar como sigue:
Intervalo de Marca de
clase
Clase x
2.0 - 3.4
2.7
3.4 - 4.8
4.1
4.8 - 6.2
5.5
6.2 - 7.6
6.9
7.6 - 9.0
8.3
Frecuencia
de clase
2
1
4
9.5
3.5
Frecuencia
Relativa f(x)
0.1
0.05
0.2
0.475
0.175
Frec. Rel.
Acumulada F(x)
0.1
0.15
0.35
0.815
1.0
Esta informacin se puede representar en la siguiente grfica denominada

Histograma de los datos agrupados
0.5
0.45
Frecuencia Relativa
0.4
0.35
0.3
0.25
0.2
0.15
Polgono de
frecuencias
0.1
0.05
0
2.0
2.7
3.4
4.1
4.8
5.5
Clases
6.2
6.9
7.6
8.3
9.0
A la lnea roja que une las alturas de los rectngulos sobre las marcas de clase se le
denomina polgono de frecuencias
Y si gratificamos el rea bajo la curva del histograma (considerando el ancho de los
intervalos de valor unitario), obtenemos el diagrama de frecuencia acumulada que suele
llamarse la curva de distribucin (o Curva de de Frecuencia Acumulada).
Lmites y lmites reales de clase
En el ejemplo anterior los lmites de clase son compartidos por clases consecutivas, por
lo cual ha sido necesario dividir los datos que caen en un lmite por mitad. Algunos
autores acostumbran indicar los intervalos de clase mediante nmeros adyacentes, de
manera que nunca se compartan los lmites entre clases consecutivas, por ejemplo:
Clase 1 : de 2.00 a 3.35

Clase 2 : de 3.4 a 4.75
Clase 3 : de 4.8 a 6.15
Clase 4 : de 6.2 a 7.55
Clase 5 : de 7.6 a 8.95
En estos casos los lmites reales estn a la mitad entre las fronteras de una clase y la
siguiente, en este caso, los intervalos reales seran:,
2 a 3.375, 3.375 a 4.775, 4.775 a 6.175, 6.175 a 7.575 y 7.575 a 9.0
7.4.- Medidas descriptivas de una distribucin de datos.
Es importante tener algunas medidas que nos permitan dar una descripcin rpida
sobre la forma que tiene el histograma de los datos y que lo hace diferente o parecido a
otros histogramas. Para ello se han definido medidas que nos dan informacin de
manera sinttica sobre si el histograma es simtrico, si es muy plano o muy puntiagudo,
sobre donde est su centro, etc.
Estas medidas se denominan medidas descriptivas numricas y son cantidades
calculadas a partir de un conjunto de datos que nos ayudan a crear una imagen mental
de su histograma de frecuencia relativa. Estas medidas son de tres tipos:
Medidas de tendencia central.- Nos ayudan a ubicar el centro del histograma.
Medidas de dispersin.- Nos ayudan a medir que tan disperso esta el histograma
respecto a su centro.
Medidas de posicin relativa.- Describen la ubicacin de una observacin dentro
del conjunto de datos (un dato dentro de la muestra).
A estas medidas tambin se les llama estadsticos y su caracterstica fundamental es
que son medidas descriptivas y numricas calculadas a partir de la muestra.
En forma similar, un Parmetro.- Es una medida descriptiva numrica de una
poblacin no de una muestra. Es decir, se supone que los parmetros son las
cantidades que describen a la poblacin y normalmente no se conocen, slo se
pueden inferir a partir de los estadsticos.
7.4.1.- Medidas de Tendencia Central
La Media Aritmtica o Media Muestral (
promedio de los valores de la muestra.
).- Nos da una indicacin del tamao
As, para N datos (X1,X2 ,..., XN), la media se calcula como sigue
=
'
+ +
Es decir,
*
=*
Ejemplo. Para el caso de las calificaciones:
=+ *
Un caso ms general que la media aritmtica es la media ponderada que se calcula

como
=
*
=*
Donde los coeficientes ai son los "pesos" o ponderaciones que se les da a los diferentes
datos xi.
* Obviamente en el caso particular en que
convierte en la media aritmtica.
= * , esta media ponderada se
La Mediana ( ).- Es el nmero (no necesariamente un dato) para el cual el 50% de

los datos son menores o iguales que l.
Ejemplo:
Para el caso de estudio.
= 6.5
En general la mediana se puede calcular como sigue:

.=
-
- , / + -* + , /
- ' , +*) /
As, para el ejemplo N=20 (par)

.=
-
**
= + 10+ 1 = + 1
Media y Mediana de Datos Agrupados

Evidentemente las ecuaciones anteriores solo sirven para los datos no agrupados. En
el caso de que los datos ya estn agrupados y sea necesario calcular la media y la
mediana, ya no es posible hacerlo de manera exacta, sin embargo, una buena
aproximacin se puede obtener de la siguiente manera
Media de datos agrupados
=
*
=*
Donde: Nc = nmero de clases

Xi = marca de la clase i-esima
fi = frecuencia relativa de la clase i-esima
Para el ejemplo de las calificaciones:

- =2.7*0.1+4.1*0.05+5.5*0.2+6.9*0.475+8.3*0.175=6.305
Mediana de datos agrupados

. = (lim. Inf. del IM) + [N/2- (frec. acumulada antes del IM)/2]*(Amplitud del IM.)
-
Donde:
IM = Intervalo mediano = Intervalo de clase en el que cae la mediana el valor que est a
la mitad de los datos.
As, para el ejemplo, el Intervalo mediano es (6.2,7.6), entonces
. = 6.2 + (10-7/9.5)*(1.4) = 6.642
-
La Moda.- Se le llama moda simplemente al dato que ms se repite en una muestra.

(En datos agrupados corresponde a la marca de clase en la que ocurre el mximo del
histograma)
La moda no siempre es nica, por lo que una muestra puede ser unimodal o
multimodal dependiendo de si tiene una o varias modas.
Para el ejemplo la moda de los datos sin agrupar es 6.5, sin embargo, si consideramos
datos agrupados, la moda es 6.9
Observacin: La moda no siempre es nica, as, podemos tener distribuciones de datos
con varias modas, en tal caso se llaman multimodales.
Interpretacin geomtrica de la media, mediana y moda
Una manera de visualizar de manera geomtrica el significado de media, mediana y
moda es considerando el perfil del polgono de frecuencias como si fuera un figura
plana, es decir, sin dibujramos el histograma sobre una lmina plana de material
homogneo y lo recortramos, podemos afirmar lo siguiente:
2
2
2
La Moda es el punto ms alto de la figura.

La Mediana es el punto que divide a la figura en dos reas iguales.
La Media es el punto de equilibrio (centro de masa) de la figura.
Esta idea se ilustra en la siguiente figura
4#
* 3
Esto significa que la media es ms sensible al brazo de palanca, es decir, la media es

ms afectada que la mediana por datos muy alejados del centro del histograma
llamados outlayers o datos atpicos que suelen aparecen debido a errores en la toma
de datos, por ello se dice que la mediana es una medida ms robusta que la media
Otras medidas de centralizacin
La media geomtrica (Mg).- Esta calcula un centro basado en la raz de orden n del
producto de los datos, es decir,
Mg= *
Por ejemplo, para la ubicacin de un valor medio pesimista para la constante beta de
un transitor.
La media armnica (MH).- Esta es el recproco de la suma de los recprocos de todos
los datos, es decir,
5
*
+ *
-* -
,
+ + -*
Por ejemplo, el valor equivalente de un arreglo de resistencias en paralelo.

La media RMS (MRMS o raz cuadrtica media).- Es la raz cuadrada de la suma de los
cuadrados de cada dato, dividida entre el nmero de datos.
=
*
,
'-* + - +
+ -, )
Por ejemplo, el valor medio de un voltaje de corriente alterna.

7.4.2.- Medidas de posicin relativa.
Cuartiles, deciles y percentiles
Los cuartiles, deciles y percentiles son medidas para indicar la posicin relativa de
algn dato en particular, sin embargo, tambin pueden ser utilizadas para indicar
dispersin
El k-simo percentil de un conjunto de datos es el valor (no necesariamente un
datgo) para el cual el k% de los datos ordenados son menores o iguales que l
(queda a la izquierda de l) y el (100-K)% queda a la derecha.
Existen varias maneras de definir los percentiles, la definicin anterior es la ms

utilizada, sin embargo, puede producir resultados distintos, especialmente para
muestras de menos de 100 datos.
Ejemplo:
En el ejemplo de las calificaciones, el alumno que obtuvo la calificacin de 7.0 esta
ubicado en el 70-avo percentil de la muestra, es decir, el 70% de los datos son menores
o iguales a 7 y el 30 % son mayores que 7.
El cuartil inferior (QL).- de un conjunto de datos es le 25-avo percentil.
El cuartil superior (QU).- es el 75-avo percentil.
El cuartil medio.- Es el 50-avo percentil, es decir, es la mediana
En forma similar, el k-simo decil simplemente es el 10*k-simo percentil.
7.4.3.- Medidas de dispersin o variacin.
Es importante tener medidas de variabilidad de la muestra, ya que en la medida en que
una muestra presenta mayor variabilidad, las medidas de centralizacin nos dan un
mayor error y son menos representativas.
Una muestra muy dispersa es aquella cuyos datos se encuentran en su mayora muy
alejados de la media, mientras que una muestra poco dispersa (o muy concentrada),
la mayora de los datos estn acumulados muy cercanos a la media.
Las siguientes son algunas de las medidas ms utilizadas para medir o indicar el grado
de dispersin de una muestra:
El rango.- La medida mas simple para medir dispersin es la diferencia entre el mayor
y el menor dato de la muestra.
Ejemplo: Para el mismo ejemplo de las calificaciones:
Datos no agrupados:
Para los datos agrupados:
Rango = 8.6-2.4 = 6.2

Rango = 9-2= 7
El Rango Intercuartlico.- Es la diferencia entre el cuartil superior y el cuartil inferior, es

decir, QU-QL
Rango semi-intercuartlico. ( ).- Es la mitad del rango intercuartlico, es decir,
Esta medida (Q) es ms representativa que las anteriores, ya que tiene la siguiente
propiedad: En distribuciones aproximadamente simtricas el 50 % de los datos
queda comprendido entre
y
+
Ejemplo: Cuntos datos quedan entre
Cuartiles:
para el ejemplo?
QL=5.5, QU=7.2
Rango semi-intercuartlico:
Entonces:
6 1 1
= 6.5 - 0.85 = 5.65,
= 6.5 + 0.85 = 7.35
Entre estos dos valores hay 10 datos = 50% de los datos.

El rango Q90 - Q10.- Es la diferencia entre el Percentil 90 y el Percentil 10.
Esta medida tiene la propiedad de que entre - -(Q90-Q10) y - +(Q90-Q10), caen
aproximadamente el 80% de los datos.
Observaciones:
Las medidas de dispersin anteriores producen un mayor valor a mediad que es mayor
la dispersin de la muestra.
Sin embargo, ninguna de ellas (en forma similar a la mediana y la moda) incluyen en su
clculo a cada dato de la muestra. Por ello, una alternativa mucho ms utilizada y que
toma en cuenta esto ltimo es la siguiente
La varianza (S2).
Una idea para obtener una medida de dispersin que tome en cuenta cada uno de los
datos de la muestra para su clculo es buscar una manera de totalizar las desviaciones
de cada dato respecto al centro de la muestra, es decir, se nos podra ocurrir sumar
todas las desviaciones (diferencias) de cada dato respecto a la media, de la forma Xies decir;
'
=*
Sin embargo, la sumatoria anterior resulta ser cero, ya que las desviaciones positivas
cancelan a las negativas, ya que la media es el centro de la muestra.
Una manera de evitar que las desviaciones negativas se cancelen con las positivas es
sumar los cuadrados de las desviaciones como sigue,
*
*
'
=*
a esta cantidad se le llama la varianza o variancia.

Otra alternativa es la de tomar los valores absolutos para obtener lo que se denomina
desviacin media:
Desviacin media =
*
=*
O bien, una medida ms usada que la desviacin media es la desviacin tpica o

desviacin estndar y se define como la raz cuadrada de la varianza como sigue
Desviacin estndar =
Clculo de la varianza.- Esta puede ser calculada directamente de la frmula de su

definicin, sin embargo, si desarrollamos el cuadrado dentro de la sumatoria, podemos
obtener
*
*
=
) =
+
(
(
)
*
*
*
=
+
(
)
*
*
=
+
(
)
*
=
Finalmente:
*
(
*
Esta ltima expresin nos da un mtodo para calcular la varianza que puede resultar
ms sencillo en ocasiones, especialmente cuando se calculan por separado la media
y la sumatoria de los cuadrados de los datos
.
Ejemplo.
Para el ejemplo de las calificaciones se puede formar la siguiente tabla
Suma
Xi
2.4
2.7
3.6
5.5
5.7
6.3
6.4
6.5
6.5
7.2
7.8
8.6 124.2
Xi2
5.76 7.29
13
30.3 30.3 32.5
36
39.7
41
42.3 42.3 42.3
49
49
51.8 54.8 57.8 60.8
64
74 823.56
Xi- -
5.5
6.5
-3.81 -3.51 -2.61 -0.71 -0.71 -0.51 -0.21 0.09 0.19 0.29 0.29 0.29 0.79
(Xi- - )2 14.5 12.3 6.81
0.5
0.5
7.4
7.6
0.79 0.99 1.19 1.39 1.59 1.79 2.4
0.26 0.04 0.01 0.04 0.08 0.08 0.08 0.62 0.62 0.98 1.42 1.93 2.53
As, a partir de la tabla, usando la frmula anterior, y recordando que

obtenemos
= *7* ' 8 1+ 9+ * ) = 61
3.2
5.7 52.28
=6.21,
De la tabla tambin se puede observar que la sumatoria de todas las desviaciones es

cero, como se esperaba.
Finalmente, usando la frmula de la definicin para la varianza, obtenemos el mismo
resultado como se esperaba:
= *7* '1 ) = 61
y por lo tanto, la desviacin estndar es S=1.65876
7.5.- Variables normalizadas
Toda muestra de datos Xi con media conocida
y varianza conocida S2 puede
convertirse en una muestra Zi con media cero y varianza 1, simplemente haciendo el
siguiente cambio de variable (para cada dato Xi):
=
As, todo conjunto de datos con media cero y una varianza uno, se dice que es un
conjunto de datos normalizados.
As, para nuestro ejemplo:
Zi =
X i 6.21
1.65876
si le aplicamos la transformacin a cada uno de los datos, obtenemos la siguiente

muestra (Zi) con media cero y varianza 1:
Xi
Zi
2.4
2.7
3.6
5.5
5.5
5.7
6.3
6.4
6.5
6.5
6.5
-2.3 -2.12 -1.6 -0.43 -0.4 -0.3 -0.13 0.05 0.11 0.17 0.17 0.17 0.48
7.2
0.48
0.6
7.4
7.6
7.8
8.6
0.72 0.84 0.96 1.08 1.4
Otra manera de interpretar la normalizacin anterior es como una medida de la

distancia de un dato Xi respecto a la media en trminos o unidades de desviacin
tpica S.
As, para el ejemplo, si Xi = 2.4 , Zi = -2.3 significara que el dato 2.4 est a 2.3
desviaciones tpicas a la izquierda de la media.
7.6.- Otras medidas
Asimetra o Sesgo.- En la prctica, las distribuciones de frecuencia casi nunca son
simtricas. Al grado de asimetra se le llama sesgo. Es muy conveniente tener una
medida de dicha asimetra, dicha medida se puede calcular como sigue
Sesgo =
*
=*
o bien, Sesgo =
8
=*
es decir, Sesgo = promedio de los datos normalizados Zi3

Sin embargo, el clculo anterior puede ser muy "dispendioso", un clculo aproximado
ms sencillo puede hacerse como sigue:
8
Sesgo
Una propiedad interesante del sesgo es que si la distribucin de datos es simtrica,

el sesgo vale cero. Sin embargo, no ocurre necesariamente a la inversa, es decir, el
sesgo puede ser cero aunque la distribucin no sea simtrica
Para ilustrar de manera geomtrica el significado del sesgo, en las siguientes figuras se
muestra el caso de una distribucin con sesgo positivo y otra con sesgo negativo:
(obsrvese que en general la media siempre es atrada ms que la mediana por la cola
del histograma)
Sesgo positivo
Sesgo negativo
Curtosis, cuartosis o picuds

Una manera de medir el grado de "picuds" del polgono de frecuencia es mediante la
curtosis, la cual se calcula como sigue
Curtosis =
*
=*
es decir,
:
=*
O bien, Curtosis = promedio de las Zi4- 3

En la siguiente figura se muestran dos distribuciones que tienen una varianza y un
sesgo muy parecido pero tienen una curtosis diferente.
Observe que una distribucin que tienen extremos que se extienden mucho se les llama
distribuciones Leptocrticas y aquellas que se terminan bruscamente se les llama
platocrticas. Una distribucin que tenga una curtosis normal se le llama mesocrtica.
7.7.- Momentos de Datos Estadsticos
Los momentos de datos estadsticos son una generalizacin de las medidas de
varianza, sesgo y picuds. De manera concreta un momento de ensimo orden se
puede calcular como momento simple o como un momento central (o respecto a la
media) y expresa como
Momento central de orden n=
*
=*
y el momento simple de ensimo orden

Momento simple de orden n=
*
=*
En general, a las medidas de la forma
se les denomina momentos de orden n

=*
de la muestra y tienen el significado ya descrito, es decir, varianza, sesgo o picuds.

7.8.- Comparacin entre dos muestras de datos. Covarianza y Correlacin.
Los estadsticos descritos en las secciones anteriores se calculan para una sola
muestra de datos, por lo cual no pueden ser utilizados para establecer relaciones entre
dos muestras de datos o entre datos de dos variables distintas. A continuacin se
describen algunos estadsticos que permiten establecer relaciones entre dos muestras
de datos:
La Covarianza (cov(X,Y) o
), Este estadstico se obtiene a partir de la muestra
datos de una poblacin bidimensional (dos variables de inters: x, y), o bien, a partir de
dos muestras de datos del mismo tamao:
,
mediante la frmula:
)(
Donde
son las medias de las variables X, Y respectivamente. En forma similar a
como se procedi con la varianza se puede obtener la siguiente frmula alternativa que
en ocasiones puede ser ms sencilla de calcular:
Correlacin (r). Mientras que la covarianza expresa, en cierto modo, el grado de

dependencia entre las dos muestras de datos, sin embargo tiene el inconveniente de
que su valor depende de las unidades en que se expresen las variables. Para evitar
esto se recurre a otro parmetro denominado coeficiente de correlacin o simplemente
correlacin, el cual se define como sigue
=
Es decir, la correlacin entre las variables X, Y es la covarianza de las variables

normalizadas X, Y. De la definicin se puede obtener directamente la frmula
equivalente
=
El valor del coeficiente de correlacin vara entre 1 y 1 (-1 r 1). En cada caso
concreto, el valor de r indica el tipo de relacin entre las variables x e y.
Cuando |r| es cercano a 1, la correlacin es fuerte, lo que significa que las variaciones
de una de las variables repercuten fuertemente en la otra, esto significa que si
graficamos la muestra Y contra X obtendremos puntos aproximadamente sobre una
lnea recta. Mientras que si |r| es prximo a 0, la correlacin es muy dbil y las
variables estn muy poco relacionadas y en este caso la grafica de Y contra X parece
una nube de puntos dispersos.
Ejemplo. Consideremos las calificaciones de los mismos estudiantes en la materia de
Fsica obtenidas en el mismo ciclo escolar. Denominemos por X a los datos de
matemticas y por Y a los de fsica, en la siguiente tabla se muestran dichos datos y los
clculos intermedios para obtener cov(X,Y) y r.
Suma
Xi
2.4
2.7
3.6
5.5
5.5
5.7
6.3
6.4
6.5
6.5
6.5
7.2
7.4
7.6
7.8
8.6
124.2
X i2
5.76
7.29
13
30.3
30.3
32.5
36
39.7
41
42.3
42.3
42.3
49
49
51.8
54.8
57.8
60.8
64
74
823.56
0.09
0.19
0.29
0.29
0.29
0.79
0.79
0.99
1.19
1.39
1.59
1.79
2.39
0.00
Xi- -
-3.81 -3.51 -2.61 -0.71 -0.71 -0.51 -0.21
(Xi- - )2
14.5
12.3
6.81
0.5
0.5
0.26
0.04
0.01
0.04
0.08
0.08
0.08
0.62
0.62
0.98
1.42
1.93
2.53
3.2
5.7
52.28
Yi
2.0
3.2
3.5
4.5
5.6
5.8
6.2
6.5
7.5
7.5
8.5
8.7
8.8
9.2
9.3
9.5
136.3
Yi2
)(
-4.82 -3.62 -3.32 -2.32 -1.22 -1.02 -0.82 -0.62 -0.32
0.19
0.69
0.69
1.19
1.69
1.89
1.99
2.19
2.39
2.49
2.69
0.00
23.18 13.07 10.99 5.36
) 18.35
12.69 8.65
1.64
1.48
1.03
0.66
0.38
0.10
0.03
0.47
0.47
1.40
2.84
3.55
3.94
4.77
5.69
6.18
7.21
92.81
0.86
0.52
0.17
-0.06 -0.06
0.05
0.20
0.20
0.94
1.33
1.87
2.36
3.04
3.79
4.45
6.42
67.41
De donde se obtiene:
- =6.21,
=6.815, SX=1.659, SY=2.210, SXY= 3.548
Por lo tanto r=3.548/(1.659*42.210)=0.968

Como puede verse, la correlacin es alta, esto se puede constatar visualmente al
graficar los Datos Y contra los datos X como se muestra en la siguiente figura:
12
10
8
datos Y
10.24 12.25 20.25 31.36 33.64 36.00 38.44 42.25 49.00 56.25 56.25 64.00 72.25 75.69 77.44 81.00 84.64 86.49 90.25 1021.69
4.0
6
4
2
0
0
10
datos X
7.9.- Otras herramientas grficas

Diagramas de Caja y Bigotes
Estos diagramas permiten tener una representacin visual resumida de los aspectos
ms relevantes del histograma de un conjunto de datos. Por su representacin
compacta son muy utilizados para representar varios conjuntos de datos en una misma
grfica con una caja y bigotes por cada conjunto de datos, facilitando as la
comparacin visual entre distintos conjuntos de datos de una misma variable o de
variables que nos interesa comparar.
En 1977 John Tukey public un tipo de grfico estadstico para resumir informacin
utilizando 5 medidas estadsticas: el valor mnimo, el primer cuartil, la mediana, el tercer
cuartil y el valor mximo. Este tipo de grfico recibe el nombre de grfico de caja
(boxplot).
Un grfico de este tipo consiste en un rectngulo (caja), de largo igual al rango
intercuartlico (2Q) . Este rectngulo est dividido por un segmento vertical que indica
donde se posiciona la mediana y por lo tanto su relacin con los cuartiles primero y
tercero QL y QU).
Como se puede ver en la siguiente figura, este rectngulo se ubica a escala sobre un
segmento que tiene como extremos los valores mnimo y mximo de la variable. Estos
segmentos que quedan a izquierda y a derecha de la caja se llaman bigotes
;=
;<
>
Los bigotes se dibujan con lneas continuas solamente hasta los lmites recomendados
por Tukey:. Para esto calcula 4 barreras, dos interiores y dos exteriores:
Bii = Barrera interior inferior = QL 3Q
Bis = Barrera interior superior = QU + 3Q
Bei = Barrera exterior inferior = QL 6Q
Bes = Barrera exterior superior = QU + 6Q
Si se consideran los valores de la variable comprendidos entre las dos barreras
interiores, el valor mnimo de la variable y el valor mximo son los extremos de los
bigotes, pero si existen valores de la variable comprendidos entre las barreras interiores
y exteriores se consideran valores atpicos y se indican con un asterisco *. Si
existieren valores fuera de las barreras exteriores se consideran valores todava ms
atpicos y se indican con un crculo . De esta manera, un diagrama de caja y bigotes
en general puede lucir como se muestra en la siguiente figura:
?
?
9
?
99
;<
;=
Por otra parte, este tipo de grfico nos proporciona informacin con respecto a la
simetra o asimetra de la distribucin: si la mediana est en el centro de la caja o cerca
de l, constituye un indicio de simetra de los datos, si la mediana est
considerablemente ms cerca de QL indica que los datos son positivamente asimtricos
y si est ms cerca d QU, indica que los datos son negativamente asimtricos.
Ejemplo
Para el ejemplo de los datos de la materia de matemticas se tena que QL=5.5,
QU=7.2, Q=0.85 =6.5, de donde se obtiene:
Bii=2.95, por lo que existen dos datos menores que esta barrera y se considerarn
atpicos por lo tanto el bigote izquierdo se extender hasta el tercer dato X3=3.6
Bis=9.75 que es superior al dato mximo, por lo cual el bigote derecho se prolongar
solo hasta Xmax=8.6 el diagrama de caja y bigotes correspondiente queda como se
muestra en la parte inferior de la siguiente figura
Fsica
Matemticas
2.5
3.5
4.5
5.5
6.5
7.5
8.5
9.5
10
En el mismo diagrama anterior se muestra el diagrama de caja para los datos de la

materia de fsica en la parte superior. Algunas comparaciones saltan a la vista:
Las calificaciones de Fsica son ms dispersas que las de mtemticas
El promedio general de Fsica es ms alto que en matemticas
En fsica todos los alumnos estn dentro de rangos normales, mientras que en
matemtica hay dos alumnos excepcionalmente bajos de calificacin en relacin al
resto del grupo.
Diagramas de Pareto
Es una variante del histograma que se utiliza para priorizar la importancia de las causas
que generan problemas de acuerdo a la frecuencia con que se presentan. El nombre de
Pareto fue dado en honor al economista italiano Wilfredo Pareto (1848-1923) quien
realiz un estudio sobre la distribucin de la riqueza, en el cual descubri que la minora
de la poblacin posea la mayor parte de la riqueza y la mayora de la poblacin posea
la menor parte de la riqueza. El Dr. Joseph Juran, uno de los pioneros del control de
calidad aplic este concepto a la calidad, obtenindose lo que hoy se conoce como la
regla 80/20. Segn este concepto, si se tiene un problema con muchas causas,
podemos decir que el 20% de las causas producen el 80 % del problema y el 80 % de
las causas solo producen el 20 % del problema.
Los diagramas de Pareto son una herramienta sencilla pero poderosa en el control de la
calidad, ya que permiten identificar visualmente en una sola revisin las minoras de
caractersticas vitales a las que es importante prestar atencin y de esta manera utilizar
todos los recursos necesarios para llevar a cabo una accin de mejora sin malgastar
esfuerzos ya que con el anlisis descartamos las mayoras triviales.
Algunos ejemplos de tales minoras vitales seran:
La minora de clientes que representan la mayora de las ventas.

La minora de productos, procesos, o caractersticas de la calidad causantes del
grueso de desperdicio o de los costos de repetir trabajos.
La minora de causas de rechazo que representa la mayora de quejas de los
clientes.
La minora de vendedores que est vinculada a la mayora de partes rechazadas.
La minora de problemas causantes del grueso del retraso de un proceso.
La minora de productos que representan la mayora de las ganancias obtenidas.
La minora de elementos que representan la mayor parte del costo de un inventario
Especficamente, los diagramas de Pareto pueden utilizarse para:
Identificar reas de oportunidad para mejorar
Identificar un producto o servicio para la mejora de su calidad.
Llamar la atencin a los problemas o causas de una forma sistemtica.
Buscar causas principales de los problemas y establecer la prioridad de las
soluciones
Evaluar los resultados de los cambios efectuados a un proceso comparando
diagramas de Pareto sucesivos obtenidos en momentos diferentes, (antes y
despus de los cambios)
Un diagrama de Pareto, a diferencia de un Histograma, requiere categoras en lugar
de intervalos de clase. Las categoras son datos cualitativos y suelen ser una
clasificacin de causas de errores o defectos en los productos o los servicios.
Ejemplo.
Un fabricante de accesorios plsticos desea analizar cules son los defectos ms
frecuentes que aparecen en las unidades al salir de la lnea de produccin. Para esto,
empez por clasificar todos los defectos posibles en sus diversos tipos:
Tipo de Defecto
Color
Dimensiones
Acabado
Fragilidad
Desbalanceo
Aplastamiento
Incompleto
Alabeo
Otros
Detalle del Problema

El color no satisface los requerimientos del cliente
Muy ovalado
Aparicin de rebabas
El accesorio se quiebra en la instalacin
El accesorio requiere contrapesos
El accesorio se aplasta en la instalacin
Falta alguno de los componentes metlicos
Nivel de alabeo no aceptable
Otros defectos
Posteriormente, un inspector revisa cada accesorio conforme sale de produccin

registrando sus defectos de acuerdo con dichos tipos. Al finalizar la jornada, se
reviosaron 94 accesorios y se la siguiente tabla:
Tipo de defecto
Defecto
Frecuencia Frecuencia Frec. Rel.
Aplastamiento
Fragilidad
Dimensiones
Color
Alabeo
Acabado
Incompleto
Desbalanceo
Otros
Total
40
35
8
3
3
2
2
1
0
94
relativa
42.6 %
37.2 %
8.5%
3.2 %
3.2 %
2.1 %
2.1 %
1.1 %
0%
100 %
acumulada
42.6 %
79.8 %
88.3 %
91.5 %
94.7 %
96.8 %
98.9 %
100 %
100 %
La columna de frecuencia acumulada hace ms evidente cuales son los defectos que
aparecen con mayor frecuencia.
Obsrvese que se ha ordenado la tabla en orden decreciente de frecuencia. La
categora otros siempre debe ir al final, sin importar su valor.
Podemos ahora representar los datos en un histograma como el siguiente:
120
100
80
Frec Rel
Frec Rel Acum
60
40
20
tro
s
O
Al
ab
eo
Ac
ab
ad
o
In
co
m
pl
et
D
es
o
ba
la
nc
eo
C
ol
or
Ap
la
st
am
ie
nt
o
Fr
ag
ilid
D
ad
im
en
si
on
es
Podemos observar que los 2 primeros tipos de defectos se presentan en

aproximadamente el 80 % de los casos. Se verifica el principio de Pareto: La mayora
de los defectos encontrados en el lote pertenecen a la minora (solo 2) de los tipos de
defectos (los pocos vitales), de manera que si se eliminan las causas que provocan
estos dos tipos de defectos desaparecera la mayor parte de los defectos.
Otro anlisis complementario y sumamente til e interesante, es graficar los costos que
implica resolver cada problema en lugar de su frecuencia, con lo cual podramos
construir un diagrama similar a partir de ordenar las causas por sus costos.
7.10.Regresin Lineal
Como se ilustr en el clculo de la covarianza, en ocasiones ocurre que dos variables
estn relacionadas entre s. Este tipo de situaciones es comn en la medicin
experimental de variables fsicas en las que se desea establecer o validar algn modelo
basado en alguna teora, en observaciones previas o en algn razonamiento emprico.
En este caso se define una variable dependiente y, y una variable independiente x,
luego se toman mediciones agrupadas en pares:
' * @ * )@ ' @ )@ @ ' @ )
Cada par de mediciones (xi,yi) se puede considerar como las coordenadas de un punto
en un plano, de esta manera se tienen N puntos, los cuales se pueden representar en
una grfica para ilustrar de manera visual el tipo de dependencia involucrada.
Se propone un modelo de dependencia a validar o a ajustar en trminos de una
funcin matemtica:
= ' @ *@ @ @ )
donde * @ @ @ son los parmetros cuyos valores ajustan la forma exacta de la
curva para que se parezca lo ms posible a los puntos experimentales.
*
3 >0
9
9
9
9
9
9
9
9
3"'>@ *@ @A@ )
9
9
9
9
9
9 9
9
+
Sin embargo, no se debe caer en el extremo de buscar una curva que pase
exactamente por cada punto experimental, dado que cualquier proceso de medida es
susceptible en mayor o menor medida a errores, y habr que considerar que todos los
puntos tienen asociado algn margen de error.
La mejor solucin debe ponderar un equilibrio entre simplicidad y exactitud:
La simplicidad est dada por la eleccin del tipo de modelo = ' @ * @ @ @ ) lo
ms simple posible y con el menor nmero de parmetros (n lo ms pequeo
posible).
La exactitud est dada por la exigencia de que la curva pase lo ms cerca posible
de cada punto experimental.
El modelo ms simple es una lnea recta que pase por el origen: = * , sin embargo,
es demasiado simple para la mayora de los casos. Un modelo ligeramente ms
completo es una recta que no necesariamente pase por el origen:
=
+ ,
donde los parmetros a ajustar son m=pendiente de la recta, b=ordenada al origen.
Como es de suponerse, la relacin y = mx + b no va a cumplirse exactamente.
Las distancias verticales entre el valor observado y el valor dado por la recta
para cada valor de x reciben el nombre de residuos, y se suelen denotar por ei.
La expresin terica del modelo matemtico ser, por lo tanto:
=
+ +
Se acostumbra por simplicidad suponer que ei es una variable aleatoria Normal con
media cero y varianza conocida .
Clculo por mnimos cuadrados de la pendiente y la ordenada al origen:
Estrategia: La estrategia utilizada para buscar la recta que mejor se ajuste a los datos
experimentales fue propuesta por Gauss y consiste en buscar la recta que minimice la
+ y la ordenada
diferencia o error entre cada ordenada predicha por la recta B =
obtenida experimentalmente , esta diferencia se denota como , es decir,
= B =
+
En la siguiente figura se ilustra esta diferencia:
*
3 >0
9
9
B
9
9
9
9
9
9
9
>
Una primera idea sera minimizar la suma total de los errores , pero como algunos
son positivos y otros son negativos, la suma podra ser muy pequea an si existen
errores de gran magnitud, por ello se busca ms bien:
Minimizar la suma de los cuadrados de los errores:
=
=*
La minimizacin se hace respecto a los parmetros del modelo f( ). En el caso lineal:

=
=
=*
=*
Derivando respecto a m e igualando a cero
=*
)=
=*
de donde
+
=*
=*
=*
Derivando respecto a b e igualando a cero
=*
)=
=*
de donde
+
=*
=*
hemos obtenido el sistema de dos ecuaciones lineales con las dos incgnitas m, b,
denominado conjunto de ecuaciones normales:
=*
=*
=*
=*
=*
Resolviendo para m, b obtenemos
=*
=*
=*
=*
=*
=*
=*
=*
=*
=*
=*
Las ecuaciones anteriores tambin se pueden escribir como sigue

:
Por lo tanto el modelo lineal o recta de regresin queda:

Donde:
Ejemplo. La siguiente tabla muestra los datos de 69 pacientes de los que se conoce su
edad y una medicin de su presin sistlica. Si estamos interesados en estudiar la
variacin en la tensin sistlica en funcin de la edad del individuo, deberemos
considerar como variable dependiente la tensin y como variable independiente
(predictora) la edad.
N Tensin Edad
N Tensin Edad
114
17
36
156
47
134
18
37
159
47
124
19
38
130
48
128
19
39
157
48
116
20
40
142
50
120
21
41
144
50
138
21
42
160
51
130
22
43
174
51
139
23
44
156
52
10
125
25
45
158
53
11
132
26
46
174
55
12
130
29
47
150
56
13
140
33
48
154
56
14
144
33
49
165
56
15
110
34
50
164
57
16
148
35
51
168
57
17
124
36
52
140
59
18
136
36
53
170
59
19
150
38
54
185
60
20
120
39
55
154
61
21
144
39
56
169
61
22
153
40
57
172
62
23
134
41
58
144
63
24
152
41
59
162
64
25
158
41
60
158
65
26
124
42
61
162
65
27
128
42
62
176
65
28
138
42
63
176
66
29
142
44
64
158
67
30
160
44
65
170
67
31
135
45
66
172
68
32
138
45
67
184
68
33
142
46
68
175
69
34
145
47
69
180
70
35
149
47
Aplicando los clculos anteriores a este caso, resulta:

= "# ! ,
= "% $ ,
= &"$' ,
= & & , de donde m=0.98, b=103.35, por lo que el modelo de
regresin lineal queda
= ' (% + '! !&

En la siguiente figura se muestra, superpuesta al diagrama de dispersin, la recta de
regresin de mnimos cuadrados correspondientes.
190
180
170
Tensin
160
150
140
130
120
110
100
10
20
30
40 Edad 50
60
70
80

Apuntes Estadistica Descriptiva-2008

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apuntes Estadistica Descriptiva-2008

Cargado por

Copyright:

Formatos disponibles

!

El planteamiento y validacin de hiptesis basadas en los datos

H istog ram a d e la P o b lacio n

7.2.- Muestreo aleatorio: Una muestra confiable no es cualquier muestra. Un proceso

7.3.- Tablas de Frecuencia e Histograma

La frecuencia de un dato es simplemente el nmero de veces que aparece dicho

Para el ejemplo de las calificaciones podemos elegir el intervalo total de muchas

Esta informacin se puede representar en la siguiente grfica denominada

Clase 1 : de 2.00 a 3.35

).- Nos da una indicacin del tamao

Ejemplo. Para el caso de las calificaciones:

Un caso ms general que la media aritmtica es la media ponderada que se calcula

= * , esta media ponderada se

La Mediana ( ).- Es el nmero (no necesariamente un dato) para el cual el 50% de

Para el caso de estudio.

En general la mediana se puede calcular como sigue:

As, para el ejemplo N=20 (par)

Media y Mediana de Datos Agrupados

Donde: Nc = nmero de clases

Para el ejemplo de las calificaciones:

Mediana de datos agrupados

La Moda.- Se le llama moda simplemente al dato que ms se repite en una muestra.

La Moda es el punto ms alto de la figura.

Esta idea se ilustra en la siguiente figura

Esto significa que la media es ms sensible al brazo de palanca, es decir, la media es

Por ejemplo, el valor equivalente de un arreglo de resistencias en paralelo.

Por ejemplo, el valor medio de un voltaje de corriente alterna.

Existen varias maneras de definir los percentiles, la definicin anterior es la ms

Rango = 8.6-2.4 = 6.2

El Rango Intercuartlico.- Es la diferencia entre el cuartil superior y el cuartil inferior, es

= 6.5 - 0.85 = 5.65,

= 6.5 + 0.85 = 7.35

Entre estos dos valores hay 10 datos = 50% de los datos.

a esta cantidad se le llama la varianza o variancia.

O bien, una medida ms usada que la desviacin media es la desviacin tpica o

Clculo de la varianza.- Esta puede ser calculada directamente de la frmula de su

30.3 30.3 32.5

42.3 42.3 42.3

51.8 54.8 57.8 60.8

(Xi- - )2 14.5 12.3 6.81

0.79 0.99 1.19 1.39 1.59 1.79 2.4

As, a partir de la tabla, usando la frmula anterior, y recordando que

De la tabla tambin se puede observar que la sumatoria de todas las desviaciones es

si le aplicamos la transformacin a cada uno de los datos, obtenemos la siguiente

0.72 0.84 0.96 1.08 1.4

Otra manera de interpretar la normalizacin anterior es como una medida de la

es decir, Sesgo = promedio de los datos normalizados Zi3

Una propiedad interesante del sesgo es que si la distribucin de datos es simtrica,

Curtosis, cuartosis o picuds

O bien, Curtosis = promedio de las Zi4- 3

y el momento simple de ensimo orden

En general, a las medidas de la forma

se les denomina momentos de orden n

de la muestra y tienen el significado ya descrito, es decir, varianza, sesgo o picuds.

Correlacin (r). Mientras que la covarianza expresa, en cierto modo, el grado de

Es decir, la correlacin entre las variables X, Y es la covarianza de las variables

-3.81 -3.51 -2.61 -0.71 -0.71 -0.51 -0.21

-4.82 -3.62 -3.32 -2.32 -1.22 -1.02 -0.82 -0.62 -0.32

23.18 13.07 10.99 5.36

=6.815, SX=1.659, SY=2.210, SXY= 3.548

Por lo tanto r=3.548/(1.659*42.210)=0.968

7.9.- Otras herramientas grficas

En el mismo diagrama anterior se muestra el diagrama de caja para los datos de la

La minora de clientes que representan la mayora de las ventas.