Apuntes Estadistica Descriptiva-2008

Universidad Michoacana de San Nicols de Hidalgo
Facultad de Ingeniera Elctrica

Apuntes para la materia de

Profesor: M. C. Jose Juan Rincon Pasaye

Septiembre de 2008

7
77.
..-
-- E
EEs
sst
tta
aad
dd
s
sst
tti
iic
cca
aa D
DDe
ees
ssc
ccr
rri
iip
ppt
tti
iiv
vva
aa

7.1.- Introduccin

Regresion lineal simple
TransIormaciones que llevan a una linea recta

La palabra estadstica proviene del latn status o estado, sin embargo, esta
palabra slo describe en parte su significado real, es decir, solo describe la funcin
de la estadstica de llevar registros ordenados de datos para describir el estado de
las cosas. La estadstica como se concibe hoy en da va ms all de esta simple
funcin.

En forma muy general, la estadstica es la ciencia que se ocupa de la recoleccin,
clasificacin, organizacin, anlisis, sntesis e interpretacin de datos. En palabras
sencillas podramos decir que la estadstica es la ciencia de los datos

En trminos generales la estadstica aborda dos tipos de problemas:

Resumir, describir y explorar datos.
Utilizar datos de una muestra para inferir la naturaleza del conjunto del cual se
escogi la muestra.

As, la estadstica se divide en dos partes ntimamente relacionadas:

Estadstica Descriptiva.- Esta es la parte de la estadstica que se dedica a la
organizacin, sntesis y descripcin de conjuntos de datos.

Esta es importante, ya que antes de que la mente humana pueda interpretar (hacer
inferencias es interpretar) un conjunto de datos, especialmente cuando estos son
demasiados, es necesario resumirlos o representarlos de manera clara, simplificada o
reducida.

Estadstica Inferencial.- Esta rama de la estadstica trata el problema de inferir la
naturaleza de un conjunto de datos a partir de una muestra de dichos datos.

Al conjunto total de donde se toman los datos que se desea describir se denomina la
poblacin, mientras que una muestra es un subconjunto de datos seleccionados
de la poblacin.

La estadstica se puede ver como el conjunto de herramientas que nos permiten
establecer inferencias estadsticas (conclusiones fundamentadas en datos) a partir de
muestras tomadas de una poblacin sobre la cual se realizan las inferencias. Por lo
tanto, la estadstica proporciona tcnicas para
El muestreo (la toma de datos)
La descripcin, anlisis y representacin de los datos
El planteamiento y validacin de hiptesis basadas en los datos
La obtencin de modelos de comportamiento de la poblacin basadas en los
datos

En la siguiente figura se ilustran las diferentes partes del proceso que van desde la
toma de datos a la elaboracin de inferencias estadsticas:

D Da at to os s
( (P Po ob bl la ac ci io on n d de e
I In nt te er re es s) )
M Mu ue es st tr ra as s
-4 -2 0 2 4
0
20
40
60
80
100
120
140
160
Hi stograma de l a Pobl aci on
Cl ases
F
r
e
c
u
e
n
c
ia
-4 -2 0 2 4
0
2
4
6
8
10
12
14
16
Histograma de la Muestra
Clases
F
r
e
c
u
e
n
c
ia
P Pa ar r m me et tr ro os s: :
M Me ed di ia a ( ( ) )
V Va ar ri ia an nz za a( (
2 2
) )
D De es sv v. . E Es st t. . ( ( ) )
E Et tc c. .
E Es st ta ad d s st ti ic co os s: :
P Pr ro om me ed di io o ( (
X
) )
V Va ar ri ia an nz za a m mu ue es st tr ra al l( (S S
2 2
) )
D De es sv v. . E Es st t. . m mu ue es st tr ra al l( (S S) )
E Et tc c. .
| |n nf fe er re en nc c| |a as s
Huestreo
H Ho od de e| |o os s

7.2.- Muestreo aleatorio: Una muestra confiable no es cualquier muestra. Un proceso
de muestreo que nos permite tener datos no contaminados de origen debe ser:

Aleatorio. Es decir, debe ser imposible predecir cual es el siguiente dato de la
poblacin a ser tomado en la muestra.
Equiprobable. Todos los datos de la poblacin deben tener la misma
probabilidad de ser tomados en la muestra. Esto nos garantiza que no se dar
ms preferencia a algunos sectores de la poblacin que a otros.
Independiente. La inclusin de un dato en la muestra no debe afectar la
probabilidad de que otro dato sea o no tomado en ella. Esto significa que el
muestreo en general debe ser con reemplazo.

Poblaciones infinitas. Para poblaciones infinitas, el muestreo con o sin reemplazo no
produce diferencias apreciables, ya que el devolver una muestra o no antes de tomar la
siguiente no altera la poblacin. Para propsitos prcticos una poblacin finita muy
grande puede considerarse casi infinita.

Ejercicio:

Al efectuar un estudio de las corrientes de carga de los sistemas de alimentacin de
computadoras en 146 instalaciones de los Estados Unidos (IEEE Transactions on
Industry App. Julio/Agosto 1990) se detect que menos del 10% de estas instalaciones
tenia una corriente elevada del neutro respecto a la corriente nominal.

a) Cual es la poblacin de inters?
b) Cual es la muestra?
c) Hacer una inferencia sobre la poblacin basada en la muestra.

Tipos de datos. Los datos pueden ser de tipo Cuantitativo o bien pueden ser
Cualitativos (o categricos) estos ltimos no tienen interpretacin de cantidad, solo
pueden clasificarse en base a criterios.

Son ejemplos de datos cualitativos: Ocupaciones de los egresados de Ingeniera
Elctrica, Empresas dedicadas a la comercializacin de circuitos Integrados,- Materiales
usados en la construccin, etc.

7.3.- Tablas de Frecuencia e Histograma

Toma de datos.- Como ya se mencion, los datos con que cuenta la estadstica son
datos tomados de una muestra, no de la poblacin total, si se tomaran datos de la
poblacin total no habra necesidad de hacer inferencias, ya que se contara con toda la
informacin de la poblacin y en lugar de inferir bastara con consultar el dato
correspondiente. Sin embargo, en una poblacin muy numerosa es imprctico y costoso
tomar datos de toda la poblacin, por ello es necesario seleccionar muestras y a partir
de los datos de la muestra hacer inferencias.

En la medida de lo posible es recomendable manejar datos cuantitativos, ya que estos
permiten una representacin ms adecuada para extraer informacin visual. Existe una
gran cantidad de herramientas dedicadas a la representacin de los datos que nos
permiten extraer informacin visual ms rpida que la inspeccin dato por dato. Estas
herramientas se ilustrarn con el siguiente ejemplo:

Ejemplo.

La siguiente es una muestra de las calificaciones de 20 alumnos, obtenidas en un curso
anual de Matemticas:

3.6 2.4 5.5 6.5 6.4 6.5 6.5 6.6 7.4 6.3
7.0 8.0 7.0 5.7 2.7 7.6 8.6 5.5 7.8 7.2

Ordenamiento de datos.

El simple ordenamiento de los datos nos permitir observar algunos comportamientos a
simple vista que no son fciles de obtener con los datos desordenados. Para el
ejemplo, ordenamos los datos del 0 al 10 como sigue:

2.4, 2.7, 3.6, 5.5, 5.5, 5.7, 6.0, 6.3, 6.4, 6.5, 6.5, 6.5, 7.0, 7.0, 7.2, 7.4, 7.6, 7.8, 8.0, 8.6

Opcionalmente podemos adems hacer una representacin grfica de los datos con
respecto al orden indicando adems los que se repiten y cuantas veces lo hacen.

0
1
2
3
4
2.4 2.7 3.6 5.5 5.7 6 6.3 6.4 6.5 7 7.2 7.4 7.6 7.8 8 8.6
Calificacin
N
o
.

D
e

a
l
u
m
n
o
s

Tanto la lista ordenada como la grfica anterior nos proporcionan una mayor
informacin a simple vista; por ejemplo, es fcil advertir de ambas que:

- La mayor parte de alumnos obtuvieron calificaciones entre 5.5 y 8
- Nadie obtuvo calificaciones menores de 2.4 ni mayores de 8.6.

Diagrama de Tallo y Hojas.

Esta es una de las tcnicas ms simples para representar los datos y consiste en
clasificarlos en renglones de acuerdo a un tallo consistente en el primer dgito,
anotando en forma de lista los dgitos siguientes formando las hojas para cada tallo. De
esta manera se obtiene un diagrama en el que la longitud de las ramas nos dice a
simple vista en que tallo caen ms o menos datos. Para el ejemplo este diagrama
quedara como sigue

Tallo H o j a s
2 .4 .7
3 .6
5 .5 .5 .7
6 .3 .4 .5 .5 .5 .6
7 .0 .0 .2 .4 .6 .8
8 .0 .6

Tablas de Frecuencia.

La misma informacin puede ser representada en una Tabla de Frecuencias la cual se
presenta a continuacin para el mismo ejemplo:

Calificacin
x
i

Frecuencia
f
i

Frecuencia
Acumulada
Frecuencia
Relativa
Frec. Rel.
Acumulada
2.4 1 1 0.05 0.05
2.7 1 2 0.05 0.10
3.6 1 3 0.05 0.15
5.5 2 5 0.10 0.25
5.7 1 6 0,05 0.3
6.0 1 7 0.05 0.35
6.3 1 8 0.05 0.4
6.4 1 9 0.05 0.45
6.5 3 12 0.15 0.6
7.0 2 14 0.10 0.7
7.2 1 15 0.05 0.75
7.4 1 16 0.05 0.8
7.6 1 17 0.05 0.85
7.8 1 18 0.05 0.9
8.0 1 19 0.05 0.95
8.6 1 20 0.05 1.0

La frecuencia de un dato es simplemente el nmero de veces que aparece dicho
dato.

La frecuencia relativa es el cociente de la frecuencia entre el total de datos.

As, si el dato x
i
se repite f
i
veces en una muestra de n datos:

- Su frecuencia ser f
i

- Su frecuencia relativa ser f
i
/n

La frecuencia relativa tambin puede expresarse en porcentaje simplemente
multiplicndola por 100 y nos indica el porcentaje de veces que aparece el dato
respecto al total.

La frecuencia acumulada de un dato ser la suma de todas las frecuencias de los
datos menores o iguales a l y la frecuencia relativa acumulada es simplemente la
frecuencia acumulada dividida entre el nmero total de datos.

Datos Agrupados

Cuando las muestras de datos son muy grandes, la representacin anterior puede ser
muy complicada o hasta confusa, en este caso conviene agrupar los datos de acuerdo
a la definicin de clases a las que pertenecen los datos:

Para ello se elige primeramente un intervalo (I) que contenga todos los datos y luego se
divide este intervalo en subintervalos llamados Intervalos de Clase o Clases. A los
puntos medios de estos intervalos se les llama Marcas de clase.

Al nmero de datos de una clase se le llama Frecuencia de clase y a su cociente
entre n (nmero de datos de la muestra) se le llama Frecuencia relativa de clase

Ejemplo:

Para el ejemplo de las calificaciones podemos elegir el intervalo total de muchas
maneras, por ejemplo como el intervalo del 2 al 9, es decir, I=[2,9]. Si dividimos este
intervalo en 5 intervalos de clase, la tabla de frecuencias para los datos agrupados
quedar como sigue:

Intervalo de
clase
Marca de
Clase x
Frecuencia
de clase
Frecuencia
Relativa f(x)
Frec. Rel.
Acumulada F(x)
2.0 - 3.4 2.7 2 0.1 0.1
3.4 - 4.8 4.1 1 0.05 0.15
4.8 - 6.2 5.5 4 0.2 0.35
6.2 - 7.6 6.9 9.5 0.475 0.815
7.6 - 9.0 8.3 3.5 0.175 1.0

Esta informacin se puede representar en la siguiente grfica denominada
Histograma de los datos agrupados

0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
2.0 2.7 3.4 4.1 4.8 5.5 6.2 6.9 7.6 8.3 9.0
Clases
F
r
e
c
u
e
n
c
i
a

R
e
l
a
t
i
v
a

Polgono de
frecuencias

A la lnea roja que une las alturas de los rectngulos sobre las marcas de clase se le
denomina polgono de frecuencias

Y si gratificamos el rea bajo la curva del histograma (considerando el ancho de los
intervalos de valor unitario), obtenemos el diagrama de frecuencia acumulada que suele
llamarse la curva de distribucin (o Curva de de Frecuencia Acumulada).

Lmites y lmites reales de clase

En el ejemplo anterior los lmites de clase son compartidos por clases consecutivas, por
lo cual ha sido necesario dividir los datos que caen en un lmite por mitad. Algunos
autores acostumbran indicar los intervalos de clase mediante nmeros adyacentes, de
manera que nunca se compartan los lmites entre clases consecutivas, por ejemplo:

Clase 1 : de 2.00 a 3.35
Clase 2 : de 3.4 a 4.75
Clase 3 : de 4.8 a 6.15
Clase 4 : de 6.2 a 7.55
Clase 5 : de 7.6 a 8.95

En estos casos los lmites reales estn a la mitad entre las fronteras de una clase y la
siguiente, en este caso, los intervalos reales seran:,

2 a 3.375, 3.375 a 4.775, 4.775 a 6.175, 6.175 a 7.575 y 7.575 a 9.0

7.4.- Medidas descriptivas de una distribucin de datos.

Es importante tener algunas medidas que nos permitan dar una descripcin rpida
sobre la forma que tiene el histograma de los datos y que lo hace diferente o parecido a
otros histogramas. Para ello se han definido medidas que nos dan informacin de
manera sinttica sobre si el histograma es simtrico, si es muy plano o muy puntiagudo,
sobre donde est su centro, etc.

Estas medidas se denominan medidas descriptivas numricas y son cantidades
calculadas a partir de un conjunto de datos que nos ayudan a crear una imagen mental
de su histograma de frecuencia relativa. Estas medidas son de tres tipos:

Medidas de tendencia central.- Nos ayudan a ubicar el centro del histograma.
Medidas de dispersin.- Nos ayudan a medir que tan disperso esta el histograma
respecto a su centro.
Medidas de posicin relativa.- Describen la ubicacin de una observacin dentro
del conjunto de datos (un dato dentro de la muestra).

A estas medidas tambin se les llama estadsticos y su caracterstica fundamental es
que son medidas descriptivas y numricas calculadas a partir de la muestra.

En forma similar, un Parmetro.- Es una medida descriptiva numrica de una
poblacin no de una muestra. Es decir, se supone que los parmetros son las
cantidades que describen a la poblacin y normalmente no se conocen, slo se
pueden inferir a partir de los estadsticos.

7.4.1.- Medidas de Tendencia Central

La Media Aritmtica o Media Muestral ( X ).- Nos da una indicacin del tamao
promedio de los valores de la muestra.

As, para N datos (X
1
,X
2
,..., X
N
), la media se calcula como sigue

1
1 2
( ... )
N N
X X X X = + + +

Es decir,
1
1
N
i N
i
X X
=
=

Ejemplo. Para el caso de las calificaciones: 6.21 X =

Un caso ms general que la media aritmtica es la media ponderada que se calcula
como
1
1
N
i i N
i
X a X
=
=

Donde los coeficientes a
i
son los "pesos" o ponderaciones que se les da a los diferentes
datos x
i
.

* Obviamente en el caso particular en que
1 2
... 1
N
a a a = = = = , esta media ponderada se
convierte en la media aritmtica.

La Mediana ( X
).- Es el nmero (no necesariamente un dato) para el cual el 50% de

los datos son menores o iguales que l.

Ejemplo: Para el caso de estudio. X
= 6.5

En general la mediana se puede calcular como sigue:

=
+
+
+
impar N para X
par N para
X
~
2 / ) 1 N (
2
X X
2 / N 1 2 / N

As, para el ejemplo N=20 (par)

X
~
=

Media y Mediana de Datos Agrupados

Evidentemente las ecuaciones anteriores solo sirven para los datos no agrupados. En
el caso de que los datos ya estn agrupados y sea necesario calcular la media y la
mediana, ya no es posible hacerlo de manera exacta, sin embargo, una buena
aproximacin se puede obtener de la siguiente manera

Media de datos agrupados
1
1
Nc
i i Nc
i
X X f
=
=

Donde: Nc = nmero de clases
X
i
= marca de la clase i-esima
f
i
= frecuencia relativa de la clase i-esima

X 1 0 X 1 1
2
=
6 . 5 6 . 5
2
= 6 . 5
Para el ejemplo de las calificaciones:

X=2.7*0.1+4.1*0.05+5.5*0.2+6.9*0.475+8.3*0.175=6.305

Mediana de datos agrupados

X
~
= (lim. Inf. del IM) + [N/2- (frec. acumulada antes del IM)/2]*(Amplitud del IM.)

Donde:
IM = Intervalo mediano = Intervalo de clase en el que cae la mediana el valor que est a
la mitad de los datos.

As, para el ejemplo, el Intervalo mediano es (6.2,7.6), entonces

X
~
= 6.2 + (10-7/9.5)*(1.4) = 6.642

La Moda.- Se le llama moda simplemente al dato que ms se repite en una muestra.
(En datos agrupados corresponde a la marca de clase en la que ocurre el mximo del
histograma)

La moda no siempre es nica, por lo que una muestra puede ser unimodal o
multimodal dependiendo de si tiene una o varias modas.

Para el ejemplo la moda de los datos sin agrupar es 6.5, sin embargo, si consideramos
datos agrupados, la moda es 6.9

Observacin: La moda no siempre es nica, as, podemos tener distribuciones de datos
con varias modas, en tal caso se llaman multimodales.

Interpretacin geomtrica de la media, mediana y moda

Una manera de visualizar de manera geomtrica el significado de media, mediana y
moda es considerando el perfil del polgono de frecuencias como si fuera un figura
plana, es decir, sin dibujramos el histograma sobre una lmina plana de material
homogneo y lo recortramos, podemos afirmar lo siguiente:

- La Moda es el punto ms alto de la figura.
- La Mediana es el punto que divide a la figura en dos reas iguales.
- La Media es el punto de equilibrio (centro de masa) de la figura.

Esta idea se ilustra en la siguiente figura

Moda Mediana
Area 1 Area 2
Area 1 Area 2
Media
Equilibrio
Esto significa que la media es ms sensible al brazo de palanca, es decir, la media es
ms afectada que la mediana por datos muy alejados del centro del histograma
llamados outlayers o datos atpicos que suelen aparecen debido a errores en la toma
de datos, por ello se dice que la mediana es una medida ms robusta que la media

Otras medidas de centralizacin

La media geomtrica (Mg).- Esta calcula un centro basado en la raz de orden n del
producto de los datos, es decir,
Mg=

x
1
x
2
. . . . x
n
n

Por ejemplo, para la ubicacin de un valor medio pesimista para la constante beta de
un transitor.

La media armnica (M
H
).- Esta es el recproco de la suma de los recprocos de todos
los datos, es decir,
N
X
1
2
X
1
1
X
1
...
N
H
M
+ + +
=

Por ejemplo, el valor equivalente de un arreglo de resistencias en paralelo.

La media RMS (M
RMS
o raz cuadrtica media).- Es la raz cuadrada de la suma de los
cuadrados de cada dato, dividida entre el nmero de datos.

) X ... X X ( M
2
N
2
2
2
1 N
1
RMS
+ + + =

Por ejemplo, el valor medio de un voltaje de corriente alterna.

7.4.2.- Medidas de posicin relativa.

Cuartiles, deciles y percentiles

Los cuartiles, deciles y percentiles son medidas para indicar la posicin relativa de
algn dato en particular, sin embargo, tambin pueden ser utilizadas para indicar
dispersin

El k-simo percentil de un conjunto de datos es el valor (no necesariamente un
datgo) para el cual el k% de los datos ordenados son menores o iguales que l
(queda a la izquierda de l) y el (100-K)% queda a la derecha.

Existen varias maneras de definir los percentiles, la definicin anterior es la ms
utilizada, sin embargo, puede producir resultados distintos, especialmente para
muestras de menos de 100 datos.

Ejemplo:

En el ejemplo de las calificaciones, el alumno que obtuvo la calificacin de 7.0 esta
ubicado en el 70-avo percentil de la muestra, es decir, el 70% de los datos son menores
o iguales a 7 y el 30 % son mayores que 7.

El cuartil inferior (Q
L
).- de un conjunto de datos es le 25-avo percentil.

El cuartil superior (Q
U
).- es el 75-avo percentil.

El cuartil medio.- Es el 50-avo percentil, es decir, es la mediana

En forma similar, el k-simo decil simplemente es el 10*k-simo percentil.

7.4.3.- Medidas de dispersin o variacin.

Es importante tener medidas de variabilidad de la muestra, ya que en la medida en que
una muestra presenta mayor variabilidad, las medidas de centralizacin nos dan un
mayor error y son menos representativas.

Una muestra muy dispersa es aquella cuyos datos se encuentran en su mayora muy
alejados de la media, mientras que una muestra poco dispersa (o muy concentrada),
la mayora de los datos estn acumulados muy cercanos a la media.

Las siguientes son algunas de las medidas ms utilizadas para medir o indicar el grado
de dispersin de una muestra:

El rango.- La medida mas simple para medir dispersin es la diferencia entre el mayor
y el menor dato de la muestra.

Ejemplo: Para el mismo ejemplo de las calificaciones:

Datos no agrupados: Rango = 8.6-2.4 = 6.2
Para los datos agrupados: Rango = 9-2= 7

El Rango Intercuartlico.- Es la diferencia entre el cuartil superior y el cuartil inferior, es
decir, Q
U
-Q
L

Rango semi-intercuartlico. (Q).- Es la mitad del rango intercuartlico, es decir,
2
U L
Q Q
Q

=

Esta medida (Q) es ms representativa que las anteriores, ya que tiene la siguiente
propiedad: En distribuciones aproximadamente simtricas el 50 % de los datos
queda comprendido entre X Q y X Q +

Ejemplo: Cuntos datos quedan entre X Q y X Q + para el ejemplo?

Cuartiles: Q
L
=5.5, Q
U
=7.2

Rango semi-intercuartlico:
7.2 5.5
0.85
2
Q

= =

Entonces: X Q = 6.5 - 0.85 = 5.65, X Q + = 6.5 + 0.85 = 7.35

Entre estos dos valores hay 10 datos = 50% de los datos.

El rango Q
90
- Q
10
.- Es la diferencia entre el Percentil 90 y el Percentil 10.

Esta medida tiene la propiedad de que entre X-(Q
90
-Q
10
) y X+(Q
90
-Q
10
), caen
aproximadamente el 80% de los datos.

Observaciones:

Las medidas de dispersin anteriores producen un mayor valor a mediad que es mayor
la dispersin de la muestra.

Sin embargo, ninguna de ellas (en forma similar a la mediana y la moda) incluyen en su
clculo a cada dato de la muestra. Por ello, una alternativa mucho ms utilizada y que
toma en cuenta esto ltimo es la siguiente

La varianza (S
2
).

Una idea para obtener una medida de dispersin que tome en cuenta cada uno de los
datos de la muestra para su clculo es buscar una manera de totalizar las desviaciones
de cada dato respecto al centro de la muestra, es decir, se nos podra ocurrir sumar
todas las desviaciones (diferencias) de cada dato respecto a la media, de la forma X
i
- X
es decir;
1
( )
N
i
i
X X
=

Sin embargo, la sumatoria anterior resulta ser cero, ya que las desviaciones positivas
cancelan a las negativas, ya que la media es el centro de la muestra.

Una manera de evitar que las desviaciones negativas se cancelen con las positivas es
sumar los cuadrados de las desviaciones como sigue,
2 2
1
1
1
( )
N
i N
i
S X X
=
=

a esta cantidad se le llama la varianza o variancia.

Otra alternativa es la de tomar los valores absolutos para obtener lo que se denomina
desviacin media:
Desviacin media
1
1
N
i N
i
X X
=
=

O bien, una medida ms usada que la desviacin media es la desviacin tpica o
desviacin estndar y se define como la raz cuadrada de la varianza como sigue

Desviacin estndar =
2
S S =

Clculo de la varianza.- Esta puede ser calculada directamente de la frmula de su
definicin, sin embargo, si desarrollamos el cuadrado dentro de la sumatoria, podemos
obtener
( ) ( )
2
2 2 2
1 1
2
1 1
i i i
S X X X X X X
N N
= = +

( )
2 2
1
2
1
i i
X X X X
N
= +

( )
2 2
1
2
1
i i
X X X NX
N
= +

Finalmente:
( )
2 2 2
1
1
i
S X NX
N
=

Esta ltima expresin nos da un mtodo para calcular la varianza que puede resultar
ms sencillo en ocasiones, especialmente cuando se calculan por separado la media
X y la sumatoria de los cuadrados de los datos
2
i
X
.

Ejemplo.

Para el ejemplo de las calificaciones se puede formar la siguiente tabla

Suma
Xi 2.4 2.7 3.6 5.5 5.5 5.7 6 6.3 6.4 6.5 6.5 6.5 7 7 7.2 7.4 7.6 7.8 8 8.6 124.2
Xi
2
5.76 7.29 13 30.3 30.3 32.5 36 39.7 41 42.3 42.3 42.3 49 49 51.8 54.8 57.8 60.8 64 74 823.56
Xi- X -3.81 -3.51 -2.61 -0.71 -0.71 -0.51 -0.21 0.09 0.19 0.29 0.29 0.29 0.79 0.79 0.99 1.19 1.39 1.59 1.79 2.4 0
(Xi- X)
2
14.5 12.3 6.81 0.5 0.5 0.26 0.04 0.01 0.04 0.08 0.08 0.08 0.62 0.62 0.98 1.42 1.93 2.53 3.2 5.7 52.28

As, a partir de la tabla, usando la frmula anterior, y recordando que X =6.21,
obtenemos
2 2
1
19
(823.56 20*6.21 ) 2.75 S = =

De la tabla tambin se puede observar que la sumatoria de todas las desviaciones es
cero, como se esperaba.

Finalmente, usando la frmula de la definicin para la varianza, obtenemos el mismo
resultado como se esperaba:
2
1
19
(52) 2.75 S = =

y por lo tanto, la desviacin estndar es S=1.65876

7.5.- Variables normalizadas

Toda muestra de datos X
i
con media conocida X y varianza conocida S
2
puede
convertirse en una muestra Z
i
con media cero y varianza 1, simplemente haciendo el
siguiente cambio de variable (para cada dato X
i
):
i
i
X X
Z
S
=

As, todo conjunto de datos con media cero y una varianza uno, se dice que es un
conjunto de datos normalizados.

As, para nuestro ejemplo:

Z
i
=
X
i
6.21
1.65876

si le aplicamos la transformacin a cada uno de los datos, obtenemos la siguiente
muestra (Z
i
) con media cero y varianza 1:

X
i
2.4 2.7 3.6 5.5 5.5 5.7 6 6.3 6.4 6.5 6.5 6.5 7 7 7.2 7.4 7.6 7.8 8 8.6
Z
i
-2.3 -2.12 -1.6 -0.43 -0.4 -0.3 -0.13 0.05 0.11 0.17 0.17 0.17 0.48 0.48 0.6 0.72 0.84 0.96 1.08 1.4

Otra manera de interpretar la normalizacin anterior es como una medida de la
distancia de un dato Xi respecto a la media en trminos o unidades de desviacin
tpica S.

As, para el ejemplo, si X
i
= 2.4 , Z
i
= -2.3 significara que el dato 2.4 est a 2.3
desviaciones tpicas a la izquierda de la media.

7.6.- Otras medidas

Asimetra o Sesgo.- En la prctica, las distribuciones de frecuencia casi nunca son
simtricas. Al grado de asimetra se le llama sesgo. Es muy conveniente tener una
medida de dicha asimetra, dicha medida se puede calcular como sigue

Sesgo =
3
1
1
N
i
i
X X
N S
=
| |
|
\ .

o bien, Sesgo =
3
1
1
N
i
i
Z
N
=

es decir, Sesgo = promedio de los datos normalizados Z
i
3

Sin embargo, el clculo anterior puede ser muy "dispendioso", un clculo aproximado
ms sencillo puede hacerse como sigue:
Sesgo
( )
3 X X
S

Una propiedad interesante del sesgo es que si la distribucin de datos es simtrica,
el sesgo vale cero. Sin embargo, no ocurre necesariamente a la inversa, es decir, el
sesgo puede ser cero aunque la distribucin no sea simtrica

Para ilustrar de manera geomtrica el significado del sesgo, en las siguientes figuras se
muestra el caso de una distribucin con sesgo positivo y otra con sesgo negativo:
(obsrvese que en general la media siempre es atrada ms que la mediana por la cola
del histograma)

Sesgo positivo Sesgo negativo

Curtosis, cuartosis o picuds

Una manera de medir el grado de "picuds" del polgono de frecuencia es mediante la
curtosis, la cual se calcula como sigue

Curtosis =
4
1
1
3
N
i
i
X X
N S
=
| |
|
\ .

es decir,
4
1
1
3
N
i
i
Z
N
=

O bien, Curtosis = promedio de las Z
i
4
- 3

En la siguiente figura se muestran dos distribuciones que tienen una varianza y un
sesgo muy parecido pero tienen una curtosis diferente.

Observe que una distribucin que tienen extremos que se extienden mucho se les llama
distribuciones Leptocrticas y aquellas que se terminan bruscamente se les llama
platocrticas. Una distribucin que tenga una curtosis normal se le llama mesocrtica.

7.7.- Momentos de Datos Estadsticos

Los momentos de datos estadsticos son una generalizacin de las medidas de
varianza, sesgo y picuds. De manera concreta un momento de ensimo orden se
puede calcular como momento simple o como un momento central (o respecto a la
media) y expresa como
Momento central de orden n=
1
1
n
N
i
i
X X
N S
=
| |
|
\ .

y el momento simple de ensimo orden

Momento simple de orden n=
1
1
N
n
i
i
X
N
=

En general, a las medidas de la forma
1
1
N
n
i
i
Z
N
=
se les denomina momentos de orden n

de la muestra y tienen el significado ya descrito, es decir, varianza, sesgo o picuds.

7.8.- Comparacin entre dos muestras de datos. Covarianza y Correlacin.

Los estadsticos descritos en las secciones anteriores se calculan para una sola
muestra de datos, por lo cual no pueden ser utilizados para establecer relaciones entre
dos muestras de datos o entre datos de dos variables distintas. A continuacin se
describen algunos estadsticos que permiten establecer relaciones entre dos muestras
de datos:

La Covarianza (cov(X,Y) o
XY
S ), Este estadstico se obtiene a partir de la muestra
datos de una poblacin bidimensional (dos variables de inters: x, y), o bien, a partir de
dos muestras de datos del mismo tamao:
N 2 1
x ..... x . x ,
N 2 1
v ..... v . v mediante la frmula:
( )( )
= Y v X x S
i i N
1
XY

Donde Y . X son las medias de las variables X, Y respectivamente. En forma similar a
como se procedi con la varianza se puede obtener la siguiente frmula alternativa que
en ocasiones puede ser ms sencilla de calcular:

Y X v x S
i i N
1
XY
=

Correlacin (r). Mientras que la covarianza expresa, en cierto modo, el grado de
dependencia entre las dos muestras de datos, sin embargo tiene el inconveniente de
que su valor depende de las unidades en que se expresen las variables. Para evitar
esto se recurre a otro parmetro denominado coeficiente de correlacin o simplemente
correlacin, el cual se define como sigue

Y X
S
Y Y
Y .
S
X X
X
donde
) Y . X cov( r
=
=

Es decir, la correlacin entre las variables X, Y es la covarianza de las variables
normalizadas X, Y. De la definicin se puede obtener directamente la frmula
equivalente
Y X
S S
) Y . X cov(
r =

El valor del coeficiente de correlacin vara entre 1 y 1 (-1 r 1). En cada caso
concreto, el valor de r indica el tipo de relacin entre las variables x e y.

Cuando |r| es cercano a 1, la correlacin es fuerte, lo que significa que las variaciones
de una de las variables repercuten fuertemente en la otra, esto significa que si
graficamos la muestra Y contra X obtendremos puntos aproximadamente sobre una
lnea recta. Mientras que si |r| es prximo a 0, la correlacin es muy dbil y las
variables estn muy poco relacionadas y en este caso la grafica de Y contra X parece
una nube de puntos dispersos.

Ejemplo. Consideremos las calificaciones de los mismos estudiantes en la materia de
Fsica obtenidas en el mismo ciclo escolar. Denominemos por X a los datos de
matemticas y por Y a los de fsica, en la siguiente tabla se muestran dichos datos y los
clculos intermedios para obtener cov(X,Y) y r.

Suma
Xi 2.4 2.7 3.6 5.5 5.5 5.7 6 6.3 6.4 6.5 6.5 6.5 7 7 7.2 7.4 7.6 7.8 8 8.6 124.2
X

i
2
5.76 7.29 13 30.3 30.3 32.5 36 39.7 41 42.3 42.3 42.3 49 49 51.8 54.8 57.8 60.8 64 74 823.56
Xi- X -3.81 -3.51 -2.61 -0.71 -0.71 -0.51 -0.21 0.09 0.19 0.29 0.29 0.29 0.79 0.79 0.99 1.19 1.39 1.59 1.79 2.39 0.00
(Xi- X)
2
14.5 12.3 6.81 0.5 0.5 0.26 0.04 0.01 0.04 0.08 0.08 0.08 0.62 0.62 0.98 1.42 1.93 2.53 3.2 5.7 52.28
Yi 2.0 3.2 3.5 4.5 5.6 5.8 6 6.2 6.5 7 7.5 7.5 8 8.5 8.7 8.8 9 9.2 9.3 9.5 136.3
Yi
2
4.0 10.24 12.25 20.25 31.36 33.64 36.00 38.44 42.25 49.00 56.25 56.25 64.00 72.25 75.69 77.44 81.00 84.64 86.49 90.25 1021.69
Y Y
i

-4.82 -3.62 -3.32 -2.32 -1.22 -1.02 -0.82 -0.62 -0.32 0.19 0.69 0.69 1.19 1.69 1.89 1.99 2.19 2.39 2.49 2.69 0.00
( )
2
i
Y Y
23.18 13.07 10.99 5.36 1.48 1.03 0.66 0.38 0.10 0.03 0.47 0.47 1.40 2.84 3.55 3.94 4.77 5.69 6.18 7.21 92.81
( )( ) Y Y X X
i i
18.35 12.69 8.65 1.64 0.86 0.52 0.17 -0.06 -0.06 0.05 0.20 0.20 0.94 1.33 1.87 2.36 3.04 3.79 4.45 6.42 67.41

De donde se obtiene:

X=6.21, Y =6.815, S
X
=1.659, S
Y
=2.210, S
XY
= 3.548

Por lo tanto r=3.548/(1.659*42.210)=0.968

Como puede verse, la correlacin es alta, esto se puede constatar visualmente al
graficar los Datos Y contra los datos X como se muestra en la siguiente figura:

0
2
4
6
8
10
12
0 1 2 3 4 5 6 7 8 9 10
datos X
d
a
t
o
s

Y

7.9.- Otras herramientas grficas

Diagramas de Caja y Bigotes

Estos diagramas permiten tener una representacin visual resumida de los aspectos
ms relevantes del histograma de un conjunto de datos. Por su representacin
compacta son muy utilizados para representar varios conjuntos de datos en una misma
grfica con una caja y bigotes por cada conjunto de datos, facilitando as la
comparacin visual entre distintos conjuntos de datos de una misma variable o de
variables que nos interesa comparar.

En 1977 John Tukey public un tipo de grfico estadstico para resumir informacin
utilizando 5 medidas estadsticas: el valor mnimo, el primer cuartil, la mediana, el tercer
cuartil y el valor mximo. Este tipo de grfico recibe el nombre de grfico de caja
(boxplot).
Un grfico de este tipo consiste en un rectngulo (caja), de largo igual al rango
intercuartlico (2Q) . Este rectngulo est dividido por un segmento vertical que indica
donde se posiciona la mediana y por lo tanto su relacin con los cuartiles primero y
tercero Q
L
y Q
U
).
Como se puede ver en la siguiente figura, este rectngulo se ubica a escala sobre un
segmento que tiene como extremos los valores mnimo y mximo de la variable. Estos
segmentos que quedan a izquierda y a derecha de la caja se llaman bigotes

Q
L
X
~

Q
U

X
min
X
max

Los bigotes se dibujan con lneas continuas solamente hasta los lmites recomendados
por Tukey:. Para esto calcula 4 barreras, dos interiores y dos exteriores:
Bii = Barrera interior inferior = Q
L
3Q
Bis = Barrera interior superior = Q
U
+ 3Q
Bei = Barrera exterior inferior = Q
L
6Q
Bes = Barrera exterior superior = Q
U
+ 6Q
Si se consideran los valores de la variable comprendidos entre las dos barreras
interiores, el valor mnimo de la variable y el valor mximo son los extremos de los
bigotes, pero si existen valores de la variable comprendidos entre las barreras interiores
y exteriores se consideran valores atpicos y se indican con un asterisco *. Si
existieren valores fuera de las barreras exteriores se consideran valores todava ms
atpicos y se indican con un crculo . De esta manera, un diagrama de caja y bigotes
en general puede lucir como se muestra en la siguiente figura:

Q
L
X
~
Q
U

Bis Bii Bei Bes
* * * *
o o
*
o

Por otra parte, este tipo de grfico nos proporciona informacin con respecto a la
simetra o asimetra de la distribucin: si la mediana est en el centro de la caja o cerca
de l, constituye un indicio de simetra de los datos, si la mediana est
considerablemente ms cerca de Q
L
indica que los datos son positivamente asimtricos
y si est ms cerca d Q
U
, indica que los datos son negativamente asimtricos.
Ejemplo
Para el ejemplo de los datos de la materia de matemticas se tena que Q
L
=5.5,
Q
U
=7.2, Q=0.85 X
=6.5, de donde se obtiene:

Bii=2.95, por lo que existen dos datos menores que esta barrera y se considerarn
atpicos por lo tanto el bigote izquierdo se extender hasta el tercer dato X
3
=3.6
Bis=9.75 que es superior al dato mximo, por lo cual el bigote derecho se prolongar
solo hasta X
max
=8.6 el diagrama de caja y bigotes correspondiente queda como se
muestra en la parte inferior de la siguiente figura

2 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8 8.5 9 9.5 10
Matemticas
Fsica

En el mismo diagrama anterior se muestra el diagrama de caja para los datos de la
materia de fsica en la parte superior. Algunas comparaciones saltan a la vista:

Las calificaciones de Fsica son ms dispersas que las de mtemticas
El promedio general de Fsica es ms alto que en matemticas
En fsica todos los alumnos estn dentro de rangos normales, mientras que en
matemtica hay dos alumnos excepcionalmente bajos de calificacin en relacin al
resto del grupo.

Diagramas de Pareto

Es una variante del histograma que se utiliza para priorizar la importancia de las causas
que generan problemas de acuerdo a la frecuencia con que se presentan. El nombre de
Pareto fue dado en honor al economista italiano Wilfredo Pareto (1848-1923) quien
realiz un estudio sobre la distribucin de la riqueza, en el cual descubri que la minora
de la poblacin posea la mayor parte de la riqueza y la mayora de la poblacin posea
la menor parte de la riqueza. El Dr. Joseph Juran, uno de los pioneros del control de
calidad aplic este concepto a la calidad, obtenindose lo que hoy se conoce como la
regla 80/20. Segn este concepto, si se tiene un problema con muchas causas,
podemos decir que el 20% de las causas producen el 80 % del problema y el 80 % de
las causas solo producen el 20 % del problema.

Los diagramas de Pareto son una herramienta sencilla pero poderosa en el control de la
calidad, ya que permiten identificar visualmente en una sola revisin las minoras de
caractersticas vitales a las que es importante prestar atencin y de esta manera utilizar
todos los recursos necesarios para llevar a cabo una accin de mejora sin malgastar
esfuerzos ya que con el anlisis descartamos las mayoras triviales.
Algunos ejemplos de tales minoras vitales seran:

La minora de clientes que representan la mayora de las ventas.
La minora de productos, procesos, o caractersticas de la calidad causantes del
grueso de desperdicio o de los costos de repetir trabajos.
La minora de causas de rechazo que representa la mayora de quejas de los
clientes.
La minora de vendedores que est vinculada a la mayora de partes rechazadas.
La minora de problemas causantes del grueso del retraso de un proceso.
La minora de productos que representan la mayora de las ganancias obtenidas.
La minora de elementos que representan la mayor parte del costo de un inventario

Especficamente, los diagramas de Pareto pueden utilizarse para:

Identificar reas de oportunidad para mejorar
Identificar un producto o servicio para la mejora de su calidad.
Llamar la atencin a los problemas o causas de una forma sistemtica.
Buscar causas principales de los problemas y establecer la prioridad de las
soluciones
Evaluar los resultados de los cambios efectuados a un proceso comparando
diagramas de Pareto sucesivos obtenidos en momentos diferentes, (antes y
despus de los cambios)

Un diagrama de Pareto, a diferencia de un Histograma, requiere categoras en lugar
de intervalos de clase. Las categoras son datos cualitativos y suelen ser una
clasificacin de causas de errores o defectos en los productos o los servicios.

Ejemplo.

Un fabricante de accesorios plsticos desea analizar cules son los defectos ms
frecuentes que aparecen en las unidades al salir de la lnea de produccin. Para esto,
empez por clasificar todos los defectos posibles en sus diversos tipos:

Tipo de Defecto Detalle del Problema
Color El color no satisface los requerimientos del cliente
Dimensiones Muy ovalado
Acabado Aparicin de rebabas
Fragilidad El accesorio se quiebra en la instalacin
Desbalanceo El accesorio requiere contrapesos
Aplastamiento El accesorio se aplasta en la instalacin
Incompleto Falta alguno de los componentes metlicos
Alabeo Nivel de alabeo no aceptable
Otros Otros defectos

Posteriormente, un inspector revisa cada accesorio conforme sale de produccin
registrando sus defectos de acuerdo con dichos tipos. Al finalizar la jornada, se
reviosaron 94 accesorios y se la siguiente tabla:
Tipo de defecto

Defecto Frecuencia Frecuencia Frec. Rel.
relativa acumulada
Aplastamiento 40 42.6 % 42.6 %
Fragilidad 35 37.2 % 79.8 %
Dimensiones 8 8.5% 88.3 %
Color 3 3.2 % 91.5 %
Alabeo 3 3.2 % 94.7 %
Acabado 2 2.1 % 96.8 %
Incompleto 2 2.1 % 98.9 %
Desbalanceo 1 1.1 % 100 %
Otros 0 0 % 100 %
Total 94 100 %

La columna de frecuencia acumulada hace ms evidente cuales son los defectos que
aparecen con mayor frecuencia.

Obsrvese que se ha ordenado la tabla en orden decreciente de frecuencia. La
categora otros siempre debe ir al final, sin importar su valor.

Podemos ahora representar los datos en un histograma como el siguiente:
0
20
40
60
80
100
120
A
p
l
a
s
t
a
m
i
e
n
t
o
F
r
a
g
i
l
i
d
a
d
D
i
m
e
n
s
i
o
n
e
s
C
o
l
o
r
A
l
a
b
e
o
A
c
a
b
a
d
o
I
n
c
o
m
p
l
e
t
o
D
e
s
b
a
l
a
n
c
e
o
O
t
r
o
s
Frec Rel
Frec Rel Acum

Podemos observar que los 2 primeros tipos de defectos se presentan en
aproximadamente el 80 % de los casos. Se verifica el principio de Pareto: La mayora
de los defectos encontrados en el lote pertenecen a la minora (solo 2) de los tipos de
defectos (los pocos vitales), de manera que si se eliminan las causas que provocan
estos dos tipos de defectos desaparecera la mayor parte de los defectos.

Otro anlisis complementario y sumamente til e interesante, es graficar los costos que
implica resolver cada problema en lugar de su frecuencia, con lo cual podramos
construir un diagrama similar a partir de ordenar las causas por sus costos.

7.10.Regresin Lineal

Como se ilustr en el clculo de la covarianza, en ocasiones ocurre que dos variables
estn relacionadas entre s. Este tipo de situaciones es comn en la medicin
experimental de variables fsicas en las que se desea establecer o validar algn modelo
basado en alguna teora, en observaciones previas o en algn razonamiento emprico.
En este caso se define una variable dependiente y, y una variable independiente x,
luego se toman mediciones agrupadas en pares:
1 1 2 2
( . ). ( . )..... ( . )
N N
x v x v x v

Cada par de mediciones (x
i
,y
i
) se puede considerar como las coordenadas de un punto
en un plano, de esta manera se tienen N puntos, los cuales se pueden representar en
una grfica para ilustrar de manera visual el tipo de dependencia involucrada.

Se propone un modelo de dependencia a validar o a ajustar en trminos de una
funcin matemtica:
1 2
( . . ..... )
n
v f x p p p =

donde
1 2
. .....
n
p p p son los parmetros cuyos valores ajustan la forma exacta de la
curva para que se parezca lo ms posible a los puntos experimentales.

*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
yI(x.p1.p2...pn)
ymxb y
x

Sin embargo, no se debe caer en el extremo de buscar una curva que pase
exactamente por cada punto experimental, dado que cualquier proceso de medida es
susceptible en mayor o menor medida a errores, y habr que considerar que todos los
puntos tienen asociado algn margen de error.

La mejor solucin debe ponderar un equilibrio entre simplicidad y exactitud:

La simplicidad est dada por la eleccin del tipo de modelo
1 2
( . . ..... )
n
v f x p p p = lo
ms simple posible y con el menor nmero de parmetros (n lo ms pequeo
posible).
La exactitud est dada por la exigencia de que la curva pase lo ms cerca posible
de cada punto experimental.

El modelo ms simple es una lnea recta que pase por el origen:
1
v p x = , sin embargo,
es demasiado simple para la mayora de los casos. Un modelo ligeramente ms
completo es una recta que no necesariamente pase por el origen:
v mx b = + ,
donde los parmetros a ajustar son m=pendiente de la recta, b=ordenada al origen.

Como es de suponerse, la relacin y = mx + b no va a cumplirse exactamente.
Las distancias verticales entre el valor observado y el valor dado por la recta
para cada valor de x reciben el nombre de residuos, y se suelen denotar por e
i
.
La expresin terica del modelo matemtico ser, por lo tanto:
i i i
e b mx v + + =
Se acostumbra por simplicidad suponer que e
i
es una variable aleatoria Normal con
media cero y varianza conocida
2
.

Clculo por mnimos cuadrados de la pendiente y la ordenada al origen:

Estrategia: La estrategia utilizada para buscar la recta que mejor se ajuste a los datos
experimentales fue propuesta por Gauss y consiste en buscar la recta que minimice la
diferencia o error entre cada ordenada predicha por la recta `
i i
v mx b = + y la ordenada
obtenida experimentalmente
i
v , esta diferencia se denota como
i
e , es decir,
`
i i i i i
e v v mx b v = = +
En la siguiente figura se ilustra esta diferencia:

*
*
*
*
*
*
*
*
*
*
*
*
*
ymxb y
x
ei
xi
`
i
v
y
y
i

x

Una primera idea sera minimizar la suma total de los errores
i
e , pero como algunos
son positivos y otros son negativos, la suma podra ser muy pequea an si existen
errores de gran magnitud, por ello se busca ms bien:
Minimizar la suma de los cuadrados de los errores:
2
1
N
i
i
E e
=
=

La minimizacin se hace respecto a los parmetros del modelo f( ). En el caso lineal:

( )
2
2
1 1
N N
i i i
i i
E e mx b v
= =
= = +

Derivando respecto a m e igualando a cero

( )
( )
2
1 1
2 0
N N
i i
i i i
i i
mx b v E
x mx b v
m m
= =
+
= = + =

de donde
2
1 1 1
N N N
i i i i
i i i
m x b x x v
= = =
+ =

Derivando respecto a b e igualando a cero

( )
( )
2
1 1
2 0
N N
i i
i i
i i
mx b v E
mx b v
b b
= =
+
= = + =

de donde
1 1
N N
i i
i i
m x bN v
= =
+ =

hemos obtenido el sistema de dos ecuaciones lineales con las dos incgnitas m, b,
denominado conjunto de ecuaciones normales:

2
1 1 1
1 1
N N N
i i i i
i i i
N N
i i
i i
x x x v
m
b
x N v
= = =
= =

=

Resolviendo para m, b obtenemos

1 1 1
2
2
1 1
N N N
i i i i
i i i
N N
i i
i i
N x v x v
m
N x x
= = =
= =
=
| |
|
\ .

,
2
1 1 1 1
2
2
1 1
N N N N
i i i i i
i i i i
N N
i i
i i
x v x x v
b
N x x
= = = =
= =
=
| |
|
\ .

Las ecuaciones anteriores tambin se pueden escribir como sigue
:
=
=

=
N
1 i
2
i
N
1 i
i i
) X x (
) Y v )( X x (
m , X m Y
N
x m v
b
N
1 i
i
N
1 i
i
=
=

= =

Por lo tanto el modelo lineal o recta de regresin queda:

) X x (
S
S
Y v
2
X
XY
+ =
Donde:
N
) X x (
S .
N
) Y v )( X x (
S
N
1 i
2
i
2
X
N
1 i
i i
XY

= =
=

=

Ejemplo. La siguiente tabla muestra los datos de 69 pacientes de los que se conoce su
edad y una medicin de su presin sistlica. Si estamos interesados en estudiar la
variacin en la tensin sistlica en funcin de la edad del individuo, deberemos
considerar como variable dependiente la tensin y como variable independiente
(predictora) la edad.

N Tensin Edad N Tensin Edad
1 114 17 36 156 47
2 134 18 37 159 47
3 124 19 38 130 48
4 128 19 39 157 48
5 116 20 40 142 50
6 120 21 41 144 50
7 138 21 42 160 51
8 130 22 43 174 51
9 139 23 44 156 52
10 125 25 45 158 53
11 132 26 46 174 55
12 130 29 47 150 56
13 140 33 48 154 56
14 144 33 49 165 56
15 110 34 50 164 57
16 148 35 51 168 57
17 124 36 52 140 59
18 136 36 53 170 59
19 150 38 54 185 60
20 120 39 55 154 61
21 144 39 56 169 61
22 153 40 57 172 62
23 134 41 58 144 63
24 152 41 59 162 64
25 158 41 60 158 65
26 124 42 61 162 65
27 128 42 62 176 65
28 138 42 63 176 66
29 142 44 64 158 67
30 160 44 65 170 67
31 135 45 66 172 68
32 138 45 67 184 68
33 142 46 68 175 69
34 145 47 69 180 70
35 149 47

Aplicando los clculos anteriores a este caso, resulta: 13 . 46 X = , 72 . 148 Y = ,
15470 S
XX
= , 15215 S
XY
= , de donde m=0.98, b=103.35, por lo que el modelo de
regresin lineal queda
35 . 103 x 98 . 0 v + =

En la siguiente figura se muestra, superpuesta al diagrama de dispersin, la recta de
regresin de mnimos cuadrados correspondientes.
v
.
9
8
x
+
1
3
.
3
5
100
110
120
130
140
150
160
170
180
190
10 20 30 40 50 60 70 80
Edad
T
e
n
s
i

Apuntes Estadistica Descriptiva-2008

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apuntes Estadistica Descriptiva-2008

Cargado por

Copyright:

Formatos disponibles

Universidad Michoacana de San Nicols de Hidalgo

Facultad de Ingeniera Elctrica

).- Es el nmero (no necesariamente un dato) para el cual el 50% de

se les denomina momentos de orden n

=6.5, de donde se obtiene:

También podría gustarte