Está en la página 1de 28

!

""

7.1.- Introduccin
!

"

La palabra estadstica proviene del latn status o estado, sin embargo, esta
palabra slo describe en parte su significado real, es decir, solo describe la funcin
de la estadstica de llevar registros ordenados de datos para describir el estado de
las cosas. La estadstica como se concibe hoy en da va ms all de esta simple
funcin.
En forma muy general, la estadstica es la ciencia que se ocupa de la recoleccin,
clasificacin, organizacin, anlisis, sntesis e interpretacin de datos. En palabras
sencillas podramos decir que la estadstica es la ciencia de los datos
En trminos generales la estadstica aborda dos tipos de problemas:
Resumir, describir y explorar datos.
Utilizar datos de una muestra para inferir la naturaleza del conjunto del cual se
escogi la muestra.
As, la estadstica se divide en dos partes ntimamente relacionadas:
Estadstica Descriptiva.- Esta es la parte de la estadstica que se dedica a la
organizacin, sntesis y descripcin de conjuntos de datos.
Esta es importante, ya que antes de que la mente humana pueda interpretar (hacer
inferencias es interpretar) un conjunto de datos, especialmente cuando estos son
demasiados, es necesario resumirlos o representarlos de manera clara, simplificada o
reducida.
Estadstica Inferencial.- Esta rama de la estadstica trata el problema de inferir la
naturaleza de un conjunto de datos a partir de una muestra de dichos datos.
Al conjunto total de donde se toman los datos que se desea describir se denomina la
poblacin, mientras que una muestra es un subconjunto de datos seleccionados
de la poblacin.
La estadstica se puede ver como el conjunto de herramientas que nos permiten
establecer inferencias estadsticas (conclusiones fundamentadas en datos) a partir de
muestras tomadas de una poblacin sobre la cual se realizan las inferencias. Por lo
tanto, la estadstica proporciona tcnicas para
El muestreo (la toma de datos)
La descripcin, anlisis y representacin de los datos

El planteamiento y validacin de hiptesis basadas en los datos


La obtencin de modelos de comportamiento de la poblacin basadas en los
datos
En la siguiente figura se ilustran las diferentes partes del proceso que van desde la
toma de datos a la elaboracin de inferencias estadsticas:

160

H istog ram a d e la P o b lacio n

140

&

Frecuencia

120

'
(

'
!

100
80

$
%&
( %)&
%&

60
40
20
0
-4

-2

0
Clas es

Histograma de la Muestra
16
14

Frecuencia

12
10
8

'
!

6
4
2
0
-4

-2

0
Clases

#
%
( #
#

&
% )&
% &

7.2.- Muestreo aleatorio: Una muestra confiable no es cualquier muestra. Un proceso


de muestreo que nos permite tener datos no contaminados de origen debe ser:
Aleatorio. Es decir, debe ser imposible predecir cual es el siguiente dato de la
poblacin a ser tomado en la muestra.
Equiprobable. Todos los datos de la poblacin deben tener la misma
probabilidad de ser tomados en la muestra. Esto nos garantiza que no se dar
ms preferencia a algunos sectores de la poblacin que a otros.
Independiente. La inclusin de un dato en la muestra no debe afectar la
probabilidad de que otro dato sea o no tomado en ella. Esto significa que el
muestreo en general debe ser con reemplazo.
Poblaciones infinitas. Para poblaciones infinitas, el muestreo con o sin reemplazo no
produce diferencias apreciables, ya que el devolver una muestra o no antes de tomar la
siguiente no altera la poblacin. Para propsitos prcticos una poblacin finita muy
grande puede considerarse casi infinita.
Ejercicio:
Al efectuar un estudio de las corrientes de carga de los sistemas de alimentacin de
computadoras en 146 instalaciones de los Estados Unidos (IEEE Transactions on

Industry App. Julio/Agosto 1990) se detect que menos del 10% de estas instalaciones
tenia una corriente elevada del neutro respecto a la corriente nominal.
a) Cual es la poblacin de inters?
b) Cual es la muestra?
c) Hacer una inferencia sobre la poblacin basada en la muestra.
Tipos de datos. Los datos pueden ser de tipo Cuantitativo o bien pueden ser
Cualitativos (o categricos) estos ltimos no tienen interpretacin de cantidad, solo
pueden clasificarse en base a criterios.
Son ejemplos de datos cualitativos: Ocupaciones de los egresados de Ingeniera
Elctrica, Empresas dedicadas a la comercializacin de circuitos Integrados,- Materiales
usados en la construccin, etc.

7.3.- Tablas de Frecuencia e Histograma


Toma de datos.- Como ya se mencion, los datos con que cuenta la estadstica son
datos tomados de una muestra, no de la poblacin total, si se tomaran datos de la
poblacin total no habra necesidad de hacer inferencias, ya que se contara con toda la
informacin de la poblacin y en lugar de inferir bastara con consultar el dato
correspondiente. Sin embargo, en una poblacin muy numerosa es imprctico y costoso
tomar datos de toda la poblacin, por ello es necesario seleccionar muestras y a partir
de los datos de la muestra hacer inferencias.
En la medida de lo posible es recomendable manejar datos cuantitativos, ya que estos
permiten una representacin ms adecuada para extraer informacin visual. Existe una
gran cantidad de herramientas dedicadas a la representacin de los datos que nos
permiten extraer informacin visual ms rpida que la inspeccin dato por dato. Estas
herramientas se ilustrarn con el siguiente ejemplo:
Ejemplo.
La siguiente es una muestra de las calificaciones de 20 alumnos, obtenidas en un curso
anual de Matemticas:
3.6
7.0

2.4
8.0

5.5
7.0

6.5
5.7

6.4
2.7

6.5
7.6

6.5
8.6

6.6
5.5

7.4
7.8

6.3
7.2

Ordenamiento de datos.
El simple ordenamiento de los datos nos permitir observar algunos comportamientos a
simple vista que no son fciles de obtener con los datos desordenados. Para el
ejemplo, ordenamos los datos del 0 al 10 como sigue:

2.4, 2.7, 3.6, 5.5, 5.5, 5.7, 6.0, 6.3, 6.4, 6.5, 6.5, 6.5, 7.0, 7.0, 7.2, 7.4, 7.6, 7.8, 8.0, 8.6

No. De alumnos

Opcionalmente podemos adems hacer una representacin grfica de los datos con
respecto al orden indicando adems los que se repiten y cuantas veces lo hacen.
4
3
2
1
0
2.4

2.7

3.6

5.5

5.7

6.3

6.4

6.5

7.2

7.4

7.6

7.8

8.6

Calificacin
Tanto la lista ordenada como la grfica anterior nos proporcionan una mayor
informacin a simple vista; por ejemplo, es fcil advertir de ambas que:
- La mayor parte de alumnos obtuvieron calificaciones entre 5.5 y 8
- Nadie obtuvo calificaciones menores de 2.4 ni mayores de 8.6.
Diagrama de Tallo y Hojas.
Esta es una de las tcnicas ms simples para representar los datos y consiste en
clasificarlos en renglones de acuerdo a un tallo consistente en el primer dgito,
anotando en forma de lista los dgitos siguientes formando las hojas para cada tallo. De
esta manera se obtiene un diagrama en el que la longitud de las ramas nos dice a
simple vista en que tallo caen ms o menos datos. Para el ejemplo este diagrama
quedara como sigue
Tallo
2
3
5
6
7
8

H o j a s
.4
.6
.5
.3
.0
.0

.7
.5
.4
.0
.6

.7
.5
.2

.5
.4

.5
.6

.6
.8

Tablas de Frecuencia.
La misma informacin puede ser representada en una Tabla de Frecuencias la cual se
presenta a continuacin para el mismo ejemplo:
Calificacin Frecuencia Frecuencia Frecuencia Frec. Rel.
xi
fi
Acumulada Relativa Acumulada
2.4
1
1
0.05
0.05
2.7
1
2
0.05
0.10

3.6
5.5
5.7
6.0
6.3
6.4
6.5
7.0
7.2
7.4
7.6
7.8
8.0
8.6

1
2
1
1
1
1
3
2
1
1
1
1
1
1

3
5
6
7
8
9
12
14
15
16
17
18
19
20

0.05
0.10
0,05
0.05
0.05
0.05
0.15
0.10
0.05
0.05
0.05
0.05
0.05
0.05

0.15
0.25
0.3
0.35
0.4
0.45
0.6
0.7
0.75
0.8
0.85
0.9
0.95
1.0

La frecuencia de un dato es simplemente el nmero de veces que aparece dicho


dato.
La frecuencia relativa es el cociente de la frecuencia entre el total de datos.
As, si el dato xi se repite fi veces en una muestra de n datos:
- Su frecuencia ser fi
- Su frecuencia relativa ser fi/n
La frecuencia relativa tambin puede expresarse en porcentaje simplemente
multiplicndola por 100 y nos indica el porcentaje de veces que aparece el dato
respecto al total.
La frecuencia acumulada de un dato ser la suma de todas las frecuencias de los
datos menores o iguales a l y la frecuencia relativa acumulada es simplemente la
frecuencia acumulada dividida entre el nmero total de datos.
Datos Agrupados
Cuando las muestras de datos son muy grandes, la representacin anterior puede ser
muy complicada o hasta confusa, en este caso conviene agrupar los datos de acuerdo
a la definicin de clases a las que pertenecen los datos:
Para ello se elige primeramente un intervalo (I) que contenga todos los datos y luego se
divide este intervalo en subintervalos llamados Intervalos de Clase o Clases. A los
puntos medios de estos intervalos se les llama Marcas de clase.
Al nmero de datos de una clase se le llama Frecuencia de clase y a su cociente
entre n (nmero de datos de la muestra) se le llama Frecuencia relativa de clase
Ejemplo:

Para el ejemplo de las calificaciones podemos elegir el intervalo total de muchas


maneras, por ejemplo como el intervalo del 2 al 9, es decir, I=[2,9]. Si dividimos este
intervalo en 5 intervalos de clase, la tabla de frecuencias para los datos agrupados
quedar como sigue:

Intervalo de Marca de
clase
Clase x
2.0 - 3.4
2.7
3.4 - 4.8
4.1
4.8 - 6.2
5.5
6.2 - 7.6
6.9
7.6 - 9.0
8.3

Frecuencia
de clase
2
1
4
9.5
3.5

Frecuencia
Relativa f(x)
0.1
0.05
0.2
0.475
0.175

Frec. Rel.
Acumulada F(x)
0.1
0.15
0.35
0.815
1.0

Esta informacin se puede representar en la siguiente grfica denominada


Histograma de los datos agrupados
0.5
0.45

Frecuencia Relativa

0.4
0.35
0.3
0.25
0.2
0.15

Polgono de
frecuencias

0.1
0.05
0
2.0

2.7

3.4

4.1

4.8

5.5

Clases

6.2

6.9

7.6

8.3

9.0

A la lnea roja que une las alturas de los rectngulos sobre las marcas de clase se le
denomina polgono de frecuencias
Y si gratificamos el rea bajo la curva del histograma (considerando el ancho de los
intervalos de valor unitario), obtenemos el diagrama de frecuencia acumulada que suele
llamarse la curva de distribucin (o Curva de de Frecuencia Acumulada).
Lmites y lmites reales de clase
En el ejemplo anterior los lmites de clase son compartidos por clases consecutivas, por
lo cual ha sido necesario dividir los datos que caen en un lmite por mitad. Algunos
autores acostumbran indicar los intervalos de clase mediante nmeros adyacentes, de
manera que nunca se compartan los lmites entre clases consecutivas, por ejemplo:

Clase 1 : de 2.00 a 3.35


Clase 2 : de 3.4 a 4.75
Clase 3 : de 4.8 a 6.15
Clase 4 : de 6.2 a 7.55
Clase 5 : de 7.6 a 8.95
En estos casos los lmites reales estn a la mitad entre las fronteras de una clase y la
siguiente, en este caso, los intervalos reales seran:,
2 a 3.375, 3.375 a 4.775, 4.775 a 6.175, 6.175 a 7.575 y 7.575 a 9.0
7.4.- Medidas descriptivas de una distribucin de datos.
Es importante tener algunas medidas que nos permitan dar una descripcin rpida
sobre la forma que tiene el histograma de los datos y que lo hace diferente o parecido a
otros histogramas. Para ello se han definido medidas que nos dan informacin de
manera sinttica sobre si el histograma es simtrico, si es muy plano o muy puntiagudo,
sobre donde est su centro, etc.
Estas medidas se denominan medidas descriptivas numricas y son cantidades
calculadas a partir de un conjunto de datos que nos ayudan a crear una imagen mental
de su histograma de frecuencia relativa. Estas medidas son de tres tipos:
Medidas de tendencia central.- Nos ayudan a ubicar el centro del histograma.
Medidas de dispersin.- Nos ayudan a medir que tan disperso esta el histograma
respecto a su centro.
Medidas de posicin relativa.- Describen la ubicacin de una observacin dentro
del conjunto de datos (un dato dentro de la muestra).
A estas medidas tambin se les llama estadsticos y su caracterstica fundamental es
que son medidas descriptivas y numricas calculadas a partir de la muestra.
En forma similar, un Parmetro.- Es una medida descriptiva numrica de una
poblacin no de una muestra. Es decir, se supone que los parmetros son las
cantidades que describen a la poblacin y normalmente no se conocen, slo se
pueden inferir a partir de los estadsticos.
7.4.1.- Medidas de Tendencia Central
La Media Aritmtica o Media Muestral (
promedio de los valores de la muestra.

).- Nos da una indicacin del tamao

As, para N datos (X1,X2 ,..., XN), la media se calcula como sigue
=

'

+ +

Es decir,

*
=*

Ejemplo. Para el caso de las calificaciones:

=+ *

Un caso ms general que la media aritmtica es la media ponderada que se calcula


como
=

*
=*

Donde los coeficientes ai son los "pesos" o ponderaciones que se les da a los diferentes
datos xi.
* Obviamente en el caso particular en que
convierte en la media aritmtica.

= * , esta media ponderada se

La Mediana ( ).- Es el nmero (no necesariamente un dato) para el cual el 50% de


los datos son menores o iguales que l.
Ejemplo:

Para el caso de estudio.

= 6.5

En general la mediana se puede calcular como sigue:


.=
-

- , / + -* + , /

- ' , +*) /

As, para el ejemplo N=20 (par)


.=
-

**

= + 10+ 1 = + 1

Media y Mediana de Datos Agrupados


Evidentemente las ecuaciones anteriores solo sirven para los datos no agrupados. En
el caso de que los datos ya estn agrupados y sea necesario calcular la media y la
mediana, ya no es posible hacerlo de manera exacta, sin embargo, una buena
aproximacin se puede obtener de la siguiente manera
Media de datos agrupados
=

*
=*

Donde: Nc = nmero de clases


Xi = marca de la clase i-esima
fi = frecuencia relativa de la clase i-esima

Para el ejemplo de las calificaciones:


- =2.7*0.1+4.1*0.05+5.5*0.2+6.9*0.475+8.3*0.175=6.305

Mediana de datos agrupados


. = (lim. Inf. del IM) + [N/2- (frec. acumulada antes del IM)/2]*(Amplitud del IM.)
-

Donde:
IM = Intervalo mediano = Intervalo de clase en el que cae la mediana el valor que est a
la mitad de los datos.
As, para el ejemplo, el Intervalo mediano es (6.2,7.6), entonces
. = 6.2 + (10-7/9.5)*(1.4) = 6.642
-

La Moda.- Se le llama moda simplemente al dato que ms se repite en una muestra.


(En datos agrupados corresponde a la marca de clase en la que ocurre el mximo del
histograma)
La moda no siempre es nica, por lo que una muestra puede ser unimodal o
multimodal dependiendo de si tiene una o varias modas.
Para el ejemplo la moda de los datos sin agrupar es 6.5, sin embargo, si consideramos
datos agrupados, la moda es 6.9
Observacin: La moda no siempre es nica, as, podemos tener distribuciones de datos
con varias modas, en tal caso se llaman multimodales.
Interpretacin geomtrica de la media, mediana y moda
Una manera de visualizar de manera geomtrica el significado de media, mediana y
moda es considerando el perfil del polgono de frecuencias como si fuera un figura
plana, es decir, sin dibujramos el histograma sobre una lmina plana de material
homogneo y lo recortramos, podemos afirmar lo siguiente:
2
2
2

La Moda es el punto ms alto de la figura.


La Mediana es el punto que divide a la figura en dos reas iguales.
La Media es el punto de equilibrio (centro de masa) de la figura.

Esta idea se ilustra en la siguiente figura

4#

* 3

Esto significa que la media es ms sensible al brazo de palanca, es decir, la media es


ms afectada que la mediana por datos muy alejados del centro del histograma
llamados outlayers o datos atpicos que suelen aparecen debido a errores en la toma
de datos, por ello se dice que la mediana es una medida ms robusta que la media
Otras medidas de centralizacin
La media geomtrica (Mg).- Esta calcula un centro basado en la raz de orden n del
producto de los datos, es decir,
Mg= *
Por ejemplo, para la ubicacin de un valor medio pesimista para la constante beta de
un transitor.
La media armnica (MH).- Esta es el recproco de la suma de los recprocos de todos
los datos, es decir,
5

*
+ *
-* -

,
+ + -*

Por ejemplo, el valor equivalente de un arreglo de resistencias en paralelo.


La media RMS (MRMS o raz cuadrtica media).- Es la raz cuadrada de la suma de los
cuadrados de cada dato, dividida entre el nmero de datos.
=

*
,

'-* + - +

+ -, )

Por ejemplo, el valor medio de un voltaje de corriente alterna.


7.4.2.- Medidas de posicin relativa.
Cuartiles, deciles y percentiles
Los cuartiles, deciles y percentiles son medidas para indicar la posicin relativa de
algn dato en particular, sin embargo, tambin pueden ser utilizadas para indicar
dispersin
El k-simo percentil de un conjunto de datos es el valor (no necesariamente un
datgo) para el cual el k% de los datos ordenados son menores o iguales que l
(queda a la izquierda de l) y el (100-K)% queda a la derecha.

Existen varias maneras de definir los percentiles, la definicin anterior es la ms


utilizada, sin embargo, puede producir resultados distintos, especialmente para
muestras de menos de 100 datos.
Ejemplo:
En el ejemplo de las calificaciones, el alumno que obtuvo la calificacin de 7.0 esta
ubicado en el 70-avo percentil de la muestra, es decir, el 70% de los datos son menores
o iguales a 7 y el 30 % son mayores que 7.
El cuartil inferior (QL).- de un conjunto de datos es le 25-avo percentil.
El cuartil superior (QU).- es el 75-avo percentil.
El cuartil medio.- Es el 50-avo percentil, es decir, es la mediana
En forma similar, el k-simo decil simplemente es el 10*k-simo percentil.
7.4.3.- Medidas de dispersin o variacin.
Es importante tener medidas de variabilidad de la muestra, ya que en la medida en que
una muestra presenta mayor variabilidad, las medidas de centralizacin nos dan un
mayor error y son menos representativas.
Una muestra muy dispersa es aquella cuyos datos se encuentran en su mayora muy
alejados de la media, mientras que una muestra poco dispersa (o muy concentrada),
la mayora de los datos estn acumulados muy cercanos a la media.
Las siguientes son algunas de las medidas ms utilizadas para medir o indicar el grado
de dispersin de una muestra:
El rango.- La medida mas simple para medir dispersin es la diferencia entre el mayor
y el menor dato de la muestra.
Ejemplo: Para el mismo ejemplo de las calificaciones:
Datos no agrupados:
Para los datos agrupados:

Rango = 8.6-2.4 = 6.2


Rango = 9-2= 7

El Rango Intercuartlico.- Es la diferencia entre el cuartil superior y el cuartil inferior, es


decir, QU-QL
Rango semi-intercuartlico. ( ).- Es la mitad del rango intercuartlico, es decir,

Esta medida (Q) es ms representativa que las anteriores, ya que tiene la siguiente
propiedad: En distribuciones aproximadamente simtricas el 50 % de los datos
queda comprendido entre
y
+
Ejemplo: Cuntos datos quedan entre
Cuartiles:

para el ejemplo?

QL=5.5, QU=7.2

Rango semi-intercuartlico:
Entonces:

6 1 1

= 6.5 - 0.85 = 5.65,

= 6.5 + 0.85 = 7.35

Entre estos dos valores hay 10 datos = 50% de los datos.


El rango Q90 - Q10.- Es la diferencia entre el Percentil 90 y el Percentil 10.
Esta medida tiene la propiedad de que entre - -(Q90-Q10) y - +(Q90-Q10), caen
aproximadamente el 80% de los datos.
Observaciones:
Las medidas de dispersin anteriores producen un mayor valor a mediad que es mayor
la dispersin de la muestra.
Sin embargo, ninguna de ellas (en forma similar a la mediana y la moda) incluyen en su
clculo a cada dato de la muestra. Por ello, una alternativa mucho ms utilizada y que
toma en cuenta esto ltimo es la siguiente
La varianza (S2).
Una idea para obtener una medida de dispersin que tome en cuenta cada uno de los
datos de la muestra para su clculo es buscar una manera de totalizar las desviaciones
de cada dato respecto al centro de la muestra, es decir, se nos podra ocurrir sumar
todas las desviaciones (diferencias) de cada dato respecto a la media, de la forma Xies decir;
'

=*

Sin embargo, la sumatoria anterior resulta ser cero, ya que las desviaciones positivas
cancelan a las negativas, ya que la media es el centro de la muestra.
Una manera de evitar que las desviaciones negativas se cancelen con las positivas es
sumar los cuadrados de las desviaciones como sigue,

*
*

'

=*

a esta cantidad se le llama la varianza o variancia.


Otra alternativa es la de tomar los valores absolutos para obtener lo que se denomina
desviacin media:
Desviacin media =

*
=*

O bien, una medida ms usada que la desviacin media es la desviacin tpica o


desviacin estndar y se define como la raz cuadrada de la varianza como sigue
Desviacin estndar =

Clculo de la varianza.- Esta puede ser calculada directamente de la frmula de su


definicin, sin embargo, si desarrollamos el cuadrado dentro de la sumatoria, podemos
obtener
*
*
=
) =
+
(
(
)
*
*
*
=

+
(
)
*
*
=

+
(
)
*
=

Finalmente:

*
(
*

Esta ltima expresin nos da un mtodo para calcular la varianza que puede resultar
ms sencillo en ocasiones, especialmente cuando se calculan por separado la media
y la sumatoria de los cuadrados de los datos
.
Ejemplo.
Para el ejemplo de las calificaciones se puede formar la siguiente tabla
Suma
Xi

2.4

2.7

3.6

5.5

5.7

6.3

6.4

6.5

6.5

7.2

7.8

8.6 124.2

Xi2

5.76 7.29

13

30.3 30.3 32.5

36

39.7

41

42.3 42.3 42.3

49

49

51.8 54.8 57.8 60.8

64

74 823.56

Xi- -

5.5

6.5

-3.81 -3.51 -2.61 -0.71 -0.71 -0.51 -0.21 0.09 0.19 0.29 0.29 0.29 0.79

(Xi- - )2 14.5 12.3 6.81

0.5

0.5

7.4

7.6

0.79 0.99 1.19 1.39 1.59 1.79 2.4

0.26 0.04 0.01 0.04 0.08 0.08 0.08 0.62 0.62 0.98 1.42 1.93 2.53

As, a partir de la tabla, usando la frmula anterior, y recordando que


obtenemos
= *7* ' 8 1+ 9+ * ) = 61

3.2

5.7 52.28

=6.21,

De la tabla tambin se puede observar que la sumatoria de todas las desviaciones es


cero, como se esperaba.
Finalmente, usando la frmula de la definicin para la varianza, obtenemos el mismo
resultado como se esperaba:
= *7* '1 ) = 61
y por lo tanto, la desviacin estndar es S=1.65876
7.5.- Variables normalizadas
Toda muestra de datos Xi con media conocida
y varianza conocida S2 puede
convertirse en una muestra Zi con media cero y varianza 1, simplemente haciendo el
siguiente cambio de variable (para cada dato Xi):

=
As, todo conjunto de datos con media cero y una varianza uno, se dice que es un
conjunto de datos normalizados.
As, para nuestro ejemplo:

Zi =

X i 6.21
1.65876

si le aplicamos la transformacin a cada uno de los datos, obtenemos la siguiente


muestra (Zi) con media cero y varianza 1:
Xi
Zi

2.4

2.7

3.6

5.5

5.5

5.7

6.3

6.4

6.5

6.5

6.5

-2.3 -2.12 -1.6 -0.43 -0.4 -0.3 -0.13 0.05 0.11 0.17 0.17 0.17 0.48

7.2

0.48

0.6

7.4

7.6

7.8

8.6

0.72 0.84 0.96 1.08 1.4

Otra manera de interpretar la normalizacin anterior es como una medida de la


distancia de un dato Xi respecto a la media en trminos o unidades de desviacin
tpica S.
As, para el ejemplo, si Xi = 2.4 , Zi = -2.3 significara que el dato 2.4 est a 2.3
desviaciones tpicas a la izquierda de la media.
7.6.- Otras medidas
Asimetra o Sesgo.- En la prctica, las distribuciones de frecuencia casi nunca son
simtricas. Al grado de asimetra se le llama sesgo. Es muy conveniente tener una
medida de dicha asimetra, dicha medida se puede calcular como sigue

Sesgo =

*
=*

o bien, Sesgo =

8
=*

es decir, Sesgo = promedio de los datos normalizados Zi3


Sin embargo, el clculo anterior puede ser muy "dispendioso", un clculo aproximado
ms sencillo puede hacerse como sigue:
8
Sesgo

Una propiedad interesante del sesgo es que si la distribucin de datos es simtrica,


el sesgo vale cero. Sin embargo, no ocurre necesariamente a la inversa, es decir, el
sesgo puede ser cero aunque la distribucin no sea simtrica
Para ilustrar de manera geomtrica el significado del sesgo, en las siguientes figuras se
muestra el caso de una distribucin con sesgo positivo y otra con sesgo negativo:
(obsrvese que en general la media siempre es atrada ms que la mediana por la cola
del histograma)

Sesgo positivo

Sesgo negativo

Curtosis, cuartosis o picuds


Una manera de medir el grado de "picuds" del polgono de frecuencia es mediante la
curtosis, la cual se calcula como sigue
Curtosis =

*
=*

es decir,

:
=*

O bien, Curtosis = promedio de las Zi4- 3


En la siguiente figura se muestran dos distribuciones que tienen una varianza y un
sesgo muy parecido pero tienen una curtosis diferente.

Observe que una distribucin que tienen extremos que se extienden mucho se les llama
distribuciones Leptocrticas y aquellas que se terminan bruscamente se les llama
platocrticas. Una distribucin que tenga una curtosis normal se le llama mesocrtica.
7.7.- Momentos de Datos Estadsticos
Los momentos de datos estadsticos son una generalizacin de las medidas de
varianza, sesgo y picuds. De manera concreta un momento de ensimo orden se
puede calcular como momento simple o como un momento central (o respecto a la
media) y expresa como
Momento central de orden n=

*
=*

y el momento simple de ensimo orden


Momento simple de orden n=

*
=*

En general, a las medidas de la forma

se les denomina momentos de orden n


=*

de la muestra y tienen el significado ya descrito, es decir, varianza, sesgo o picuds.


7.8.- Comparacin entre dos muestras de datos. Covarianza y Correlacin.
Los estadsticos descritos en las secciones anteriores se calculan para una sola
muestra de datos, por lo cual no pueden ser utilizados para establecer relaciones entre
dos muestras de datos o entre datos de dos variables distintas. A continuacin se
describen algunos estadsticos que permiten establecer relaciones entre dos muestras
de datos:
La Covarianza (cov(X,Y) o
), Este estadstico se obtiene a partir de la muestra
datos de una poblacin bidimensional (dos variables de inters: x, y), o bien, a partir de
dos muestras de datos del mismo tamao:
,
mediante la frmula:

)(

Donde
son las medias de las variables X, Y respectivamente. En forma similar a
como se procedi con la varianza se puede obtener la siguiente frmula alternativa que
en ocasiones puede ser ms sencilla de calcular:

Correlacin (r). Mientras que la covarianza expresa, en cierto modo, el grado de


dependencia entre las dos muestras de datos, sin embargo tiene el inconveniente de
que su valor depende de las unidades en que se expresen las variables. Para evitar
esto se recurre a otro parmetro denominado coeficiente de correlacin o simplemente
correlacin, el cual se define como sigue
=

Es decir, la correlacin entre las variables X, Y es la covarianza de las variables


normalizadas X, Y. De la definicin se puede obtener directamente la frmula
equivalente
=

El valor del coeficiente de correlacin vara entre 1 y 1 (-1 r 1). En cada caso
concreto, el valor de r indica el tipo de relacin entre las variables x e y.
Cuando |r| es cercano a 1, la correlacin es fuerte, lo que significa que las variaciones
de una de las variables repercuten fuertemente en la otra, esto significa que si
graficamos la muestra Y contra X obtendremos puntos aproximadamente sobre una
lnea recta. Mientras que si |r| es prximo a 0, la correlacin es muy dbil y las
variables estn muy poco relacionadas y en este caso la grafica de Y contra X parece
una nube de puntos dispersos.
Ejemplo. Consideremos las calificaciones de los mismos estudiantes en la materia de
Fsica obtenidas en el mismo ciclo escolar. Denominemos por X a los datos de
matemticas y por Y a los de fsica, en la siguiente tabla se muestran dichos datos y los
clculos intermedios para obtener cov(X,Y) y r.

Suma
Xi

2.4

2.7

3.6

5.5

5.5

5.7

6.3

6.4

6.5

6.5

6.5

7.2

7.4

7.6

7.8

8.6

124.2

X i2

5.76

7.29

13

30.3

30.3

32.5

36

39.7

41

42.3

42.3

42.3

49

49

51.8

54.8

57.8

60.8

64

74

823.56

0.09

0.19

0.29

0.29

0.29

0.79

0.79

0.99

1.19

1.39

1.59

1.79

2.39

0.00

Xi- -

-3.81 -3.51 -2.61 -0.71 -0.71 -0.51 -0.21

(Xi- - )2

14.5

12.3

6.81

0.5

0.5

0.26

0.04

0.01

0.04

0.08

0.08

0.08

0.62

0.62

0.98

1.42

1.93

2.53

3.2

5.7

52.28

Yi

2.0

3.2

3.5

4.5

5.6

5.8

6.2

6.5

7.5

7.5

8.5

8.7

8.8

9.2

9.3

9.5

136.3

Yi2

)(

-4.82 -3.62 -3.32 -2.32 -1.22 -1.02 -0.82 -0.62 -0.32

0.19

0.69

0.69

1.19

1.69

1.89

1.99

2.19

2.39

2.49

2.69

0.00

23.18 13.07 10.99 5.36

) 18.35

12.69 8.65

1.64

1.48

1.03

0.66

0.38

0.10

0.03

0.47

0.47

1.40

2.84

3.55

3.94

4.77

5.69

6.18

7.21

92.81

0.86

0.52

0.17

-0.06 -0.06

0.05

0.20

0.20

0.94

1.33

1.87

2.36

3.04

3.79

4.45

6.42

67.41

De donde se obtiene:
- =6.21,

=6.815, SX=1.659, SY=2.210, SXY= 3.548

Por lo tanto r=3.548/(1.659*42.210)=0.968


Como puede verse, la correlacin es alta, esto se puede constatar visualmente al
graficar los Datos Y contra los datos X como se muestra en la siguiente figura:
12
10
8
datos Y

10.24 12.25 20.25 31.36 33.64 36.00 38.44 42.25 49.00 56.25 56.25 64.00 72.25 75.69 77.44 81.00 84.64 86.49 90.25 1021.69

4.0

6
4
2
0
0

10

datos X

7.9.- Otras herramientas grficas


Diagramas de Caja y Bigotes
Estos diagramas permiten tener una representacin visual resumida de los aspectos
ms relevantes del histograma de un conjunto de datos. Por su representacin
compacta son muy utilizados para representar varios conjuntos de datos en una misma
grfica con una caja y bigotes por cada conjunto de datos, facilitando as la
comparacin visual entre distintos conjuntos de datos de una misma variable o de
variables que nos interesa comparar.
En 1977 John Tukey public un tipo de grfico estadstico para resumir informacin
utilizando 5 medidas estadsticas: el valor mnimo, el primer cuartil, la mediana, el tercer

cuartil y el valor mximo. Este tipo de grfico recibe el nombre de grfico de caja
(boxplot).
Un grfico de este tipo consiste en un rectngulo (caja), de largo igual al rango
intercuartlico (2Q) . Este rectngulo est dividido por un segmento vertical que indica
donde se posiciona la mediana y por lo tanto su relacin con los cuartiles primero y
tercero QL y QU).
Como se puede ver en la siguiente figura, este rectngulo se ubica a escala sobre un
segmento que tiene como extremos los valores mnimo y mximo de la variable. Estos
segmentos que quedan a izquierda y a derecha de la caja se llaman bigotes

;=

;<

>

Los bigotes se dibujan con lneas continuas solamente hasta los lmites recomendados
por Tukey:. Para esto calcula 4 barreras, dos interiores y dos exteriores:
Bii = Barrera interior inferior = QL 3Q
Bis = Barrera interior superior = QU + 3Q
Bei = Barrera exterior inferior = QL 6Q
Bes = Barrera exterior superior = QU + 6Q
Si se consideran los valores de la variable comprendidos entre las dos barreras
interiores, el valor mnimo de la variable y el valor mximo son los extremos de los
bigotes, pero si existen valores de la variable comprendidos entre las barreras interiores
y exteriores se consideran valores atpicos y se indican con un asterisco *. Si
existieren valores fuera de las barreras exteriores se consideran valores todava ms
atpicos y se indican con un crculo . De esta manera, un diagrama de caja y bigotes
en general puede lucir como se muestra en la siguiente figura:
?

?
9

?
99

;<

;=

Por otra parte, este tipo de grfico nos proporciona informacin con respecto a la
simetra o asimetra de la distribucin: si la mediana est en el centro de la caja o cerca
de l, constituye un indicio de simetra de los datos, si la mediana est
considerablemente ms cerca de QL indica que los datos son positivamente asimtricos
y si est ms cerca d QU, indica que los datos son negativamente asimtricos.
Ejemplo
Para el ejemplo de los datos de la materia de matemticas se tena que QL=5.5,
QU=7.2, Q=0.85 =6.5, de donde se obtiene:

Bii=2.95, por lo que existen dos datos menores que esta barrera y se considerarn
atpicos por lo tanto el bigote izquierdo se extender hasta el tercer dato X3=3.6
Bis=9.75 que es superior al dato mximo, por lo cual el bigote derecho se prolongar
solo hasta Xmax=8.6 el diagrama de caja y bigotes correspondiente queda como se
muestra en la parte inferior de la siguiente figura

Fsica

Matemticas

2.5

3.5

4.5

5.5

6.5

7.5

8.5

9.5

10

En el mismo diagrama anterior se muestra el diagrama de caja para los datos de la


materia de fsica en la parte superior. Algunas comparaciones saltan a la vista:
Las calificaciones de Fsica son ms dispersas que las de mtemticas
El promedio general de Fsica es ms alto que en matemticas
En fsica todos los alumnos estn dentro de rangos normales, mientras que en
matemtica hay dos alumnos excepcionalmente bajos de calificacin en relacin al
resto del grupo.
Diagramas de Pareto
Es una variante del histograma que se utiliza para priorizar la importancia de las causas
que generan problemas de acuerdo a la frecuencia con que se presentan. El nombre de
Pareto fue dado en honor al economista italiano Wilfredo Pareto (1848-1923) quien
realiz un estudio sobre la distribucin de la riqueza, en el cual descubri que la minora
de la poblacin posea la mayor parte de la riqueza y la mayora de la poblacin posea
la menor parte de la riqueza. El Dr. Joseph Juran, uno de los pioneros del control de
calidad aplic este concepto a la calidad, obtenindose lo que hoy se conoce como la
regla 80/20. Segn este concepto, si se tiene un problema con muchas causas,
podemos decir que el 20% de las causas producen el 80 % del problema y el 80 % de
las causas solo producen el 20 % del problema.
Los diagramas de Pareto son una herramienta sencilla pero poderosa en el control de la
calidad, ya que permiten identificar visualmente en una sola revisin las minoras de
caractersticas vitales a las que es importante prestar atencin y de esta manera utilizar
todos los recursos necesarios para llevar a cabo una accin de mejora sin malgastar
esfuerzos ya que con el anlisis descartamos las mayoras triviales.
Algunos ejemplos de tales minoras vitales seran:

La minora de clientes que representan la mayora de las ventas.


La minora de productos, procesos, o caractersticas de la calidad causantes del
grueso de desperdicio o de los costos de repetir trabajos.
La minora de causas de rechazo que representa la mayora de quejas de los
clientes.
La minora de vendedores que est vinculada a la mayora de partes rechazadas.
La minora de problemas causantes del grueso del retraso de un proceso.
La minora de productos que representan la mayora de las ganancias obtenidas.
La minora de elementos que representan la mayor parte del costo de un inventario
Especficamente, los diagramas de Pareto pueden utilizarse para:
Identificar reas de oportunidad para mejorar
Identificar un producto o servicio para la mejora de su calidad.
Llamar la atencin a los problemas o causas de una forma sistemtica.
Buscar causas principales de los problemas y establecer la prioridad de las
soluciones
Evaluar los resultados de los cambios efectuados a un proceso comparando
diagramas de Pareto sucesivos obtenidos en momentos diferentes, (antes y
despus de los cambios)
Un diagrama de Pareto, a diferencia de un Histograma, requiere categoras en lugar
de intervalos de clase. Las categoras son datos cualitativos y suelen ser una
clasificacin de causas de errores o defectos en los productos o los servicios.
Ejemplo.
Un fabricante de accesorios plsticos desea analizar cules son los defectos ms
frecuentes que aparecen en las unidades al salir de la lnea de produccin. Para esto,
empez por clasificar todos los defectos posibles en sus diversos tipos:
Tipo de Defecto
Color
Dimensiones
Acabado
Fragilidad
Desbalanceo
Aplastamiento
Incompleto
Alabeo
Otros

Detalle del Problema


El color no satisface los requerimientos del cliente
Muy ovalado
Aparicin de rebabas
El accesorio se quiebra en la instalacin
El accesorio requiere contrapesos
El accesorio se aplasta en la instalacin
Falta alguno de los componentes metlicos
Nivel de alabeo no aceptable
Otros defectos

Posteriormente, un inspector revisa cada accesorio conforme sale de produccin


registrando sus defectos de acuerdo con dichos tipos. Al finalizar la jornada, se
reviosaron 94 accesorios y se la siguiente tabla:
Tipo de defecto
Defecto

Frecuencia Frecuencia Frec. Rel.

Aplastamiento
Fragilidad
Dimensiones
Color
Alabeo
Acabado
Incompleto
Desbalanceo
Otros
Total

40
35
8
3
3
2
2
1
0
94

relativa
42.6 %
37.2 %
8.5%
3.2 %
3.2 %
2.1 %
2.1 %
1.1 %
0%
100 %

acumulada
42.6 %
79.8 %
88.3 %
91.5 %
94.7 %
96.8 %
98.9 %
100 %
100 %

La columna de frecuencia acumulada hace ms evidente cuales son los defectos que
aparecen con mayor frecuencia.
Obsrvese que se ha ordenado la tabla en orden decreciente de frecuencia. La
categora otros siempre debe ir al final, sin importar su valor.
Podemos ahora representar los datos en un histograma como el siguiente:
120
100
80
Frec Rel
Frec Rel Acum

60
40
20

tro
s
O

Al
ab
eo
Ac
ab
ad
o
In
co
m
pl
et
D
es
o
ba
la
nc
eo

C
ol
or

Ap
la
st
am

ie
nt
o
Fr
ag
ilid
D
ad
im
en
si
on
es

Podemos observar que los 2 primeros tipos de defectos se presentan en


aproximadamente el 80 % de los casos. Se verifica el principio de Pareto: La mayora
de los defectos encontrados en el lote pertenecen a la minora (solo 2) de los tipos de
defectos (los pocos vitales), de manera que si se eliminan las causas que provocan
estos dos tipos de defectos desaparecera la mayor parte de los defectos.
Otro anlisis complementario y sumamente til e interesante, es graficar los costos que
implica resolver cada problema en lugar de su frecuencia, con lo cual podramos
construir un diagrama similar a partir de ordenar las causas por sus costos.

7.10.Regresin Lineal
Como se ilustr en el clculo de la covarianza, en ocasiones ocurre que dos variables
estn relacionadas entre s. Este tipo de situaciones es comn en la medicin
experimental de variables fsicas en las que se desea establecer o validar algn modelo
basado en alguna teora, en observaciones previas o en algn razonamiento emprico.
En este caso se define una variable dependiente y, y una variable independiente x,
luego se toman mediciones agrupadas en pares:
' * @ * )@ ' @ )@ @ ' @ )
Cada par de mediciones (xi,yi) se puede considerar como las coordenadas de un punto
en un plano, de esta manera se tienen N puntos, los cuales se pueden representar en
una grfica para ilustrar de manera visual el tipo de dependencia involucrada.
Se propone un modelo de dependencia a validar o a ajustar en trminos de una
funcin matemtica:
= ' @ *@ @ @ )
donde * @ @ @ son los parmetros cuyos valores ajustan la forma exacta de la
curva para que se parezca lo ms posible a los puntos experimentales.
*

3 >0
9
9

9
9
9

9
9
9

3"'>@ *@ @A@ )

9
9

9
9
9

9 9
9
+

Sin embargo, no se debe caer en el extremo de buscar una curva que pase
exactamente por cada punto experimental, dado que cualquier proceso de medida es
susceptible en mayor o menor medida a errores, y habr que considerar que todos los
puntos tienen asociado algn margen de error.
La mejor solucin debe ponderar un equilibrio entre simplicidad y exactitud:
La simplicidad est dada por la eleccin del tipo de modelo = ' @ * @ @ @ ) lo
ms simple posible y con el menor nmero de parmetros (n lo ms pequeo
posible).
La exactitud est dada por la exigencia de que la curva pase lo ms cerca posible
de cada punto experimental.

El modelo ms simple es una lnea recta que pase por el origen: = * , sin embargo,
es demasiado simple para la mayora de los casos. Un modelo ligeramente ms
completo es una recta que no necesariamente pase por el origen:
=
+ ,
donde los parmetros a ajustar son m=pendiente de la recta, b=ordenada al origen.
Como es de suponerse, la relacin y = mx + b no va a cumplirse exactamente.
Las distancias verticales entre el valor observado y el valor dado por la recta
para cada valor de x reciben el nombre de residuos, y se suelen denotar por ei.
La expresin terica del modelo matemtico ser, por lo tanto:
=

+ +

Se acostumbra por simplicidad suponer que ei es una variable aleatoria Normal con
media cero y varianza conocida .
Clculo por mnimos cuadrados de la pendiente y la ordenada al origen:
Estrategia: La estrategia utilizada para buscar la recta que mejor se ajuste a los datos
experimentales fue propuesta por Gauss y consiste en buscar la recta que minimice la
+ y la ordenada
diferencia o error entre cada ordenada predicha por la recta B =
obtenida experimentalmente , esta diferencia se denota como , es decir,
= B =
+
En la siguiente figura se ilustra esta diferencia:
*

3 >0
9
9

B
9
9
9

9
9

9
9
>

Una primera idea sera minimizar la suma total de los errores , pero como algunos
son positivos y otros son negativos, la suma podra ser muy pequea an si existen
errores de gran magnitud, por ello se busca ms bien:
Minimizar la suma de los cuadrados de los errores:

=
=*

La minimizacin se hace respecto a los parmetros del modelo f( ). En el caso lineal:


=

=
=*

=*

Derivando respecto a m e igualando a cero

=*

)=

=*

de donde
+

=*

=*

=*

Derivando respecto a b e igualando a cero

=*

)=

=*

de donde
+

=*

=*

hemos obtenido el sistema de dos ecuaciones lineales con las dos incgnitas m, b,
denominado conjunto de ecuaciones normales:

=*

=*

=*

=*

=*

Resolviendo para m, b obtenemos

=*

=*

=*

=*

=*

=*

=*

=*

=*

=*

=*

Las ecuaciones anteriores tambin se pueden escribir como sigue


:

Por lo tanto el modelo lineal o recta de regresin queda:


Donde:

Ejemplo. La siguiente tabla muestra los datos de 69 pacientes de los que se conoce su
edad y una medicin de su presin sistlica. Si estamos interesados en estudiar la
variacin en la tensin sistlica en funcin de la edad del individuo, deberemos
considerar como variable dependiente la tensin y como variable independiente
(predictora) la edad.
N Tensin Edad

N Tensin Edad

114

17

36

156

47

134

18

37

159

47

124

19

38

130

48

128

19

39

157

48

116

20

40

142

50

120

21

41

144

50

138

21

42

160

51

130

22

43

174

51

139

23

44

156

52

10

125

25

45

158

53

11

132

26

46

174

55

12

130

29

47

150

56

13

140

33

48

154

56

14

144

33

49

165

56

15

110

34

50

164

57

16

148

35

51

168

57

17

124

36

52

140

59

18

136

36

53

170

59

19

150

38

54

185

60

20

120

39

55

154

61

21

144

39

56

169

61

22

153

40

57

172

62

23

134

41

58

144

63

24

152

41

59

162

64

25

158

41

60

158

65

26

124

42

61

162

65

27

128

42

62

176

65

28

138

42

63

176

66

29

142

44

64

158

67

30

160

44

65

170

67

31

135

45

66

172

68

32

138

45

67

184

68

33

142

46

68

175

69

34

145

47

69

180

70

35

149

47

Aplicando los clculos anteriores a este caso, resulta:


= "# ! ,
= "% $ ,
= &"$' ,
= & & , de donde m=0.98, b=103.35, por lo que el modelo de
regresin lineal queda

= ' (% + '! !&


En la siguiente figura se muestra, superpuesta al diagrama de dispersin, la recta de
regresin de mnimos cuadrados correspondientes.
190

180

170

Tensin

160

150

140

130

120

110

100
10

20

30

40 Edad 50

60

70

80

También podría gustarte