Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadistica Udec PDF
Estadistica Udec PDF
Los datos deben ser recolectados acorde al desarrollo de un plan que garantice que la
informacin es vlida para los objetivos planteados. El plan debe identificar las variables
importantes que estn relacionadas con los objetivos, y especificar cmo estas van a ser
medidas.
1
La figura anterior representa el hecho que a medida que la exactitud de un modelo
estadstico aumenta, el nivel de mejoramiento en la toma de decisin aumenta. Esta es la
razn del por que necesitamos la estadstica. La estadstica se creo por la necesidad de
poner conocimiento en una base sistemtica de la evidencia. Esto requiri un estudio de
las leyes de la probabilidad, del desarrollo de las propiedades de medicin, relacin de
datos.
2
Anlisis Exploratorio de Datos
La finalidad del Anlisis Exploratorio de Datos (AED) o Estadstica Descriptiva es
examinar los datos previamente a la aplicacin de cualquier tcnica estadstica. De esta
forma el analista consigue un entendimiento bsico de los datos y de las relaciones
existentes entre las variables analizadas.
En este curso se va a dar una breve visin general de dicho conjunto de tcnicas
exponiendo, brevemente, cul es su finalidad, ilustrada con ejemplos.
El examen previo de los datos es un paso necesario, que lleva tiempo, y que
habitualmente se descuida por parte de los analistas de datos. Las tareas implcitas en
dicho examen pueden parecer insignificantes y sin consecuencias a primera vista, pero
son una parte esencial de cualquier anlisis estadstico.
3
Etapas del Anlisis Exploratorio de Datos
Para realizar un A.E.D. conviene seguir las siguientes etapas:
1) Preparar los datos para hacerlos accesibles a cualquier tcnica estadstica.
2) Realizar un examen grfico de la naturaleza de las variables individuales a analizar y
un anlisis descriptivo numrico que permita cuantificar algunos aspectos grficos de
los datos.
3) Realizar un examen grfico de las relaciones entre las variables analizadas y un
anlisis descriptivo numrico que cuantifique el grado de interrelacin existente entre
ellas.
4) Evaluar, si fuera necesario, algunos supuestos bsicos subyacentes a muchas
tcnicas estadsticas como, por ejemplo, la normalidad, linealidad y
homocedasticidad.
5) Identificar los posibles casos atpicos (outliers) y evaluar el impacto potencial que
puedan ejercer en anlisis estadsticos posteriores.
6) Evaluar, si fuera necesario, el impacto potencial que pueden tener los datos ausentes
(missing) sobre la representatividad de los datos analizados.
La codificacin de los datos depende del tipo de variable. Los paquetes estadsticos
existentes en el mercado proporcionan diversas posibilidades (datos tipo cadena,
numricos, nominales, ordinales, etc).
4
nombres de las variables utilizadas, su tipo y su rango de valores, su significado as
como las fuentes de donde se han sacado los datos. Todos los paquetes anteriormente
citados permiten esta posibilidad.
Para iniciar el estudio del anlisis estadstico se definen algunos conceptos propios de la
terminologa de la Estadstica Descriptiva o anlisis exploratorio de datos.
Poblacin: es el universo de objetos al cual se refiere el estudio que se pretende
realizar. Es decir, es el conjunto de todos los elementos de inters para un determinado
problema. Por ejemplo, todas las piezas terminadas en una cadena de montaje, los
nacidos en un da determinado, los coches de una determinada marca, etc. A los
elementos que conforman la poblacin se les llama unidad observable o unidad de
observacin.
Poblacin finita: cuando el nmero de elementos que la forman es finito, por ejemplo el
nmero de alumnos de su colegio, o de su curso.
Unidad de Muestreo: Una unidad es una persona, un animal, una planta o una cosa que
son estudiadas por un investigador; son los objetos bsicos sobre los cuales se ejecuta el
estudio o el experimento. Por ejemplo, una persona; una muestra de suelo; un pote de
semillas.
5
Una medida descriptiva relacionada con una muestra, se denomina estadstico. Los
estadsticos tienen dos fines. Describen la muestra que est disponible y sirven como
aproximacin a los parmetros correspondientes de la poblacin.
POBLACION MUESTRA
PARAMETROS
ESTADISTICOS
Ejemplo: Suponga que el gerente de una tienda desea saber el valor de , el gasto
promedio por cliente de su tienda durante el ao pasado. El puede calcular el gasto
promedio de los miles de clientes que compraron en su tienda durante el ao pasado; es
decir, la media poblacional . En lugar de esto, el podra utilizar una estimacin de la
media poblacional calculando la media de una muestra aleatoria de clientes. Si se
encontrara que el valor fuera de $50000, estos $50000 seran su estimacin.
Variables Cualitativas
Una variable cualitativa es aquella cuyos valores corresponden a conceptos, categoras
atributos o cualidades como, por ejemplo, el sexo, la profesin de una persona, nivel de
estudio, estado civil, etc.
Las variables nominales son aquellas que los valores se registran dentro de categoras o
clases, donde no tiene sentido el orden.
Se dice que las variables nominales que toman o pueden tomar uno de dos valores
distintos como hombre o mujer son dicotmicos o binarios
6
Los datos o elementos de una variable cualitativa se agrupan en forma natural en
diferentes categoras o clases y se cuenta el nmero de datos que aparecen en cada una
de ellas, lo que se denomina tabla de frecuencias.
Ejemplo 1.- Suponga que se extrae una muestra de 300 clientes de un supermercado y
se les consulta por el estado civil de ellos. La tabla 1 muestra el conjunto de datos
obtenidos de esta variable.
Tabla 1.
Estado Civil
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
1 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
2 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
3 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
4 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
5 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
6 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
7 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
8 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
9 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
10 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
11 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
12 Soltero Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Viudo Soltero Soltero Casado Casado
13 Soltero Soltero Separado Soltero Soltero Casado Casado Casado Casado Casado Separado Soltero Soltero Casado Casado
14 Soltero Soltero Separado Soltero Soltero Casado Casado Casado Casado Casado Separado Soltero Soltero Casado Casado
15 Soltero Soltero Separado Soltero Soltero Casado Casado Casado Casado Casado Separado Soltero Soltero Casado Casado
16 Soltero Soltero Separado Soltero Soltero Casado Casado Casado Casado Casado Separado Soltero Soltero Casado Casado
17 Soltero Viudo Soltero Soltero Soltero Casado Casado Casado Casado Casado Soltero Soltero Soltero Casado Casado
18 Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Casado
19 Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Casado
20 Soltero Viudo Soltero Soltero Casado Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Casado
Para comprender y resumir estos datos, es til presentarlos en una tabla o grficos en la que
aparezca los valores posibles de la variable, llamados clases ( ci ) y el nmero de veces que cada
valor se repite. A ese nmero se le denomina frecuencia absoluta (ni) o simplemente
frecuencia. La tabla se denomina tabla de frecuencias.
La suma de las frecuencias absolutas es siempre igual a n, siendo n el nmero total de casos,
k
n = ni
i =1
donde k es el nmero de clases.
7
La frecuencia relativa ( fi ) Expresa los resultados en proporciones.
ni
fi =
n
k
se cumple f i = 1
i =1
ni
hi = *100 = f i *100%
n
k
Se cumple que hi = 100
i =1
E s ta d o C iv il
300
250
200
frecuencia absoluta
150
100
50
0
C a sa d o S e p a ra d o S o lte ro V iud o
C a te g o ra s
8
Grfico circular.
Ejemplo 2.- Suponga que la distribucin de frecuencia del Nivel de Estudio (variable
cualitativa ordinal) de cierta ciudad en un determinado ao es:
Nivel de estudios
Enseanza media incompleta Sin estudio Enseanza media incompleta
Sin estudio Estudios basicos Enseanza media incompleta
Enseanza media completa Sin estudio Enseanza media incompleta
Enseanza superior completa Sin estudio Enseanza superior completa
Enseanza superior completa Sin estudio Enseanza media incompleta
Enseanza superior completa Estudios basicos Enseanza media incompleta
Sin estudio Sin estudio Estudios basicos
Enseanza media incompleta Estudios basicos Enseanza superior completa
Enseanza superior completa Enseanza media incompleta Enseanza superior incompleta
Enseanza superior incompleta Enseanza media completa Enseanza superior completa
Sin estudio Enseanza media incompleta Sin estudio
Estudios basicos Enseanza media completa Estudios basicos
Sin estudio Enseanza media incompleta Estudios basicos
Enseanza media incompleta Enseanza superior completa Enseanza superior completa
Sin estudio Enseanza superior completa Enseanza superior incompleta
Enseanza superior incompleta Enseanza media incompleta Enseanza media incompleta
Enseanza superior incompleta Estudios basicos
Para resumir los datos ordinales, es til presentarlos en una tabla o grficos similares a los
obtenidos para las variables nominales. Los grficos utilizados en este caso son los de barra y
circulares. Las tablas de resumen o de frecuencias adems, de la frecuencia absoluta y relativa
tiene sentido en este caso la frecuencia absoluta acumulada y la frecuencia relativa porcentual
acumulada.
i
N i = n j = N i 1 + ni
j =1
9
Frecuencia relativa porcentual de la clase ci es el cuociente fi entre la frecuencia
absoluta de la clase y el nmero total de observaciones n.
Por ejemplo, la tercera clase dice que existen 13 personas con enseanza media
incompleta, que corresponde al 26% del total, que 32 personas tienen a lo ms
enseanza media incompleta, o bien el 64% de las 50 personas tienen enseanza media
O bien sin necesidad de cambiar el nombre de las columnas y para ordenar desde sin
estudio hasta estudios superiores completos se utiliza [c(se escriben los nmero que
corresponden al orden alfabtico separados por comas)]
N iv e l d e E s tu d io s Nivel de Estudios
12
Enseanza med
6
4
2
za superior incompleta
Sin estudio
0
s in e s t e s tb a s e ns m e d c o m e ns s up c o m
Estudios basicos
C la s e s
10
Variables Cuantitativas
Variables cuantitativas son aquellas que se pueden expresar numricamente, es decir,
pueden tomar valores reales.
Una primera clasificacin, basada en el tipo de valores que puede tomar, permite
distinguir entre variables cuantitativas discretas que son aquellas donde el conjunto de
valores que puede asumir la variable se puede enumerar. Este conjunto puede ser finito
o infinito, por ejemplo, el nmero de paneles producidos en un da. y variables
cuantitativas continuas que son aquellas que pueden asumir cualquier valor en algn
intervalo real, por ejemplo, la temperatura aplicada en el proceso de produccin de los
paneles.
Para tabular y graficar en Excel esta variable discreta se realiza en forma similar a las
variables ordinales.
Ejemplo 3.- El nmero de personas que viven en la casa de una muestra de 50 familias
son:
La construccin de la tabla de frecuencia y los grficos de barra y circular para este tipo
de datos es similar a la de las variables cualitativas ordinales.
11
Tabla 1.4.Tabla de frecuencias del N de personas que viven en casa
N de
Personas ni fi hi Ni Hi
1 10 0.20 20 10 20
2 14 0.28 28 24 48
3 9 0.18 18 33 66
4 6 0.12 12 39 78
5 7 0.14 14 46 92
6 4 0.08 8 50 100
8
6
4
2
0
1 2 3 4 5 6
Clases
Se observa que en el 28% de las casas de los encuestados viven dos personas y que
solo en un 8% de las casas viven 6 personas. (El anlisis numrico lo veremos ms
adelante).
6
3
5
4
12
escala ordinal, hace que tenga sentido calcular diferencias entre las mediciones.
Ejemplos de variables con esta escala son: Temperatura de una persona. Ubicacin en
una carretera respecto de un punto de referencia (Kilmetro 85 Ruta 5). Sobrepeso
respecto de un patrn de comparacin. Nivel de aceite en el motor de un automvil
medido con una vara graduada.
La escala de intervalo tiene un cero que se establece por convencin y puede tener
variaciones. Es arbitrario. Por otra parte, la escala de razn tiene un cero real, fijo, no
sujeto a variaciones; es propio de la medicin hecha.
Observacin
No existen criterios ptimos para elegir la cantidad de intervalos. En general, entre 5 y 15
intervalos deberan ser suficientes. Utilizar muchos o muy pocos intervalos puede ser
poco informativo. Pero se pueden seguir las siguientes reglas:
k n , si n no es grande
k 1 + 3.22log(n), en otro caso
2. Localizar la observacin mayor y menor, es decir el valor mximo y el valor mnimo de
las observaciones.
13
3. Hallar la diferencia entre estos dos valores (restar mximo menos el mnimo). Esta
diferencia se denomina rango o recorrido de los datos.
r = x mx x mn
xmx xmn
a=
k
As la divisin en clases o intervalos podra tomarse: l0 =xmn , l1 =l0 + a,,
lk = l0 + ka.
li + li 1
xi =
2
Distintos tipos de frecuencias
Cuando se resume la informacin en una tabla a cada valor de la variable se le asocian
determinados nmeros que representan el nmero de veces que ha aparecido, su
proporcin con respecto a otros valores de la variable, etc. Estos nmeros se denominan
frecuencias: As tenemos los siguientes tipos de frecuencia:
ni
hi = *100
n
k
Se cumple que hi = 100
i =1
i
Ni = n j
j =1
14
Se llama distribucin de frecuencias al conjunto de intervalos o clases junto a las
frecuencias correspondientes a cada una de ellas. Una tabla estadstica o tabla de
frecuencias sirve para presentar en forma ordenada los datos.
Su forma general es:
Ejemplo 4.- Los siguientes datos son los ingresos anuales de 60 ejecutivos de
empresas en Estados Unidos. Los datos estn expresados en miles de dlares.
15
Representacin grfica para variables discretas y continuas
Un grfico estadstico es una representacin pictrica que permite dar un resumen visual
de la informacin, y se utiliza para detectar tendencias, agrupacin de datos en torno a
un valor central, variaciones cclicas, estacinales, etc.
Tabla 1.5
Datos de la fuerza de compresin
96 93 88 117 127 95 113 96
108 94 148 156 139 142 94 107
125 155 155 103 112 127 117 120
112 135 132 111 125 104 106 139
134 119 97 89 118 136 125 143
120 103 113 124 138
8 | 89
9 | 3445667
10 | 334678
11 | 122337789
12 | 00455577
13 | 2456899
14 | 238
15 | 556
16
Posicin del centro de la distribucin y concentracin de los datos.
Desviaciones marcadas respecto al comportamiento general: outlier o valores
atpicos.
Los grficos de tallo y hoja tambin son tiles para comparar la distribucin de una
variable en dos condiciones o grupos. El grfico se denomina grfico de tallo y hojas con
espalda porque ambos grupos comparten los tallos.
Tabla 1.6
Datos de longitud de 20 partes.
PROC1 19.969 19.975 19.984 19.984 19.985 19.992 19.994 19.997 19.998 20.000
PROC2 19.989 19.994 19.994 19.996 20.000 20.000 20.000 20.000 20.001 20.001
PROC1 20.001 20.001 20.002 20.004 20.004 20.004 20.007 20.008 20.008 20.011
PROC2 20.001 20.003 20.005 20.007 20.007 20.008 20.009 20.010 20.010 20.011
1996 9
1997 5
9 1998 445
644 1999 2478
9877531110000 2000 112444788
100 2001 1
En este caso vemos que el segundo proceso es menos variable que el primero que la
longitud mxima para ambos proceso es 20.011 y longitud mnimo para el proceso 1 es
19.969 y para el proceso 2 es 19.989.
Las caractersticas geomtricas del histograma nos permiten descubrir informacin til
sobre los datos, por ejemplo:
17
1. La localizacin del centro de los datos.
2. El grado de dispersin.
3. El lado al cual se sesga, es decir, cuando no cae simtricamente en ambos lados
del mximo.
4. El grado de agudeza del mximo.
Sueldo ejecutivos
15
10
ni
5
0
30 40 50 60 70 80 90
Sueldo
5
0
20 40 60 80 100
xi
18
La Ojiva es un grfico de lnea, en el eje de las abscisas van lo lmites superiores de
cada clase y en el eje de las ordenadas la frecuencia acumulada absoluta o la frecuencia
acumulada relativa porcentual.
Ojiva Sueldos Ejecutivos
60
50
40
Ni2
30
20
10
0
20 40 60 80
limsup
Grfico de tiempo Cuando los datos de una variable estn tomados a travs de tiempo,
puede ser de gran inters el grfico de los datos a travs del tiempo o el orden en que
los datos fueron obtenidos.
Ejemplo 7.- Los datos siguientes corresponden al nmero de estudiante que llegaron
tarde al colegio A durante un periodo de tres semanas.
Grfico de tiempo
N de alumnos
15
atrasados
Semana 1
10
Semana 2
5
Semana 3
0
s
s
s
ne
te
ne
ve
ar
e
Lu
er
Ju
M
Vi
Tiempo
19
Resumen numrico de los datos
Para ampliar la informacin acerca de esta distribucin y completar as el anlisis
descriptivo de una poblacin o muestra, es necesario recurrir a ciertos valores numricos
que permiten cuantificar ciertas caractersticas de la distribucin. Se les llama a estos
valores medidas estadsticas o estadgrafos. Las de uso frecuente en un anlisis
descriptivo son las medidas de tendencia central y las medidas de dispersin.
Las medidas descriptivas numricas que caracterizan lo mejor posible a los datos
originales o a la distribucin de frecuencias mas frecuentes son:
La media
Llamada tambin promedio aritmtico o simplemente media o promedio, es una de las
medidas ms importantes y de mayor uso en diversas aplicaciones estadsticas. Se
denota por si es obtenida de la poblacin y por x si es obtenida de una muestra y se
calcula de la siguiente manera:.
i) Para datos no agrupados sea x1, x2,...xn un conjunto de n valores, entonces
ni xi n x i i
= i =1 x= i =1
N n
20
Observacin
1. En general, la media aritmtica obtenida a partir de las marcas de clase xi, diferir de
la media obtenida con los valores reales, xi. Es decir, habr una prdida de precisin
que ser tanto mayor, cuanto mayor sea la diferencia entre los valores reales y las
marcas de clase, o sea, cuando mayores sean las amplitudes ai, de los intervalos.
2. La media aritmtica es sensible a valores extremos.
3. De las observaciones x1, x2, ..., xn se tiene la siguiente propiedad elemental que
tendr grandes consecuencias en la definicin una medida de la variabilidad,
( xi x ) = 0
n
n n n
xi
En efecto ( xi x ) = xi x =n( i =1 ) nx = nx nx = 0
i =1 i =1 i =1 n
n
( xi x )
2
Error cuadrtico
i =1
n
xi x Error cuadrtico
4. i =1
mx xi x error mximo
i =1,2 ,...n
Supongamos que tenemos las observaciones x1, x2, ..., xn. Si elegimos cualquier
representante de estas observaciones, digamos a , entonces el error cuadrtico ser
mayor si elegimos la media como representante de estas observaciones, de otra
forma si x a
n n
( xi x ) < ( xi a )
2 2
Entonces
i =1 i =1
En efecto,
21
n n n
( xi a ) = ( xi x + x a ) = (( xi x ) + ( x a ))
2 2 2
i =1 i =1 i =1
n
= (( xi x )2 + 2( xi x )( x a ) + ( x a )2 )
i =1
n n n
= ( xi x )2 + 2( x a ) ( xi x )+ ( x a )2
i =1 =1424
i1 3 i1 =14243
0 positivo
luego
n
= ( xi x )2
i =1
Vamos a ver otra propiedad interesante de la media. Supongamos que tenemos las
siguientes observaciones x1, x2, ..., xn, por razones que ms adelante veremos puede ser
altamente conveniente realizar una transformacin lineal de estas observaciones, por
ejemplo hacer yi = a + b xi, entonces la media de estas nuevas variables y1, y2, ... , yn es
y = a + bx . En efecto,
1 n 1 n 1 n 1 n 1 1 n
yi = ( a + bxi ) = a + b xi = na + b xi = a + bx
n i =1 n i =1 n i =1 n i =1 n n i =1
Ejemplo 8. Determinar el promedio de los sueldos de los ejecutivos para datos sin
agrupados y agrupados
n
xi 58 + 76 + 89 + ... + 69 + 73
i =1
x= = = 62,05
n 60
22
Suponga que los sueldos de los gerentes generales de estas empresas es una funcin
lineal de los sueldos de los ejecutivos dada por yi = 230 xi + 300 determine le sueldo
promedio de los gerentes de estas empresas.
n
ni x i 3 * 29 + 6 * 39 + 8 * 49 + 12 * 59 + 19 * 69 + 9 * 79 + 3 * 89
i =1
x= = = 61,8333333 3,
n 60
yi = 230 xi + 300
y = 230 x + 300 = 230 * 62,05 + 300 = 14571,5
Ejemplo 9.
a)
2 La media tambin se define como el
1 punto de equilibrio Si la distribucin es
0 simtrica, como en la figura a), la media
1 2 3 est exactamente en el centro de la
distribucin
Media = 2
23
b)
2 Cuando la observacin mayor se mueve
ms a la derecha, como en la figura b) la
1 media tiende hacia la observacin.
0
1 2 3 4 5
Media = 2,5
c)
2
Si la distribucin tiene un valor
extremo, como en la figura c) la
1 media tiende hacia este valor
extremo.
0
1 2 3 4 5 6 7 8 9 10 11
Media = 4
Promedio Ponderado.
En muchas ocasiones, los datos observados no tienen la misma importancia relativa.
Para hacer presente este hecho en la bsqueda de un 'centro' que represente a los
datos, es necesario asignar a cada uno de stos, una ponderacin (peso o coeficiente)
que represente su importancia dentro de la muestra.
Por ejemplo, considrese el sistema de calificacin del curso donde las pruebas tienen
distinta ponderaciones, segn su importancia en el proceso de evaluacin del trabajo del
alumno. En este caso, no resulta apropiado el promedio simple. Cada nota parcial debe
ser multiplicada por su coeficiente o ponderacin, para luego sumar estos resultados y
dividirlos por la suma de los coeficientes respectivos.
Definicin. Sean x1 ,x2 ,....,xn , n datos y w1 ,w2,....,wn, n, nmeros reales tales que wi 0;
i=1,2,....n; con a lo menos un wi > 0. Entonces el promedio ponderado de los datos, est
dado por:
n
wi xi
w1 x1 + w2 x2 + ... + wn xn i =1
xw = = n
w1 + w2 + ... + wn wi
i =1
Esto equivale a decir que, si cada observacin tiene la misma ponderacin, entonces el
promedio y el promedio ponderado son iguales.
24
Ejemplo.
Si un alumno obtiene un 5.5 en la primera evaluacin 4.9 en la segunda evaluacin si la
primera evaluacin corresponde a un 45% y un 55% la segunda evaluacin. Cul es
nota promedio de estas dos pruebas?
La media geomtrica.
Como se puede observar en la grfica 1, la funcin logaritmo (en este caso logaritmo
natural) "suaviza" los datos, si son muy grandes los datos los disminuye, y adems los
"contrae", es decir si x1 y x2 estn muy separados, no lo estarn tanto los valores
transformados ln ( x1) y ln ( x2).
y = ln n ( x1 x2 ...xn )
e y = n ( x1 x2 ...xn )
25
a la expresin de la derecha se le define como la media geomtrica, y se denota por
x g = n x1 x2 ...xn
Ejemplos.
1. Encontrar la media de los siguientes nmeros 2, 4, 8. obsrvese que entre ellos existe
una razn o proporcin constante, cada uno de ellos es el doble del anterior, por tanto
la media a utilizar es la media geomtrica, de la siguiente manera
xg = 3 2 * 4 * 8 = 4
Suponga que una persona desea depositar $1.000.000. durante un mes a una tasa de
2%. Esto significa que al trmino del mes, el banco le entrega $1.020.000.Al siguiente
mes, toma el capital inicial ms los intereses y los deposita por otro mes. Esta vez el
banco ofrece una tasa de 3%. Al trmino del segundo mes recibe $1.050.600.
Finalmente, deposita este nuevo capital por un tercer mes, ahora al 4%, obteniendo al
final $1.092.624. A qu tasa mensual debera ponerse el capital inicial para obtener el
mismo capital final al cabo de los tres meses?
Esta pregunta quiere dilucidar cul sera la tasa fija que el banco debiese haber aplicado
en cada uno de los tres meses en que el capital estuvo depositado (con los intereses
variables - 2%, 3%, 4% - que vimos).
1000000*1.02*1.03*1.04 = 1000000*1.092624
Entonces, la tasa mensual estara dada por la raz cbica de 1.092624, cuyo valor es
1.029968. Es decir, se habra necesitado una tasa mensual de 2.9968%. Cantidad
levemente inferior al 3% que se obtendra si, errneamente, se hubiese promediado 2%,
3% y 4%. Para ver claramente cmo interviene el promedio geomtrico en este ejemplo,
escribamos las tasas de inters como un factor multiplicativo del capital al cual se
aplican. De este modo, las sucesivas tasas son: 1.02, 1.03, 1.04.
26
El promedio geomtrico de estos nmeros es:
n
xa =
1 1 1
+ + ... +
x1 x2 xn
Ejemplo
Un.automvil que hace viajes de ida y vuelta entre las ciudades A y B, realiza el viaje
entre A y B a razn de 80 Km por hora y el viaje entre B y A a 120 Km por hora, La
velocidad promedio del viaje de ida y vuelta ser de
2
xa = = 96 Km / hr
1 1
+
80 120
Propiedades de la media armnica
o La media armnica se basa en todas las observaciones por lo que est afectada por
todos los valores de la variable. Da a los valores extremadamente grandes un peso
menor que el que les da la media geomtrica, mientras que a los valores pequeos
les da un peso mayor que el que les da tanto la media aritmtica como la media
geomtrica.
o La media armnica esta indeterminada si alguno de los valores es cero, pues hallar el
recproco de cero implica dividir entre cero, lo cual no es vlido. La media armnica
est rgidamente definida y siempre es definitiva, excepto cuando uno de los valores
es cero.
o La media armnica es el promedio que se ha de usar, cuando lo que se va a
promediar son proporciones donde los numeradores de las razones son los mismos
para todas las proporciones.
27
Mediana
Supongamos que tenemos un conjunto de observaciones x1, x2, ..., xn. Ordenamos estas
observaciones de menor a mayor, y supongamos que el ordenamiento se consigue de la
forma x(1), x(2), ..., x(n); es decir x(i) es el i-simo nmero en orden entre las n observaciones,
en los casos extremos se tiene que x(1) es la menor de todas las observaciones y que x(n)
es la mayor de todas las observaciones.
La mediana es el valor central de la variable, despus que se ha ordenado en orden
creciente, es el valor que divide en dos partes la muestra.
Para calcular la mediana debemos tener en cuenta si la variable cuantitativa est sin
agrupar o si est agrupada, si es discreta con muchos datos y rango pequeo o discreta
o continua tabulada en intervalos.
n +1
s = Pos ( Med ) =
2
Si s es un entero el valor de la mediana estado por
Med = xs
Si s no es un entero, entonces se determina un entero i tal que i<s<i + 1. Luego el valor
de la mediana es:
x ( i ) + x ( i 1 )
Med =
2
Ejemplo 10.-
n par n impar
1,4,6,7,8,9,12,16,20,24,25,27 1,4,6,7,8,9,12,16,20,24,25,27, 30
n=12 n=13
Trminos Centrales el 6 y 7 Trmino Central el 7 , 12
9 y 12
Me= (9+12)/2= Me=12
28
Ejemplo 11 Determinar la mediana para el ejemplo de los sueldos de los ejecutivo, para
los datos sin agrupar y agrupados.
31 45 57 65 71 76
34 46 58 66 71 77
34 47 61 67 72 77
36 50 61 69 73 79
38 50 62 69 73 79
38 51 62 69 74 79
39 54 62 69 74 79
39 55 64 69 74 85
40 56 64 69 75 87
45 56 65 71 76 89
Como el nmero de elementos es par se ubican los dos valore centrales y se promedia.
x ( i ) + x ( i 1) 65 + 65
Med = = = 65
2 2
n
N i 1 )
(
med = li 1 + 2 ai
ni
Donde:
li-1 : lmite inferior de la clase de la mediana
n : nmero de observaciones
Ni-1: frecuencia absoluta de la clase anterior a la clase mediana
ni : frecuencia absoluta del intervalo mediano
ai : amplitud del intervalo de la clase de la mediana
29
mediana que la media, fundamentalmente en muestras en que aparecen observaciones
extremas.
Ejemplo.
El ejemplo de los sueldos de los ejecutivos el valor de la mediana para datos agrupados
se obtiene determinando la clase de la mediana, es la primera clase, donde la frecuencia
acumulada supera o iguala a la mitad de los datos.
n 60
Ni l 29
Med = l i 1 + 2 * ai = 64 + 2 * 10 = 64,5263158
ni 19
La moda
En el lenguaje cotidiano, la palabra moda describe una situacin que es frecuente, que
est mayoritariamente en uso, en particular y como ejemplo se utiliza mucho en el
vestuario, sobre todo de las damas. Pues bien, en lo que respecta a la estadstica
diramos que tiene el mismo significado, para el caso discreto es la observacin absoluta
(o relativa) ms frecuente respecto de las observaciones vecinas, de modo que puede
haber ms de una moda. Intentaremos dar un lenguaje ms formal a esta definicin.
Como antes estudiaremos ambos casos, el discreto y el continuo.
Caso discreto
La moda es el valor de mayor frecuencia absoluta, la que ms se repite, es la nica
medida de centralizacin que tiene sentido estudiar en una variable cualitativa, pues no
precisa la realizacin de ningn clculo.
Por su propia definicin, la moda no es nica. Pues puede haber dos o ms valores de la
variable que tengan la misma frecuencia siendo esta mxima. En cuyo caso tendremos
una distribucin bimodal o polimodal segn el caso.
Caso continuo
En este caso tiene ms sentido hablar de intervalo modal. En efecto, esta vez nos
fijamos en los intervalos de clase con sus respectivas frecuencias absolutas. Si un
intervalo tiene mayor frecuencia que sus intervalos inmediatamente adyacentes se dice
entonces que es un intervalo modal. De manera ms formal, diremos que (li - 1, li] es un
intervalo modal si la frecuencia absoluta (o relativa) ni es mayor que las frecuencias
adyacentes ni - 1 y ni + 1.
Ahora el problema es qu valor elegir de este intervalo modal y definirlo como moda?
De momento digamos que una moda se denotar por moda.
30
de modo que la moda es
Esta estadstica debe usarse con cuidado. Su objetivo es identificar zonas donde se
producen aglomeraciones de datos, sin embargo, podra ser que por el solo hecho de
haber una observacin extra en un punto aislado, ste pudiese aparecer como una
moda.
Como puede apreciarse, cuatro alumnas tienen una estatura de 165 cm.. Si no se pone
atencin al resto de las observaciones, se podra reportar este valor como la moda
principal, lo que tiende a confundir ya que alrededor 159 cm. hay una gran concentracin
de datos. La mayor utilidad de la moda, se presenta al usarla con muestras relativamente
grandes, donde la influencia de un dato individual no distorsiona el anlisis.
Ejemplo 11.- Determinar la moda del sueldo de los ejecutivos para datos agrupados y
sin agrupar.
31
Relacin entre media, mediana y moda
En el caso de distribuciones unimodales, la mediana est con frecuencia comprendida
entre la media y la moda (incluso ms cerca de la media)
En las distribuciones que presentan valores extremos, es ms aconsejable el uso de la
mediana. Sin embargo en estudios relacionados con propsitos estadsticos y de
inferencia suele ser ms apta la media.
32
Cuantiles
Como sabemos, la mediana es un valor del recorrido de los datos que particiona a la
distribucin de frecuencias en dos partes, cada una conteniendo el 50% del total de la
distribucin.
Si los datos no estn agrupados al igual que en la mediana se debe ordenar el conjunto
de datos y determinar primero la posicin para posteriormente determinar el valor.
k
s = Pos ( Pk ) =
(n + 1) si s entero Pk = x( s )
100
si s no es un entero s = t , r Pk = xt + 0, r * ( xt +1 + xt )
n*k
N i 1
Pk = li 1 + 100 * ai
ni
Por su propia naturaleza, el percentil puede estar situado en cualquier lugar de la
distribucin, por lo que no se puede considerar como una medida de tendencia central.
Los cuartiles, Qi, son un caso particular de los percentiles. Hay 3, y se define como:
33
Medidas de variabilidad o dispersin
Los estadsticos de tendencias central o posicin nos indican donde se sita un conjunto
de observaciones. Los de variabilidad o dispersin nos indican si esas observaciones o
valores estn prximas entre si o por el contrario estn o muy dispersas.
Datos 2: 35, 40, 45, 50, 55, 60, 60, 60, 65, 70,75, 75, 80, 85
Media =Moda =Mediana = 60
X
X
X
X X X X X X X X X X X
35 40 45 50 55 60 65 70 75 80 85
Se puede observar que lo datos1 estn muy cercanos alrededor del centro, mientras que
en datos2 estn mas dispersos o alejados.
34
Desviacin media, DM
Se define la desviacin media como la media de las diferencias en valor absoluto de los
valores de la variable a la media, es decir, si tenemos un conjunto de n observaciones,
x1,...,xn entonces:
| x i x| | x x | i
DM = i =1
DM = i =1
N n
k k
| x i x | ni | x x | n i i
DM = i =1
DM = i =1
N n
N n
( xi x ) ( xi x )
2 2
V ( X ) = X2 = i =1 V ( X ) = S X2 = i =1
N n 1
n
( xi x )
2
N
xi
2
nx 2
V ( X ) = S X2 = i =1
i =1
V( X ) = S X2 = n
N n
xi nx
2 2
V ( X ) = S X2 = i =1
n 1
n
xi nx
2 2
V ( X ) = S X2 = i =1
n
35
iii) para datos agrupados
N n
( xi x ) ni ( xi x ) ni
2 2
V ( X ) = S X2 = i =1 V ( X ) = s X2 = i =1
N n 1
k n
ni x i n x ( xi x ) ni
2 2
i =1
V ( X ) = S X2 = V ( X ) = s X2 = i =1
N n
k
ni x i n x
2
i =1
V ( X ) = s 2X =
n 1
k
ni x i n x
2
i =1
V ( X ) = s 2X =
n
La varianza no tiene la misma magnitud que las observaciones (ej. Si las observaciones
se miden en metros, la varianza lo hace en metros cuadrados). Si queremos que la
medida de dispersin sea de la misma dimensionalidad que las observaciones bastar
con tomar su raz cuadrada, Por ello se define la desviacin estndar o tpica, como:
SX = V ( X )
Propiedades de la varianza.
Supongamos que tenemos las siguientes observaciones x1, ..., xi, ..., xn, cuya varianza la
denotaremos por V(X). Supongamos que sobre cada una de estas observaciones
realizamos la siguiente transformacin
36
Notemos lo siguiente, que si tenemos una serie de observaciones, a saber ,
entonces si hacemos un "traslado" de todas estas observaciones a una distancia que nos
interesa, como por ejemplo
entonces, lo que nos dice la propiedad anterior, que la varianza es la misma que las
observaciones anteriores. Es decir que si trasladamos "conjuntamente" las
observaciones a otro sitio, las observaciones siguen manteniendo el mismo grado de
dispersin.
RIQ = Q3 Q1
37
Caractersticas Principales de
la Desviacin Cuartl, la Media de Desviacin Absoluta y la Desviacin Estndar
La Desviacin intercuatlica Desviacin media La Desviacin Estndar
La desviacin intercuatlica es fcil de La Desviacin media tiene la La Desviacin Estndar es
calcular y entender. Sin embargo, esta ventaja de dar igual peso a la normalmente mas til y mejor
1 es inconsis- tente si existen brechas desviacin de cada valor con adaptada a un anlisis mas
entre los datos alrededor de los respecto a la media o la profundos que lo que es desviacin
cuartiles. mediana. media.
Es una medida de dispersin
Es ms adaptable como estimador
Solo depende de dos valores, los ms sensitiva que cualquiera
de la dispersin de la poblacin que
2 cuales incluyen la mitad central de los de las descritas anteriormente,
cualquier otra medicin, haciendo
mismos. y normalmente tiene errores de
que la distribucin sea normal.
muestreo ms pequeos.
Es ms fcil de calcular y
Es la ms amplia medida de
Es normalmente superior al rango como entender, adems es menos
3 dispersin usada, y la ms fcil de
una medida cruda de dispersin. sensible que la desviacin
manejar algebraicamente.
estndar a valores extremos.
Esta podra ser determinada en una Desafortunadamente, es muy
distribucin abierta en los extremos, o difcil de manejar En comparacin con los dems, esta
4 en una en la cual los datos pueden ser algebraicamente, dado que el es mas difcil de calcular y de
seleccionados pero no medidos signo negativo debe ser entender.
cuantitativamente. ignorado cuando se calcula.
Es muy til en distribuciones muy Su aplicacin principal es la Es normalmente afectada por valores
sesgadas, o en aquellas en las cuales precisa eleccin de modelos extremos, los cuales podran
5
otras medidas de dispersin serian en tcnicas de predicciones ocasionar el sesgamiento de los
deformadas por valores extremos. comparativas. datos.
Coeficiente de variacin
Es un ndice que puede servir para la comparacin entre poblaciones en que se miden
distintas caractersticas. Dada un conjunto de observaciones x1, x2, ..., xn se define el
coeficiente de variacin, CV, como
S
CV = *100%
x
Segn esta definicin, es claro que no tiene sentido para observaciones cuya media es
nula.
38
Adems, y como es de prever, es invariante bajo cambio de escala, es decir si yi = a xi
entonces CVy = CVx. En efecto, viene del hecho de que Sy = a Sx y de que y = a x
En definitiva, si tenemos dos tipos de observaciones diferentes, esto es que miden dos
atributos X e Y diferentes, entonces con el clculo de los coeficientes de variacin
respectivos podemos tener una medida de que tipo de atributo est ms disperso (en
torno de la media) en comparacin con el otro atributo. Esto es si CVx < CVy entonces los
datos relativos al atributo Y estn ms dispersos que los datos del atributo X.
Ejemplo 13.- Determinar las medidas de dispersin del ejemplo 4, ingresos de los
ejecutivos para datos sin agrupar y agrupados.
Tabla 11.
Medidas de dispersin
Medidas de dispersin Datos no agrupados Datos agrupados
Rango o recorrido 58 90
Desviacin media 12,2783 12,4056
Varianza 217,0475 226,9722
Desviacin estndar 14,7325 15,0656
39
Asimetra y apuntamiento
Sabemos cmo calcular valores alrededor de los cuales se distribuyen las observaciones
de una variable sobre una muestra y sabemos cmo calcular la dispersin que ofrecen
los mismos con respecto al valor de central. Nos proponemos dar un paso ms all en el
anlisis de la variable. En primer lugar, se estudia si la distribucin de los datos es la
simetra. Un conjunto de datos que no se distribuye simtricamente, se llama asimtrico.
La asimetra puede verse en el diagrama de tallo y hoja o en el histograma. Tambin
puede verse a travs de la posicin relativa entre la media y la mediana.
Estadsticos de asimetra
Para saber si una distribucin de frecuencias es simtrica, hay que precisar con respecto
a qu. Un buen candidato es la mediana, ya que para variables continuas, divide al
histograma de frecuencias en dos partes de igual rea. Podemos basarnos en ella para,
de forma natural, decir que una distribucin de frecuencias es simtrica si el lado
derecho de la grfica (a partir de la mediana) es la imagen por un espejo del lado
izquierdo.
7
6
5
4
3
2
1
0
1 2 3 4 5 6 7
Asimetra positiva
Si las frecuencias ms altas se encuentran en el lado izquierdo de la media, mientras que
en derecho hay frecuencias ms pequeas (cola)
12
10
8
6
4
2
0
1 2 3 4 5 6 7
40
Asimetra negativa
Si las frecuencias ms altas se encuentran en el lado derecho de la media, mientras que
en el izquierdo hay frecuencias ms pequeas (cola)
12
10
0
1 2 3 4 5 6 7
n
( xi x )
p
M 3
M p = i =1
AS = 3 donde
n
S n
( xi x ) ni
X p
M p = i =1
n
es denominado el psimo momento central (alrededor de la media) y
S X3 = ( V ( X ) )3
Apoyndonos en este ndice, diremos que hay asimetra positiva si As > 0 , y que la
asimetra es negativa si As < 0 y si As = 0 la distribucin es simtrica.
41
Curva bimodal (simtrica o asimtrica por estratos):
0.5
0.4
0.3
0.2
0.1
0
-3 2
Estadsticos de apuntamiento
Uno de los coeficientes que nos indica el apuntamiento de una distribucin de frecuencia
es el coeficiente de aplastamiento de Fisher o coeficiente de curtosis definido por:
M4
K=
M 22
Ejemplo 14.- Las medidas descriptivas del ejemplo 3, ingreso de los ejecutivos para los
datos no agrupados son: (obtenidos utilizando Excel)
42
Medidas descriptivas de la variable Ingreso de los Ejecutivos
Media 62,05 Rango 58
Mediana 65 Mnimo 31
Moda 69 Mximo 89
Desviacin estndar 14,8569 Suma 3723
Varianza de la muestra 220,7263 Cuenta 60
Curtosis -0,727577
Coeficiente de asimetra -0,451824
Se aprecia que el ingreso promedio de los ejecutivos es de US$ 625000, con una
desviacin estndar de US$ 14857.
El valor de la mediana es de US$ 65000 es decir el 50% de los ejecutivos tienen un
ingreso de a lo mas este valor y el otro 50% tienen un ingreso mayor a este valor.
El ingreso mas frecuente es de US$ 69000.
Como el valor de la curtosis es menor que 3 la curva es leptocrtica.
El coeficiente de asimetra es negativo la curva o histograma es asimtrico a izquerda lo
que significa que hay una mayor variacin de los ingresos en los entre los ejecutivos de
menor ingreso.
43
Cmo Construir un BoxPlot
Un BoxPlot es un grfico que tiene muchas caractersticas. Incluye la presencia de
posibles outliers. Muestra el rango de los datos. Muestra una medida de dispersin tal
como el cuartl superior, cuartl inferior y los rangos intercuartiles (RIC) de un conjunto de
datos, as como tambin a la mediana como medida central ubicacin, el cual es til para
comparar grupos de datos. Tambin indica acerca de la simetra o de la asimetra de la
distribucin. La razn principal de utilizar los boxplots es porque ofrecen mucha
informacin de una manera compacta.
BI1 = Q1 1.5 Q
BI2 = Q3 + 1.5 Q
BE1 = Q1 3 Q
BE2 = Q3 + 3 Q
Se llaman puntos adyacentes al mnimo y mximo dato que se encuentran dentro de las
barreras internas. Desde los extremos de la caja se trazan lneas hasta los respectivos
valores adyacentes. A estas lneas se les llama antenas o bigotes.
Se llaman puntos atpicos o outliers a aquellos datos que se encuentran fuera de las
barreras internas y dentro de las barreras externas. Se llaman puntos extremos a
aquellos puntos ubicados fuera de las barreras externas.
Un punto atpico o extremo puede deberse, por ejemplo, a una mala lectura, mal registro,
causa fortuita, etc. Este tipo de datos no puede eliminarse inmediatamente sin un anlisis
preliminar de las causas que lo originan.
44
ii) Sil a posicin de la mediana se encuentra ubicada ms cerca del primer cuartil y la
antena superior es de mayor longitud que la antena inferior, la distribucin
presenta sesgo positivo.
iii) Si la posicin de la mediana se encuentra ubicada ms cerca del tercer cuartil y la
antena superior es de menor longitud que la antena inferior, la distribucin
presenta sesgo negativo.
Ejemplo 15.- El grfico de caja para el ejemplo 3 (ingreso de los ejecutivos) es:
45