Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Analisis de Datos
Analisis de Datos
INTRODUCCIÓN
Puede deducirse de la definición que hay dos ramas claramente diferenciadas dentro
de la estadística: La Estadística Descriptiva y La Inferencia Estadística que es el
punto a tratar en el presente trabajo.
CAPITULO I
Contraste de Hipótesis
Situaciones Posibles
Se acepta correctamente
Error tipo II
Error tipo I
Se rechaza correctamente
Hipótesis Estadística:
Hipótesis Nula:
Hipótesis Alternativa.
Toda hipótesis que difiere de una dada se llamará una hipótesis alternativa. Por
ejemplo: Si una hipótesis es p = 0,5, hipótesis alternativa podrían ser p = 0,7, p
" 0,5 ó p > 0,5.
Si rechazamos una hipótesis cuando debiera ser aceptada, diremos que se ha cometido
un error de tipo I.
Por otra parte, si aceptamos una hipótesis que debiera ser rechazada, diremos que
se cometió un error de tipo II.
Para que las reglas de decisión (o no contraste de hipótesis) sean buenas, deben
diseñarse de modo que minimicen los errores de la decisión; y no es una cuestión
sencilla, porque para cualquier tamaño de la muestra, un intento de disminuir un
tipo de error suele ir acompañado de un crecimiento del otro tipo. En la practica,
un tipo de error puede ser más grave que el otro, y debe alcanzarse un compromiso
que disminuya el error más grave.
Niveles de Significación.
Esta probabilidad, denota a menudo por # se, suele especificar antes de tomar la
muestra, de manera que los resultados obtenidos no influyan en nuestra elección.
La siguiente tabla de valores críticos de “z” para contraste de unos o dos extremos
en varios niveles de significación.
Nivel de significación #
0.10
0.05
0.01
0.005
0.02
-1.28 o 1.28
-1.645 o 1.645
-2.33 o 2.33
-2.58 o 2.58
-2.88 o 2.88
- 1.645 y 1.645
- 1.96 y 1.96
-2.58 y 2.58
-2.81 y 2.81
-3.08 y 3.08
Proporcionan indicadores de hasta que punto un test dado nos permitirá evitar un
error de tipo II; es decir, nos indicará la potencia de un test a la hora de
prevenir decisiones erróneas. Son útiles en el diseño de experimentos porque
sugieren entre otras cosas al tamaño de muestra a manejar.
Grados de Libertad.
Para el cálculo de un estadístico, es necesario emplear tanto observaciones de
muestra como propiedades de ciertos parámetros de la población. Si estos parámetros
son desconocidos, hay que estimarlos a partir de la muestra el número de grados de
libertad de un estadístico, generalmente denotado por “v” se define como el número
“N” de observaciones independientes en la muestra (o sea, el tamaño de la muestra)
menos el número K de parámetros de la población, que debe ser estimado a partir de
observaciones muéstrales.
En símbolos, v = N - k.
Capitulo II
Análisis de datos
Donde puede procederse a probar cualquier diferencia supuesta (#1 - #2)0. Sin
embargo la hipótesis nula que generalmente se prueba consiste en que las dos
muestras se obtienen de poblaciones con medias iguales. En este caso (#1 - #2)0 =
0, y las formulas anteriores se vuelven más simples:
Para cualquier tamaño de muestra dado n, tomado de una población con media #, los
valores de la media muestral varían de una muestra a otra. Esta variabilidad sirve
de base para la distribución muestral. La distribución muestral de la media se
describe determinando el valor esperado E () o media, de la distribución y la
desviación estándar de la distribución de las medias, . Como esta desviación
estándar indica la precisión de la media muestral como estimador puntual, por lo
general se le denomina error estándar de la media. En general, se define el valor
esperado de la media y el error estándar de la media de la siguiente manera:
Ejemplo: Suponga que la media de una población muy grande es # = 50.0 y que la
desviación estándar es # = 12.0. Se determina la población muestral de las medias
para una muestra de tamaño n = 36, en términos del valor esperado y del error
estándar de la distribución de la siguiente manera.
El Test Chi - Cuadrado puede utilizarse para determinar la calidad del ajuste
mediante distribuciones teóricas (como la distribución normal o la binomial) de
distribución empíricas (o sea las obtenidas de los datos de la muestra).
Suceso
E1
E2
E3
...
Ek
Frecuencia Observada
01
02
03
...
0k
Frecuencia Esperada
e1
e2
e3
...
ek
En esta tabla las frecuencias observadas ocupan una sola fila y la llamamos tabla
de calcificación de entrada única como el número de columnas es K también se llama
una tablas 1 x K (Leido 1<<1 por k>>).
Donde la suma de toma sobre todas las celdas de una tabla de contingencia y donde
los símbolos Oj y ej representan respectivamente las frecuencias observadas y
esperada de la j - ésima celda.
Como antes el estadístico (5) tiene una distinción muestral dada muy
aproximadamente por (4), supuesto que las frecuencias esperadas no sean demasiado
pequeñas. El número de grado de libertad, v de esta distribución chi - cuadrado
viene dado por h > 1 y k >1 por:
Los contrastes de significación para las tablas h x k son similares a los de las
tablas 1 x k. Las frecuencias esperadas se hallan sujetas a una hipótesis
particular h0.
Muestras.
Donde
Donde C es una constante que depende de v1 y v2 tal que el área total bajo la curva
es 1.
La forma de esta curva puede variar considerablemente según los valores de v1 y v2.
F =
Aun cuando esta hipótesis nula sea cierta, no es probable que las varianzas
muestras de cualquier par de muestras sean idénticas.
-. Distribución T Student.
Definamos el estadístico:
Donde yo es una constante que depende de N tal que al área total bajo la curva es
1, y donde la constante V = (n - 1) se llama el número de grados de libertad (v es
la letra griega nu).
Para muestras de tamaño N > 30, llamadas grandes muestras, las distribuciones de
muestreo de muchos estadísticos son aproximadamente normales, siendo la
aproximación tanto mejor cuanto mayor sea N.
Para muestra de tamaño menor que 30, llamadas pequeñas muestras, esa aproximación
no es buena y empeora al decrecer N, de modo que son precisas ciertas
modificaciones.
En muchas situaciones las muestras se extraen como pares de valores, tal como
cuando se determina el nivel de productividad de los trabajadores, antes y después
de un programa de capacitación. A esta clase de datos se les denomina observaciones
apareadas a pares asociados. También a diferencia de las muestras independientes a
dos muestras que contienen observaciones apareadas se les denomina dependientes.
El método apropiado para probar la diferencia entre observaciones apareadas
consiste en determinar la diferencia “d” entre cada par de valores y después probar
la hipótesis nula de que la diferencia poblacional promedio es 0. por ello desde el
punto de vista de los cálculos, se aplica una prueba a una muestra de valores “d”.
El error estándar del promedio de las diferencias entre datos apareados se obtiene
mediante la fórmula del error estándar de la media, excepto que se sustituye el por
x:
Como el error estándar del promedio de las diferencias se calcula con base a datos
apareados y como por lo general, se supone que los valores “d” tienen una
distribución normal, la distribución t resulta apropiada para probar la hipótesis
nula de que #d = 0.
Muestras Grandes
Para determinar el tamaño de la muestra que se requiere para probar el valor de una
proporción (antes de extraerla) especificando el valor hipotético de la proporción,
un valor alternativo especifico de la proporción, de manera que la diferencia con
respecto al valor hipotético - nulo resulte considerable; el nivel de significación
que debe utilizar en la prueba, y la probabilidad del error tipo II que se permite.
La fórmula que determinará el tamaño mínimo de las muestras que se requieren para
probar dicho valor de la proporción es:
Utilizando la Distribución Z:
Ejemplo 1.- La hipótesis nula que se va a probar es que la media de todas las
cuentas por cobrar es cuando menos $260.000, y esta prueba se llevará a cabo con un
nivel de significancia del 5%. Además, el auditor señala que consideraría que una
media real de $240.000 (o menos) constituye una diferencia material importante.
2.- Determinar el valor critico de la media muestral que debe utilizarse para
probar la hipótesis nula con un nivel de significancia del 5%,
1.-
2.-
3.- La probabilidad del error tipo I es igual a 0.05 (el nivel de significancia que
se utiliza para probar la hipótesis nula).
Ejemplo 2.- Puede verificarse la probabilidad del error tipo II que se determinó en
el ejemplo 5, haciendo referencia a la figura 10 - 5, de la siguiente manera:
Ejemplo 4.- Un auditor desea probar la hipótesis nula de que el valor promedio de
todas las cuentas por cobrar es de cuando menos $260.000. Considera que la
diferencia entre este valor hipotético y un valor especifico alternativo de $
240.000 (o menos) sería considerable. Los niveles aceptables de los errores tipo I
(#) tipo II (#) son 0.05 y 0.10, respectivamente. se sabe que la desviación
estándar de los montos de las cuentas por cobrar es de # = $43.000. El tamaño de la
muestra que debe extraerse, como mínimo, para llevar a cabo esta prueba es
(Nota: Como z0 y z1 siempre tienen signos algebraicos contrarios, se tiene los dos
valores zeta siempre se acumulan en el numerador. Si el valor acumulado es
negativo, el proceso de elevar al cuadrado da como resultado valores positivos).
Ejemplo 5.- Suponga que el auditor del ejemplo anterior esta preocupado por una
discrepancia en cualquier dirección con respecto al valor nulo hipotético de
$26.000 en cualquier dirección sería importante. Considerando la otra información y
las especificaciones del ejemplo 8, el tamaño mínimo de la muestra que debe
analizarse es.
(Nota como las desviaciones con respecto a valor hipotético sólo pueden darse en
una dirección, se utilizan el valor de +1.96 o -1.96 como valor de z0, con el
correspondiente valor de z1. Al igual que en el ejemplo 8, los dos valores de z se
acumulan siempre antes de elevarlos al cuadrado.)
Distribución Student:
Se ha planteado la hipótesis nula de que la vida útil promedio de los focos de una
marca especifica es cuando menos de 4.200 horas. La vida útil promedio para una
vida aleatoria de n = 10 focos es x = 4000 horas, con desviación estándar muestral
de s = 200 horas. En términos generales, se supone que la vida útil de los focos
tiene una distribución normal. Se prueba la hipótesis nula con un nivel de
significancia del 5%, de la siguiente manera:
Ejemplo 6.- El director de la bolsa de trabajo afirmaba que cuando menos, el 50% de
los egresados habría obtenido empleo hacia el primero de Marzo. Suponga que se
entrevista a una muestra de n = 30 egresados, en vez de los 10 del ejemplo 5, y que
sólo 10 de ellos señalan haber obtenido empleo hacia el primero de Marzo. ¿puede
rechazarse la afirmación del director con un nivel de significancia del 5%?. Se
utiliza z como estadística de prueba, de la siguiente manera:
Estadística Aplicada.
Se supone que la muestra es menos del 5% del tamaño de la población, y por ello no
se utiliza el factor de corrección por población finita.)
El valor calculado de z de -1.88 es menor que el valor crítico de -1.645 para esta
prueba del extremo inferior por eso se rechaza la afirmación del director en un
nivel de significancia del 5%.
Proporción Muestral.
Ejemplo 7.- Un legislador desea probar la hipótesis de que, cuando menos, 60% de
sus representados están a cierta legislación laboral que se está presentado en el
congreso, utilizando el 5% como nivel de significancia con que una discrepancia
importante con respecto a su hipótesis consistiría en que sólo el 50% (o menos) de
las personas estuvieran a favor de la legislación, y esta dispuesto a aceptar un
riesgo del error del tipo II de # = 0.05. El tamaño de la muestra que debe extraer,
como mínimo, para satisfacer esas especificaciones es:
Ejemplo 8.- Una muestra de 50 hogares de cierta comunidad arroja que solo 10 de
ellos se encuentran viendo un programa especial de televisión. En una segunda
comunidad, 15 hogares de una muestra aleatoria de 50 se encuentran observando el
programa especial. Se prueba la hipótesis de que la proporción global de
televidentes en las dos comunidades no difieren, utilizando el nivel de
significancia del 1%, de la siguiente manera:
(Se combina las varianzas debido a la suposición de que los valores de las
desviaciones estándar de las poblaciones son iguales).
El valor calculado z de +1.79 es mayor que el valor critico de +1.645 para esta
prueba del extremo superior. Por ello, se rechaza la hipótesis nula a un nivel de
significancia del 5%, y se acepta la hipótesis alternativa de que el ingreso
promedio por hogar es mayor en la primera comunidad que en la segunda.
Con respecto a los problemas 11.1 y 11.2, antes de recolectar los datos, el
constructor considero que el ingreso promedio de la primera comunidad excede al
promedio de la segunda comunidad en cuando menos $1.500 diarios. En este caso,
concediendo a esta evaluación el beneficio de la duda, pruebe esa suposición como
hipótesis nula utilizando un nivel de significancia del 5%. No se supone que las
desviaciones estándar de las poblaciones son iguales.
La hipótesis nula en una prueba de bondad del ajuste en una afirmación sobre el
patrón esperado de las frecuencias en un conjunto de categorías. El patrón esperado
puede ajustarse a su suposición de igualdad de probabilidades y puede, por ello,
ser uniforme. O por otro lado, el patrón esperado puede ajustarse a distribuciones
de probabilidad como la binomial, la Poisson y la normal.
Territorio
Total
12
14
40
Número Esperado de Instalaciones, fe
10
10
10
10
40
Para aceptar la hipótesis nula, debe ser posible atribuir las diferencias entre las
frecuencias observadas y la esperada a la variabilidad del muestreo y al nivel
especificado de significancia. Así la estadística de prueba ji-cuadrada se basa en
la magnitud de esta diferencia para cada una de las categorías de la distribución
de frecuencia. El valor de ji-cuadrada que se utiliza para probar la diferencia
entre un patrón de frecuencia observado y otro esperado es:
Se observa que, si las frecuencias observadas son muy cercanas a las frecuencias
esperadas, entonces el valor calculado de la ji-cuadrada estará cercano a 0.
Conforme las frecuencias observadas se alejan de las frecuencias esperadas el valor
de ji-cuadrada se vuelve mayor. Por ello, se concluye que las pruebas de ji-
cuadrada implican el uso de solamente el extremo superior, con el objeto de
determinar si un patrón observado de frecuencias es diferente de un patrón
esperado.
gl = k - m - 1
gl = k - m - 1 = 4-0-1 = 3
Alguien afirma que los clientes de una tienda de pantalones vaqueros son hombres y
mujeres, en proporciones iguales. Se observa una muestra aleatoria de 40 clientes y
25 resultan ser hombres y 15 mujeres. Pruebe la hipótesis nula de que el número
global de hombres y mujeres que son clientes en esa tienda es igual, aplicando la
prueba de ji - cuadrada, y utilizando el nivel de significancia del 5%.
Clientes
Total
Hombres
Mujeres
25
15
40
20
20
40
De la tabla 12.10
gl = k -m-1 = 2-0-1 =1
gl 0 k - m - 1 = 3-0-1 = 2
Tamaño de la Pantalla
Total
Pequeña
Mediana
Grande
Frecuencia Observada, f0
Patrón Histórico, fe
55
40
35
40
10
20
100
100
Tablas de Contingencia.
Ejemplo 5.- La tabla 12.3 es una reproducción de la sección 5.8 y es un ejemplo del
formato más simple posible de una tabla de contingencia, ya que las dos variables
(Sexo y Edad) tiene solo dos niveles de clasificación, o categorías. Por ello, se
trata de una tabla de contingencia de 2 x2.
Edad
Sexo
Total
Hombre
Mujer
Menor de 30
60
50
110
30 y más
80
10
90
Total
140
60
200
Ejemplo 6.- En la tabla 12.4 se presentan las frecuencias esperadas para los datos
de la tabla 12.3. Por ejemplo para la celda de renglón 1 y columna 1, el calculo de
la frecuencia esperada es:
En este caso, las tres frecuencias esperadas restantes pueden obtenerse mediante
substracción de los totales de renglón y de columnas, como alternativas al uso de
las formulas (12.3). Esta es una indicación directa de que existe un grado de
libertad para una tabla de contingencia de 2x2 y que solo la frecuencia de una
celad “tiene libertad” para variar.
Tabla 12.4 Tabla de frecuencia esperadas para las frecuencias observadas que se
reportan en la tabla 12.3.
Edad
Sexo
Total
Hombres
Mujer
Menor de 30
77
33
110
30 y más
63
27
90
Total
140
60
200
gl = k - m - 1 = 2-0-1 = 1
Total
Si
No
10
40
50
20
30
50
H0 : #1 = #2 = #3 = #4 H0 : No todas #1 = #2 = #3 = #4
(Nota: El rechazo de la hipótesis nula no indica que todas las igualdades son
falsas si no que cuando menos una es falsa).
Comunidades
Total
Número de Televidentes
10
15
18
48
Número de no Televidentes
40
35
45
32
152
Total
50
50
50
50
200
Comunidades
Total
Número de Televidentes
12.0
12.0
12.0
12.0
48
Número de no Televidentes
38.0
38.0
38.0
38.0
152
Total
50
50
50
50
200
El valor calculado de la estadística ji - cuadrada 10.75,no es mayor que el valor
crítico de 11.35.Por ello, las diferencias en las proporciones de televidentes en
las cuatro comunidades muestreadas no son lo suficientemente grande par rechazar la
hipótesis nula a un nivel de significancia del 5%.
Alguien afirma que los clientes de una tienda de pantalones vaqueros son hombres y
mujeres en proporciones iguales. Se observa una muestra aleatoria de 40 clientes y
25 resultan ser hombres y 15 mujeres. Pruebe la hipótesis nula de que el número
global de hombres y mujeres que son clientes en esa tienda es igual aplicando la
prueba de ji - cuadrada y utilizando el nivel de significancia del 5%.
Clientes
Total
Hombres
Mujeres
25
15
40
20
20
40
De la tabla 12.10.
gl = k - m - 1 = 2 - 0 - 1 = 1
Análisis de datos
Análisis de datos
Análisis de datos
Análisis de datos
F F 0.99
0.95