Documentos de Académico
Documentos de Profesional
Documentos de Cultura
INGENIERIA INDUSTRIAL.
UNIDAD II Estimación
Introducción
Características de un estimador
Estimación puntual
Estimación por intervalos
Intervalo de confianza para la media
Intervalo de confianza para la diferencia de medias
Intervalos de confianza para la proporción
Intervalos de confianza para la diferencia de proporciones
Intervalos de confianza para la varianza
Intervalos de confianza para la relación de varianzas
Determinación del tamaño de muestra
Basado en la media de la Población
Basado en la proporción de la Población
Basado en la diferencia entre las medias de la Población
UNIDAD III Pruebas de hipótesis
Introducción
Confiabilidad y significancia
Errores tipo I y tipo II
Potencia de la prueba
Formulación de Hipótesis estadísticas
Prueba de hipótesis para la media
Prueba de hipótesis para la diferencia de medias
Prueba de hipótesis para la proporción
Prueba de hipótesis para la diferencia de proporciones
Prueba de hipótesis para la varianza
Prueba de hipótesis para la relación de varianzas.
Uso de software estadístico
Bondad de ajuste
Análisis Ji-Cuadrada
Prueba de independencia
Prueba de la bondad del ajuste
Tablas de contingencia
Uso del software estadístico.
Pruebas no paramétricas
Escala de medición
Métodos estadísticos contra no paramétricos
Prueba de Kolmogorov – Smirnov
Prueba de Anderson – Darling
Prueba de Ryan – Joiner
Prueba de Shappiro – Wilk
UNIDAD V Regresión lineal simple y múltiple
Estadística:
La Estadística es la ciencia cuyo objetivo es reunir una información cuantitativa concerniente
a individuos, grupos, series de hechos, etc. y deducir de ello gracias al análisis de estos datos
unos significados precisos o unas previsiones para el futuro.
Estadística Descriptiva
La estadística descriptiva es la rama de las Matemáticas que recolecta, presenta y caracteriza
un conjunto de datos (por ejemplo, edad de una población, altura de los estudiantes de una
escuela, temperatura en los meses de verano, etc.) con el fin de describir apropiadamente las
diversas características de ese conjunto.
Inferencia
Inferencia es la acción y efecto de inferir (deducir algo, sacar una consecuencia de otra cosa,
conducir a un resultado). La inferencia surge a partir de una evaluación mental entre distintas
expresiones que, al ser relacionadas como abstracciones, permiten trazar una implicación
lógica.
Estadística Inferencial
La estadística inferencial no es más que un argumento. Un buen argumento hace creíble una
afirmación. En nuestro caso, cualquier estudio necesitará, al menos dos argumentos sólidos:
el estadístico y el relativo al diseño de investigación (lo que se puede aprender en Métodos I y
II). Desde este punto de vista, nuestra tarea es poder entender (y calibrar) los argumentos
estadísticos y también poder construirlos nosotros mismos.
La estadística inferencial es necesaria cuando queremos hacer alguna afirmación sobre más
elementos de los que vamos a medir. La estadística inferencial hace que ese salto de la parte
al todo se haga de una manera “controlada”. Aunque nunca nos ofrecerá seguridad absoluta,
sí nos ofrecerá una respuesta probabilística. Esto es importante: la estadística no decide; sólo
ofrece elementos para que el investigador o el lector decidan. En muchos casos, distintas
personas perciben diferentes conclusiones de los mismos datos.
El proceso será siempre similar. La estadística dispone de multitud de modelos que están a
nuestra disposición. Para poder usarlos hemos de formular, en primer lugar, una pregunta en
términos estadísticos. Luego hemos de comprobar que nuestra situación se ajusta a algún
modelo (si no se ajusta no tendría sentido usarlo). Pero si se ajusta, el modelo nos ofrecerá
una respuesta estadística a nuestra pregunta estadística. Es tarea nuestra devolver a la
psicología esa respuesta, llenándola de contenido psicológico.
¿Cuándo es necesaria la estadística inferencial? Cuando queremos hacer alguna afirmación
sobre más elementos de los que vamos a medir.
La estadística descriptiva, como indica su nombre, tiene por finalidad describir. Así, si
queremos estudiar diferentes aspectos de, por ejemplo, un grupo de personas, la estadística
descriptiva nos puede ayudar. Lo primero será tomar medidas, en todos los miembros del
grupo, de esos aspectos o variables para, posteriormente, indagar en lo que nos interese.
La estadística inferencial es la que va a permitir dar ese salto de los resultados obtenidos para
un grupo a la totalidad.
Definiciones Importantes
Población: un conjunto de elementos (generalmente personas, en psicología) que comparten
al menos una característica bien definida.
Muestra: es un subconjunto de elementos extraídos de una población
Variable: Característica de los elementos de una población que puede tomar diversos valores
(al menos, dos).
Datos: Valores obtenidos al medir una variable en una muestra.
Estadístico: Es un valor numérico que expresa una característica de una muestra.
Formalmente, un estadístico es una función definida sobre una variable.
Parámetro: Es un valor numérico que expresa una característica de una población
Introducción
En ocasiones en que no es posible o conveniente realizar un censo (analizar a todos los
elementos de una población), se selecciona una muestra, entendiendo por tal una parte
representativa de la población.
El muestreo es por lo tanto una herramienta de la investigación científica, cuya función básica
es determinar que parte de una población debe examinarse, con la finalidad de hacer
inferencias sobre dicha población.
Muestreo
Es la actividad por la cual se toman ciertas muestras de una población de elementos de los
cuales vamos a tomar ciertos criterios de decisión, el muestreo es importante porque a través
de él podemos hacer análisis de situaciones de una empresa o de algún campo de la sociedad.
Terminología para el muestreo
Error muestral o error de muestreo: La diferencia entre el resultado obtenido de una muestra
(un estadístico) y el resultado el cual deberíamos haber obtenido de la población (el parámetro
correspondiente) se llama el error muestral o error de muestreo.
Tipos de muestreo
No aleatorios: Se eligen los elementos, en función de que sean representativos, según la
opinión del investigador.
Aleatorios: Todos los miembros de la muestra han sido elegidos al azar, de forma que cada
miembro de la población tuvo igual oportunidad de salir en la muestra.
Muestreo probabilístico
Los métodos de muestreo probabilísticos son aquellos que se basan en el principio de
equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma
probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente, todas las
posibles muestras de tamaño n tienen la misma probabilidad de ser seleccionadas. Sólo estos
métodos de muestreo probabilísticos nos aseguran la representatividad de la muestra extraída
y son, por tanto, los más recomendables.
Consecuencias:
1. Permite averiguar la probabilidad de que la media de una muestra concreta esté en un cierto
intervalo.
2. Permite calcular la probabilidad de que la suma de los elementos de una muestra esté, a
priori, en un cierto intervalo.
Este teorema afirma que la distribución de medias muéstrales tiende hacia una distribución
normal, aunque las muestras procedan de una distribución no normal determinar un modelo
de probabilidad para describir el comportamiento de una variable continua.
La distribución de todos los valores posibles que puede asumir un estadístico muestral,
calculados a partir de muestras del mismo tamaño y extraído en forma aleatoria de la misma
población, se llama distribución muestral de ese estadístico. La distribución por muestreo de
un estadístico muestral es la distribución de probabilidad del mismo, calculado en cada una de
las muestras posibles extraídas aleatoriamente de la población.
2.- Su media.
* Entre mayor sea el tamaño de la muestra n, más aproximada está la distribución del
estadístico X a la distribución normal.
* Un tamaño de muestra lo suficientemente grande se presenta cuando hay una coincidencia
mínima de cuatro cifras decimales entre las probabilidades del modelo y su aproximación.
* Para el caso de variables aleatorias continuas con varianza finita, un tamaño de n = 30 se
considera lo suficientemente grande.
* La gran importancia del TLC reside en que, a través de su aplicación, puede hacerse
inferencia estadística de una enorme cantidad de procesos naturales y sociales.
Si aplicamos el proceso de estandarización, a la formula Z= (X- μ)/σ se convierte en Z= (X-
μ)/(σ/n)
Porque en lugar de la variable aleatoria X ahora se tiene el estadístico de la media muestral X
y, por consiguiente, el parámetro σ ha sido sustituido por el correspondiente σn
Distribución
Es la acción de dividir algo entre varias personas, dar a algo el destino conveniente, entregar
una mercancía.
Distribución normal
Se llama distribución normal, distribución de Gauss o distribución gaussiana, a una de
las distribuciones de probabilidad de variable continua que con más frecuencia aparece
aproximada en fenómenos reales. La gráfica de su función de densidad tiene una forma
acampanada y es simétrica respecto de un determinado parámetro estadístico. Esta curva se
conoce como campana de Gauss y es el gráfico de una función gaussiana.
° Distribución Muestral
Población: Consiste en la totalidad de las observaciones en las que estamos interesados. Cada
observación en una población es un valor de una v. a. X que tiene alguna distribución de
probabilidad.
Cada observación de una población es un valor de una v. a. X. que tiene alguna distribución
de probabilidad f(x)
Población normal- población f(x)
° La media (valor esperado) de una población
° La varianza de la población normal
Muestra Aleatoria
v.a. Xi i= 1,…,n xi:”i_esima medición o valor de la muestra que observemos”
Las dos medidas fundamentales de esta distribución son la media y la desviación típica,
también denominada error típico o desviación estándar.
1. SIGMA CONOCIDA
2. SIGMA DESCONOCIDA
° (σ CONOCIDA)
Supongamos que una muestra aleatoria de n observaciones ha sido tomada de cierta
población y que si tomáramos una segunda muestra aleatoria de tamaño n de esta población,
sería poco razonable esperar un valor idéntico de , mientras que si extrajéramos varias
muestras más, quizá ninguna de las sería igual. La diferencia entre tales atribuye por lo
general al azar, de lo que derivan importantes preguntas acerca de su distribución, y
especificaciones acerca del grado de sus azarosas fluctuaciones.
TEOREMA: Si una muestra aleatoria de tamaño n es extraída de una población con media μ
y varianza σ2 , entonces es una variable aleatoria cuya distribución tiene media μ. Pa
muestras poblacionales infinitas, la varianza de distribución es σ2 /n; para muestras de una
población finita de tamaño N, la varianza es (σ2 )/n) (N-n/N-1).
En general, es imposible determinar exactamente esa distribución sin conocer la forma real de
la población, aunque es posible determinar la distribución de limitación como n→∞ de una
variable aleatoria cuyos valores se relacionan estrechamente con , en el supuesto
únicamente de que la población tenga una varianza finita σ2 . La variable aleatoria a la nos
referimos aquí es la media muestral estandarizada.
Cuyos valores están dados por la diferencia entre y μ dividida entre el error estándar de la
media.
EJERCICIOS RESUELTOS
Para responder a ambos interrogantes, nos basaremos en el teorema del límite central. De
acuerdo con éste, podemos afirmar que la distribución muestral de la media de C.I. en mues-
tras de tamaño n = 81 es normal, puesto que tales muestras proceden de una población nor-
mal. Los parámetros de la distribución muestral de la media (valor esperado y error típico)
serán:
[D]
[D]
[D]
Y consultando una tabla de valores para la distribución normal, sabemos que P {Z ≤ -3) =
0.0014, por lo que el porcentaje de muestras (n = 81) en que la media del C.I. de los alumnos
está por debajo de 95 es del 0.14%.
[D]
[D]
a.
x 172.5 174.5
z 1.47
N n 1.36
n N 1
175.8 174.5
z 0.96
1.36
N1 N2
µ1 µ2
n1 n2
x1 x2
respectivamente. Por ejemplo, X1 puede ser la duración de una batería para carro de una
marca, y X2 la duración de una batería de otra marca diferente. Si los medias 1 y 2 son
desconocidas, podríamos estar interesados en conocer si ambas baterías tienen la misma du-
ración media. En forma similar, si las varianzas son desconocidas, podríamos estar interesa-
dos en saber si son iguales o no. Para realizar estas inferencias, se pueden someter a pruebas
idénticas diferentes baterías, controlando los factores externos, de tal forma que las diferencias
se deban exclusivamente a la clase de marca probada
de una población con media 2 y varianza 2 . Si deseamos realizar alguna inferencia sobre
2
. Por el TCL sabemos que tanto como se distribuyen normalmente con los siguientes
parámetros: x1 Normal 1 , 1 n1 , x2 Normal 2 , 2 n2
2 2
Ahora bien, para la diferencia de las medias muestrales se tiene:
Para conocer la distribución muestral de las diferencias entre las medias se debe saber si las
varianzas poblacionales son conocidas o desconocidas, y en caso de que sean desconocidas,
se debe saber si son iguales o diferentes. Cada uno de estos tres casos se analizará por se-
parado.
a) Distribución de la diferencia entre dos medias cuando las varianzas son conocidas.
tanto la distribución de la diferencia entre las medias muestrales es normal con el valor
esperado y la varianza dados anteriormente, es decir,
De acuerdo con lo anterior la siguiente variable aleatoria tiene una distribución normal están-
dar:
Por lo tanto, con base en la expresión anterior se pueden realizar inferencias con respecto a
la diferencia de medias poblacionales, bajo el supuesto de que las varianzas sean conocidas.
Si además, son iguales, la expresión anterior se puede expresar como:
Ejemplo:
En un estudio para comparar los pesos promedio de niños y niñas de sexto grado en una
escuela primaria se usará una muestra aleatoria de 20 niños y otra de 25 niñas. Se sabe que
tanto para niños como para niñas los pesos siguen una distribución normal. El promedio de los
pesos de todos los niños de sexto grado de esa escuela es de 100 libras y su desviación
estándar es de 14.142, mientras que el promedio de los pesos de todas las niñas del sexto
senta el promedio de los pesos de 20 niños y es el promedio de los pesos de una muestra
de 25 niñas, encuentre la probabilidad de que el promedio de los pesos de los 20 niños sea al
menos 20 libras más grande que el de las 25 niñas.
Solución:
Datos:
1 100 libras
2 85 libras
1 14.142 libras
2 12.247 libras
n1 20 niños
n 2 25 niñas
=?
Por lo tanto, la probabilidad de que el promedio de los pesos de la muestra de niños sea al
menos 20 libras más grande que el de la muestra de las niñas es 0.1056.
Ejemplo:
Uno de los principales fabricantes de televisores compra los tubos de rayos catódicos a dos
compañías. Los tubos de la compañía A tienen una vida media de 7.2 años con una desviación
estándar de 0.8 años, mientras que los de la B tienen una vida media de 6.7 años con una
desviación estándar de 0.7. Determine la probabilidad de que una muestra aleatoria de 34
tubos de la compañía A tenga una vida promedio de al menos un año más que la de una
muestra aleatoria de 40 tubos de la compañía B.
Solución:
Datos:
A 7.2 años
B 6.7 años
A 0.8 años
B 0.7 años
n A 34 tubos
n B 40 tubos
=?
x A x B A B 1 7.2 6.7
z 2.84
2
A
2
B 0.8 2
0.7 2
nA nB 34 40
Ejemplo:
Solución:
En este ejercicio no se cuenta con los parámetros de las medias en ninguna de las dos pobla-
ciones, por lo que se supondrán que son iguales.
Datos:
1 1.23 km / lto
2 1.37 km / lto
n1 35 autos
n 2 42 autos
=?
a. ?
b) Distribución de la diferencia entre dos medias cuando las varianzas son desconoci-
Cuando las varianzas son desconocidas, se debe realizar previamente una prueba estadística
para verificar si éstas son iguales o diferentes. Para realizar esta prueba debemos hacer uso
de la distribución F para verificar si la relación de varianzas es igual a uno o diferente de uno.
Para cada una de las dos muestras se definen sus respectivas varianzas como:
s12
1 n1
x1 j x1 2 s 22
1 n2
x2 j x2 2
n1 1 j 1 n2 1 j 1
Ahora bien, si Z es una variable normal (0,1) y Y tiene una distribución chi cuadrado con n
grados de libertad, entonces la variable tiene una distribución t con n grados de li-
bertad. Para nuestro caso la variable Z corresponde a la distribución de la diferencia de las dos
medias, con varianzas conocidas, y la variable chi cuadrado corresponde a la variable Y aca-
bada de definir. Por lo tanto
X 1 X 2 1 2
z
1 1
n1 n2 X 1 X 2 1 2
T
n1 1s12 n2 1s 22 n1 1s12 n2 1s 22 1 1
n1 n2 2
2
2 n1 n2 2 n1 n2
X 1 X 2 1 2
T t n1 n2 2
1 1
Sp
n1 n2
c) Distribución de la diferencia entre dos medias cuando las varianzas son desconoci-
das y diferentes ( ≠ )
Cuando las varianzas son diferentes se puede demostrar que la siguiente variable aleatoria T
sigue una distribución t con n grados de libertad, donde
X 1 X 2 1 2
T t
S12 S 22
n1 n2
S n S
1
2
1
2
2
n2
2
S n S
1
2
1
2 2
2 n 2
2
n1 1 n2 1
Para muestras de tamaño n>30, la distribución muestral de proporciones sigue una dis-
tribución normal
pq
N p,
n
donde p es la proporción de uno de los valores que presenta la variable estadística en la po-
blación y q=1-p.
Si de una población, queremos conocer por ejemplo, la proporción de alumnos inscritos e una
especialidad, o la proporción de alumnos aprobados por materia, la distribución de proporcio-
nes, es la forma mas adecuada para hacer un estudio de este tipo.
Una población binomial está estrechamente relacionada con la distribución muestral de pro-
porciones; una población binomial es una colección de éxitos y fracasos, mientras que una
distribución muestral de proporciones contiene las posibilidades o proporciones de todos los
números posibles de éxitos en un experimento binomial, y como consecuencia de esta rela-
ción, las afirmaciones probabilísticas referentes a la proporción muestral pueden evaluarse
usando la aproximación normal a la binomial, siempre que np 5 y
n(1-p) 5. Cualquier evento se puede convertir en una proporción si se divide el número obte-
nido entre el número de intentos.
Suponga que se cuenta con un lote de 12 piezas, el cual tiene 4 artículos defectuosos. Se van
a seleccionar 5 artículos al azar de ese lote sin reemplazo. Genere la distribución muestral de
proporciones para el número de piezas defectuosas.
Como se puede observar en este ejercicio la Proporción de artículos defectuosos de esta po-
blación es 4/12=1/3. Por lo que podemos decir que el 33% de las piezas de este lote están
defectuosas.
1 4 4/5=0.8 8C1*4C4=8
2 3 3/5=0.6 8C2*4C3=112
3 2 2/5=0.4 8C3*4C2=336
4 1 1/5=0.2 8C4*4C1=280
5 0 0/5=0 8C5*4C0=56
Total 792
p
0.8 .8 0.6 112 0.4 336 0.2 280 0 56 1 0.3333
792 3
p P
p
0.8 1 32 8 0.6 1 32 112 0.4 1 32 336 0.2 1 32 280 0 1 32 56 0.1681
792
La varianza de la distribución binomial es npq , por lo que la varianza de la distribución
2
p2 Pq n
muestral de proporciones es . Si se sustituyen los valores en esta fórmula tenemos
que:
p
1 32 3 0.2108
5 , este valor no coincide con el de 0.1681, ya que nos falta agregar el
factor de corrección para una población finita y un muestreo sin reemplazo:
p
1 32 3 12 5
0.1681
5 12 1
Pq N n
p
n N 1
pP
z
Pq
n
Solución:
n 40000
pˆ 0.55
qˆ 0.45
a) p p 0.55
pˆ
0.550.45 0.0024
40000
p 0.55
pˆ 0.0024
b) p = 0.55
q = 0.45
.545 .555 .55
-2.08 2.08
Solución:
n 313
pˆ 0.55
qˆ 1 0.55 0.45
a) p p 0.55
pˆ
0.550.45 0.0028
313
p 0.55
pˆ 0.0028
b)
0.5 0.55
0.55 0.5 0.05
z1 1.78
0.50.5 0.028
313
Muchas aplicaciones involucran poblaciones de datos cualitativos que deben compararse uti-
lizando proporciones o porcentajes
Pq
P
En el tema anterior se comprobó que P P y que n , por lo que no es difícil deducir
P1 q1 P2 q 2
P1 p 2
que P1 P 2 P1 P2 y que
n1 n2
.
N1 N2
P1 P2
n1 n2
^ ^
p1 p2
pˆ1 pˆ 2 1
pˆ1 pˆ 2 2
pˆ1 pˆ 2 3
Deduciendo que
z
pˆ 1 pˆ 2 P1 P2
P1 q1 P2 q 2
n1 n2
Ejemplo
Una encuesta del Boston College constó de 320 trabajadores de Michigan que fueron despe-
didos entre 1979 y 1984, encontró que el 20% había estado sin trabajo durante por lo menos
2 años. Suponga que tuviera que seleccionar una muestra aleatoria de 320 trabajadores, ¿cuál
sería la probabilidad de que el porcentaje muestral de hombres sin empleo difiera del porcen-
taje obtenido en la encuesta en 5% o más?
DATOS
n1 = n2 = 320
p1 = 0.20
q1 = 0.80
^ ^
P 0.05 p1 p 2 P1 P2 0.05
P1-P2 .05
-.05 .05
0.05
z
0.200.80 0.200.80
320 320
0.05
z 1.58
0.0316
CONCLUSIÓN.
La probabilidad de que el porciento muestral de hombres sin empleo difiera del porciento ob-
tenido en la encuesta en 5% o más es de 0.1142.
Ejemplo
^ ^
pˆ pˆ P1 P2
1 2
P1q1 P2 q2
pˆ pˆ
1 2
n1 n2
^
pˆ pˆ 0.5 0.4 0.1
a) 1 2
pˆ pˆ
0.50.5 0.40.6 0.057
1 2
100 300
^ ^
pˆ pˆ 0.1 0.6 0.5
b) 1 2
pˆ pˆ
0.10.9 0.60.4 0.0287
1 2
400 400
x x
2
i
s2 i 1
n 1
Esta fórmula está basada en n-1 grados de libertad (degrees of freedom). Esta terminología
resulta del hecho de que si bien s2 está basada en n cantidades
x1 x , x 2 x ,…, x n x , éstas suman cero, así que especificar los valores de cualquier n-1 de
sólo tres de los cuatro valores de están libremente determinamos 3 grados de libertad.
Entonces, en esta unidad la fórmula de grados de libertad será n-1 y su simbología
Supóngase que se toma una muestra de una población normal con media y varianza .
2
mente.
La siguiente figura presenta la gráfica de varias distribuciones t. La apariencia general de la
distribución t es similar a la de la distribución normal estándar: ambas son simétricas y unimo-
Curva Normal z
15
8
5
Se acostumbra representar con t el valor t por arriba del cual se encuentra un área igual a
. Como la distribución t es simétrica alrededor de una media de cero, tenemos t1 t ; es
decir, el valor t que deja un área de a la derecha y por tanto un área de a la izquierda,
es igual al valor t negativo que deja un área de en la cola derecha de la distribución. Esto es
t 0.95 t 0.05 , t 0.99 t 0.01 , etc.
Para encontrar los valores de t se utilizará la tabla de valores críticos de la distribución t del
libro Probabilidad y Estadística para Ingenieros de los autores Walpole, Myers y Myers.
Ejemplo:
El valor t con v 14 grados de libertad que deja un área de 0.025 a la izquierda, y por tanto un
área de 0.975 a la derecha, es
t 0.975 t 0.025 2.145
Si se observa la tabla, el área sombreada de la curva es de la cola derecha, es por esto que
se tiene que hacer la resta de 1 . La manera de encontrar el valor de t es buscar el valor de
en el primer renglón de la tabla y luego buscar los grados de libertad en la primer columna
y donde se intercepten y v se obtendrá el valor de t.
Ejemplo:
Como t 0.05 deja un área de 0.05 a la derecha, y t 0.025 deja un área de 0.025 a la izquierda,
encontramos un área total de 1 0.05 0.025 0.925 .
P t 0.025 t t 0.05 0.925
Ejemplo:
Encuentre k tal que P K t 1.761 0.045 , para una muestra aleatoria de tamaño 15 que se
selecciona de una distribución normal.
Solución:
Si se busca en la tabla el valor de t 1.761 con 14 grados de libertad nos damos cuenta que a
este valor le corresponde un área de 0.05 a la izquierda, por ser negativo el valor. Entonces si
se resta 0.05 y 0.045 se tiene un valor de 0.005, que equivale a . Luego se busca el valor de
0.005 en el primer renglón con 14 grados de libertad y se obtiene un valor de t 2.977 , pero
como el valor de está en el extremo izquierdo de la curva entonces la respuesta es
t 2.977 por lo tanto:
Hasta ahora nos hemos ocupado exclusivamente de la distribución muestral de la media, pero
es necesario hablar de la distribución muestral teórica de la varianza para muestras aleatorias
de poblaciones normales puesto que S2 no puede ser negativa esta distribución no es una
curva normal sino más bien una distribución gama con parámetros = /2 y =2 y se denomina
distribución ji2 2 .
Si S2 es la varianza de una muestra aleatoria de tamaño n tomada de una población normal
cuya varianza es 2 entonces 2= (n-1)S2 que es el valor de
2
de una variable aleatoria que tiene la distribución 2 con parámetro =n-1 grados de libertad.
Ejercicios
Si una óptica adquiere cristales para montarlos en anteojos y se sabe por experiencia que la
varianza del índice de refracción de esta clase de cristales es de 1.26*10 -4 como es importante
que los diferentes cristales tengan un índice de refracción muy parecido la empresa rechaza
uno de tales cargamentos si la varianza muestral de 20 cristales escogidos al azar excede de
2*10-4. Suponiendo que los valores muestrales pueden considerarse como una muestra alea-
toria de una población normal Cuál es la probabilidad de que un cargamento sea rechazado a
pesar de que 2=1.26*10-4?
Datos
n=20
S2=2x10-4
2=1.26x10-4
.05
2
n 1S 2
20 12 104 30.15
2 1.26 104
30.144
20 1 19
2 0.05
Conclusión
La probabilidad de que un cargamento sea rechazado a pesar de que 1.26 10 está por
2 4
debajo de 0.05.
Datos
n=17
S2=115.38
2=64
115.38
2
n 1S 2
17 1115.38 28.845
2
64
17 1 16
2 0.025
Conclusión
La probabilidad de que la afirmación sea rechazada aún cuando 2=64 es .025.
Solución.
2
n 1s 2
25 13.462 13.847 y 2
25 110.745 42.98
2
6 6
Aquí se tienen que buscar los dos valores en el renglón de 24 grados de libertad. Al buscar
el valor de 13.846 se encuentra un área a la derecha de 0.95. El valor de 42.98 da un área a
la derecha de 0.01. Como se está pidiendo la probabilidad entre dos valores se resta el área
de 0.95 menos 0.01 quedando 0.94.
La necesidad de disponer de métodos estadísticos para comparar las varianzas de dos pobla-
ciones es evidente a partir del análisis de una sola población. Frecuentemente se desea com-
parar la precisión de un instrumento de medición con la de otro, la estabilidad de un proceso
de manufactura con la de otro o hasta la forma en que varía el procedimiento para calificar de
un profesor universitario con la de otro.
12 y 22
2 2
s12 s 2 s12 s 2
Utilizando la razón de las varianzas muestrales . Si es casi igual a 1, se tendrá
poca evidencia para indicar que
12 y 22
2
s12 s 2
no son iguales. Por otra parte, un valor muy grande o muy pequeño para , proporcionará
evidencia de una diferencia en las varianzas de las poblaciones.
La variable aleatoria F se define como el cociente de dos variables aleatorias ji-cuadrada inde-
pendiente, cada una dividida entre sus respectivos grados de libertad.
1 y 2
A medida que aumentan los valores, la curva se aproxima al eje x, pero nunca lo
toca
2
s12 s 2 2 2
La distribución F está relacionada con el cociente de varianzas . En donde s1 y s 2 son
las varianzas muestrales tienen una distribución con grados de libertad (n - 1).
2
12
1
F
2
2
2
Como
S 2 (n 1)
2
2
S12 n 1
12 S12
F
n 1 12
S 22 n 1 S 22
22 22
n 1
S12 22
F
S 22 12
Uso de las tablas:
1
F1 , 1 , 2
F , 2 , 1
Ejemplos:
Solución:
a. Como el área que da la tabla es de cero a Fisher, se tiene que localizar primero los
grados de libertad dos que son 9, luego un área de 0.75 con 4 grados de libertad uno.
b. En este caso se puede buscar el área de 0.95 directamente en la tabla con sus respec-
tivos grados de libertad.
c. Se tiene que buscar en la tabla un área de 0.05, puesto que nos piden un área a la
derecha de F de 0.95.
Ejemplo
Si dos muestras aleatorias independientes de tamaño de n 1=7 y n2=13 se toma una población
normal Cuál es la probabilidad de que la varianza de la primera sea al menos 3 veces más
grande que la de la segunda?
Datos
n1 7
n 2 13
P S12 3S 22
1 n1 1 7 1 6
2 n 2 1 13 1 12 0.005
S12 3
F 3 S12 3S22
S 22 1
Conclusión
La probabilidad de que la varianza de la primera sea al menos 3 veces más grande que la de
la segunda es .005.
¿Qué es INFERIR?
De acuerdo con el diccionario de la Real Academia
Española, inferir significa "sacar una consecuencia o deducir
algo de otra cosa".
Población.
Conjunto de individuos distintos perfectamente identificables,
sobre el que se realizan las observaciones.
Muestra de tamaño n.
Subconjunto de n elementos de la población.
• Muestreo Probabilístico.
1. Muestreo Aleatorio Simple
2. Muestreo Aleatorio Sistemático
3. Muestreo Aleatorio Estratificado
4. Muestreo Aleatorio por Conglomerados
Muestro Probabilístico:
Los métodos de muestreo probabilísticos son aquellos que se basan
en el principio de equiprobabilidad. Es decir, aquellos en los que
todos los individuos tienen la misma probabilidad de ser elegidos
para formar parte de una muestra y, consiguientemente, todas las
posibles muestras de tamaño n tienen la misma probabilidad de
ser seleccionadas. Sólo estos métodos de muestreo probabilísticos
nos aseguran la representatividad de la muestra extraída y son, por
tanto, los más recomendables.
Muestreo sistemático
Es la elección de una muestra a partir de los elementos de una
lista según un orden determinado, o recorriendo la lista a partir
de un número aleatorio determinado.
Muestreo estratificado
Consiste en la división previa de la población de estudio en
grupos o clases que se suponen homogéneos respecto a
característica a estudiar. A cada uno de estos estratos se le
asignaría una cuota que determinaría el número de miembros del
mismo que compondrán la muestra. Dentro de cada estrato el
muestreo se realizaría mediante Muestreo Aleatorio Simple.
Ejemplo
Suponga que una compañía de servicio de televisión por cable está pensando
en abrir una sucursal en una ciudad grande; la compañía planea realizar un
estudio para determinar el porcentaje de familias que utilizarían sus
servicios. Como no es practico, preguntar en cada casa, la empresa decide
seleccionar una parte de la ciudad al azar. La cual forma un conglomerado.
MUESTREO POR ETAPAS
Definición:
El teorema central del límite es uno de los resultados
fundamentales de la
estadística. Este teorema nos dice que si una muestra es lo
bastante grande (generalmente cuando el tamaño
muestral (n) supera los 30), sea cual sea la distribución de
la media muestral, seguirá aproximadamente una
distribución normal. Es decir, dada cualquier variable
aleatoria, si extraemos muestras de tamaño n (n>30) y
calculamos los promedios muestrales, dichos promedios
seguirán una distribución normal. Además, la media será la
misma que la de la
variable de interés, y la desviación estándar de la media
muestral será aproximadamente el error estándar.
La importancia del teorema central del límite
radica en que mediante un conjunto de teoremas,
se desvela las razones por las cuales, en muchos
campos de aplicación, se encuentran en todo
momento distribuciones normales o casi.
Las notas de cierto examen se distribuyen según una normal de media 5.8
y desviación típica 2.4. Hallar la probabilidad de que la media de una
muestra tomada al azar de 16 estudiantes esté comprendida entre 5 y 7
Caso A, B y C de Diferencia de
Muestras
Ejemplo caso C:
La distribución es aproximadamente
normal para n1≥30 y n2 ≥ 30. Si las
poblaciones son normales, entonces
la distribución muestral de medias es
normal sin importar los tamaños de
las muestras.
La fórmula que se utilizará para el calculo de probabilidad del
estadístico de diferencia de medias es:
Ejemplo:
DISTRIBUCIÓN MUESTRAL DE LA
PROPORCIÓN
P = 4/12=1/3=0.333
DIFERENCIA DE PROPORCIONES
Diferencia de proporciones
Ejemplo
DISTRIBUCIÓN T-STUDENT
Donde:
Z tiene una distribución normal de media nula y
varianza 1
V tiene una distribución chi-cuadrado con ν
grados de libertad
Z y V son independientes
Ejercicio
Un fabricante de focos afirma que su producto durará un promedio de 500 horas de
trabajo. Para conservar este promedio esta persona verifica 25 focos cada mes. Si el
valor y calculado cae entre –t 0.05 y t 0.05, él se encuentra satisfecho con esta
afirmación. ¿Qué conclusión deberá él sacar de una muestra de 25 focos
cuya duración fue?
Definición: Se dice que una variable aleatoria X se distribuye Chi-Cuadrado con n grados de libertad, denotado por X
sigue χ 2 (n) , si su función de densidad es:
Características de la distribución CHI-CUADRADO:
El cálculo de probabilidades se puede realizar a través de las Tablas de la distribución Definición: Sea X1, X2, X3, X4…. Xn una
muestra aleatoria extraída de una población Normal con media
μ y varianza σ 2 . Si proponemos las siguientes estadísticas para la varianza:
DISTRIBUCION F DE FISHER
v v v 2
v1
1
1 2 * 1 * x 2
2 v2
f ( x) v1 v2
x0
v v v 2
1 * 2 * 1 * x 1
2 2 v2
SOLUCIÓN
a.
P ( F 1.97 ) 1 0.9 0.1 para v1 15 y v 2 15
Introducción
Características de un estimador
Estimación puntual
Estimación por intervalos
Intervalo de confianza para la media
Intervalo de confianza para la diferencia de medias
Intervalos de confianza para la proporción
Intervalos de confianza para la diferencia de proporciones
Intervalos de confianza para la varianza
Intervalos de confianza para la relación de varianzas
Determinación del tamaño de muestra
Basado en la media de la Población
Basado en la proporción de la Población
Basado en la diferencia entre las medias de la Población
ESTIMADOR
1 n 1
x
n i 1
xi ( x1 ... x n )
n
En el ejemplo se habla de una estimación puntual. Sin embargo, el estimador es una variable
aleatoria que asigna a cada valor de la función su probabilidad de aparición, esto es, la proba-
bilidad de la muestra de la que se extrae.
CARACTERISTICAS DE UN BUEN ESTIMADOR
d. Suficiente: es un estimador que utiliza toda la información que posee una muestra so-
bre el parámetro que se estima.
ESTIMACION PUNTUAL
Una estimación es puntual cuando se obtiene un sólo valor para el parámetro. Los estimadores
más probables en este caso son los estadísticos obtenidos en la muestra, aunque es necesario
cuantificar el riesgo que se asume al considerarlos. Recordemos que la distribución muestral
indica la distribución de los valores que tomará el estimador al seleccionar distintas muestras
de la población. Las dos medidas fundamentales de esta distribución son la media que indica
el valor promedio del estimador y la desviación típica, también denominada error típico de
estimación, que indica la desviación promedio que podemos esperar entre el estimador y el
valor del parámetro.
Estimación puntual
Cuando en una población con familia distribucional conocida f(x, θ) queremos estimar el ver-
dadero valor del parámetro poblacional θ utilizando como lente para determinarlo al estima-
En los casos de muestras grandes, cuando los valores de la muestra corresponden a variables
aleatorias estadísticamente independientes (iid) y por lo tanto se dan las condiciones del TLC,
se tiene que:
L ( θ )=L(x1,x2,….,xn; θ )
Pero como las v.a. son independientes tenemos: L( θ ) = f(x1, θ ) f(x2, θ )….f (xn, θ ). Es decir:
n
f(x , θ)
i
L ( θ )= i 1
f(x , θ) i
En la expresión L( θ )= i1 la función de verosimilitud varia con el parámetro θ y para el
proceso de optimización se considera que las xi son constantes luego de haber determinado la
muestra aleatoria.
Observe que como la función logaritmo natural es siempre creciente el EMV de L( θ ) también
optimiza a Ln (L( θ )) y podemos definir:
n n
f(xi, θ) ln f(x , θ)
i
l( θ )=Ln (L( θ ))= Ln ( i1 )= i1
n
f ( xi , θ)
lθ 0
f( xi , θ) ˆ ) 0 l(θ̂)
ˆ maximiza a l( θ ) es claro que l(θ
y optimizar así: i1
. Si θ θ y <0.
Ejemplo: Considere una población Poisson y calcule el EMV para la tasa poblacional de su-
cesos raros λ
eλ λ x
f(x, λ)
Sabemos que x! para x = 0,1,2,…
n
f(xi, h)
L( λ )= 1
x
n λ x e nλ λ i
Lλ e λ /x !
i
i xi!
1
xi!
como es constante
lλ lnLλ nλ ( x )lnλ lnc
i
xi xi
lλ n 0 entonces ˆλ es el EMV para λ Poisson
λ n
xi
lˆλ 0
λ2 xi 0
Observe que , ya que y λ 0.
Dada una variable aleatoria X con función de probabilidad o densidad f(x) podemos de-
finir una función de X que sea igual a la variable elevada a un exponente entero no negativo.
· k=0
· k=1
a este primer momento respecto al origen que es igual al valor esperado se le llama también
media aritmética de la variable y se le denomina μX, simplemente μ.
El resto de los momentos respecto al origen tienen escaso interés en la mayoría de los
casos.
Momentos respecto a la media
Dada una variable aleatoria X con función de probabilidad o densidad f(x) podemos
definir una función de X que sea igual a la diferencia entre la variable y su media aritmética
elevada a un exponente entero no negativo.
Ø k=0
Ø k=1
Ø k=2
si
Ø k=3
= asimetría
Ø k=4 = curtosis
Método de momentos
Recordemos que los momentos sirven para caracterizar una distribución de probabilidad, y si
dos variables aleatorias tienen los mismos momentos, entonces dichas variables tienen o si-
guen la misma función de densidad. Por lo tanto, los podemos emplear para estimar sus res-
pectivos parámetros.
El método consiste en igualar los primeros momentos de una población a los momentos co-
rrespondientes de una muestra.
Definición. Se define el k-ésimo momento (absoluto) de una variable aleatoria discreta como:
El k-ésimo momento mk de una muestra aleatoria X1, X2, ..., Xn es la media de sus k-ésimas
potencias y está dado por:
m1 = m1
m2 = m2
……………
mp = mp
Ejemplo. Si una variable aleatoria sigue una distribución exponencial con parámetro l, encon-
trar el estimador del parámetro usando el método de los momentos.
f(X) = le-lx, x > 0
Como sólo existe un parámetro, bastará con usar el primer momento, es decir,
m1 = m1,
Consiste en la obtención de un intervalo dentro del cual estará el valor del parámetro estimado
con una cierta probabilidad. En la estimación por intervalos se usan los siguientes conceptos:
Intervalo de confianza
El intervalo de confianza es una expresión del tipo [θ1, θ2] ó θ1 ≤ θ ≤ θ2, donde θ es el parámetro
a estimar. Este intervalo contiene al parámetro estimado con una determinada certeza o nivel
de confianza.
Si no se conoce, puede obtenerse una aproximación en los datos aportados por la literatura
científica o en un estudio piloto. También hay métodos para calcular el tamaño de la muestra
que prescinde de este aspecto. Habitualmente se usa como medida de esta variabilidad la
desviación típica poblacional y se denota σ.
Error de la estimación
Es una medida de su precisión que se corresponde con la amplitud del intervalo de confianza.
Cuanta más precisión se desee en la estimación de un parámetro, más estrecho deberá ser el
intervalo de confianza y, por tanto, menor el error, y más sujetos deberán incluirse en la mues-
tra estudiada. Llamaremos a esta precisión E, según la fórmula E = θ2 - θ1.
Nivel de confianza
Valor α
También llamado nivel de significación. Es la probabilidad (en tanto por uno) de fallar en nues-
tra estimación, esto es, la diferencia entre la certeza (1) y el nivel de confianza (1-α). Por ejem-
plo, en una estimación con un nivel de confianza del 95%, el valor α es (100-95)/100 = 0,05.
Valor crítico
Es el valor de la abscisa en una determinada distribución que deja a su derecha un área igual
a α/2, siendo 1-α el nivel de confianza. Normalmente los valores críticos están tabulados o
pueden calcularse en función de la distribución de la población. Por ejemplo, para una distri-
bución normal, de media 0 y desviación típica 1, el valor crítico para α = 0,05 se calcularía del
siguiente modo: se busca en la tabla de la distribución ese valor (o el más aproximado), bajo
la columna "Área"; se observa que se corresponde con -0,64. Entonces Zα/2 = 0,64. Si la media
o desviación típica de la distribución normal no coinciden con las de la tabla, se puede realizar
el cambio de variable t=(X-μ)/σ para su cálculo.
Con estas definiciones, si tras la extracción de una muestra se dice que "3 es una estimación
de la media con un margen de error de 0,6 y un nivel de confianza del 99%", podemos inter-
pretar que el verdadero valor de la media se encuentra entre 2,7 y 3,3, con una probabilidad
del 99%. Los valores 2,7 y 3,3 se obtienen restando y sumando, respectivamente, la mitad del
error, para obtener el intervalo de confianza según las definiciones dadas.
Para un tamaño fijo de la muestra, los conceptos de error y nivel de confianza van relaciona-
dos. Si admitimos un error mayor, esto es, aumentamos el tamaño del intervalo de confianza,
tenemos también una mayor probabilidad de éxito en nuestra estimación, es decir, un mayor
nivel de confianza.
Es mas fácil explicar la estimación por intervalos, equiparando el parámetro que se
quiere estimar con una vaquilla echada, la cual no se mueve, así el parámetro, en el
momento de su estudio, mientras que el lazo que se utiliza, es el intervalo de confianza,
el cual, entre mas abierto esté, mas probable es que abarque a la vaquilla, o lo que es lo
mismo, la probabilidad de error, es menor.
Existen varias tablas en las cuales podemos encontrar el valor de z, según sea el área pro-
porcionada por la misma. En esta sección se realizará un ejemplo para encontrar el valor de
z utilizando tres tablas diferentes.
Solución 1:
Se utilizará la tabla que tiene el área bajo la curva de - hasta z. Si lo vemos gráficamente
sería:
Solución 2:
En este caso sólo se tendrá que buscar adentro de la tabla el área de 0.475 y el resultado del
valor de z será el mismo, para este ejemplo 1.96.
Solución 3:
Independientemente del valor del Nivel de Confianza este será el procedimiento a seguir para
localizar a z. En el caso de que no se encuentre el valor exacto se tendrá que interpolar.
Estimación de la media.
Resumen:
X
2. Calculamos la X y N
X zi X
2
En toda estimación por intervalo se tiene un estadístico (valor calculado en la muestra) o esti-
mador al que hay que sumar y restar el valor de su error muestral máximo al nivel de confianza
establecido.
Z i
Parámetro = estadístico 2
X zi X
2
X
Cálculo del error típico N
8
X 0.67
144
Como el nivel de confianza es del 99%, esto quiere decir que trabajamos con α= 0.01.
A ese α= 0.01 le corresponde, mirando las tablas, con α/2, una zi de ±2.58.
Por lo tanto el intervalo de confianza es:
76.7286
α= 0.01 μ=75±2.58*0.67 3.4572
1.7286 73.2714
Lo que significa que tenemos un 99% de confianza de que la media de la población no sea
menor que 73.2714 ni mayor que 76.7286, o que esté entre estos dos valores extremos.
76.31
α= 0.05 μ=75±1.96*0.67 2.62
1.31 73.69
Lo que significa que tenemos un 95% de confianza de que la media de la población no sea
menor que 73.69 ni mayor que 76.31, o que esté entre estos dos valores extremos.
Ejemplo: Se encuentra que la concentración promedio de zinc que se saca del agua a partir
de una muestra de mediciones de zinc en 36 sitios diferentes es de 2.6 gramos por mililitro.
Encuentre los intervalos de confianza de 95% y 99% para la concentración media de zinc en
el río. Suponga que la desviación estándar de la población es 0.3.
Solución:
Z (1.96)(0.3)
x 2.6 2.50 y 2.70
n 36
LIMITES UNILATERALES
En ocasiones es necesario estimar algún parámetro, en solo alguno de sus límites, por lo
que el valor ∞ se carga a una sola cola y dependerá del problema si calculamos el límite su-
perior de confianza o el límite inferior de confianza.
Ejemplo: Una corporación quiere emitir algunos pagares a corto plazo y espera que los in-
tereses que tendrá que pagar no sean mayores de 11.5%. Para obtener cierta información
acerca de la tasa media de intereses que habría de pagar, la corporación pone a la venta 40
pagares a través de cada una de 40 firmas de corretaje. La media y la desviación estándar
para estas 40 tasas de interés fueron de 10.3% y 0.31% respectivamente. Encuentre el inter-
DATOS LSC x z
n
n 40
10.3 1.645(0.31/ 40 )
x 10.3%
10.3 0.0801
0.31%
10.38%
1 de confianza
valo .95 del 95% para la tasa de interés que habría de pagar la corporación por los
pagares.
Conclusión: existe un 95% de confianza de que la media de interés que habría de pagar la
corporación sea menor o igual a 10.38%
Con s2 desconocido
X X X X
t n1
X S
n n
Por lo tanto:
S S
P X t n1; X t n1; 1
n n
CONOCIDA Z
σ
x
Z
s
DESCONOCIDA n≥25 n
n<25
x
t
s
n
Ejemplo. Considere de nuevo el ejemplo anterior, donde m representa la longitud media de
un eje proveniente de un proceso de producción normal, pero con una varianza desconocida,
y se toman muestras de 16 ejes, con los siguientes valores:
Cuál será el intervalo de confianza del 95% para el nivel medio del proceso?. Puede conside-
rarse que este proceso tiene un nivel medio de 5.0 cm?
DATOS
n 16
x 4.92
s 0.0913
t n 1, / 2 t15, 0.025 2.131
Si consideramos, además del 95%, niveles de confianza del 90% y del 99%, los respectivos
intervalos de confianza serían los siguientes:
Se registra el número de kilómetros que la llanta ha corrido y se considera que la vida útil es
una variable aleatoria distribuida normalmente. ¿Seguirá la compañía comprando este tipo de
llanta si el valor esperado de la duración de una llanta es de 39000km?
lic x t , v, s
n
DATOS
41116.87 1.753(1346.84 / 16 )
n 16
41116.87 1.753(336.71)
x 4116.87
41116.84 590.25
s 1346.84
40526.61km
1 0.95
Conclusión: existe un 95% de confianza de que el promedio de duración de una llanta sea
mayor o igual que 40526.61 kilómetros.
x t a , v, s x t a , v, s
DATOS 2 n 2 n
n 15 8.23 2.145(0.025 / 15) 8.23 2.145(0.025 / 15)
x 8.234 8.23 2.145(0.00645) 8.23 2.145(0.00645)
s 0.025 8.23 0.0138 8.23 0.0138
1 0.95 8.220 8.2438
Conclusión: existe un 95% de confianza de que el diámetro medio de las barras este entre
8.220 y 8.2438
Bilateral
12 22 12 22
( x1 x2 ) z 1 2 ( x1 x2 ) z
2 n1 n2 2 n1 n2
Unilateral
12 22
( x1 x 2 ) z 1 2
n1 n2
12 22
1 2 ( x1 x 2 ) z
n1 n2
0.02 0.02
0..96
6 2 82 6 2 82
(42 36) 2.055 2 1 (42 36) 2.055
50 75 50 75
(42 36) (2.577) 2 1 (42 36) (2.577)
3.423 2 1 8.57
DATOS : prueban bajo condiciones similares. La marca A tiene una resistencia a la trac-
n1 50 ción promedio de 78.3kg y una desviación estándar de 5.6kg, mientras que la
n2 50 marca B el promedio de la tracción es de 87.2kg con una desviación estándar
x1 78.3Kg de 6.3kg. Construya un intervalo de confianza de 95% para la diferencia de las
x2 87.2 Kg medias poblacionales.
1 5.6 Kg
DATOS :
2 6.3Kg n1 50
1 0.95
n 2 75
x1 36mi / gal
x 2 42mi / gal
1 6
2 8
1 0.96
0.05 0.05
0.95
62 82 62 82
(78.3 87.2) 1.96 2 1 (78.3 87.2) 1.96
50 75 50 75
(78.3 87.2) (1.96) 2 1 (78.3 87.2) (1.96)
11.236 2 1 6.564
1 ≠ 2
n< 25
1 = 2
Limite bilateral
( x1 x 2 ) t / 2,v Sp 1 / n1 1 / n2 1 2 ( x1 x 2 ) t / 2,v Sp 1 / n1 1 / n2
Donde:
s2=.448
1- = .90
Bilateral
s12 s 22 s2 s2
( x1 x2 ) t , v 1 2 ( x1 x2 ) t , v 1 2
2 n1 n2 2 n1 n2
Unilateral
s12 s 22
( x1 x 2 ) t , v 1 2
2 n1 n2
s12 s 22
1 2 ( x1 x 2 ) t , v
2 n1 n2
Donde:
2 2
s12 s 22
v n1 n2
2 2
s12 s 22
1
n 1 2 n 1
Ejemplo: Los siguientes datos representan los tiempos de duración de las películas que pro-
ducen 2 compañías cinematográficas:
DATOS :
n1 5
n2 7
x1 98.4 0.02 0.02
x 2 110.71 0..90
s1 8.73 t.05
s 2 32.18
1 0.90
2 2
8.73 32.18
v 5 7
2 2
8.73 32.18
4 6
v
15.2425 147.93602
58.0834 3647.5100
v 7.18 7
Conclusión: Existe un 90% de confianza para la diferencia entre los promedios reales de du-
ración que producen las 2 compañías esta entre –36.51 y 11.89.
ESTIMACIÓN DE LA PROPORCION
Sea X una variable binomial de parámetros n y p (una variable binomial es el número de éxitos
en n ensayos; en cada ensayo la probabilidad de éxito (p) es la misma, por ejemplo: número
de diabéticos en 2000 personas).Si n es grande y p no está próximo a 0 ó 1 (np ³ 5) X es
aproximadamente normal con media np y varianza npq (siendo q = 1 - p) y se puede usar el
pq
típico dado por n en consecuencia, un IC para p al 100(1 - a)% será
pq
pˆ z / 2
n
Bilateral
pq pq
pˆ z / 2 P pˆ z / 2
n n
Unilateral
pq pq
pˆ z P pˆ z
n n
Ejemplo: En una muestra aleatoria de 500 familias que tienen televisión en la ciudad de Ha-
milton Canadá, se encuentra s encuentra que 340 están suscritas a HBO. Encuentre el inter-
valo de confianza del 95% para la proporción real de familias en esa ciudad que están suscri-
tas.
Datos:
n = 500 .68 – (1.96) (.68)(.32) P 68 + (1.96) (.68)(.32)
x = 340 500 500
^p= 340 = 0.62
500 0.6392 P 0.7208
q = 0.32
1- = 0.95
Conclusión: existe un 95 % de confianza para decir que la proporción real
de familias en Hamilton Canadá que están suscritas a HBO está entre: 0 .6392 y 0.7208
a).-
Conclusión: existe un 95% de confianza para decir que la proporción real de lanzamiento
exitosos de cohetes esta entre 0.8438 y 0.8562.
b).- De acuerdo al resultado del inciso anterior, el valor de 0.8 esta por debajo del intervalo
encontrado por lo que podemos decir que si es mejor el nuevo sistema.
Recordando la fórmula:
Despejando P1-P2 de esta ecuación:
Aquí se tiene el mismo caso que en la estimación de una proporción, ya que al hacer el des-
peje nos queda las dos proporciones poblacionales y es precisamente lo que queremos esti-
mar, por lo que se utilizarán las proporciones de la muestra como estimadores puntuales:
Bilateral
L.I .C ( pˆ 1 pˆ 2 ) z / 2 ( P1 q1 / n1 ) ( P2 q 2 / n2 )
^ ^
L.S .C ( pˆ 1 pˆ 2 ) z / 2 ( P1 q1 / n1 ) ( P2 q 2 / n2 )
Unilateral
L.I .C ( pˆ 1 pˆ 2 ) z ( P1 q1 / n1 ) ( P2 q 2 / n2 )
^ ^
L.S .C ( pˆ 1 pˆ 2 ) z ( P1 q1 / n1 ) ( P2 q 2 / n2 )
DATOS
n1 = 1500
n2 = 2000
x1 = 75
x2 = 80
^
p1 = 75 / 1500 = 0.05
^
p2 = 80 / 2000 = 0.04
^
q1 = 1 – 0.05 = 0.95
^
q2 = 1 – 0.04 = 0.96
1- = 0.90
Ejemplo: Una encuesta de 1000 estudiante concluye que 274 eligen al equipo de béisbol A
como su equipo favorito. En 1991 se realizó la misma encuesta con 760 estudiantes. Concluyó
que 240 de ellos también eligieron al equipo A como su favorito. Calcule con un intervalo de
confianza del 95% para la diferencia entre la proporción de estudiantes que favorecen al equipo
A entre las dos encuestas. ¿Hay una diferencia significativa?
DATOS
n1 = 1000
n2 = 760
x1 = 274
x2 = 240
^
p1 = 274 / 1000 = 0.274
^
p2 = 240 / 760 = 0.316
^ 1 = 1 – 0.274 = 0.726
q
^
q2 = 1 – 0.316 = 0.684
1- = 0.95
L.I .C (0.274 0.316) (1.96) (0.274)(0.726) / 1000) (0.316)(0.684) / 760) 0.0851
L.S .C (0.274 0.316) (1.96) (0.274)(0.726) / 1000) (0.316)(0.684) / 760) 0.0289
0.0851 P1 P2 0.0289
ESTIMACIÓN DE LA VARIANZA
Para poder estimar la varianza de una población normal se utilizará la distribución ji-cua-
drada.
X21- /2 X2 /2
2
1- /2 < (n – 1) s2 / 2 < 2
/2
1/ 2
1- /2 > 2 / (n – 1) s2 > 1 / 2
/2
1/ 2
/2 < 2 / (n – 1) s2 < 1 / 2
1- /2
(n – 1) s2 / 2
/2 < 2 < (n – 1) s2 / 2
1- /2
Ejemplo: Los siguientes son los pesos en decagramos de 10 paquetes de semillas de pasto
distribuidas por cierta compañía. 46.4, 46.1, 45.8, 47.0, 46.1, 45.9, 45.8, 46.9, 45.2, 46.0.
Encuentre un intervalo de confianza del 95% para la varianza de todos los paquetes de semi-
llas de pasto que distribuye esta compañía. Suponga una población normal.
DATOS
n = 10
s = 0.5345
1- = 0.95
/ 2 = 0.025
X2.025,9 X2.975,9
Conclusión. Existe un 95% de confianza de que la varianza de todos los paquetes de semillas
de pasto que distribuye esta compañía se halle entre 0.1352 y 0.9523.
Ejemplo: Una muestra aleatoria de 20 estudiantes obtiene una media x =72 y s2=16 en un
examen de diagnóstico de matemáticas. Suponga que las calificaciones se distribuyen nor-
malmente y construya un intervalo de confianza del 98% para 2.
DATOS
n = 20
x = 72
s2 = 16
1- = 0.98
/ 2 = 0.01 X2.01,19 X2.99,19
(19)(16) / 2 0.01,19 2 (19)(16) / 2 0.99,19
304 / 36.191 2 304 / 7.633
8.4 2 39.827
Conclusión. Existe un 98% de confianza de que la varianza de las calificaciones obtenidas por
los alumnos esté entre 8.4 y 39.827.
Supóngase que se tienen dos poblaciones normales e independientes con varianzas desco-
muestras aleatorias de tamaños n1 y n2, respectivamente, sean s12 y s22 las dos varianzas
muestrales. Se desea conocer un intervalo de confianza del 100(1 ) por ciento para el co-
Ejemplo: Los siguientes datos representan los tiempos de duración de las películas que pro-
ducen dos compañías cinematográficas:
(32.18) 2
/(8.73) 2 ( F0.95, 4, 6 ) 12 / 22 (32.18) 2 /(8.73) 2 ( F0.05, 6, 4 )
13.587 (0.1623) 12 / 22 (13.587 (6.16)
2.205 12 / 22 83.695
Conclusión: Existe un 90% de confianza de que la razón de las varianzas de los tiempos de
duración de las películas se encuentre entre 2.205 y 83.695.
Ejemplo: Se extraen muestras aleatorias de tamaños n 1=15, n2=20 provenientes de dos po-
blaciones independientes cuyas varianzas muestrales son s12=16, s22=49. Encuentre un inter-
valo
DATOS
n1 = 15
n2 = 20
s12 = 16
s22 = 49
1- = 0.95
s12 / s 22 ( F1 / 2,v 2,v1 ) 12 / 22
(49 / 16)( F0.975,,14,,19 ) 12 / 22
(3.0625)1 / 2.84) 12 / 22
a) 1.078345 1 / 2
2 2
b) 1.078345 1 / 2 8.6975
2 2
Una cuestión que por lo general surge cuando se diseña un estudio estadístico es: “¿cuántos
elementos debo incluir en la muestra?”. Si una muestra es demasiado grande, se desperdicia
tiempo y dinero recolectando datos. Por el contrario, si la muestra es demasiado pequeña, las
conclusiones resultantes serán inciertas. Cuando se calcula una muestra para la estimación
de una media o de una proporción, el tamaño de la muestra depende de tres factores:
b) El margen de error que se puede tolerar. El error máximo permisible, que se designa
como E, es la cantidad que se suma y/o resta de la media de la muestra, para determinar
los puntos extremos del intervalo de confianza correspondiente. Es la cantidad de error
que tú como investigador deseas tolerar. También es la mitad de la amplitud del inter-
valo de confianza correspondiente. Un error permisible pequeño requerirá una muestra
grande, mientras uno grande requerirá una muestra pequeña.
La fórmula para calcular el tamaño de la muestra para estimar una media es la siguiente:
Donde:
n = es el tamaño de la muestra
n = ((1.96*$10,000)/$1,000)2
n = ((2.58*$10,000)/$1,000)2
El procedimiento que se describe arriba se puede adaptar para el cálculo del tamaño dela
muestra para el cálculo de una proporción. También es necesario identificar tres criterios:
Donde:
n = es el tamaño de la muestra
Si se recuerda a la distribución muestral de diferencia de medias se tiene que error esta dado
por:
12 22
sz
n1 n2
Para el primer caso no se tiene ningún problema, se eleva al cuadrado la ecuación y se despeja
n ya que n1 es igual a n2.
z 2 ( 12 22 )
n
s2
Para el segundo caso se pondrá una n en función de la otra. Este caso se utiliza cuando las
poblaciones son de diferente tamaño y se sabe que una es K veces mayor que la otra.
z 2 ( 12 k 22 )
n2
ks 2
z 2 ( 12 22 ) (1.962 )(2 2 2 2 )
n 31
s2 12
Introduccion
Se define como un proceso que permite dar un
valor aproximado de los hechos poblacionales
(parámetros), utilizando para ello la información
proporcionada por muestras seleccionadas de la
población de interés, generalmente por métodos
aleatorios.
Por ejemplo, una estimación de la media de una
determinada característica de una población de
tamaño N podría ser la media de esa misma
característica para una muestra de tamaño n.
Función
A la función de los valores muestrales que les
permite dar un valor aproximado del hecho
poblacional, se le denomina el estimador, y
corresponde con las medidas que se presentaron
inicialmente con el nombre de “estadísticas” o
“estadígrafos”.
Caracteristicas de un estimador
Insesgamiento: también conocida como imparcialidad,
se refiere a que la variable estimador para ser
insesgada o imparcial, debe tomar valores que tiendan
a agruparse alrededor del valor del parámetro que se
estima. En otras palabras, el valor esperado del
estimador debe ser igual al parámetro que se estima.
Simbólicamente:
Consistencia: Un estimador se
Robustez: Es la calidad de dice consistente si a medida que
resistencia en la eficiencia al aumenta el tamaño de la
cambiar el modelo de la muestra su diferencia con
distribución original respecto al parámetro se hace
mínima.
Sesgo: Un estimador U es
insesgado de θ si su esperanza
matemática coincide con el
parámetro.
Clasificación
Estimación puntual:
Método de los momentos;
Método de la máxima verosimilitud;
Método de los mínimos cuadrados;
Estimación Puntual
Estimacion por intervalos
solución.
1. Intervalo de confianza al 90 %. Usamos la formula:
INTERVALO DE CONFIANZA
PARA LA MEDIA CON
SIGMA DESCONOCIDA
Supongamos que la población es normal con media y
varianza desconocida y que se desea hacer
inferencias cercas de basada en una muestra
pequeña de (n<30) de la población. En este caso la
distribución de la media muestral ya no es normal si
no que sigue la distribución t de student.
Ejemplo
Supongamos que la camaleón motor tiene que
hacer pruebas de choque con sus choques para
determinar el coste medio de la reparación tras
una colisión frontal unos 20 kilómetros por hora.
Resulta muy caro así que deciden probar con solo 5
camaleones. ¿Dónde podemos situar la media con
una confianza del 95 %?
=540 dólares S=299
n= 5
Ejemplo
La asociación estadounidense de productores de
azúcar desea calcular el consumo medio de azúcar
por año. Una muestra de 16 personas revela que el
consumo medio anual es de 60 libras con una
desviación estándar de 20 libras. Construya un
intervalo de confianza del 99 % para la media
poblacional ¿Es razonable concluir que la media
poblacional es de 69 libras?
Ejemplo 1
El salario diario promedio para una muestra de n=30
empleados de una empresa manufacturera grande es x
(testada) = $28 888, con una desviación estándar de S= $
1400 En otra empresa grande, una muestra aleatoria de
n=40 empleados tiene un salario promedio de $27 000,
con desviación estándar muestral de S =$ 1000. El
intervalo de confianza del 99% para estimar la diferencia
entre los niveles diarios de salarios en las dos empresas
es…
Ej.-”Enunciado”
Ejercicio de tarea.
datos:
Las siguientes son las capacidades de
producción de calor del carbón extraido de
dos minas ( en millones de calorías por
tonelada):
Mina A: 8500, 8330, 8480, 7960, 8030.
Mina B: 7710, 7890, 7920, 8270, 7860
Problema.
• Suponiendo que los datos constituyen
muestras aleatorias independientes tomadas
de poblaciones normales con varianzas
iguales, construya un intervalo de confianza
del 99% de la diferencia entre el promedio
real de las capacidades de producción de calor
del carbón extraído de ambas minas.
DIFERENCIA DE
MEDIAS CON SIGMA
DESCONOCIDA PERO
DIFERENTE
Ejemplo a resolver
O El departamento de zoología de cierta universidad llevó
a cabo un estudio para estimar la diferencia en la
cantidad de orto fósforo químico medido en dos
estaciones diferentes del río amazonas . El orto fósforo
se mide en miligramos por litro. Se reunieron 15
muestras de la estación 1 y se obtuvo una media de
3.84 con una desviación estándar de 3.07 miligramos
por litro, mientras que 12 muestras de la estación 2
tuvieron un contenido promedio de 1.49 con una
desviación estándar 0.80 miligramos por litro.
Encuentre un intervalo de confianza de 95% para la
diferencia del contenido promedio real de orto fósforo
en estas dos estaciones, suponga que las
observaciones vienen de poblaciones normales con
varianzas diferentes.
Problema a resolver..!!
En proceso de baño químico utilizando para grabar tarjetas de
circulo impreso, se están comparando 2 diferentes tiempos de
inmersión para remover cantidades idénticas de material foto
resistente. Se efectuaron 12 baños con un catalizador 1.
Resultando un tiempo de inmersión medio de muestra de
X1=min. Y una desviación estándar de S1 =.85 min. con el
catalizador 2 se efectuaron 15 baños, siendo el tiempo de
inmersión medio de X2=22.1 min y una desviación estándar de
S2=.98 min. Deseamos determinar un intervalo de confianza del
95% en la diferencia en las medias ϻ1-ϻ2, suponiendo que las
desviaciones standard (o varianzas) de las 2 poblaciones sean
diferentes.
Intervalo de confianza
para proporciones
Proporciones
O Sea p la proporción de éxitos en una
población, donde éxitos identifica a un
individuo u objeto que tiene una
propiedad especifica, por ejemplo
individuos que se gradúan de una
universidad, computadoras que no
requieren servicio de garantía.
Datos
O n=48
O x=16
O p=16/48=0.333
O Nivel de confianza de 95%
( )( ) 2
O
2
O
O ( )
Ejercicio de Tarea
O De 1 500 personas encuestadas
en un sondeo preelectoral, 800
manifiestan su intención de
votar. ¿Entre qué valores puede
estimarse, con un 95% de
confianza, que se encontrará el
nivel de abstención en el
conjunto del censo?
Diccionario:
O Ignición: El conjunto de condiciones fisicas
(presión, temperatura) necesarias para que
la sustancia empiece a arder y se mantenga
la llama sin necesidad de añadir calor
exterior.
Bibliografía:
Problema:
Se considera cierto cambio en un proceso de
fabricación de partes componentes. Se toman
muestras del procedimiento existente y del nuevo
para determinar si este tiene como resultado una
mejora. Si se encuentra que 75 de 1500 artículos
del procedimiento actual son defectuosos y 80 de
2000 artículos del procedimiento nuevo también lo
son, encuentre un intervalo de confianza de 90%
para la diferencia real en la fracción de
defectuosos entre el proceso actual y el nuevo.
Ejercicio de tarea:
Un artículo relacionado con la salud, reporta los
siguientes datos sobre la incidencia de disfunciones
importantes entre recién nacidos con madres
fumadoras de marihuana y de madres que no la
fumaban:
2 2 1-
donde 2 es el valor de Chi cuadrada para los grados de libertad y nivel de confianza (1 -α)
especificado.
2
Entonces podemos despejar la varianza :
2
2 2
EJERCICIO DE TAREA
En 15 recorridos de prueba, el consumo de luz eléctrica de un
aire acondicionado experimental tuvo una desviación estándar de
24volts. Construir un intervalo de confianza del 90% para la
varianza y para la desviación estándar esperadas de este motor.
UNIDAD III Pruebas de hipótesis
Introducción
Confiabilidad y significancia
Errores tipo I y tipo II
Potencia de la prueba
Formulación de Hipótesis estadísticas
Prueba de hipótesis para la diferencia de medias
Prueba de hipótesis para la proporción
Prueba de hipótesis para la diferencia de proporciones
Prueba de hipótesis para la varianza
Prueba de hipótesis para la relación de varianzas.
Uso de software estadístico
Introducción
1. ¿Qué es la Hipótesis?
La hipótesis es de suma importancia para el método científico, ya que esta nos va a ayudar a
proponer posibles soluciones para un problema determinado.
Hay muchas más definiciones de hipótesis, de las cuales mencionaré algunas a continuación:
a) Hipótesis, del griego hypo, debajo, inferior; thesis, posición o situación, es sinónimo de pos-
tulado.
Suposición de una cosa para sacar una consecuencia.
b) Las hipótesis nos indican lo que estamos buscando o tratando de probar y pueden definirse
como explicaciones tentativas del fenómeno investigado formuladas a manera de proposicio-
nes.
c) La hipótesis constituye una herramienta que nos ayuda a ordenar, estructurar y sistematizar
el conocimiento a través de una proposición,… la hipótesis implica una serie de conceptos,
juicios y raciocinios tomados de la realidad estudiada, que nos lleva a la esencia del conoci-
miento.
Estas definiciones tienen varios aspectos en común, para empezar todas concuerdan en que
son una proposición, con conceptos, juicios y raciocinios tomados de la realidad, es una expli-
cación preliminar, nos va a ayudar a ordenar, sistematizar y estructurar el conocimiento que
ya tenemos para poder saber que es lo que estamos buscando o tratando de probar, estas
pueden ser verdaderas o no, y es por eso que se van a someter a pruebas.
Una vez que ya hemos comprendido qué es una hipótesis, resulta necesario saber las carac-
terísticas de las mismas, las cuales serán tratadas en el siguiente tema.
2. Características de la hipótesis.
Los autores manejan varias características diferentes, las cuales mencionaremos a continua-
ción.
relación entre variables propuesta por una hipótesis debe ser clara y verosímil (lógica).
términos de la hipótesis y la relación planteada entre ellos, deben poder ser observados
y medidos, o sea tener referentes en la realidad.
expresión de hipótesis debe ser clara, esto se puede lograr por medio de definiciones
conceptuales y operacionales.
expresiones de hipótesis deben de ser libres de los valores propios del investigador.
Deben ser libres de cualquier sesgo.
… debe ser lógica y acorde con fenómenos conocidos, y puede aceptarse o rechazarse
por medio de estudios científicos de índole pertinente, sean clínicos, estadísticos, experimen-
tales de laboratorio o gabinete, etc. Otra característica es que debe coincidir con hechos
conocidos y no estar en conflicto con leyes o principios ya establecidos pues, de otro
modo tan sólo se estaría haciendo volar la imaginación en una esfera irreal o fuera del enten-
dimiento. Lo anterior no indica que deba seguirse un dogma; por el contrario, debe estar ba-
sada en fenómenos ya aceptados, o se estaría retrocediendo y la hipótesis tendría que ex-
presarse en un nivel retroactivo y obsoleto.
Conjuntando las anteriores y retroalimentando algunos aspectos, podemos decir que las ca-
racterísticas de las hipótesis son las siguientes:
Deben referirse a una situación social real; esto es que debe ser racional, y sobre todo
que exista, sino estaríamos hablando de un mundo imaginario y de ensueño.
Debe ser lógica y acorde con fenómenos conocidos y no estar en conflicto con leyes o
principios ya establecidos: Se refiere al principio de economicidad de la ciencia, el cual
nos dice que hay que retomar lo que ya esta aceptado para no tener que empezar desde
cero, y a su vez aportar algo.
La relación entre variables propuesta por una hipótesis debe ser clara y verosímil (ló-
gica); Esto es que la hipótesis debe ser clara y creíble (Posteriormente veremos qué es
una variable).
Los términos (variables) de la hipótesis tienen que ser comprensibles: Esto es que tenga
una adecuación entre la gente a la que será dirigida con el lenguaje utilizado en la pro-
posición.
Las hipótesis deben ser medibles: Este punto es uno de los más importantes, pues
como ya se había dejado claro, las hipótesis deben ser comprobadas para poder llegar
a un conocimiento, y la única forma de poder probarlas, es que tengan la capacidad de
ser medibles.
Las expresiones de hipótesis deben de ser libres de los valores propios del investigador:
Esto habla más que nada de que no debe haber subjetividad ni manipulación de hipó-
tesis por parte de quien la formula, sino por el contrario, que deben ser objetivas.
Las anteriores son las características que considero son las más relevantes de las hipótesis.
Como pudimos observar en la explicación de las características de las hipótesis, se maneja
mucho la palabra variable, pero ¿que es eso? Y ¿cuantos tipos hay?.
Para poder explicar que es una variable, se procederá de la misma forma en la que se hizo
anteriormente, proporcionando varias definiciones:
Una variable es una propiedad que puede variar (adquirir diversos valores) y cuya variación es
susceptible de medirse… la variable se aplica a un grupo de personas u objetos, los cuales
pueden adquirir diversos valores respecto a la variable
“Las variables son características, atributos, rasgos, cualidades o propiedades que se dan en
individuos, grupos u objetos”
Las variables como su nombre lo indica, tienen la propiedad de adquirir diversos valores,
mismos que pueden medirse, y aplicarse a personas u objetos, los cuales por sus caracterís-
ticas, atributos, rasgos, cualidades, etc., pueden adquirir diversos valores respecto a otras.
Para poder comprender de mejor forma todo lo planteado anteriormente vamos a explicar los
tipos de hipótesis.
Debido a las diversas clasificaciones de hipótesis, en este caso nos basaremos a la proporcio-
nada por Roberto Hernández Sampieri, ya que es la que satisface de mejor forma nuestras
necesidades.
1.1 Hipótesis descriptivas: Se utilizan a veces en estudios descriptivos, son afirmaciones más
generales, y pueden involucrar una variable, dos o más variables.
1.4 Hipótesis que establecen relaciones de causalidad: No solo afirman las relaciones entre
dos o más variables y como se dan esas relaciones, sino que además proponen un sentido de
entendimiento de ellas, todas estas establecen relaciones de causa-efecto. Estas a su vez se
clasifican en: 1.4.1) Causales divariadas: En estas se plantea una relación entre una variable
dependiente y una independiente. 1.4.2) Causales multivariadas: Plantean una relación entre
varias variables independientes y una dependiente, o una independiente y varias dependien-
tes, o varias variables independientes y varias dependientes.
2. Hipótesis nulas: Estas son lo contrario de las hipótesis de investigación, también constituyen
proposiciones acerca de la relación entre variables, solamente sirven para refutar o negar lo
que afirma la hipótesis de investigación, se clasifican en: 2.1) hipótesis nulas descriptivas de
una variable, 2.2) hipótesis que niegan o contradicen la relación entre dos o más variables,
2.3)hipótesis que niegan que haya diferencia entre grupos que se comparan, 2.4)hipótesis que
niegan la relación de causalidad entre dos o más variables.
Una vez que ya comprendimos de forma adecuada los tipos de hipótesis y cuantas variables
involucran, ahora hablaremos de las características de los cuatro niveles de investigación.
3. Características de los cuatro niveles de investigación.
Para empezar es importante definir cuáles son estos cuatro niveles; son el Exploratorio, Des-
criptivo, Correlacional, y Explicativo.
1) Exploratorio: Su objetivo principal es captar una perspectiva general del problema, se efec-
túa normalmente cuando el objetivo es examinar un tema o problema de investigación poco
estudiado o que no ha sido abordado con anterioridad. Identifican relaciones potenciales entre
variables y establecen el tono de investigaciones posteriores más rigurosas. Se caracterizan
por ser más flexibles en su metodología en comparación con los estudios descriptivos o expli-
cativos, además son más amplios y dispersos que estos otros dos tipos.
3) Estudios Correlaciónales: Estos tienen como propósito medir el grado de relación que exista
entre dos o más conceptos o variables. La utilidad y el propósito principal de los estudios co-
rrelaciónales son saber cómo se puede comportar un concepto o variable conociendo el com-
portamiento de otra u otras variables relacionadas. En el caso de que dos variables estén
correlacionadas, esto significa que una varía cuando la otra también lo hace, puede ser positiva
o negativa, si es positiva quiere decir que sujetos con altos valores en una variable tenderán a
mostrar altos valores en la otra variable. Si dos variables están correlacionadas y se conoce la
correlación, se tiene bases para predecir con mayor o menor exactitud el valor aproximado que
tendrá un grupo de personas en una variable, sabiendo que valor tienen en la otra variable.
Estos se distinguen de los descriptivos ya que en vez de medir con presicion las variables
individuales, evalúan el grado de relación entre dos variables. Al saber que dos conceptos o
variables están relacionados se aporta cierta información explicativa.
4) Estudios explicativos: Los estudios explicativos van más allá de la descripción de conceptos
o fenómenos, o del establecimiento de relaciones entre conceptos, están dirigidos a responder
las causas de los eventos físicos o sociales, su interés se centra en explicar por que ocurre un
fenómeno y en qué condiciones se da este, o porque dos o más variables están relacionadas.
Estos son más estructurados que las demás clases de estudios y de hecho implican los pro-
pósitos de ellos, además de que proporcionan un sentido de entendimiento del fenómeno a
que hacen referencia, hay además un cierto valor explicativo.
4. Cuadro comparativo
En este momento que ya sabemos lo básico de los tipos de investigación, las hipótesis, y las
variables, entonces podemos concluir con el siguiente cuadro comparativo:
Tipo de inves-
Hipótesis Ejemplos
tigación
Estadísticamente una prueba de hipótesis es cualquier afirmación acerca de una población y/o
sus parámetros.
Una prueba de hipótesis consiste en contrastar dos hipótesis estadísticas. Tal contraste invo-
lucra la toma de decisión acerca de las hipótesis. La decisión consiste en rechazar o no una
hipótesis en favor de la otra. Una hipótesis estadística se denota por “H” y son dos:
Las hipótesis nula y alternativa son aseveraciones sobre la población que compiten entre sí. O
la hipótesis nula H0 es verdadera, o lo es la hipótesis alternativa Ha, pero no ambas. En el
caso ideal, el procedimiento de prueba de hipótesis debe conducir a la aceptación de H0
cuando sea verdadera y al rechazo de H0 cuando Ha sea verdadera. Desafortunadamente no
siempre son posibles las conclusiones correctas. Como las pruebas de hipótesis se basan en
información de muestra, debemos considerar la posibilidad de errores.
Condición de la población
H0 verdadera Ha verdadera
Conclusión
POTENCIA DE UN CONTRASTE.
La Potencia de una prueba β representa la probabilidad de que la hipótesis nula no sea recha-
zada cuando de hecho es falsa y debería rechazársele. La potencia de prueba 1-β representa
la sensibilidad de la prueba estadística para detectar cambios que se presentan al medir la
probabilidad de rechazar la hipótesis nula cuando de hecho es falsa y debería ser rechazada.
La potencia de prueba estadística depende de qué tan diferente en realidad es la media ver-
dadera de la población del valor supuesto. Una prueba de un extremo es más poderosa que
una de dos extremos, y se debería utilizar siempre que sea adecuado especificar la dirección
de la hipótesis alternativa. Puesto que la probabilidad de cometer un error tipo I y la probabili-
dad de cometer un error tipo II tienen una relación inversa y esta última es el complemento de
la potencia de prueba (1-β), entonces α y la potencia de la prueba varían en proporción directa.
Un aumento en el valor del nivel de significación escogido, tendría como resultado un aumento
en la potencia y una disminución en α tendría como resultado una disminución en la potencia.
Un aumento en el tamaño de la muestra escogida tendría como resultado un aumento en la
potencia de la prueba, una disminución en el tamaño de la muestra seleccionada tendría como
resultado una disminución en la potencia.
Partes de una hipótesis:
1. Datos
RR RNR RR
RR RNR
RNR RR
RNR RR
6. Cálculos (z, t, 2, F)
8. Conclusión:
- Cuando la prueba cae en la RNR: “No existe suficiente evidencia estadística para decir
(lo que la hipótesis alternativa está aseverando), con un o nivel de significancia de .....”
- Cuando la prueba cae en la RR: “Existe suficiente evidencia estadística para decir (lo
que la hipótesis alternativa está aseverando), con un o nivel de significancia de .....”
Cuando se van a realizar pruebas de hipótesis relativas a la media poblacional µ se debe saber
si la varianza poblacional σ² es conocida o desconocida, ya que la distribución subyacente al
estadístico de prueba será la normal estándar si la varianza es conocida, y la distribución t en
caso contrario.
1) Ho: µ ≤µ0
H1: µ > µ0 unilaterales
2) Ho: µ≥ µ0
H1: µ < µ0
3) Ho: µ = µ0 bilateral
H1: µ ≠µ0
Las pruebas de hipótesis para la media se basan en el estadístico dado por la media muestral
Tipos de prueba
Ejemplo
H0: µ = 200
H1: µ ≠ 200
variable aleatoria Z definida como , se distribuye normalmente con media cero y va-
rianza unitaria.
Ejemplo:
Una empresa eléctrica fabrica focos que tienen una duración que se distribuye de forma apro-
ximadamente normal con una media de 800 horas y una desviación estándar de 40 horas. Si
una muestra aleatoria de 30 focos tiene una duración promedio de 788 horas, ¿muestran los
datos suficiente evidencia para decir que la duración media ha cambiado? Utilice un nivel de
significancia del 0.04.
Datos:
=800 horas
σ= 40 horas
x = 788 horas
n = 30
∞= 0.04
Hipótesis
Ho; µ= 800 horas
Ha; µ≠800 horas
Estadístico de prueba:
Regla de Decisión:
Cálculos:
Decisión:
Conclusión:
No existe suficiente evidencia estadística para decir que la duración media de focos sea dife-
rente de 800 horas, con un nivel de significancia de 0.04.
Ejemplo:
Una muestra aleatoria de 100 muertes registradas en Estados Unidos el año pasado muestra
una vida promedio de 71.8 años. Suponga una desviación estándar poblacional de 8.9 años,
¿esto parece indicar que la vida media hoyen día es mayor que 70 años? Utilice un nivel de
significancia de 0.05.
Datos:
=70 años
σ= 8.9 años
x = 71.8 años
n = 100
∞= 0.05
Hipótesis
Ho; µ≤70 años.
Ha; µ> 70 años.
Estadístico de prueba:
Región de rechazo:
Regla de decisión:
Cálculos:
Decisión.
Como 2.02 >1.645 se rechaza Ho
Conclusión:
Existe suficiente evidencia estadística para decir que la vida media hoy en día es mayor que
70 años. Con un nivel de significancia de 0.05.
Ejemplo:
La producción diaria en una planta industrial química registrada durante 50 días tiene una me-
dia y desviación de 871 toneladas y 21 toneladas respectivamente. Pruebe la hipótesis de que
el promedio de la producción diaria del producto químico es de 880 toneladas por día, contra
la alternativa de que es diferente a esa cantidad.
1. DATOS
n = 50
µ= 871 ton.
s = 21 ton.
∞= 0.05
2. HIPÓTESIS
H0: µ = 880 ton.
Ha: µ≠ 880 ton.
3. ESTADÍSTICO DE PRUEBA
4. REGIÓN DE RECHAZO
/2
/2
- Zt Zt
RR RNR RR
5. CRITERIO DE DECISIÓN
Si Ɩ Zc Ɩ>Ɩ Zt Ɩ se rechaza Ho de otra manera no se rechaza
6. CÁLCULOS
7. DECISIÓN
/2
/2
- -3.03
- 1.96 1.96
RR RNR RR
se rechaza Ho
8. CONCLUSIÓN
Existe suficiente evidencia estadística para decir que el promedio de producción diaria del pro-
ducto químico es diferente de 880 toneladas con un de 0.05.
Ciertamente sospechamos que las pruebas sobre una media poblacional con descono-
cida, debe incluir el uso de la distribución t de Student. La estructura de la prueba es idéntica
Ejemplos:
El Instituto Eléctrico Edison publica cifras del número anual de Kilowatt-hora que gastan varios
aparatos electrodomésticos. Se afirma que una aspiradora gasta un promedio de 46 kilowatt-
hora al año. Si una muestra aleatoria de 12 hogares que se incluye en un estudio planeado
indica que las aspiradoras gastan un promedio de 42 kilowatt-hora al año con una desviación
estándar de11.9 kilowatt-hora, ¿esto sugiere con un nivel de significancia de 0.05 que las as-
piradoras gastan, en promedio, menos de 46 kilowatt-hora anualmente? Suponga que la po-
blación de kilowatt-hora es normal.
Solución:
Datos:
= 46 kilowatt-hora
s= 11.9 kilowatt-hora
= 42 kilowatt-hora
n = 12
= 0.05
Hipótesis
Estadístico de prueba:
Región de rechazo
Regla de decisión:
Cálculos:
Decisión:
Conclusión:
No existe suficiente evidencia estadística para decir que las aspiradoras gastan en prome-
dio menos de 46 kw.-hr con un α= 0.05.
Ejemplo:
10.1 7.9
¿Sugieren los datos que la carga promedio de falla es mayor que 10Mpa? Supóngase
que la carga donde se presenta la falla tiene una distribución normal, y utilícese =
0.05.
Solución:
Datos:
= 10
s = 3.55
= 13.71
n = 22
= 0.05
Hipótesis
Ho; ≤10Mpa
Estadístico de prueba
Región de rechazo
Regla de decisión:
Cálculos:
Decisión.
Conclusión:
Existe suficiente evidencia estadística para decir que la carga promedio de falla es mayor
que 10Mpa con un α =0.05.
Cuando se van a realizar pruebas de hipótesis relativas a la diferencia entre dos medias po-
1) Ho: µ1 - µ2 ≥ do
H : µ1 - µ2 < d0
2) Ho: µ1 - µ2 ≤ do
Ha: µ1 - µ2 > do
3) Ho: µ1- µ2 = do
Ha: µ1 - µ2 ≠ do
Las pruebas de hipótesis para la diferencia de medias se basan en el estadístico dado por la
diferencia entre las medias muestrales cuya distribución tiende a la distribución normal
si las dos poblaciones son normales, o aproximadamente normal si cumple con las condiciones
del teorema del limite central, es decir,
Por lo tanto,
Datos:
1= 2= 8
n1=n2= 10
= 0.05
Hipótesis
Ho; 1- 2 ≤0
Ha; 1- 2 >0
Se desea rechazar Ho que es la idea del fabricante es que el tiempo de secado del nuevo
producto es menor que el del anterior, por eso la H a se pone la diferencia mayor a cero o sea
positiva para poder probar que 2 es menor que 1.
Estadístico de prueba:
Región de rechazo
Regla de decisión:
Cálculos:
Decisión:
Conclusión
Existe suficiente evidencia estadística para decir que el promedio se secado de la pintura an-
terior es mayor que el de la nueva pintura con un α=0.05.
Ejemplo:
Se utilizan dos máquinas para llenar botellas de plástico con un volumen neto de 16.0 onzas.
Las distribuciones de los volúmenes de llenado pueden suponerse normales, con desviaciones
MAQUINA 1 MAQUINA 2
16.03 16.01 16.02 16.03
Datos:
1= 0.020
2= 0.025
n1=n2 = 10
= 0.05
Hipótesis
Ho; 1- 2 =0
H1; 1- 2 0
Estadístico de prueba
Región de rechazo
Regla de Decisión:
Cálculos:
Decisión:
Conclusión
No existe suficiente evidencia estadística para decir que el promedio de llenado de la ma-
quina 1 sea diferente al de la maquina 2 con un α=0.05.
Prueba de hipótesis para la diferencia de medias con varianzas desconocidas pero igua-
les
Como ya se mencionó, cuando las varianzas son desconocidas, se debe verificar previamente
si éstas son iguales o diferentes, lo cual puede realizarse mediante una prueba de hipótesis
con respecto a la igualdad de dos varianzas, la cual se analizará posteriormente.
Cuando las varianzas son iguales el estadístico de prueba bajo la hipótesis nula está dado
por:
Para encontrar si un nuevo suero detiene la leucemia, se seleccionan nueve ratones, todos
con una etapa avanzada de la enfermedad. Cinco ratones reciben el tratamiento y cuatro no.
Los tiempos de sobrevivencia en años, a partir del momento en que comienza el experimento
son los siguientes:
¿Se puede decir en el nivel de significancia del 0.05 que el suero es efectivo? Suponga que
las dos poblaciones se distribuyen normalmente con varianzas iguales.
Datos:
Con tratamiento
s= 1.97
n=5
Sin tratamiento
s = 1.1672
n=4
Hipótesis
Estadístico de prueba
tn, donde n = n1 +n2 -2
Región de rechazo
Regla de decisión:
Cálculos:
Decisión
No se rechaza H0
Conclusión
No existe suficiente evidencia estadística para decir que el promedio de sobrevivencia de los
ratones con tratamiento se mayor que el promedio de sobrevivencia de los ratones sin trata-
miento con un α= 0.05.
Ejemplo
Se realizó un experimento para comparar el tiempo promedio requerido por el cuerpo humano
para absorber dos medicamentos, A y B. Suponga que el tiempo necesario para que cada
medicamento alcance un nivel específico en el torrente sanguíneo se distribuye normalmente.
Se eligieron al azar a doce personas para ensayar cada fármaco registrándose el tiempo en
minutos que tardó en alcanzar un nivel específico en la sangre. Calcule con = 0.05 si existe
diferencia entre los tiempos promedio y obtenga el valor de P. Suponga varianzas iguales.
Medicamento A Medicamento B
nA = 12 nB = 12
Hipótesis
Ho; B- A=0
H1; B- A 0
Estadístico de prueba
Región de rechazo
Criterio de decisión:
Cálculos:
Decisión
Se rechaza H0
Conclusión
Existe suficiente evidencia estadístico para decir que el promedio de absorción del cuerpo hu-
mano para el fármaco B es diferente al promedio de absorción del fármaco A con un α=0.05.
Cuando las varianzas son desconocidas y diferentes el estadístico de prueba bajo la hipóte-
sis nula está dado por:
Ejemplo
Diseño 1
n1 = 16
s12 = 10
Diseño 2
n2 = 10
s22 = 40
Con = 0.05, se desea determinar si existe alguna diferencia significativa en el flujo de co-
rriente promedio entre los dos diseños, donde se supone que las dos poblaciones son nor-
males, pero no es posible suponer que las varianzas desconocidas sean iguales.
Datos
En la tabla
Hipótesis
Ho; 1- 2=0
H1; 1- 2 0
Estadístico de prueba
Región de rechazo
Regla de decisión
Cálculos:
Decisión
No se rechaza H0
Conclusión
No existe suficiente evidencia estadística para decir que lor promedios de flujo de corriente
de los dos diseños de microcircuitos son diferentes con un α=0.05.
Ejemplo
Dos proveedores fabrican un engrane de plástico utilizado en una impresora láser. Una carac-
terística importante de estos engranes es la resistencia al impacto la cual se mide en pies-
libras. Una muestra aleatoria de 10 engranes suministrados por el primer proveedor arroja los
siguientes resultados: y s1 = 12. Del segundo proveedor se toma una muestra aleatoria
de 16 engranes, donde los resultados son y s2 = 45. ¿Existe evidencia que apoye la
afirmación de que los engranes del proveedor 2 tienen una mayor resistencia promedio al im-
pacto. Use un nivel de significancia de 0.05
Datos:
Proveedor 1 Proveedor 2
n1 = 10 n2 = 16
S1= 12 S2 = 45
Hipótesis
Ho; 2- 1=0
H1; 2- 1 >0
Estadístico de prueba
Región de rechazo
Regla de decisión
Si la |tc| ≥ |tt| se rechaza Ho de otra manera no se rechaza.
Cálculos:
Decisión
Se rechaza H0
Conclusión
Existe suficiente evidencia estadística para decir que la resistencia promedio al impacto de
los engranes es mayor en el proveedor 2 que el proveedor 1 con un α=0.05.
El concepto de prueba de hipótesis se puede utilizar para probar hipótesis en relación con
datos cualitativos. Por ejemplo, en un problema, el gerente de una fábrica de llantas quería
determinar la proporción de llantas que se reventaban antes de 10,000 millas. Este es un ejem-
plo de una variable cualitativa, dado que se desea llegar a conclusiones en cuanto a la propor-
ción de los valores que tienen una característica particular.
El gerente de la fábrica de llantas quiere que la calidad de llantas producidas, sea lo bastante
alta para que muy pocas se revienten antes de las 10,000 millas. Si más de un 8% de las
llantas se revientan antes de las 10,000 millas, se llegaría a concluir que el proceso no funciona
correctamente. Aquí la proporción de llantas defectuosas es de P=0.08
Ejemplo
Un constructor afirma que se instalan bombas de calor en 70% de todas las casas que se
construyen hoy en día en la ciudad de Richmond. ¿Estaría de acuerdo con esta afirmación si
una investigación de casas nuevas en esta ciudad muestra que 8 de 15 tienen instaladas bom-
bas de calor? Utilice un nivel de significancia de 0.10
Datos:
P= 0.70
p = 8/15 = 0.5333
n = 15
= 0.10
Hipótesis
Ho; P = 0.70
H1; P 0.70
Estadístico de prueba
Región de rechazo
Criterio de decisión
Cálculos
Decisión
No se rechaza H0
Conclusión
No existe suficiente evidencia estadística para decir que la proporción de casas en las que se
instalan bombas de calor sea diferente de 0.70 con un α=0.10.
Ejemplo
Datos:
P= 0.05
p = 4/200 = 0.02
n = 200
= 0.05
Hipótesis
Ho; P ≥ 0.05
Cálculos
Decisión
Se rechaza H0
Conclusión
Existe suficiente evidencia estadística para decir que la proporción de controladores defectuo-
sos es menor que 0.05 con un α=0.05.
Suponga que se tienen dos poblaciones provenientes de ensayos de Bernoulli, con proporcio-
nes respectivas de P1 y P2 desconocidas, y deseamos verificar si dichas proporciones son
iguales o no, y queremos verificarlo mediante una prueba de hipótesis. En este caso las hipó-
tesis planteadas podrían ser las siguientes:
1) Ho:P1 - P2 ≥ 0
H1: P1 - P2 < 0
2) Ho:P1 - P2 ≤ 0
H1: P1 - P2 > 0
3) Ho:P1 - P2 = 0
H1: 1 - P2 ≠ 0
Para probar las anteriores hipótesis, se toman dos muestras de tamaños respectivos n 1 y n2.
Sea X1 el número de eventos observado en una primera muestra de tamaño n 1, y sea X2 el
número de eventos observados en la otra muestra de tamaño n2. Tanto X1 como X2 son varia-
bles aleatorias binomiales independientes con parámetros (n1 2
1 = X1/n1 y
P2 = X2/n2 son estimadores independientes de q1 y q2, respectivamente, y tienden a distribuirse
normalmente. Si los tamaños de muestra son suficientemente grandes, la siguiente estadística
tiene una distribución que es aproximadamente normal estándar.
Ejemplo
Se tomará el voto entre los residentes de una ciudad y el condado circundante para determinar
si se debe construir una planta química propuesta. El lugar de construcción está dentro de los
límites de la ciudad y por esta razón muchos votantes del condado consideran que la propuesta
pasará debido a la gran proporción de votantes que favorecen la construcción. Para determinar
si hay una diferencia significativa en la proporción de votantes de la ciudad y votantes del
condado que favorecen la propuesta, se realiza una encuesta. Si 120 de 200 votantes de la
ciudad favorecen la propuesta y 240 de 500 residentes del condado también lo hacen, ¿estaría
de acuerdo en que la proporción de votantes de la ciudad que favorecen la propuesta es más
alto que la proporción de votantes del condado? Utilice un nivel de significancia de 0.025.
Datos:
p2 = 240/500= 0.48
n1 = 200
n2 = 500
Hipótesis:
Ho; P1-P2 ≤0
Región de rechazo
Criterio de decisión
Cálculos:
Decisión
Se rechaza H0
Conclusión
Existe suficiente evidencia estadística para decir que la proporción de votantes de la ciudad
que favorecen la propuesta es mayor que la proporción de votantes del condado que también
están a favor de que se construya la planta química con un de 0.025.
Ejemplo:
Datos
n1 = 300 n2 = 400
x1 = 240 x2 = 288
^ ^
p1 = 240 / 300 = 0.80 p2 = 288 / 400 = 0.72
^
^ 1 = 0.20
q q2 = 0.28
∞= 0.05
Hipótesis
H0: P1 ≤ P2
Ha: P1 > P2
Estadístico de prueba
Región de rechazo
RNR Zt RR
Regla de decisión
CÁLCULOS
2.483
1.645
RNR RR
se rechaza H0
Conclusión
Existe suficiente evidencia estadística para decir que la proporción de mujeres con menos de
2 años de casadas que planean tener un hijo es mayor que la proporción de mujeres con 5
años de casadas que planean lo mismo con un ∞ de 0.05.
, , .
Debe tenerse en cuenta que como la distribución chi cuadrado no es simétrica, entonces las
regiones de críticas deben calcularse por separado para cada tipo de prueba.
Ejemplo
Un fabricante de baterías para autos afirma que la duración de sus baterías se distribuye de
forma aproximadamente normal con una desviación estándar de 0.9 años. Si una muestra
aleatoria de 10 de tales baterías tiene una desviación estándar de 1.2 años, ¿considera que σ
es mayor que 0.9 años? Utilice un nivel de significancia de 0.05.
Datos
n = 10
s = 1.2
∞ = 0.05
Hipótesis
Estadístico de prueba
σ2 = (n – 1) s2
σ2
Región de rechazo
2
RNR RR
Criterio de decisión
Decisión
16.919
16
RNR RR
No se rechaza H0
Conclusión
No existe suficiente evidencia estadística para decir que la desviación estándar de la duración
de las baterías para autos de cierto fabricante es mayor que 0.9 años con un de 0.05.
Ejemplo
Se sabe que el volumen de un lubricante particular se distribuye normalmente con una varianza
de 0.03. Pruebe la hipótesis de que σ2 es igual a 0.03 contra la alterna de que es diferente,
para una muestra aleatoria de 10 envases con una desviación estándar de 0.2458. Utilice un
nivel de significancia de 0.01.
Datos
n = 10
s = 0.2458
s2 = 0.0604
∞ = 0.01
Hipótesis
H0: σ2 = 0.03
Ha: σ2 ≠ 0.03
Estadístico de prueba
χ2 = (n – 1) s2
σ2
Región derechazo
/2
/2
21-/2 2/2
RR RNR RR
Criterio de decisión
Si χ21-α/2 < χ2c o > χ2α/2 se rechaza H0, de otra manera no se rechaza
Cálculos
/2
/2
20.0995 , 9 18.12 20.005, 9
1.735 23.589
RR RNR RR
no se rechaza H0
CONCLUSIÓN
No existe suficiente evidencia estadística para decir que la varianza del volumen de un lubri-
cante particular es diferente de 0.03 con un α de 0.01.
Se tienen dos poblaciones normales e independientes con varianzas desconocidas σ²1 y σ²2,
respectivamente, y se desea verificar la hipótesis de que las varianzas son iguales contra una
hipótesis alternativa de que son diferentes.
Para verificar las hipótesis anteriores nos basamos en el hecho de que la siguiente relación
tiene una distribución muestral F con n1-1 y n2-1 grados de libertad:
Ejemplo
Se lleva a cabo un experimento para comparar el desgaste por abrasivo de dos diferentes
materiales laminados. Se prueban 12 piezas del material 1 mediante la exposición de cada
pieza a una máquina para medir el desgaste. 10 piezas del material 2 se prueban de manera
similar. En cada caso se mide la profundidad del desgaste. Las muestras del material 1 dan
una desviación estándar muestral de 4, mientras que las muestras del material 2 dan una des-
viación estándar muestral de 5. ¿Se justifica la suposición de que las 2 varianzas poblaciona-
les sean iguales? Utilice un nivel de significancia de 0.10.
Datos
n1 = 12
n2 = 10
s1 = 4
s2 = 5
α = 0.10
Hipótesis
H0: σ1 / σ2 = 1
Ha: σ1 / σ2 ≠ 1
Estadístico de prueba
F = s12
s22
Región de rechazo
F1-/2 , 1 , 2 F/2 , 1 , 2
RR RNR RR
Criterio de decisión
Cálculos
F = 25 / 16
F = 1.5625
DECISIÓN
0.325 1.56 3.07
RR RNR RR
no se rechaza H0
CONCLUSIÓN
No existe suficiente evidencia estadística para decir que las dos varianzas poblacionales son
diferentes entre sí, con un de 0.10.
Ejemplo
Se lleva a cabo un estudio para comparar la longitud de tiempo entre hombres y mujeres para
ensamblar cierto producto. Experiencia pasada indica que la distribución de los tiempos para
hombres y mujeres es aproximadamente normal pero que la varianza de los tiempos para las
mujeres es menor que para los hombres. Una muestra aleatoria de tiempos para 11 hombres
y 14 mujeres produce una desviación muestral de 6.1 y 5.3 respectivamente. Pruebe la hipó-
tesis de que σ12 es menor o igual que σ22 contra la alterna de que es mayor. Utilice un nivel
de significancia de 0.01.
Datos
n1 = 11
n2 = 14
s1 = 6.1
s2 = 5.3
α = 0.01
Hipótesis
Estadístico de prueba
F = s12
s22
Región de rechazo
F1-/2 , 1 , 2
RNR RR
Criterio de decisión
Cálculos
1.32 4.82
RNR RR
no se rechaza H0
Conclusión
No existe suficiente evidencia estadística para decir que la varianza del tiempo que los hom-
bres tardan en ensamblar cierto producto es mayor que la varianza del tiempo para las mujeres
en realizar la misma tarea, con un de 0.01.
PRUEBA DE
HIPÓTESIS PARA LA
MEDIA CON SIGMA
DESCONOCIDA
INTRODUCCIÓN
PROBLEMA RESUELTO.
CONCLUSION..
TAREA
INTRODUCCION
PROBLEMA.
PRUEBA DE HIPÓTESIS PARA LA
DIFERENCIA DE MEDIAS CON
SIGMA DESCONOCIDA PERO
IGUALES
EJEMPLO
Se realizó un experimento para comparar el tiempo promedio requerido por el
cuerpo humano para absorber dos medicamentos, A y B. Suponga que el
tiempo necesario para que cada medicamento alcance un nivel específico en
el torrente sanguíneo se distribuye normalmente. Se eligieron al azar a doce
personas para ensayar cada fármaco registrándose el tiempo en minutos que
tardó en alcanzar un nivel específico en la sangre. Calcule con α= 0.05 si
existe diferencia entre los tiempos promedio. Suponga varianzas iguales.
Medicamento A Medicamento B
n1 =12 n2 =12
=26.8 =32.6
2 2
=17.54
HIPOTESIS REGIÓN DE DECISIÓN
Rechazar Ho si t ≥ o bien si t -2.74
2
2 CALCULOS
datos
n1 =12
=26.8
2
n2 =12
=32.6
2
=17.54
CONCLUSIÓN
REGIÓN DE RECHAZO Existe suficiente evidencia estadística para
decir que con un α=.05 existe diferencia entre
RR RR los tiempos de los medicamentos A y B
RNR
-2.74 2.74
EJEMPLO
Se estudian dos métodos para el aprendizaje del idioma ingles.
Después de cierto período, dos grupos, cada uno llevando uno de
estos métodos, son examinados mediante un mismo test. Los resultados
obtenidos son:
Grupo 1 Grupo 2
=87 s2 =23
s2 n2 =16
n1 =10 =92
HIPOTESIS a probar:
2
2
Prueba de hipótesis para la
diferencia de medias con sigmas
desconocidas pero diferentes.
Ejemplo.
• Si 8 proyectiles de corto alcance de un tipo tienen
un error de blanco promedio de x1(testada) = 90
ft. Con una desviación estándar de S1=18 ft.
Mientras que 10 proyectiles de corto alcance de
otro tipo tienen un error de blanco medio de
x2(testada)=76ft.con una desviación estándar de
S2 =15 ft. Prueba la hipótesis nula µ 1 - µ 2 =15
• Centra la hipótesis alternativa µ 1 - µ 2 >15 sea
ɚ=0.05 el tamaño de la región critica y supóngase
que las varianzas son diferentes.
• Datos:
X1=98 ft.
X2=76 ft. H0:µ1 - µ 2 =15
S1=18 ft. Ha: µ 1 - µ 2 >15
S2=15 ft.
n1=8
n2=10
ɚ=0.05
Tɚ,13=2.17
Gl=13
2
• t t(v)
• |t0|≤|tɚ∕2| no se rechaza H0
• |t0|> |tɚ∕2| se rechaza H0 de lo contrario no
se rechaza
Cálculos:
• t
T=2.77
minitab
• Se decide rechazar la hipótesis nula, ya que el
valor de T0 excede al valor de tablas, por lo
que se concluye que la diferencia entre los
errores de blanco promedios de las muestras
excederán de 15 pies.
• Donde:
x= ocurrencias
n= observaciones
x/n= proporción de la muestra
p(sub indice 0)= proporción propuesta
• Si se muestrea a partir de una población finita:
EJEMPLO
• Una encuesta realizada por el banco a 35 clientes
indicó que un poco más del 74 por ciento tenían un
ingreso familiar de más de $200,000 al año. Si esto
es cierto, el banco desarrollará un paquete especial
de servicios para este grupo. La administración
quiere determinar si el porcentaje verdadero es
mayor del 60 por ciento antes de desarrollar e
introducir este nuevo paquete de servicios. Los
resultados mostraron que 74.29 por ciento de los
clientes encuestados reportaron ingresos de
$200,000 o más al año.
TAREA
• El presidente del en 1988, basado en su
experiencia, sostiene que un 95% de los votos
para las elecciones presidenciales han sido a
favor de su partido. Los partidos de oposición
levantaron una muestra de1,100 electores y
encontraron que un 87% de ellos votaría por
el PRI. El presidente del PRI quiere probar la
hipótesis, con un nivel de significación de
0.05, que el 95% de los votos son para su
partido.
Problema
Consideremos dos líneas de producción de una planta, al
final de las cuales se realiza una inspección por muestreo.
La información del ultimo turno de producción es:
# de Partes # de
partes
Inspeccionadas defectuosas
LINEA 1 278 23
LINEA 2 197 14
Solución:
Sean p1 y p2 las fracciones defectuosas
(rechazadas) de líneas 1 y 2, respectivamente.
Deseamos probar
Hipótesis:
Ho : p1= p2
H1: p1 p2
1-Datos: 4-Región de rechazo
X1: 23
n1:278
X2:14
n2: 197
2-Hipótesis:
Ho : p1= p2 5-Regla de decisión
H1: p1 p2 Con = 1% la región critica para esta
prueba es lZl > 0.005, lZl > 2.58 no se
rechaza
3-Estadístico de prueba
6-Calculamos
=23/278= 0.0827
=14/197=0.0710
P= = 23+14/278+197=37/475= 0.0778
7-Toma de decisión
•No se rechaza Ho
8-Conclusión:
Concluimos que no existe suficiente
evidencia estadística para el rechazo de
Ho, y para poder afirmar que la calidad
en ambas líneas es la misma con un nivel
de = 0.01
PRUEBA DE HIPÓTESIS
PARA LA VARIANZA
LA VARIANZA
FORMULA
2
(n ) 2
2
gl = n -1
EJEMPLO
Paso 5
Regla de decisión
Si 2 c > 2 t se rechaza Ho
De otra manera no se rechaza Ho.
Paso 6
Cálculos
2 (n ) (2 )2
= =26.5746
Paso 7 Paso 8
Decisión Conclusión
No se rechaza Ho No existe suficientes evidencia
2
c= 26.5746 estadística para decir
2 t= 30.1435 que el lote de materia prima
tiene una 2 en su grado
de endulzamiento con un
Prueba de hipótesis para
la razón de varianza
Ejercicio
solución
.Datos
= 18 2
= 13 2
2
1. Establecer hipótesis
= =1 ( 2 = 2
2)
2 2
= 1 ( 2)
2. Nivel de significancia
α=.10
s2 con gl= - 1 = 18-1= 17 Denominador
3. Estadistico de prueba
s
F= =s
4. Regla de decisión
Rechazaremos : 2 = 2 2 para α=.10 cuando el valor
calculado de F exceda el valor tabulado
Valor tabulado 6. Region de rechazo
= = 2.38 2.38
5. Cálculos
s ( )
F= s = = ( )
= 2.58
8. Conclusión
Existe suficiente evidencia estadistica para decir con
un nivel de significancia de .10 que las varianzas son
diferentes
tabla
UNIDAD IV Pruebas de bondad de ajuste y pruebas no paramétricas
Bondad de ajuste
Análisis Ji-Cuadrada
Prueba de independencia
Prueba de la bondad del ajuste
Tablas de contingencia
Uso del software estadístico.
Pruebas no paramétricas
Escala de medición
Métodos estadísticos contra no paramétricos
Prueba de Kolmogorov – Smirnov
Prueba de Anderson – Darling
Prueba de Ryan – Joiner
Prueba de Shappiro – Wilk
Chi cuadrada
Supongamos que tenemos un número k de clases en las cuales se han ido registrado un total
de n observaciones (n será pues el tamaño muestral). Denotaremos las frecuencias
observadas en cada clase por O1, O2, ..., O k
(Oi es el número de valores en la clase Ai). Se cumplirá:
O1 + O2 + ... + O k = n
Lo que queremos es comparar las frecuencias observadas con las frecuencias esperadas
(teóricas), a las que denotaremos por E1, E2, ..., E k. Se cumplirá:
E1 + E2 + ... + E k = n
Se tratará ahora de decidir si las frecuencias observadas están o no en concordancia con las
frecuencias esperadas (es decir, si el número de resultados observados en cada clase
corresponde aproximadamente al número esperado). Para comprobarlo, haremos uso de un
contraste de hipótesis usando la distribución Chi-cuadrado:
El estadístico de contraste será
Observar que este valor será la suma de k números no negativos. El numerador de cada
término es la diferencia entre la frecuencia observada y la frecuencia esperada. Por tanto,
cuanto más cerca estén entre sí ambos valores más pequeño será el numerador, y viceversa.
El denominador permite relativizar el tamaño del numerador.
Las ideas anteriores sugieren que, cuanto menor sean el valor del estadístico , más
coherentes serán las observaciones obtenidas con los valores esperados. Por el contrario,
valores grandes de este estadístico indicarán falta de concordancia entre las observaciones y
lo esperado. En este tipo de contraste se suele rechazar la hipótesis nula (los valores
observados son coherentes con los esperados) cuando el estadístico es mayor que un
determinado valor crítico.
Notas:
(1) El valor del estadístico se podrá aproximar por una distribución Chi-cuadrado cuando el
tamaño muestral n sea grande (n > 30), y todas las frecuencias esperadas sean iguales o
mayores a 5 (en ocasiones deberemos agrupar varias categorías a fin de que se cumpla este
requisito).
(2) Las observaciones son obtenidas mediante muestreo aleatorio a partir de una población
particionada en categorías.
Donde son variables aleatorias normales independientes de media cero y varianza uno. El
Aplicaciones
La distribución χ² tiene muchas aplicaciones en inferencia estadística. La más conocida es la
de la denominada prueba χ² utilizada como prueba de independencia y como prueba de
bondad de ajuste y en la estimación de varianzas. Pero también está involucrada en el
problema de estimar la media de una población normalmente distribuida y en el problema de
estimar la pendiente de una recta de regresión lineal, a través de su papel en la distribución t
de Student.
Aparece también en todos los problemas de análisis de varianza por su relación con
la distribución F de Snedecor, que es la distribución del cociente de dos variables aleatorias
independientes con distribución χ².
Su utilidad reside en que, bajo algunos supuestos razonables y poco exigentes, existen
variables que al calcularse pueden dar lugar a una distribución aproximada a la ji cuadrada.
Las situaciones mejor conocidas de uso de esta distribución están en la común prueba ji
cuadrada de bondad de ajuste de una distribución observada a una distribución teórica, y la de
independencia de dos criterios de clasificación de datos cualitativos.
La distribución ji cuadrada está asociada a un parámetro conocido como grado de libertad. La
forma de la distribución depende del valor de este parámetro.
Propiedades de las distribuciones ji-cuadrada
1. Los valores de X2 son mayores o iguales que 0.
2. La forma de una distribución X2 depende del gl =n-1. En consecuencia, hay un número
infinito de distribuciones X2.
3. El área bajo una curva ji-cuadrada y sobre el eje horizontal es 1.
4. Las distribuciones X2 no son simétricas. Tienen colas estrechas que se extienden a la
derecha; esto es, están sesgadas a la derecha.
5. Cuando n>2, la media de una distribución X2 es n-1 y la varianza es 2(n-1).
6. El valor modal de una distribución X2 se da en el valor (n-3).
Supongamos que se ha tomado una muestra aleatoria simple de 150 bebedores de cerveza.
Después de saborear cada una, se les pide expresar su preferencia o primera alternativa. La
tabulación cruzada de la siguiente tabla 2 resume las respuestas obtenidas. Observamos que,
los datos para la prueba de independencia se agrupan en términos de cantidades o frecuencias
para cada celda o categoría. De las 150 personas de la muestra, 20 fueron hombres que
prefirieron la cerveza ligera, 40 fueron mujeres que prefirieron la cerveza clara, 20 fueron
hombres que prefirieron la cerveza oscura, y así sucesivamente.
Los datos de la tabla 2 constituyen las frecuencias observadas para las seis clases o
categorías.
Cerveza preferida
Ligera Clara Oscura Total
Género Hombre 20 40 20 80
Mujer 30 30 10 70
Total 50 70 30 150
2
k f oi f ei
2
i 1 f ei
para la prueba de independencia entre cerveza y género del consumidor. Con = .05 como
En muchas ocasiones, los n elementos de una muestra tomada de una población pueden
clasificarse con dos criterios diferentes. Por tanto, es interesante saber si los dos métodos de
clasificación son estadísticamente independientes. Supóngase que el primer método de
clasificación tiene r niveles, y que el segundo tiene c niveles. O sea Oij la frecuencia observada
para el nivel i del primer método de clasificación y el nivel j del segundo método de clasificación.
En general, los datos aparecerán como se muestra en la siguiente tabla. Una tabla de este tipo
usualmente se conoce como tabla de contingencia r x c.
Columnas
Renglones 1 2 ... c
. . . . .
. . . . .
. . . . .
El interés recae en probar la hipótesis de que los dos métodos de clasificación renglón-columna
son independientes. Si se rechaza esta hipótesis, entonces se concluye que existe alguna
interacción entre los dos criterios de clasificación. Los procedimientos de prueba exactos son
difíciles de obtener, pero puede obtenerse un estadístico de prueba aproximado válido
para n grande.
Tiene una distribución aproximada ji-cuadrada con (r-1)(c-1) grados de libertad si la hipótesis
nula es verdadera. Por consiguiente, la hipótesis de independencia debe rechazarse si el valor
del estadístico de prueba X2 calculado es mayor que X2 crítico o de tabla.
Puede demostrarse que 0 sigue aproximadamente una distribución Chi cuadrada con k-p-1
2
Cálculo de los valores esperados: para esto se escoge el menú de calc>calculator; y se ingresa
la fórmula según se muestra en la siguiente pantalla.
Es importante notar que si los valores esperados tienen valores numéricos menores que 5.0,
entonces debemos hacer una nueva agrupación, para lo cual se tomarán aquellos valores
menores que 5 y se suman. En el ejemplo de 10 intervalos se reduce a 7. Los tres primeros se
reducen a uno y los dos últimos también se agrupan. Luego el primer intervalo va desde 7.25
hasta 8.75 y el séptimo va desde 11.25 hasta 12.25. Con estos nuevos intervalos se repite el
procedimiento anterior y se obtienen nuevos valores esperados. Además se estiman dos 2
parámetros (la media y la desviación estándar). Por tanto los grados de libertad para calcular
el valor Chi crítico es de 4, (g.l = 7-2-1 = 4)
Cálculo de la estadística Chi-cuadrada: Luego se sigue la secuencia siguiente:
Calc>Calculator; y se define los parámetros que aparecen a continuación. El valor obtenido es
de 4.187.
Cálculo del valor Chí-crítico: Este valor también se puede obtener de las tablas de distribución
Chi-cuadrada que se encuentran en los libros, pero Minitab-13 lo provee de la siguiente
manera: Calc>Probability distribution>Chi square>Inverse cumulative probability >imput
constant: 0.95>OK, el resultado correspondiente aparece en la ventana de “Session”, y es igual
a: 0.95 9.4877
2
Cálculo del valor p: En primer lugar se establece el valor de k, para tal efecto se realiza lo
siguiente: Calc>Probability Distributions> Chi-square; se selecciona Cumulative Probability >.
En Degrees of freedom se establece
(# grados de libertad) <Input column> y se establece el lugar a almacenar el valor en la celda
que contendrá k en Optional storage tal como se puede apreciar en la siguiente gráfica.
Finalmente se calcula el valor p: Para esto se sigue la siguiente secuencia: Calc> Calculator>
storage result, se establece donde se desea almacenar el resultado, y se escribe la ecuación
siguiente en Expression: (1-k), como se puede apreciar en el siguiente diagrama.
Resultados:
Contraste de Pearson
La idea del contraste de Pearson es muy sencilla: se agrupan los datos en k clases (k>5),
como si fuéramos a construir un histograma, cubriendo todo el rango posible de valores, siendo
deseable disponer, aproximadamente, del mismo número de datos en cada clase y al menos
de tres datos en cada una.
Se calcula entonces el siguiente índice de discrepancia entre las frecuencias observadas y las
que era previsible encontrar si el modelo fuera el adecuado:
Prueba de Kolmogorov-Smirnov
Este contraste, que es válido únicamente para variables continuas, compara la función de
distribución (probabilidad acumulada) teórica con la observada, y calcula un valor de
discrepancia, representado habitualmente como D, que corresponde a la discrepancia máxima
en valor absoluto entre la distribución observada y la distribución teórica, proporcionando
asimismo un valor de probabilidad P, que corresponde, si estamos verificando un ajuste a la
distribución normal, a la probabilidad de obtener una distribución que discrepe tanto como la
observada si verdaderamente se hubiera obtenido una muestra aleatoria, de tamaño n, de una
distribución normal
Prueba de Shapiro-Wilks
Aunque esta prueba es menos conocida es la que se recomienda para contrastar el ajuste de
nuestros datos a una distribución normal, sobre todo cuando la muestra es pequeña (n<30).
Mide el ajuste de la muestra a una recta, al dibujarla en papel probabilístico normal. Este tipo
de representación también lo proporcionan algunos programas de estadística, de tal manera
que nos permite además apreciar el ajuste o desajuste de forma visual:
4.2.1. Escala de medición
Nominal o clasificatoria:
Se da cuando las observaciones consisten en clasificaciones de objetos en categorías o clases
mutuamente excluyentes. Se dice que la medición es elemental. Un ejemplo de datos en esta
escala son las observaciones de una variable aleatoria Bernoulli donde las observaciones son
del tipo éxito o fracaso, presente o ausente, mayor del 20% o menor del 20%, etc.
La única relación que puede establecerse es la de igualdad y por lo tanto de desigualdad. Dos
observaciones son iguales si están en la misma clase y diferentes si no lo están. El único
estadístico válido para este tipo de datos es la frecuencia en cada clase.
Ejemplo 1:
Un parasitoide ataca a un insecto plaga y se desea conocer si aquel presenta preferencia por
determinado instar o estadio. Se colectan 100 especimenes en cada instar y se registra la
presencia o ausencia del parasitoide.
Número de insectos parasitados sobre un total de 100 por cada instar.
INSTAR (Categoría)
Ordinal o de rango:
Ocurre cuando los objetos de una categoría están relacionados de forma conocida con los de
otra categoría, y no son considerados únicamente como diferentes. Tales relaciones pueden
expresarse como “mayor que” o “menor que”, y las escalas particulares pueden ser “mas
atacado que”, “más grande que”, etc.
Si la relación mayor (o menor) se sostiene en solo algunos pares de mclases pero no en todas,
tenemos una escala parcialmente ordenada. Si se sostiene en todos los pares de clases de
modo que surja un rango ordenado completo tenemos una escala ordinal. Esta escala, al
incorporar la relación de mayor (o menor) contiene mayor información que la anterior, por lo
que se dice que es una escala mas fuerte. Las propiedades de una escala ordinal no son
isomórficas al sistema numérico conocido como aritmética
Intervalo:
En esta escala además de poder ordenar las observaciones como en la escala anterior,
también se tiene idea de la distancia existente entre ellas. La localización del cero de la escala
y el tamaño de las unidades de distancia son arbitrarios. El cero no corresponde a la ausencia
de la característica física utilizada en las unidades de medida. Esta escala es más fuerte que
la ordinal y por consiguiente que la nominal. Pueden calcularse parámetros tales como la
media y la varianza, además de los que permiten las escalas anteriores.
Las operaciones y las relaciones en que se origina la estructura de una escala de intervalo son
tales, que las diferencias en la escala son isomórficas a la estructura de la aritmética. Un
ejemplo frecuentemente mencionado en la bibliografía es el caso de las escalas Fahrenheit y
Celsius utilizadas en la medición de la temperatura, donde tanto el cero como la unidad de
medida (el grado) son arbitrarios. No es el caso de la escala Kelvin o escala absoluta.
Proporción:
Esta escala posee las características de la escala de intervalo y además tiene en su origen un
punto cero real. Las observaciones pueden ordenarse. El cero y la unidad de distancia entre
observaciones son inherentes al sistema, es decir, no son arbitrarias.
Las observaciones originales del ejemplo presentado para ilustrar la escala de intervalo,
cantidad de insectos, es un ejemplo de medidas en escala de proporción. Esta es la escala
más fuerte de todas las consideradas y permite el cálculo de la media, varianza y cualquier
estadístico calculado con las otras escalas. Con una escala de proporción, cualquier prueba
estadística puede usarse ya que esta escala contiene a todas las anteriores. Características
tales como cantidad, peso, longitud, etc. son medidas en esta escala.
- intervalo de con-
fianza para el pro-
medio
Donde los son los estadígrafos de orden de la muestra (valores de la muestra puestos
valores que toma en los son variables aleatorias de ley . Pero la función de
La serie converge muy rápidamente. En la práctica, para , la suma de los tres primeros
PROCEDIMIENTOS:
1. Obtener n datos de la variable aleatoria a analizar.
2. Calcular la media y la varianza de los datos.
3. Organizar los datos en forma ascendente: Yi i=1,2….,n.
4. Ordenar los datos en forma descendente Yn+1-i i = 1,2….,n.
5. Establecer explícitamente la hipótesis nula, proponiendo una distribución de probabilidad.
6. Calcular la probabilidad esperada acumulada para cada número Yi, PEA(Yi), y la
probabilidad esperada acumulada para cada número, PEA(Yn+1-i), a partir de la función de
probabilidad propuesta.
7. Calcular el estadístico de prueba:
La prueba de Ryan - Joiner es usada para probar si una muestra viene de una
distribución específica.
Esta prueba es una modificación de la prueba de Kolmogorov-Smirnov donde se le da más
peso a las colas de la distribución que la prueba de Kolmogorov-Smirnov .En estadística, la
prueba de Ryan -Joiner es una prueba no paramétrica.
Si los datos de una muestra provienen de una distribución específica. La fórmula para el
estadístico determina si los datos (observar que los datos se deben ordenar) vienen de una
distribución con función acumulativa.
F. Formulas:
donde
x(i) (con el subíndice i entre paréntesis) es el número que ocupa la i-ésima posición en la
muestra;
Donde
Siendo m1, ..., mn son los valores medios del estadístico ordenado, de variables
aleatorias independientes e idénticamente distribuidas, muestreadas de distribuciones
normales. V es la matriz de covarianzas de ese estadístico de orden.
Interpretación:
Siendo la hipótesis nula que la población esta distribuida normalmente, si el p-valor es menor
a alfa (nivel de confianza) entonces la hipótesis nula es rechazada (se concluye que los datos
no vienen de una distribución normal). Si el p-valor es mayor a alfa, no se rechaza la hipótesis
y se concluye que los datos siguen una distribución normal.
PRUEBAS DE INDEPENDENCIA
Prueba de póker.
Prueba de corridas arriba y abajo.
Prueba de corridas arriba y abajo de la media.
Prueba de la longitud de las corridas.
Prueba de distancia.
Prueba de series.
Prueba de huecos.
PRUEBA DE CORRIDAS ARRIBA Y
ABAJO
Ejemplo
Realizar la prueba de corridas arriba y abajo con un
nivel de aceptación de 95% al siguiente conjunto de
números ri:
0.34 0.83 0.96 0.47 0.79 0.99 0.37 0.72 0.06 0.18
0.67 0.62 0.05 0.49 0.59 0.42 0.05 0.02 0.74 0.67
0.46 0.22 0.99 0.78 0.39 0.18 0.75 0.73 0.79 0.29
0.11 0.19 0.58 0.34 0.42 0.37 0.31 0.73 0.74 0.21
Ejemplo
Realizar la prueba de corridas arriba y abajo, con un
nivel de aceptación de 95%, al siguiente conjunto de
números ri:
0.809 0.042 0.432 0.538 0.225 0.88 0.688 0.772 0.036 0.854
0.397 0.268 0.821 0.897 0.07 0.721 0.087 0.35 0.779 0.482
0.136 0.855 0.453 0.197 0.444 0.799 0.809 0.691 0.545 0.857
0.692 0.055 0.348 0.373 0.436 0.29 0.015 0.834 0.599 0.724
0.564 0.709 0.946 0.754 0.677 0.128 0.012 0.498 0.6 0.913
Ejemplos:
ri = 0.69651 un par (1P)
ri = 0.13031 dos pares (2P)
ri = 0.98898 una tercia y un par (P)
Categoría Probabilidad Ei
Todos diferentes (TD) 0.3024 0.3024n
Exactamente un par (1P) 0.5040 0.5040n
Dos pares (2P) 0.1080 0.1080n
Una tercia y una par (TP) 0.0090 0.0090n
Tercia (T) 0.0720 0.0720n
Póker (P) 0.0045 0.0045n
Quintilla (Q) 0.0001 0.0001n
Donde:
Ei = Frecuencia esperada de números ri en cada categoría
m = Cantidad de categorías o clases en las que se clasificaron
los números ri
Oi = Frecuencia observada
PRUEBA DE SERIES
Consiste en comparar los números con el
propósito de corroborar la independencia entre
números consecutivos. Las hipótesis básicas son:
PASOS:
Crear una grafica de dispersión entre los números
consecutivos (ri , rr+1).
EJEMPLO:
Intervalo i Oi Ei=(n-1)/m =
29/9
1 3 3.22 0.015
2 3 3.22 0.015
3 5 3.22 0.984
4 3 3.22 0.015
5 6 3.22 2.400
6 1 3.22 1.531
7 5 3.22 0.984
8 1 3.22 1.531
9 2 3.22 0.462
Total 29 29 7.937
PRUEBA DE HUECOS
Consiste en comparar los números con el
propósito de verificar el tamaño del “hueco” que
existe entre ocurrencias sucesivas de un número;
las hipótesis son las fundamentales:
S={1,1,0,0,0,0,0,0,0,1,0,1,0,1,0,0,0,0,0,0,0,0,0,0,1,1,0,0,0,1}
0 7 1 1 10 0 3
Prueba de huecos
V = (r – 1) (c – 1)
v = ( 2 -1) ( 3 – 1 )= 2 Gl.
CORRECCIÓN DE YATES
Es importante recordar que la estadística sobre la
que basamos nuestra decisión tiene una distribución
que solo se aproxima por la distribución ji cuadrada.
Los valores ji cuadrada calculados dependen de las
frecuencias de las celdas y en consecuencia son
discretas.
http://es.scribd.com/doc/51329866/24/Pruebas-de-
independencia
http://www.samiuc.es/index.php/estadisticas-con-
variables-binarias/valoracion-inicial-de-pruebas-
diagnosticas/chi-cuadrado-correccion-de-yates.html
http://bioestadistico.com/chi-cuadrado-prueba-de-
independencia
Bondad de Ajuste
¿Qué es?
• Hablamos de bondad de ajuste cuando
queremos comparar una distribución
observada con los valores correspondientes
de una distribución teórica.
La prueba X2 hace uso de la distribución del mismo
nombre para probar la bondad del ajuste al
comparar el estadístico de prueba X2 con el valor en
tablas de la mencionada distribución X2 con v
grados de libertad y un nivel de significancia.
La fórmula básica de ji cuadrada es:
Donde:
O = frecuencia observada
E = frecuencia esperada o teórica
Problema
• Un científico de computadoras ha
desarrollado un algoritmo para generar
enteros pseudoaleatorios por encima del
intervalo de 0-9. El codifico el algoritmo y
genero 100 dígitos pseudoaleatorios
0 1 2 3 4 5 6 7 8 9 Total
n
Frecuencias 94 93 112 101 104 95 100 99 108 94 1000
Observadas
Frecuencias 100 100 100 100 100 100 100 100 100 100 1000
Esperadas
4. Región Critica 1 –α
= 1-.95
=0.05
.95
5.- Regla
X²c > X²t = Se rechaza
( )
• 2
= .36
6.-Cálculos
2 ( )
• = .49
2 ( 2 ) X² =.36+.49+1.44+.01+.16+.25+0+.01+.64+.36=3.72
• 2 = 1.44
2 ( )
• = .01
2 ( )
• = .16
2 ( )
• = .25
2 ( )
• =0
. ,9=16.92
2 ( )
• = .01
2 ( )
• = .64
2 ( )
• = .36
• 7.-Desición
3.72 < 16.92 = No se Rechaza
8.-Conclusión
Ho no se rechaza por que no existe suficiente
evidencia estadística para decir que los datos
vienen de una distribución uniforme discreta.
Por lo tanto, el generador de números aleatorios
parece que trabaja satisfactoriamente.
ANALISIS DE JI
CUADRADA
(TABLA DE CONTINGENCIA/ PRUEBA
DE BONDAD DE AJUSTE/ PRUEBA DE
INDEPENDENCIA
DISTRIBUCIÓN JI CUADRADA
La distribución ji cuadrada esta asociada a un
parámetro conocida como grado de libertad.
DISTRIBUCIÓN JI CUADRADA
APLICACIONES
La distribución χ² tiene muchas aplicaciones
en inferencia estadística. La más conocida es la
de la denominada prueba χ² utilizada como
prueba de independencia y como prueba de
bondad de ajuste y en la estimación de varianzas
Aparece también en todos los problemas
de análisis de varianza por su relación con
la distribución F de Snedecor, que es la
distribución del cociente de dos variables
aleatorias independientes con distribución χ².
PRUEBA JI CUADRADA
La ji cuadrada se utiliza como una prueba de
significación cuando se tienen datos que se
expresan en frecuencias o que están en términos
de porcentajes o proporciones, y que pueden
reducirse a frecuencias.
Cualesquier datos pueden reducirse a categorías
y a los datos así tabulados puede aplicárseles ji
cuadrada. Por ejemplo, las puntuaciones
respecto de una prueba de aptitud mental y una
prueba de destreza podrían tabularse como se
muestra a continuación, en una tabla de
contingencia.
TABLA DE CONTINGENCIA R X C
Donde:
~ n elementos tomados de una población pueden clasificarse con dos
criterios diferentes.
~ El primer criterio tiene r niveles, y que el segundo tiene c niveles.
PRUEBA JI CUADRADA
La fórmula básica de ji cuadrada es:
Donde:
O = frecuencia de casilla (celda) observada
E = frecuencia esperada o teórica
PRUEBA JI CUADRADA
(BONDAD DEL AJUSTE)
PRUEBA JI CUADRADA
(BONDAD DEL AJUSTE)
X² cuando la distribución básica es discreta.
Ejemplo:
PRUEBA JI CUADRADA
(BONDAD DEL AJUSTE)
X² cuando la distribución básica es discreta.
Ejemplo (estadístico):
Nota
Buen ajuste: Si las frecuencias observadas están cerca de
las frecuencias esperadas correspondientes, el valor ji
cuadrada será pequeño.
Mal Ajuste: si las frecuencias observadas difieren de
manera considerable de las frecuencias esperadas, el valor
ji cuadrada será grande y ajuste es pobre.
~Un buen ajuste conduce a un no rechazo de Ho, mientras
que un ajuste pobre conduce a su rechazo.
PRUEBA JI CUADRADA
(BONDAD DEL AJUSTE)
Metodo de Conservador Moderado Liberal
Crianza fo f0 f0
No rígido 7 9 14
Moderado 10 10 8
Autoritario 15 11 5
TOTAL 32 30 27
PRUEBA JI CUADRADA
(BONDAD DEL AJUSTE)
Fe = (total marginal de renglón) (total marginal de
columna)/ N
PRUEBA JI CUADRADA
(BONDAD DEL AJUSTE)
Fe (1,1) = (30) (32) / 89 = 960/89 =10.79
PRUEBA JI CUADRADA
(BONDAD DEL AJUSTE)
PRUEBA JI CUADRADA
(BONDAD DEL AJUSTE)
RESTAR LAS FRECUENCIAS ESPERADAS DE LAS FRECUENCIAS OBTENIDAS
Fo - fe
[1,1] 7-10.79=3.79
[1,2] 10-10.07=-0.07
[1,3] 15 – 11.14 = 3.86
[2,1] 9 – 10.11= -1.11
[2,2] 10 – 9.44= 0.56
[2,3] 11 – 10.45= 0.55
[3,1] 14 – 91 = 4.9
[3,2] 8 – 8.49 = 0.49
[3,3] 5 – 9.4 = -4.4
PRUEBA JI CUADRADA
(BONDAD DEL AJUSTE)
Elevar esta diferencia al
cuadrado
(fo – fe)²
PRUEBA JI CUADRADA
(BONDAD DEL AJUSTE)
Dividir entre la frecuencia
esperada
(fo – fe)²/ fe
[1,1] 14.36/10.79=1.33
[1,2] 0.01/10.07=0.00
[1,3] 14.9/11.14=1.34
[2,1] 1.23/10.11=0.12
[2,2] 0.31/9.44=0.03
[2,3] 0.3/10.45=0.03
[3,1] 24.01/9.1=2.64
[3,2] 0.24/8.49=0.03
[3,3] 19.36/9.4=2.06
PRUEBA JI CUADRADA
(BONDAD DEL AJUSTE)
Dividir entre la frecuencia
esperada
∑=(fo – fe)²/ fe
1.33
0.00
1.34
0.12 X² = 7.58
0.03
0.03
2.64
0.03
2.06
PRUEBA JI CUADRADA
(BONDAD DEL AJUSTE)
Ejemplo:
Así encontramos el valor de X², para interpretar este calor debemos
determinar el numero apropiado de grados de libertad, esto
puede hacerse por medio de tablas teniendo cualquier numero de
renglones y columnas y empleando la siguiente formula:
gl = (r-1)(c-1)
donde :
r = numero de renglones en la tabla de frecuencias obtenidas.
PRUEBA JI CUADRADA
(BONDAD DEL AJUSTE)
Ejemplo.
X² obtenida = 7.58
X² en la tabla = 9.49
gl = 4
α = 0.05
Se necesita un valor de ji cuadrada por lo menos de 9.49
para rechazar la hipótesis nula, dado que nuestra X²
obtenida es de solo 7.58 debemos de aceptar la
hipótesis nula y atribuir nuestras diferencias
muéstrales a la operación de la simple casualidad.
No se descubrieron evidencias estadísticamente
significativas que indiquen que la frecuencia relativa
de los métodos de crianza de los niños difieren para
los liberales, los moderados y los conservadores.
EJEMPLO PÁG. 353 PROBLEMA 4.47
Se lanza 180 veces un dado con los sig. Resultados:
X 1 2 3 4 5 6
f 28 36 36 30 27 23
3.- Estadístico
1 –α
= 1-.99
4.- Región de Rechazo =0.01
.99
6.- Cálculos
X² = 0.013 + 1.2 +1.2+ 0 + 0.3 + 1.6 = 4.47
7.- Decisión
/4.47/ < /15.09/ = No se Rechaza
8.- Conclusión
Ho no se rechaza por lo que no hay suficiente evidencia
estadística para decir que el dado no esta balanceado
con un nivel de significancia de 0.01
PRUEBA JI CUADRADA
(PRUEBA DE INDEPENDENCIA)
Supongamos que de n elementos de una población
se han observado dos características X e Y,
obteniéndose una muestra aleatoria simple
bidimensional (X1,Y1),(X2,Y2),...,(Xn,Yn).
Sobre la base de dichas observaciones se desea
contrastar si las características poblacionales X e
Y son independientes o no. Para ello se dividirá
el conjunto de posibles valores de X en k
conjuntos disjuntos A1,A2,...,Ak; mientras que
el conjunto de posibles valores Y será
descompuesto en r conjuntos disjuntos:
B1,B2,...,Br.
PRUEBA JI CUADRADA
(PRUEBA DE INDEPENDENCIA)
PRUEBA JI CUADRADA
(PRUEBA DE INDEPENDENCIA)
PRUEBA JI CUADRADA
(PRUEBA DE INDEPENDENCIA)
EJEMPLO:
Para estudiar la dependencia entre la práctica de algún
deporte y la depresión, se seleccionó
una muestra aleatoria simple de 100 jóvenes, con los
siguientes resultados:
PRUEBA JI CUADRADA
(PRUEBA DE INDEPENDENCIA)
PRUEBA JI CUADRADA
(PRUEBA DE INDEPENDENCIA)
Por lo tanto como el valor del estadístico es
superior al valor crítico, concluimos que debemos
rechazar la hipótesis de independencia y por lo
tanto asumir que existe relación entre la
depresión e los hábitos deportistas del individuo.
EJEMPLO: PÁG. 354 PROBLEMA 13
Una muestra aleatoria de 90 adultos se clasifica de
acuerdo a su genero y al numero de horas que se
pasan viendo televisión durante la semana:
SOLUCIÓN
Debemos primero calcular las frecuencias
esperadas bajo el supuesto de independencia. La
tabla de frecuencias esperadas sería:
Datos
n= 90
1 – α= 0.01
V= 1
SOLUCIÓN
2.- Hipótesis
Ho = f(x) >25
Ha = f(x) <25
3.- Estadístico
1 –α
= 1-.99
4.- Región de Rechazo =0.01
.99
SOLUCIÓN
5.- Regla
/X²c/ > /X²t/ = Se rechaza
6.- Cálculos
X² = 1.48 +1.30 + 1.43 + 1.24 =5.45
7.- Decisión
/5.45/ < /6.63/ = No se Rechaza
Instituto Tecnológico
de Piedras Negras.
Ingeniería Industrial.
Estadística Inferencial I.
Unidad 4. Tema 4.1.4.
Tablas de Contingencia.
Tablas de Contingencia.
• Una tabla de contingencia es una de las formas mas comunes de resumir
datos categóricos. La mayoría de las veces organiza la información
contenida en un experimento cuando ésta es de carácter bidimensional, es
decir, cuando está referida a dos criterios, o factores.
• Sean X y Y dos Criterios categóricos con I y J categorías respectivamente,
entonces I x J es el numero de Clasificaciones que existe.
• Se usan en relación con clasificaciones múltiples. El tipo mas sencillo de
una tabla de contingencia se obtiene si clasificamos una muestra mediante
dos criterios. A las diferentes clasificaciones se les llama celdas, las cuales
contienen las frecuencias observadas.
Ejemplo:
• En un experimento conducido en Canadá en 1956, los hombres pensionados de
cierta edad (60-64 años) se clasificaron de acuerdo al habito de fumar y a la
mortalidad. Se consideraron dos clases con respecto al habito de fumar, a saber,
no fumadores, y fumadores de pipa. Con respecto a la mortalidad, también se
consideraron dos clases, a saber, personas aún con vida y personas que murieron
dentro de los seis años siguientes al comienzo del experimento.
Habito de fumar
Mortalidad No fumadores Fumadores de pipa
Muertos 117 54
Vivos 950 348
• Las tablas de contingencia 2x2 y 2x3 son ejemplos de tablas en dos direcciones. Una
tabla de contingencia en tres direcciones se podría haber obtenido al tener
clasificadas a las personas de acuerdo a un tercer criterio, por ejemplo el sexo
(hombre-mujer). Tabla de 2x2x2
• Clasificaciones:
Habito de fumar 1. Hombre no fumador muerto
Sexo No fumadores Fumadores de pipa
Hombres 2. Hombre no fumador vivo
Mujeres
3. Hombre fumador de pipa muerto
4. Hombre fumador de pipa vivo
Mortalidad 5. Mujer no fumadora muerta
Sexo Muertos Vivos
Hombres 6. Mujer no fumadora viva
Mujeres
7. Mujer fumadora de pipa muerta
8. Mujer fumadora de pipa viva
Representación Grafica
• En algunos casos es conveniente para propósitos comparativos representar
mediante un mismo gráfico dos características que están relacionadas. Estas
gráficas se llaman gráfico de barras.
• EJEMPLO:
1. Una compañía opera cuatro máquinas tres turnos al día. De los registros de
producción, se obtienen los siguientes datos sobre el número de fallas
Maquinas
Turnos A B C D
1 4 2 1 1
2 3 1 1 1
3 2 3 2 4
Grafica de número de fallas en cada una de Turnos 1 2
Maquinas
3 4
4.5
4
3.5
NUMERO DE FALLAS
3
2.5
2
1.5
1
0.5
0
A B C D
MAQUINAS
1 2 3
Frecuencias marginales.
• Llamaremos frecuencia absoluta marginal de xi de X al número de individuos de
la muestra para los que los que X toma el valor de xi. La notación utilizada es ni
de modo que:
Meses
Niveles Enero Febrero Marzo Abril Mayo
A 4 6 7 8 8
B 3 3 6 5 9
C 9 7 7 13 14
• El problema que se considera en relación con las tablas de
contingencia consiste en si las características que llevan a la
clasificación son independientes, esto es, la distribución de una
característica debe ser la misma independientemente de la otra.
Bibliografía.
•Kreyszig, Erwin.(1994). “Introducción a la Estadística Matemática, Principios y
métodos”. México. Ed. Limusa
•http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Categor/Tema2Cate.
pdf
•http://www.uam.es/personal_pdi/economicas/eva/pdf/tab_conting.pdf
•http://www.virtual.unal.edu.co/cursos/ciencias/2001065/html/un1/cont_141_41.ht
ml
PRUEBAS PARAMÉTRICAS
SON MÁS POTENTES QUE LAS NO PARAMÉTRICAS.
Las pruebas paramétricas tienen mayor capacidad para detectar una
relación real o verdadera entre dos variables, si es que la misma existe.
Por ello, exigen que los datos a los que se aplican, cumplan tres
requisitos:
PRUEBAS NO PARAMÉTRICAS
método que no requiere conocimiento de la
distribución del muestreo estadístico.
Se trata de una modificación de la KS prueba y le da mas peso a las colas que hace
la KS. La prueba de KS es la distribución gratuita en el sentido de que los
valores críticos no dependen de la distribución especifica se esta probando.
donde
Ejemplo
Los siguientes datos fueron recolectados por Bob Soulen de NIST en octubre de 1971,
como una secuencia de observaciones recolectadas en equi-espacio en tiempo, de un
voltímetro para comprobar el proceso de temperatura en un termómetro de baja
temperatura experimental. comprobar que los datos recolectados siguen una
distribución normal.
donde
x(i) (con el subíndice i entre paréntesis) es el número
que ocupa la i-ésima posición en la muestra;
= (x1 + ... + xn) / n es la media muestral;
las constantes ai se calculan
Donde
PRUEBAS NO PARAMETRICAS
• CHI CUADRADO DE PEARSON (INDEPENDENCIA DE BONDAD DE AJUSTE,
HOMOGENIEDAD)
• PRUEBA EXACTA DE FISHER
• U DE MANN WHITNEY- W DE WILCOXON
• T DE WILCOXON
• MAC NEMAR
• KRUSKALL WALLIS
• FRIEDMAN
• Q DE COCHRAN
ESCALAS DE MEDICION
Medición
Efectuar comparaciones de una cantidad con su respectiva unidad.
Registrar el numero de veces que la segunda esta contenida en la primera.
VARIABLE
Es la caracterisitica de la muestra o poblacion de estudio
Los datos son el producto de su medicion
ESCALAS DE MEDICION
NOMINAL
ORDINAL
INTERVALO
RAZON
ESCALA NOMINAL
ESCALA ORDINAL
TAMBIEN DEFINE CATEGORIAS, PERO ESTABLECE UNA RELACION MAYOR O MENOR QUE
LOS NUMEROS ASIGNADOS SI INDICAN JERARQUIAS
NO SE PUEDE ESTABLECER DISTANCIA ENTRE DOS PUNTOS
ESCALA DE INTERVALO
ESCALA DE RAZON
SOLUCION
• Hipótesis nula:
0 para x ≤ 0
F(x)= x para 0˂ x ˂ 30
30
1 Para x ≥ 30
• Nivel de significancia:
= 0.50
• Criterio:
rechazar la hipótesis nula si D>0.410, donde D
es la diferencia máxima entre las distribución
acumulativa empírica y la distribución
acumulativa supuesta conforme a la hipótesis
nula
• Calculos:
al trazar las dos distribuciones acumulativas
como en la figura 10.1 encontramos que la
diferencia es mas grande cuando x=6.2 y que
su valor es
D=0.40- 6.2
30 =0.193
• Decisión:
dado que D =0.193 no excede de 0.410, la
hipótesis nula (de que las perforaciones están
uniformemente distribuidas a lo largo de la
lamina estañada) no puede rechazarse
donde u i f ( x( i )) es el valor de la
distribución acumulativa teórica en la iesima
observación mas grande x (i )
• La hipótesis nula es rechazada para grandes
valores de la estadística A². Como pauta
general, el punto de 5% de muestras grandes
es 2.492 y el punto de 1% es de 3.857. se a
sugerido que estos valores críticos son suma
mente exactos incluso para muestras tan
pequeñas como 10
Ejercicio
El entrenador de salto de un grupo de atletas, desea conocer con vistas al procesamiento de los
datos por el obtenidos sobre salto de una muestra aleatoria de atletas de esa especialidad en un
CVD, si las mediciones realizadas por él están distribuidas normalmente. Los datos son los
siguientes:
Salto Largo
1 1.60
2 1.65 Ho: Los datos están distribuidos normalmente
3 1 .55 H1: Los datos no están distribuidos normalmente.
4 1.62
5 1.64
6 1.70
7 1.71
8 1.68
9 1.66
10 1.67
11 1.65
12 1.68
13 1.69
14 1.70
PRUEBA DE RYAN-JOINER.
Esta prueba evalúa la normalidad calculando la
correlación entre sus datos y las puntuaciones
normales en sus datos. Si el coeficiente de
correlación se encuentra cerca de uno, es
probable que la población sea normal. La
estadística de Ryan-Joiner evalúa la solidez de
esta correlación; Si se encuentra por debajo del
valor critico apropiado, se rechazara la hipótesis
nula (H0) de normalidad en la población, esta
prueba es similar a la prueba de normalidad de
Shapiro-Wilk.
PRUEBA DE RYAN-JOINER.
En contraste R-J es especifico para someter a
prueba la normalidad analizando el grado de
ajuste de los datos de la muestra a una recta,
dibujada sobre un papel probabilístico normal.
PRUEBA DE RYAN-JOINER.
Finalmente la prueba R-J, basada en la técnica
de Shapiro-Wilk, resulta extremadamente útil
para muestras de pequeño tamaño (n<30),
mostrando una elevada potencia de contraste.
VALORES CRÍTICOS APROXIMADOS PARA LA
PRUEBA DE RYAN-JOINER.
ESTADÍSTICO DE RYAN-JOINER.
La prueba de normalidad de Ryan-Joiner es muy
similar a la de Shapiro-Wilk, como ya habíamos
mencionado anteriormente, pero los autores dicen
que es mas fácil implementarlo en un software y
explicarlo a los usuarios, ya que es una simple
versión de correlación entre los datos de la
muestra, yi y bi, son los puntos de porcentaje de
una distribución normal.
ESTADÍSTICO DE RYAN-JOINER.
Puesto que la media de los valores de b es 0, se
puede simplificar esta expresión ignorando el
cambio de los valores de y por su media a:
USO MINITAB.
La prueba resultante esta correlacionada con la
de Shapiro-Wilk, así que cualquiera de las
pruebas se puede utilizar y se producen
resultados muy similares. La prueba de Ryan-
Joiner se implementa en el paquete de software
Minitab pero no ampliamente en otros lugares.
• Inconvenientes
• En los programas más complejos se necesita
tener conocimientos de programación, así
como para realizar los cálculos más laboriosos.
• Otro inconveniente está en que en estadística
a menudo nos pueden salir resultados
contradictorios entre test distintos. Un
programa informático se dará cuenta de ello y
nos avisara de algún modo, pero tendrá que
ser el usuario el que decida a cuál de los test
hacer caso.
• Ji cuadrada
0 38
1 144
2 342
3 287
4 164
5 25
Total= 1000
Pruebas de independencia
• Supongamos que se ha tomado una muestra
aleatoria simple de 150 bebedores de
cerveza. Después de saborear cada una, se les
pide expresar su preferencia o primera
alternativa.. De las 150 personas de la
muestra, 20 fueron hombres que prefirieron la
cerveza ligera, 40 fueron mujeres que
prefirieron la cerveza clara, 20 fueron
hombres que prefirieron la cerveza oscura, y
así sucesivamente.
Cerveza preferida
Mujer 30 30 10 70
Total 50 70 30 150
Dado puntuación
1 14
2 22
3 18
4 17
5 20
6 9
UNIDAD V Regresión lineal simple y múltiple
El análisis de regresión lineal simple es una técnica estadística para establecer la relación
entre dos variables mediante un modelo matemático establecido.
Existen dos variables, las cuales suponemos que están relacionadas entre sí, es decir, una
ejerce cierto efecto sobre la otra. El objetivo es establecer un modelo que nos sirva para
determinar la relación que existe entre dichas variables.
Se puede establecer la relación entre dichas variables por medio de una línea recta (al
suponerse dicha relación como lineal).
Y
Y = a + bX
Y = α+ βX
α representa la ordenada en el origen, esto es, el punto donde la recta corta el eje Y.
β representa la pendiente, esto es, el cambio esperado en Y por cada incremento unitario en
X.
ESTIMACION DE PARAMETROS
El modelo anteriormente descrito representa la relación real existente entre las dos variables,
X y Y. Es necesario encontrar los valores de X0 y 1 que nos sirvan para estimar dichos
parámetros.
Para encontrar estos estimadores, partiremos de una muestra aleatoria de tamaño n para
valores de X y de Y:
X1 Y1
X2 Y2
X3 Y3
. .
. .
. .
Xn Yn
Al ser una muestra aleatoria, el error estará presente en dichas mediciones. Debemos
considerar dicho error en el modelo de regresión a fin de representar, mediante éste, cada una
de las observaciones anteriores:
Y = α + βX + ε
Y1 = 0 + 1X1 + 1 Y
Y2 = 0 + 1X2 + 2
Y3 = 0 + 1X3 + 3 Y = 0 + 1X
. . . .
. . . . Y = 0 + 1X +
. . . .
Yn = 0 + 1Xn + n
X
En general, Yi = β0 + β1Xi + εi para i = 1, 2, 3, ..., n
METODO DE MINIMOS CUADRADOS
n
L i2
i 1
n n
L i2 Yi 0 1 X i
2
i 1 i 1
a cero.
L
0
0 ˆ 0 ,ˆ1
L
0
1 ˆ 0 ,ˆ1
L n
2 Yi ˆ 0 ˆ1 X i X i 0
1 ˆ 0 , ˆ1 i 1
Lo cual nos lleva a las siguientes ecuaciones conocidas como ecuaciones normales de
mínimos cuadrados.
n n
Y
i 1
i nˆ 0 ˆ 1 X i 0
i 1
n n n
X iYi ˆ 0 X i ˆ1 X i2 0
i 1 i 1 i 1
Despejando ˆ 0 y ˆ1 :
0 Y 1 X
n n
n X i Yi
X Y i i i 1
n
i 1
1 i 1
2
n
n
Xi
X i2
i 1
i 1 n
i 1 i 1 n
n n
n n X Y i i
Sxx Yi X i X X i Yi i 1 i 1
,
i 1 i 1 n
Sxy
̂1
Sxx
Por lo tanto, el modelo de regresión lineal simple ajustado queda de la siguiente forma:
Yˆ ˆ 0 ˆ 1 X
la pendiente, respectivamente.
Podemos generalizar sobre los parámetros del modelo a partir de la información obtenida de
los estimadores de éstos. Dicha generalización (o inferencia estadística) se puede realizar ya
sea mediante pruebas de hipótesis o mediante intervalos de confianza.
PRUEBAS DE HIPOTESIS EN LA REGRESION LINEAL SIMPLE
H 0 : 0 0 ,0
H a : 0 0 ,0
ˆ 0 0,0
t0
1 X 2
MSE
n Sxx
donde:
MSE es la media de los cuadrados del error o bien, el estimador de la varianza del modelo:
SSE
2 MSE
n2
en este caso SSE es la suma de los cuadrados del error y n – 2 son los grados de libertad del
error.
i 1 n
SSR ̂ 1 Sxy
Retomando la hipótesis planteada:
H 0 : 0 0 ,0
H a : 0 0 ,0
ˆ 0 0,0
t0
1 X 2
MSE
n Sxx
1 X 2
En el estadístico de prueba vemos que MSE representa la desviación estándar para
n Sxx
0.
Si el valor absoluto del estadístico de prueba es mayor que el valor de tablas, t n – 2, entonces
rechazaremos la hipótesis nula; aceptaremos la alternativa concluyendo que la ordenada en el
origen es diferente al valor con el cual la estamos comparando.
PARA LA PENDIENTE
Algo semejante realizaremos para la pendiente. Partimos de la hipótesis nula afirmando que
la pendiente es igual a un valor determinado (siempre que dicho valor sea diferente de cero),
contra la alternativa apropiada, por ejemplo que sea diferente a dicho valor:
H 0 : 1 1,0
H a : 1 1,0
ˆ 1 1,0
t0
MSE
Sxx
Este estadístico también sigue una distribución t-student con v = n – 2 grados de libertad.
MSE
Del mismo modo, la expresión representa la desviación estándar para 1.
Sxx
Si el valor absoluto del estadístico de prueba es mayor que el valor de tablas, t n – 2, entonces
se rechaza la hipótesis nula y se acepta la alternativa: la pendiente es diferente al valor
representado por 1,0.
Un caso especial para la pendiente sería probar la hipótesis nula afirmando que la pendiente
es igual a cero contra la alternativa que sea diferente de cero.
H 0 : 1 0
H a : 1 0
Estadístico
Fuente de Suma de Grados de Media de
de
variación cuadrados libertad cuadrados
prueba
SSR
Regresión SSR 1 MSR
1 MSR
F0
SSE MSE
Error SS n-2 MSE
n2
En este caso si el estadístico de prueba es superior que el valor de tablas (de la distribución
F), Fν,n – 2, se rechaza la hipótesis nula y por consiguiente se acepta la alternativa, concluyendo
que la variable independiente (X) si tiene efecto significativo sobre la variable dependiente (Y).
Como vimos anteriormente, a parte de las pruebas de hipótesis; también podemos generalizar
sobre los parámetros a partir de los estimadores, mediante intervalos de confianza. Esto es,
encontraremos dos límites, inferior y superior, dentro de los cuales se encontrará el valor
verdadero del parámetro del modelo en cuestión.
1 X 2 1 X 2
ˆ 0 t ,n 2
MSE 0 ˆ 0 t ,n 2 MSE
2
n Sxx 2
n Sxx
Aquí, como β0 representa solamente una posición, no debe existir problema alguno en cuanto
a la conclusión de los resultados obtenidos.
MSE MSE
ˆ 1 t ,n 2
1 ˆ 1 t ,n 2
2 Sxx 2 Sxx
En este caso la conclusión si depende del resultado obtenido, veamos los casos posibles:
Puede que el intervalo resulte en a 1 b ; la conclusión apropiada será que por cada
incremento en X, Y, disminuirá, en promedio, por lo menos b y a lo mucho a veces.
Otro resultado posible para el intervalo sería a 1 b ; la conclusión será, en este caso, que
por cada incremento en X, Y se incrementará, en promedio, por lo menos a y a lo mucho b
veces.
Si el resultado del intervalo es a 1 b , en este caso, solamente concluiremos que no se
puede afirmar que X tenga efecto sobre Y.
relación entre X y Y, de que medida X afecta a Y. También podemos utilizar este modelo para
predecir un valor futuro de Y dado un valor determinado de X.
Esto es, ¿Cuál es el valor esperado de Y cuando X = X0?, solamente hay que introducir el valor
de X0 en la variable X del modelo.
Yˆ ˆ 0 ˆ 1 X 0
Podemos calcular intervalos de confianza tanto para la media de una serie de observaciones
(para la recta verdadera) como para una observación futura en particular.
El intervalo de confianza de (1 –α)100% para el valor esperado de Y cuando X = X0, esta dado
por la ecuación:
1 X X 2 1 X 0 X 2
Yˆ0 t ,n 2
MSE 0 y ˆ
Y0 t ,n 2 MSE
2
n Sxx 2
n Sxx
El intervalo de confianza de (1 - α) 100% para una observación futura de Y cuando X = X0, está
dado por la expresión:
1 X 0 X 2 1 X 0 X 2
ˆ 0 t
Y MSE 1 ˆ 0 t
Y0 Y MSE 1
,n 2 ,n 2
2
n Sxx 2
n Sxx
1 1 X X 2 1 1 X 0 X 2
Yˆ0 t ,n 2
MSE 0 Y0 ˆ
Y0 t ,n 2 MSE
2
k n Sxx 2
k n Sxx
MEDIDAS DE ADECUACION DEL MODELO
El siguiente paso ahora es determinar si el modelo calculado nos sirve para representar la
relación entre las variables.
Para esto, el modelo tiene que pasar una serie de pruebas ó medidas de adecuación. Dichas
medidas son:
La diferencia entre los valores observados de Y y los valores estimados de esta variable resulta
en los errores o residuos:
ei Yi Yˆi
Graficamos estos residuos ya sea contra los valores de X, contra los valores estimados de Y,
contra los valores observados de Y o contra la variable tiempo, si es que se tiene.
Basta comparar, esta gráfica con los siguientes patrones para llegar a una conclusión acerca
de la adecuación del modelo:
ei ei
0 0
Yi Yi
En este caso, la variación de los residuos La variación crece a medida que la
es constante. variable Yi o el tiempo crece.
El modelo lineal sí es adecuado El modelo no es adecuado.
ei ei
0 0
Y Y
La variación de los residuos no es lineal.
La variación es irregular. i i
El modelo lineal no es adecuado para expresar la
El modelo no es adecuado relación entre X y Y.
Se puede ajustar dicha relación como un modelo
cuadrático, sólo basta agregar una variable de
orden superior.
Y = 0 + 1X + 2X2
COEFICIENTE DE DETERMINACION
El coeficiente de determinación nos permite evaluar qué tanta variación de los valores de Y se
explica mediante el modelo de regresión lineal simple.
Este coeficiente de determinación se representa por el símbolo R2; toma valores entre 0 y 1. A
medida que se acerca a 1 el modelo sí es adecuado puesto que explica la mayor cantidad de
variación presente en los datos.
En tanto R2 se acerque a cero, el modelo deja de ser adecuado puesto que la cantidad de
variación de los datos que se explica mediante el modelo es pobre.
SSR
R2 100%
Syy
Esta prueba nos permite determinar si el modelo lineal se puede utilizar para representar la
relación entre las variables, principalmente en aquellos casos en los cuales para un mismo
valor de X se tienen mas de una observación en Y:
Para este procedimiento se requiere descomponer la suma de cuadrados del error en dos
partes:
SSE = SSLOF + SSPE
Donde:
Sabemos que:
Entonces:
Y Yi
m ni
SS PE ij
i 1 i 1
Y
SSLOF SSE SSPE
SS LOF
F02 m2
SS PE
nm
Hasta este momento hemos relacionado dos variables que suponemos de antemano tienen
una relación entre sí, esto es, cualquier cambio que provoquemos en la variable independiente,
trae como consecuencia un cambio en la variable dependiente.
Ahora bien, puede haber casos en que las dos variables, X y Y, sean aleatorias; ninguna tiene
efecto sobre la otra, pero sería apropiado relacionar dichas variables (siempre que sea
posible).
Podemos relacionar dichas variables mediante el modelo de regresión lineal simple
Y 0 1 X
Aunque éste no nos dice nada sobre la existencia de la relación entre las dos variables.
Es el coeficiente de correlación el que va a determinar si las dos variables están relacionadas
entre sí.
El coeficiente de correlación se representa mediante el símbolo (rho). Se define mediante:
xy
x y
x
1
y
Aquí vemos que el coeficiente de correlación está relacionado con 1 sin que esto represente
que se trate de conceptos iguales.
Y Y Y
1 > 0
>0 1 < 0
<0
1 = 0
=0
X X X
Los estimadores de los parámetros del modelo de regresión son los mismos calculados en
temas anteriores:
ˆ 0 Y ˆ 1 X
Sxy
ˆ 1
Sxx
En tanto que el estimador del coeficiente de correlación se puede calcular mediante:
Sxy
r
Sxx Syy12
Sxy Sxy
r2
Sxx Syy
Sxy
Como ̂1 :
Sxx
̂1 Sxy
r2
Syy
y ̂ 1 Sxy SSR :
entonces:
SSR
r2 R2
Syy
SSR
r R2
Syy
Al igual con los parámetros del modelo de regresión, también se pueden hacer inferencias
sobre el coeficiente de correlación verdadero; ya sea mediante pruebas de hipótesis o
mediante intervalos de confianza.
Para establecer si existe una relación verdadera entre X y Y, podemos realizar la siguiente
prueba de hipótesis:
H0 : 0
Ha : 0
H 0 : 0
contra la alternativa
H a : 0
El estadístico de prueba es:
zo tanh 1 r tanh 1 0 n 3
donde
1 1 x
tanh 1 x In
2 1 x
Este estadístico de prueba sigue una distribución normal estándar.
Entonces, si el valor absoluto del estadístico de prueba es mayor que el valor de tablas z ,
se rechaza H0 y se acepta la alternativa: el coeficiente de correlación verdadero es diferente
del valor con el que se está comparando.
donde
e x ex
tanhx x
e ex
EJERCICIO
X Y
1.0 101.4
1.5 117.4
1.5 117.1
1.5 106.2
2.0 131.9
2.0 146.9
2.2 146.8
2.4 133.9
2.5 111.3
2.5 123.0
2.8 125.1
2.8 145.2
3.0 134.3
3.0 144.5
3.2 143.7
3.3 146.9
I.Ajuste un modelo de regresión lineal simple a los datos.
II.Pruebe la significancia y la falta de ajuste de la regresión. Utilice
III.Construya un intervalo de confianza del 90 % en la pendiente.
IV. Construya un intervalo de confianza del 98 % en la intersección.
V. Construya un intervalo de confianza del 95 % sobre la línea de regresión real en X =
2.5
VI. ¿Qué porcentaje de la variabilidad en la resistencia del papel se explica a partir de la
concentración de madera dura en la pulpa original?
Para encontrar las respuestas a cada uno de los incisos del ejercicio anterior, necesitamos
primero calcular las sumatorias de las variables X y Y:
n= 16
ΣX = 37.2
ΣX2 = 93.66
ΣY = 2075.6
ΣY2 = 272908.02
ΣXY = 4937.97
Con los valores anteriores, calcularemos las expresiones Sxx, Sxy que nos permitirán
determinar los estimadores de los parámetros del modelo solicitado en el inciso 1 del ejercicio.
X Y
Sxy XY
n
Sxy 4937.97
37.2 2075.6
16
Sxy 112.2
X 2
Sxx X 2
n
Sxx 93.66
37.2
2
16
Sxx 7.17
ˆ 0 Y 1 X
ˆ 0 129.725 15.64852.325
ˆ 0 93.3422
El primer inciso nos pide ajustar un modelo de regresión lineal simple a los datos:
Yˆ 93.3422 15.6485X
De aquí concluimos lo siguiente:
La línea de regresión cortará el eje Y en y = 93.3422.
Por cada incremento en la concentración de madera dura en la pulpa original, la resis-
tencia del papel se incrementará 15.6485 veces en promedio.
Enseguida calcularemos los valores de Syy, SSR y SSE que nos permitirán realizar la prueba
de significancia del modelo.
Y 2
Syy Y 2
n
Syy 272908.02
2075.62
16
Syy 3650.81
SSR ˆ 1 Sxy
SSR 15.6485112.2
SSR 1755.7617
F0
SSR1
SSE n 2
1755.7617
1
F0
1895. 0483
14
1755.7617
F0
135.3605
F0 12.9710
El valor de las tablas de la distribución F con un nivel de significancia del 5 % con 1 y 14 grados
de libertad en el numerador y el denominador, respectivamente, es 4.6
Al comparar el estadístico de prueba con dicho valor vemos que 12.9710 es mayor que 4.6.
esto no lleva a rechazar la hipótesis nula y por consiguiente a aceptar la alternativa:
La resistencia del papel sí está relacionada significativamente con la concentración de
madera dura en la pulpa original.
En la segunda parte del inciso 2 se pide probar también la falta de ajuste del modelo. Para
esto acomodaremos los valores de X, que estén repetidos en los datos, con sus respectivos
valores de Y de la siguiente forma:
X Y Y Y Y =
2
i
SSpe = 516.4166
La suma de los cuadrados del error es 1895.0483.
La suma de los cuadrados debida al error puro es 516.4166
Y la suma de los cuadrados debida a la falta de ajuste es 1895.0483 – 516.4166 = 1378.6317
En este caso tenemos n = 16 parejas de valores de X y de Y, y m = 10 valores distintos de X.
Planteamos las hipótesis:
H 0 : el modelo lineal se ajusta a los datos
H a : el modelo lineal no se ajusta a los datos
el estadístico de prueba es:
SSlof
F02 m2
SS pe
nm
1378.6317
F02 8
516.4166
6
F02 2.0022
El valor de las tablas de la distribución F con un nivel de significancia del 5 % y con 8 y 6 grados
de libertad en el numerador y el denominador, respectivamente, es 4.15
Comparando el estadístico de prueba con el valor encontrado en las tablas de la distribución
F, vemos que dicho estadístico es menor que 4.15, por lo tanto no podemos rechazar la
hipótesis nula:
No se puede afirmar que el modelo lineal no se ajuste a los datos, por lo que podemos
decir que dicho modelo sí es adecuado para representar la relación entre las variables
del ejercicio.
En el inciso 3 se pide calcular un intervalo de confianza del 90% para la pendiente de la línea
de regresión. Para esto necesitamos buscar en las tablas de la distribución t-student el valor
de t0.5,14. Este valor en la tablas es 1.761, por lo que el intervalo de confianza quedará de la
siguiente manera:
MSE MSE
ˆ 1 t ,n 2
1 ˆ 1 t ,n 2
2 Sxx 2 Sxx
135.3605 135.3605
15.6485 1.761 1 15.6485 1.761
7.17 7.17
7.9970 1 23.2999
aquí concluiremos:
Se puede afirmar con un 90% de certeza que por cada incremento en la concentración
de madera dura en la pulpa original del papel, la resistencia del mismo se incrementará
por lo menos 7.9970 y a lo mucho 23.2999 veces en promedio.
1 X 2 1 X 2
ˆ 0 t ,n 2
MSE 0
ˆ 0 t ,n 2 MSE
2 n Sxx 2 n Sxx
1 2.3252 1 2.3252
93.3422 2.624 135.3605 0 93. 3422 2. 624 135. 3605
16 7. 17 16 7.17
65.7575 0 120.9268
La conclusión será:
Se puede afirmar con un 98% de certeza que la línea de regresión cortará el eje Y en por
lo menos 65.7575 y a lo mucho 120.9268.
Para el inciso 5 en el que se pide un intervalo de confianza del 95% para la línea de regresión
verdadera en
X = 2.5, buscaremos el valor de t0.025,14 en las tablas de la distribución t-student. Este valor es
2.145.
También necesitamos determinar el valor estimado de Y cuando X es igual a 2.5; para esto
introducimos dicho valor en el modelo de regresión lineal calculado en el primer inciso:
Yˆ0 93.3422 15.6485X 0
Yˆ0 93.3422 15.64852.5
Yˆ0 132.4634
El intervalo de confianza para la respuesta media de Y queda determinado de la siguiente
manera:
1 X 0 X 2 1 X 0 X 2
Y0 t ,n 2
MSE Y Y0 t ,n 2 MSE
2
n Sxx 2
n Sxx
SSR
R2
Syy
1755.7617
R2
3650.81
R 0.4809
2
Yˆ 93.3422 15.6485X
como el valor de R2 es bajo, podemos concluir que el modelo no es adecuado para representar
la relación entre los valores de X y Y.
7.995711933 23.3013592
COEFICIENTE DE DETERMINACION
X1 : 2.5
I.C. para
o: 0.98 R^2
I.C. para
0.9 0.48092497
I.C. para
Yo: 0.95
I.C. para Yo: 0.95 COEFICIENTE DE CORRELACION
I.C. para 0.95
r
0.693487541
ESTADISTICO DE PRUEBA
to
3.601534774
INTERVALO DE CONFIANZA
0.301389825 0.884970481
EJERCICIO PROPUESTO
En 1991 se publicó un trabajo “Diseñando plantas en climas difíciles” en la revista Field Crops
Research, los datos usados en la investigación son:
X= Duración
92 92 96 100 102 102 106 106 121 143
1.7 2.3 1.9 2.0 1.5 1.7 1.6 1.8 1 0.3
y= Rendimiento
DESARROLLO
INTRODUCCION
(Regresión lineal) Asumiremos que si hay una relación de causalidad de la variable X (causa)
hacia la variable Y (efecto). Además, se sabe que esa relación es de tipo lineal, dentro del
rango de los datos.
Estableceremos un modelo para explicar la causa (Y) en términos del efecto (X), del tipo
siguiente: Y = a + bX + ei
Para i = 1,2,..., n
En que a y b son dos cantidades fijas (parámetros del modelo) y los e i son cantidades
aleatorias que representan las diferencias entre lo que postula el modelo a + bx y lo que
realmente se observa, y.
Por esa razón a los ei los llamaremos "errores" o "errores aleatorios". Se asume que tienen
valor esperado 0 y desviación estándar común σ.
Representación de los datos en un gráfico de dispersión:
1.5
1 Series1
Lineal (Series1)
0.5
0
0 50 100 150 200
Duracion
La tabla siguiente contiene los valores de Y ajustados, para cada valor de X, además de los
valores de Y observados, a modo de comparación. Los ajustados se obtienen por la fórmula
y = 5.2068 -0.0342x
El promedio de los valores ajustados es igual al promedio de los valores observados, y que el
promedio de las diferencias es cero.
La raíz cuadrada del promedio de los cuadrados de las diferencias entre los valores
observados y ajustados, es una estimación de la varianza del error, σ2; la estimación de la
desviación estándar del error es igual a
Hay dos objetivos básicos en el ajuste de un modelo de regresión:
Conocer la relación existente entre la variable respuesta y las variables regreso-
ras. En el caso de la regresión lineal simple se estima la mejor recta de regresión
que relaciona la variable Y con la variable X y se cuantifica la importancia de dicha
relación por medio del coeficiente de correlación, r.
El rango de R2 es entre 0, cero ajuste, hasta 1, ajuste perfecto (cuando los puntos aparecen
en un línea recta).
n = 10 x = 106 y = 1.58
Sxx= ∑ (xi− x)2= 2154
= (-73.7)2_ = 0.8829398
(2154)(2.856)
ESTIMACION Y PREDICCION
Utilizar el modelo de regresión ajustado para “predecir” el valor de la variable
respuesta Y cuando la variable regresora toma un valor determinado:
X = xt.
Se=
= y (+/-) (1.85955*0.072276)
En Excel
Conclusión
Con un nivel de confianza de 95% (o nivel de significancia de 0.05) se puede esperar que con
103 días de duración de cosecha de porotos de soya su rendimiento en toneladas por hectárea
se encuentre entre 1.515599253 y 1.784400747.
HIPOTESIS (BILATERAL)
Es necesario evaluar que tan bien el modelo explica la relación entre X y Y
La hipótesis de mayor interés plantea que (la pendiente β1 o b) es significativamente diferente
de cero.
H0: β1 (b que es la pendiente) = 0
Ha: β1 (b que es la pendiente) ≠ 0
Cuando β1 = 0; y = 5.2068 + 0x
= - 0.016
SCE (sumatoria del cuadrado del error)
Σ𝑒i = 0.3343502
CME: (Cuadrado Medio del Error SCE) Es la suma de cuadrados del error y mide la variabilidad
no explicada por la recta de regresión.
= 0.3343502
I b I > t (0.025, 5) = 2.57058
I a I > t (0.025, 8) = 2.30600
Conclusion
I-7.76763597I > 2.57058
I 11.04616429I > 2.30600
Se rechazan las Hipótesis Nulas para ambos parámetros por lo que existe suficiente evidencia
estadística para decir que existe una buena relación lineal entre las variables.
Análisis de Regresión Múltiple
Para poder resolver se puede utilizar programas informáticos como AD+, SPSS y Minitab y Ex-
cel.
Mide la tasa porcentual de los cambios de Y que pueden ser explicados por , y si-
multáneamente.
1 13 15 15 13
2 13 14 13 12
3 13 16 13 14
4 15 20 14 16
5 16 18 18 17
6 15 16 17 15
7 12 13 15 11
8 13 16 14 15
9 13 15 14 13
10 13 14 13 10
11 11 12 12 10
12 14 16 11 14
13 15 17 16 15
14 15 19 14 16
15 15 13 15 10
Lo que buscamos es construir un modelo para determinar la dependencia que exista de apren-
dizaje reflejada en las notas de la asignatura de PHP, conociendo las notas de las asignaturas
Algoritmos, Base de Datos y Programación.
Se presentara la siguiente ecuación a resolver:
Utilizando las fórmulas de las ecuaciones normales a los datos obtendremos los coeficientes
de regresión o utilizando Regresión de Análisis de datos, en la Hoja de Cálculo de Excel po-
demos calcular también los coeficientes de regresión:
IV.- CONCLUSIONES
El 69.70% del aprendizaje del Curso de PHP puede ser explicado mediante las notas obtenidas
por las asignaturas de Algoritmos, Base de Datos y Programación.
REGRESION NO LINEAL
Por tanto, debemos buscar la función que ha de describir la dependencia entre las dos varia-
bles.
Nos limitaremos al estudio de las más utilizadas: la función parabólica, la logarítmica, la expo-
nencial y la potencial.
PARÁBOLA DE REGRESIÓN
En muchos casos, es una función de segundo grado la que se ajusta lo suficiente a la situación
real dada.
Y=a+bX+cX2
donde, siguiendo la notación habitual, yi son los valores observados de la variable dependiente,
e los valores estimados según el modelo; por tanto, podemos escribir D de la forma:
Para encontrar los valores de a, b y c que hacen mínima la expresión anterior, deberemos
igualar las derivadas parciales de D con respecto a dichos parámetros a cero y resolver el
sistema resultante. Las ecuaciones que forman dicho sistema se conocen como ecuaciones
normales de Gauss (igual que en el caso de la regresión lineal simple).
FUNCIÓN EXPONENCIAL, POTENCIAL Y LOGARÍTMICA
v Modelo potencial:
Como vemos es la ecuación de una recta: Y=a+bX, donde ahora a = logA. De modo que el
problema es sencillo, basta con transformar Y en logY y X en logX y ajustar una recta a los
valores transformados. El parámetro b del modelo potencial coincide con el coeficiente de re-
gresión de la recta ajustada a los datos transformados, y A lo obtenemos mediante el antilog(a).
v Modelo exponencial:
También se trata de la ecuación de una recta Y=a+bX, pero ahora ajustándola a logY y a X;
de modo que, para obtener el parámetro A del modelo exponencial, basta con hacer antilog(a),
y el parámetro B se obtiene tomando antilog(b).
v Modelo logarítmico:
La curva logarítmica Y = a + b logX es también una recta, pero en lugar de estar referida a las
variables originales X e Y, está referida a logX y a Y.
Hemos visto, cómo, a pesar de ser inicialmente modelos mucho más complejos que el de una
recta, estos tres últimos se reducen al modelo lineal sin más que transformar adecuadamente
los datos de partida.
TABLAS
BIBLIOGRAFIA Y REFERENCIAS
Probabilidad y Estadistica Para Ingenieros 6ta Edicion - Ronald E. Walpole & Raymond H.
Myers.
Probabilidad y estadística para ingenieros Miller Freund Johnson 4a edición
Probabilidad y Estadistica - Schaum (Murray R Spiegel)
Chacón José. Una introducción a la ESTADISTICA INFERENCIAL.
SUÁREZ, Mario, (2012), Interaprendizaje de Probabilidades y Estadística Inferencial con
Excel, Winstats y Graph, Primera Edición. Imprenta M & V, Ibarra, Ecuador
° http://www.monografias.com/trabajos15/estadistica/estadistica.shtml
° http://www.vadenumeros.es/sociales/tipos-de-muestreo.htm
° http://es.scribd.com/doc/94908795/Muestreo
° Casal Jordi, Mateu Enric. TIPOS DE MUESTREO. CReSA. Centre de Recerca en Sanitat
Animal / Dep. Sanitat i Anatomia Animals, Universitat Autònoma de Barcelona, 08193-
Bellaterra, Barcelona. (2003). Pág. 3
° http://www.eio.uva.es/tapia/polietapico11-12.pdf
°_http://ocwus.us.es/métodos-de-investigacion-y-diagnostico-en-educacion/análisis-de-datos-
en-la-investicacion-educativa/bloque_II/page_26.htm/
° http://predictive.files.wordpress.com/2009/04/binder12.pdf
° www.piedrasnegras.gob.mx/wp.../2010/06/Perfil-Economico.pptx
° http://es.wikipedia.org/wiki/Piedras_Negras
° http://www.inegi.org.mx/
° http://www.estadisticafacil.com/Main/TeoremaDelLimiteCentral
° http://www.buenastareas.com/ensayos/Estadistica-Inferencial/2797362.html
° http://www.itch.edu.mx/academic/industrial/estadistica1/cap01b.html
° http://www.inegi.org.mx/
° http://www.slideshare.net/hfunes/distribuciones-muestrales-presentation
° http://es.wikipedia.org/wiki/Distribuci%C3%B3n_normal
° http://es.wikipedia.org/wiki/Distribuci%C3%B3n_muestral
° http://www.monografias.com/trabajos-pdf4/la-estadistica-inferencial/la-estadistica-
inferencial.pdf
° http://es.wikipedia.org/wiki/Distribuci%C3%B3n_t_de_Student
° http://virtual.uptc.edu.co/ova/estadistica/docs/libros/tstudent.pdf
° http://jacroman.blogspot.mx/2009/12/distribucion-t-student.html
° Orellana, Liliana. ESTADISTICA DESCRIPTIA. Capitulo 1, Introducción. (marzo 2011)
° http://es.wikipedia.org/wiki/gradodelibertad(estad%C3%ADstica
°http://www.buenastareas.com/ensayos/grados-de-libertad/1670595
°http://fisica.udea.edu.co/~labgicm/Laboratorio%20Fisica%201_2011/2010_teoria%20de%20
errores/Distribucion%20de%20t%20Student.pdf
°http://es.wikipedia.org/wiki/Distribuci%C3%B3n_de_probabilidad#Distribucionesdevariableon
tinua
° http://es.wikipedia.org/wiki/Distribuci%C3%B3n_%CF%87%C2%B2
° http://es.wikipedia.org/wiki/Distribuci%C3%B3n_exponencial
° http://es.wikipedia.org/wiki/Distribuci%C3%B3n_t_de_Student
° http://es.wikipedia.org/wiki/Distribuci%C3%B3n_Gamma
° http://es.wikipedia.org/wiki/Distribuci%C3%B3n_Beta
° http://www.hrc.es/bioest/esti_medias.html
° http://www.itch.edu.mx/academic/industrial/estadistica1/cap01b.html
° http://www.hrc.es/bioest/esti_medias.html
° http://www.itch.edu.mx/academic/industrial/estadistica1/cap01b.html
° http://www.itch.edu.mx/academic/industrial/estadistica1/cap01c.html
°http://biplot.usal.es/ALUMNOS/BIOLOGIA/BIOTECNOLOGIA/transpcontrastes2.pdf
~http://www.monografias.com/trabajos30/prueba-de-hipotesis/prueba-de-hipotesis.shtml
~www.itescam.edu.mx/principal/sylabus/fpdb/recursos/r16617.DOC
http://pis.unicauca.edu.co/moodle2.1.2/pluginfile.php/20816/mod_resource/content/0/Material
es/Libro_de_metodologia/CAPITULO_5.pdf
www.itescam.edu.mx/principal/sylabus/fpdb/recursos/r16617.DOC
http://www.monografias.com/trabajos91/prueba-hipotesis-proporciones-z-y-ji-cuadrado-
empleando-excel-y-winstats/prueba-hipotesis-proporciones-z-y-ji-cuadrado-empleando-excel-
y-winstats.shtml
http://www.monografias.com/trabajos91/prueba-hipotesis-proporciones-z-y-ji-cuadrado-
empleando-excel-y-winstats/prueba-hipotesis-proporciones-z-y-ji-cuadrado-empleando-excel-
y-winstats.shtml
http://www.uv.es/ceaces/base/regresion/bondad.htm
http://bellman.ciencias.uniovi.es/estadistica2/estadistica2_archivos/ajuste.pdf
http://www.buenastareas.com/ensayos/Pruebas-De-Bondad-De-Ajuste/158033.html