Unidad Academica Univesistaria La Paz

Estadística básica
CUADERNILLO
UNIDAD ACADEMICA
UNIVESISTARIA LA PAZ
ESTADÍSTICAS BÁSICAS
“CUADERNILLO”
INTEGRANTES:
Audelo Rebollar Karla
Estrada Olvera Nallely Haydee
Ramírez Ortiz Gerardo
San Vicente Fernández Gabriela
1
[ESTADISTICA BASICA]
CUADERNILLO
TEMARIO
UNIDAD TEMAS SUBTEMAS
1.1 Definición y campo de

la estadística.
1.2 Planteamiento de un
caso específico.
1 Estadística descriptiva. 1.3 Organización de datos.
1.4 Medidas de tendencia
central.
1.5 Medidas de dispersión.
1.6 Aplicación en el caso
específico.
2 Distribuciones muéstrales.
2.1 Introducción.
2.2 Distribución muestral
de la media con varianza
conocida.
2.3 Teorema del límite
central.
de la proporción.
de la diferencia de medias
y de diferencia de
proporciones.
de la media con varianza
desconocida.
de la diferencia de medias.
de la varianza.
de la razón de varianzas.
específico.
3 Teoría de la estimación.
3.1 Introducción.
3.2 Estimación y
propiedades de los
2
CUADERNILLO
estimadores.
3.3 Estimación por
intervalo.
3.4 Intervalo de confianza
para la media con varianza
conocida y desconocida.
para una proporción y
diferencia de proporciones.
para diferencias de medias
con varianza conocida y
desconocida.
para una varianza.
para una razón de
varianzas.
específico.
4 Pruebas de hipótesis.
4.1 Conceptos de la teoría
de prueba de hipótesis.
4.2 Errores tipo I y II.
4.3 Prueba de hipótesis
para una media con
varianza conocida y
desconocida.
para una proporción y
diferencia de proporciones.
para diferencia de medias
con varianzas conocidas y
desconocidas.
para una varianza
para una razón de
varianzas.
4.8 Prueba de bondad de
ajuste.
ESTADISTICA:
3
CUADERNILLO
La estadística es la ciencia cuyo objetivo es reunir información cuantitativa

relacionada a individuos, grupos, series de hechos, entre otros. Gracias al análisis
de estos datos se pueden deducir algunos significados precisos o algunas
previsiones para el futuro. La estadística, en general, es la ciencia que trata la
recopilación, la organización, la presentación, el análisis y la interpretación de
datos numéricos con el fin de realizar una toma de decisiones más efectiva.
“Ciencia que se ocupa del estudio de fenómenos de tipo genérico, normalmente

complejos y enmarcados en un universo variable, mediante el empleo de modelos
de reducción de la información y de análisis de validación de los resultados en
términos de representatividad”. La información puede ser numérica, alfabética o
simbólica. Consta de las fases de recogida de información, de análisis y de
presentación e interpretación de los resultados y elaboración de métodos.
IMPORTANCIA
La estadística resulta muy útil no sólo para recopilar y describir datos, sino
también para interpretar la información obtenida, que puede ser aprovechada para
demostrar la evolución de un fenómeno a través de cierto tiempo.
En México, el Instituto Nacional de Estadística y Geografía (INEGI) se encarga de

recabar información estadística y geográfica de todo el país, en diferentes áreas y
contextos. Los datos que publica sirven para dar a conocer a cualquier persona la
situación en la que se encuentra el área de donde se obtuvo la información.
Al gobierno le son muy útiles para tomar decisiones, por ejemplo, para saber qué
acciones se deben implementar en tal o cual zona del país, conocer los avances
que se han registrado o como herramienta para la evaluación de un proyecto. Los
métodos estadísticos se utilizan prácticamente en investigaciones de todas las
áreas de conocimiento; tanto en el ámbito académico, como en el profesional y
laboral.
DIVISIÓN DE LA ESTADÍSTICA
4
CUADERNILLO
La Estadística para su mejor estudio se ha dividido en dos grandes ramas: la

Estadística Descriptiva y la Inferencial.
 Estadística Descriptiva: La función descriptiva de la estadística se enfoca

en la presentación y clasificación de los datos obtenidos de la población
que se analiza.
 Estadística Inferencial: Esta aplicación de la estadística busca plantear y

resolver problemas específicos y/o hacer previsiones a partir de los datos
de una muestra.
La estadística descriptiva describe datos.

La estadística Inferencial infiere con esos datos, entendiendo inferir como la
predicción de un resultado.
CONCEPTOS BÁSICOS:
Población: Conjunto de todos los elementos que presentan una característica

común determinada, observable y medible. Por ejemplo, si el elemento es una
persona, se pueden estudiar las características edad, peso, nacionalidad, sexo,
etc. Los elementos que integran una población pueden corresponder apersonas,
objetos o grupos (por ejemplo, familias, las manzanas de una cosecha, empleados
de una empresa, etc.).
Individuo: Un individuo o unidad estadística es cada uno de los elementos que

componen la población. Nota que un individuo en estadística puede ser distinto a
un individuo como persona. Por ejemplo, en los censos económicos se obtienen
datos de los negocios. En este caso cada negocio, que está formado por varias
personas, es un individuo de la población.
Muestra: La mayoría de los estudios estadísticos se realiza, no a partir de toda la

población, sino de un subconjunto o parte de ésta, llamado muestra, partiendo del
supuesto de que este sub conjunto presenta el mismo comportamiento y
características que la población. En general el tamaño de la muestra es mucho
menor al tamaño de la población.
5
CUADERNILLO
Muestreo: Es el proceso de recabar los datos que se desean analizar, obtenidos
de una proporción reducida y representativa de la población.
Variable: Se llama variable a una característica que se observa en una población

o muestra, y a la cual se desea estudiar. La variable puede tomar diferentes
valores dependiendo de cada individuo. Las variables se pueden clasificar en
cuantitativas y cualitativas:
a) Variable cuantitativa: se expresa en valores numéricos. Dentro de ella, se

subdividen en:
 Discreta: Se tratan de variables expresadas con valores enteros. Ej. N°
de hijos de una Familia, n° de alumnos de un curso.
 Continua: son valores que pueden tomar cualquier valor dentro de un
intervalo. Ej. Peso, estatura, sueldos.
b) Variable cualitativa: es aquella que describe cualidades. No son numéricas

y se subdividen en:
 Nominal: son variables presentadas sin orden ni jerarquía. Ej. Estado civil,
preferencia por una marca, sexo, lugar de residencia.
 Ordinal: son variables organizadas de acuerdo con una clasificación. Ej.
grado de estudios, días de la semana, calidad de la atención, nivel
socioeconómico.
6
CUADERNILLO
DATOS AGRUPADOS
Ordenamiento de datos en arreglos de datos y distribuciones de frecuencias
Una ordenación de datos es una de las formas más sencillas de presentarlos:

organiza los valores en orden ascendente o descendente. La ordenación de datos
ofrece varias ventajas con respecto a los datos sin procesar:
 Podemos identificar los valores mayor y menor rápidamente
 Es fácil dividir los datos en secciones
 Podemos ver si algunos valores aparecen más de una vez en el arreglo
 Podemos observar la distancia entre valores sucesivos de los datos
DATOS AGRUPADOS
Para ilustrar el método de datos agrupados, observaremos la tabla 1, que muestra
los rendimientos anuales de ACCIONES de una empresa a lo largo de un periodo
de 30 años expresados en tanto porciento y corregidos por el nivel de inflación.
Para resumir estos datos, podríamos calcular su media y varianza.
La tarea de interpretar los datos de la tabla 1 pueda hacerse más fácil si se reduce
la cantidad de información que ha de ser asimilada, agrupando las observaciones.
TABLA 1 Rendimientos anuales en tanto porciento y corregidos por el nivel de

inflación de unas ordinarias en un periodo de 30 años.
1.1 TABLA 1
7
CUADERNILLO
-3,2 17,4 -13,4 -9,9 20,4 15,1
2,7 -1,6 41,0 20,8 6,1 -21,8

20,9 53,4 10,3 15,1 -13,8 -34,8
24,6 31,1 -1,0 10,3 -1,5 28,3
17,2 3,6 26,0 -13,0 10,6 18,2
1.2 TABLA 2. Subdivisión de los rendimientos de la tabla 1 en clases
Rendimiento corregido por el Número de años Frecuencias Acumuladas

nivel de inflación (frecuencias)
-39,95% a -19,95% 2 2
-19,95% a 0,05% 8 10
0,05% a 20,05% 11 21
20,05% a 40,05% 7 28
40,05% a 60,05% 2 30
Los sub intervalos en los que se han dividido el conjunto de datos, reciben el
nombre de clases, y el número de observaciones de cada clase se llama
frecuencia. Para cada clase particular, la frecuencia acumulada es el número total
de observaciones que hay en esa clase y en las anteriores.
EJERCICIO
8
CUADERNILLO
f M
Venta en Frecuencia Marca de fM fM 2
dólares clase
10-20 1 15 15 225
20-30 8 25 200 5000
30-40 10 35 350 12250
40-50 9 45 405 18225
50-60 8 55 440 24200
60-70 4 65 260 16900
70-80 2 75 150 11250
Σfᵢ=42 ΣfᵢMᵢ=1820 Σ M 2ᵢ=88050
a) Encuentre la media aritmética

n
f ᵢM ᵢ 1820
x́=∑ x́= =43.33
i=1 Σf ᵢ 42
b) Determine la varianza
n
fi M 2 8850
S2=∑ −x́ 2 S 2= −¿
i =1 N 42
2096.428571-1877.4889= 218.93
C) Encuentre la desviación estándar de la muestra
S=√ S 2 S=√ 218.93=14.7
DISTRIBUCIONES MUÉSTRALES
Las muestras aleatorias obtenidas de una población son, por naturaleza propia,
impredecibles. No se esperaría que dos muestras aleatorias del mismo tamaño y
tomadas de la misma población tenga la misma media muestral o que sean
9
CUADERNILLO
completamente parecidas; puede esperarse que cualquier estadístico, como la
media muestral, calculado a partir de las medias en una muestra aleatoria, cambie
su valor de una muestra a otra, por ello, se quiere estudiar la distribución de todos
los valores posibles de un estadístico. Tales distribuciones serán muy importantes
en el estudio de la estadística Inferencial, porque las inferencias sobre las
poblaciones se harán usando estadísticas muéstrales. Como el análisis de las
distribuciones asociadas con los estadísticos muéstrales, podremos juzgar la
confiabilidad de un estadístico muestral como un instrumento para hacer
inferencias sobre un parámetro poblacional desconocido.
Como los valores de un estadístico, tal como x, varían de una muestra aleatoria a
otra, se le puede considerar como una variable aleatoria con su correspondiente
distribución de frecuencias.
La distribución de frecuencia de un estadístico muestral se denomina distribución

muestral. En general, la distribución muestral de un estadístico es la de todos sus
valores posibles calculados a partir de muestras del mismo tamaño.
Suponga que se han seleccionado muestras aleatorias de tamaño 20 en una

población grande. Se calcula la madia muestral x para cada muestra; la colección
de todas estas medias muéstrales recibe el nombre de distribución muestral de
medias.
10
CUADERNILLO
Suponga que se eligen muestras aleatorias de tamaño 20, de una población

grande, y se calcula la deviación estándar de cada una. La colección de todas
estas desviaciones estándar muéstrales se llama distribución muestral de la
desviación estándar, y lo podemos ver en la siguiente figura:
EJEMPLO 1
Una población normal tiene μ=80 σ =14
a) Calcule la probabilidad de tener un valor entre 75 y 90
90−80
μ=80 Z= =0.7142=0.2611
14
σ =14
P (75<X<90)
11
CUADERNILLO
75−80
Z= =0.3571=0.1368 0.2611+0.1368=39.79%
14
b) Halle la probabilidad de tener un valor de 75 0 menor

μ=80 0.5 + .1368 = .6368
σ =14 1 - .6368 = .3632
P (75<X) =36.32%
c) Calcule la probabilidad de tener un valor entre 75 y 70
μ=80
σ =14
70−80
P (75<X<70) Z= =0.7142 =.2611
14
12
CUADERNILLO
.2611 - .1368= .1243
=12.43%
EJEMPLO 2
La media de la población normal, es 60 y la desviación=12. Se toma una muestra
aleatoria de 9. Calcule la probabilidad de que la media muestral.
a) Sea mayor que 63

x̅=60 P (x̅>63)
63−20
3
σ =56 Z= 12 = =.75
4
√9
.5 + 2734 = .7734 1 - .7734 = 0.2266 = 22.66%
b) Menor que 56
P (x̅>56) .05 + .0398 = .539

13
CUADERNILLO
56−60
4
Z= 12 = =1 1 - .5398 = .4602= 46.02%
4
√9
c) Este entre 56 y 63
P (56<X<63) .0398 + .2734 = 0.3132 0.3132X100 = 31.32%
14
CUADERNILLO
DISTRIBUCIÓN MUESTRAL DE LA PROPORCIÓN

Uno de los objetivos de la estadística es conocer acerca del comportamiento de
parámetros poblacionales tales como: la media (μ), la varianza (σ 2) o la
proporción (p).
Para ello se extrae una muestra aleatoria de la población y se calcula el valor de

un estadístico correspondiente, por ejemplo, la media muestral (X), la varianza
muestral.
Y es el conjunto de todas las muestras posibles del mismo tamaño extraídas de

una población, junto con el conjunto de todas las proporciones muéstrales posibles
del mismo tamaño extraídas de una población, junto con el conjunto de todas las
proporciones muéstrales.
La distribución muestral de proporciones es la adecuada para dar respuesta a

estas situaciones. Esta distribución se genera de igual manera que la distribución
muestral de medias, a excepción de que al extraer las muestras de la población se
calcula el estadístico proporción (p=x/n en donde "x" es el número de éxitos u
observaciones de interés y "n" el tamaño de la muestra) en lugar del estadístico
media.
15
CUADERNILLO
EJEMPLO 2
Se elige una muestra de 2000 electores potenciales en el estado de México; se
encontró que 1550 planearon botar por el gobernador actual. ¿Cuál es la
probabilidad de que el gobernador sea elegido presidente de la república? En una
encuesta previa se determino que el 80% de la población total del padrón votante
elegiría a dicho candidato
T.F 1550
P(A) P ( A )= =.775
T .P 2000
.775−.80
Z= =−2.67
P= .80 √ (.775)(.225)
2000
ṕ−P
ṕ= .775 Z=
√ ṕ
n= 2000
q= .225
16
CUADERNILLO
DISTRIBUCIÓN MUESTRAL DE DIFERENCIA DE MEDIAS
Suponga que se tienen dos poblaciones distintas, la primera con media 1 y
desviación estándar 1, y la segunda con media 2 y desviación estándar 2.

Más aún, se elige una muestra aleatoria de tamaño n 1 de la primera población y
una muestra independiente aleatoria de tamaño n 2 de la segunda población; se
calcula la media muestral para cada muestra y la diferencia entre dichas medias.
La colección de todas esas diferencias se llama distribución muestral de las
diferencias entre medias o la distribución muestral del estadístico
17
CUADERNILLO
La distribución es aproximadamente normal para n 1 30 y n2 30. Si las

poblaciones son normales, entonces la distribución muestral de medias es normal
sin importar los tamaños de las muestras.
EJEMPLO
De una población se toma una muestra de 40 observaciones. La media muestral

es de 102 y la desviación estándar de 5. De otra población se toma una muestra
de 50 observaciones y la media muestral es ahora 99 y la desviación estándar es
6. Calcule el valor estadístico de la prueba.
Supongo que las medias poblacionales son iguales a las varianzas.
x͞ 1= 102 Z=¿ ¿ ¿= 99
S1=5
(102−99)(0) 3
Z= = =2.54
1.18 1.18
S2=6
( n−1 ) S 21 +( n2−1) S22 ( 40−1 ) 52 + ( 50−1 ) 6 2 975+1764 2739

S2
= n1 +n −2 2
= 40+ 50−2 = 88
=
88 = 31.13
2
S2 S2 31.13 31.13
σ x1 x 2
√ +
n1 n 2
=
√ 40
+
50
=√ 0.77+0.62= √1.3926=1.18
.5+.4945=0.9945
18
CUADERNILLO
.1-0.9945=.0055
DISTRIBUCION DE PROBABILIIDAD
T DE STUDENT
DISTRIBUCIÓN DE PROBABILIDAD
Con respecto a una variable aleatoria es una función que asigna a cada suceso
definido sobre la variable aleatoria la probabilidad de que dicho suceso ocurra. La
distribución de probabilidad está definida sobre el conjunto de todos los eventos
rango de valores de la variable aleatoria.
Cuando la variable aleatoria toma valores en el conjunto de los números reales, la

distribución de probabilidad está completamente especificada por la función de
distribución, cuyo valor en cada real x es la probabilidad de que la variable
aleatoria sea menor o igual que x.
“T” DE STUDENT
Permite decidir si dos variables aleatorias normales y con la misma varianza

tienen medias diferentes. Dada la ubicuidad de la distribución normal puede
aplicarse en numerosos contextos, para comprobar si la modificación en las
condiciones de un proceso (humano o natural) esencialmente aleatorio producen
una elevación o disminución de la media poblacional. Esto opera decidiendo si una
diferencia en la media muestral entre dos muestras es estadísticamente
significativa, y entonces poder afirmar que las dos muestras corresponden a
distribuciones de probabilidad de media poblacional distinta, o por el contrario
afirmar que la diferencia de medias puede deberse a oscilaciones estadísticas.
La eficacia aumenta con el número de datos del que constan las dos muestras, en
concreto del número de grados de libertad conjunto de las dos muestras, este
número viene siendo Ni el tamaño muestral, es decir, el número de datos en cada
muestral.
19
CUADERNILLO
EJEMPLOS
1.- Suponga que los datos siguientes se seleccionan al azar de una población de
valores normalmente distribuidos y realicen un intervalo de confianza del 95%para
calcular la media poblacional.
40,51,43,48,44,57,54,39,42,48,45,39 y 43
n
X i 40+51+ 43+48+ 44+57 +54+39+ 42+48+ 45+39+ 43 593
χ́ =∑ = = = 45.61
i=1 n 13 13
n
( x −xi )
s2=∑ =¿ ¿
i=1 n−1
+¿ ¿
+¿ ¿
s= √ s2 =√ 32.42=5 .69
∝=1−.95 %=0.05÷ 2=0.025
gl=n−1=13−1=12
5.69
S x= =1. 57
√ 13
I ∝=x ±t S x
20
CUADERNILLO
I ∝=45.61+ ( 2.179 ) (1.57 )=¿
45.61+3.42=49 . 03Límite superior
45.61−3.42=42. 12Límite inferior
(42.12, 49.03)
2.-Si se supone que X esta normalmente distribuida utiliza la siguiente información

para calcular un intervalo de confianza de 90% para estimar la media poblacional.
n
Xi
χ́ =∑ 313, 320, 319, 340, 325, 310, 321, 329, 317, 311, 307, 318.
i=1 n
313 ,320 , 319 ,340 , 325 , 310 ,321 , 329 ,317 ,311 , 307 , 318.
= 319.16
12
n
2= ∑ ¿¿¿
S i=1
¿
¿¿
¿
37.9456+0.7056+0.0256+ 434.305634 .1056+83.9056+ 3.3856+96.82564 .6656+66.5856+ ¿147.8656+ 1.345

12−1
911.6672
= = 82.87√ 82.87= 9.10
11
x́=319.16
σ 2=82.87
σ =9.10
gl= n-1
gl= 12-1=11
∝ 1-.90%= 0.2/2=0.05
21
CUADERNILLO
9.10
IC=319.16+ (1.796) (2.6269) Sx́= =2.6269
√ 12
319.16 + 4.7179=323.8779Límite Superior
319.16 – 4.7179=314.4421Límite Inferior
(314.4, 323.8)
3.-Si una muestra aleatoria de 27 Artículos produce x́= 128.4 y S= 20.6, cual es el
intervalo de confianza de 98% para la media poblacional. Suponga que X esta
normalmente distribuida para la población. ¿Cuál es la estimación puntual?
x́= 128.4
S= 20.6
σ = 4.53
gl= n-1
gl= 27-1= 26
∝= 1-.98%= 0.02/2=0.01
22
CUADERNILLO
20.6
IC= 128.4+ (2.479) (3.96) Sx́= =3.96
√ 27
128.4 + 9.8168=138.21Límite Superior
128.4 – 9.8168=118.58 Límite Inferior
(118.58, 138.21)
INTERVALO DE CONFIANZA PARA ESTIMAR P
Si el estadístico S es la proporción de “éxitos “en una muestra de tamaño,

obtenida de una población binomial en la que p es la proporción de éxitos es decir
la probabilidad de éxito, entonces los limites de confianza para p están dados por
la proporción de éxitos en la muestra de tamaño N. Usando los valores de p
obtenidos, ve que los limites de confianza para la proporción poblacional están
dados por:
P ± Zc
23
CUADERNILLO
Si el muestreo se efectuó de una población finita o de una población infinita con
reemplazamiento y están dados por:
P± Zc
Si el muestreo se hizo sin el reemplazamiento de una población de tamaño finito

Np. Para calcular estos límites de confianza se puede usar el estimado muestral P
que por lo general, mostrara ser satisfactorio si N es mayor o igual a 30.
INTERVALOS DE CONFIANZA PARA DIFERENCIAS Y SUMAS
Si S1 y S2 son dos estadísticos muéstrales con distribuciones de muestreo

aproximadamente normales, entonces los límites de confianza se puede usar para
la diferencia de los parámetros poblacionales correspondientes a S1 y S2 están
dados por:
S1 y S2 ± zc s1 - s2
EJEMPLO
Una compañía textil produce pantalones para hombre, los pantalones se

confeccionan y venden con corte regular o con corte de bota. En un esfuerzo por
estimar la proporción del mercado de sus pantalones para hombre en el centro de
la ciudad que prefiere pantalones con corte de bota, el analista toma una muestra
aleatoria de 212 ventas de pantalones de las 2 tiendas de venta al público de la
ciudad solo 34 de las ventas fueron de pantalones de corte de bota. Construya un
intervalo de confianza de 90% para estimar la proporción de la población en toda
la ciudad que prefieren pantalones con corte de bota.
N=212
P= .16
pq
P= √
n
24
CUADERNILLO
( .16 ) (.84)
P= √
212
P=0.025
34
P (A)= =.16
212
P= IC=P± ZP
IC=.16± ( 1.65 )( 0.25 )=0.41
.16+0.41=.2
.16-0.41=.11
PROBLEMAS
Use la información sobre cada una de las siguientes muestras para calcular el
intervalo de confianza para estimar la proporción de la población.
a) n= 44 ṕ=¿ .51 ; calcule un intervalo de confianza del 99%

b) n= 300 ṕ=¿ .82 ; calcule un intervalo de confianza del 95%
c) n= 1,150 ṕ=¿ .48 ; calcule un intervalo de confianza del 90%
d) n= 95 ṕ=¿ .32 ; calcule un intervalo de confianza del 88%
a) n=44 ṕ=.51 ; Calcule un Intervalo de Confianza del 99%
√ pq = .51(.49) = 0.075
σ ṕ=
n √ 44
p= IC∝ = ṕ ±Z√ ṕ
ṕ=.51 IC= .51± (2.57) (0.075)

Gráfica de distribución
Normal, Media=44, Desv.Est.=0.51
IC= .51+ 0.192= 0.70 Limite Superior
0.8
IC= .51- 0.192= 0.31 Limite Inferior

0.7
0.6
(.31, .70)
0.5 .495
Densidad
.495
99%
0.4
0.3
0.2 25
[ESTADISTICA BASICA] 0.1
0.0
42 43 44 45 46
X
CUADERNILLO
b) n=300 P̅=.82; calcule un intervalo de confianza de 95%
σ P̅= √ pq σP̅= √ ( .82 ) (.18) =.022 n= 44 p= IC∝ = ṕ ±Z√ ṕ

n 300
ṕ=.82 IC= .82± (1.96) (0.022)
IC= .82+ .043= .863 Limite Superior
IC= .82- .043= .777 Limite Inferior
(.77, .86)
0.5
0.4
0.3
Densidad
.475 .475
0.2
95%
0.1
0.0
297 298 299 300 301 302 303
X
|
0.9 de 90% σ P
c)n=1150 P̅=.48; calcule un intervalo de confianza ̅=
√ pq
σP̅=
√( .48 )( .52)
0.8
n 1150
=.014 p= IC∝ = ṕ ±Z√ ṕ 0.7
0.6
ṕ=.48 IC= .48± (1.65) (0.014)

Densidad
0.5 .45 .45
0.4
0.3
90%
26
0.2
0.0
1148.5 1149.0 1149.5 1150.0 1150.5 1151.0 1151.5
X
CUADERNILLO
IC= .48+ 0.023= .503 Limite Superior
IC= .48- 0.023= .45 Limite Inferior
(.45, 50)
d) n=95 P̅=.32; calcule un intervalo de confianza de 88%
σ P̅= √
pq
σP̅=
√( .32 ) (.68) =.047 p= IC∝ = ṕ ±Z√ ṕ
n 95
ṕ=.32 IC= .32± (1.56) (0.047)
IC= .32+ 0.073= .393 Limite Superior
IC= .32- 0.073= .247 Limite Inferior
(.24, 39) Gráfica de distribución

1.4
1.2
1.0
Densidad
0.8
0.6
0.4 .44
88% .44
0.2
0.0
94.0 94.5 95.0 95.5 96.0
X
EJERCICIOS
27
CUADERNILLO
Use la siguiente información para cumplir intervalo de confianza del 90%, 95% y
99% para estimar la media poblacional de los siguientes datos que proviene de
una población normalmente distribuida datos son:
12.3, 11.6, 11.9, 12.8, 12.5, 11.4, 12, 11.7, 11.8, 12.3.
12.3+11.6+11.9 +12.8+12.5+11.4 +12+11.7+ 11.8+12.3

x́= =12.03
10
(12.3−12.03)2 + ( 11.6−12.03 )2+ ( 11.9−12.03 )2+ ( 12.8−12.03 )2 + ( 12.5−12.03 )2 + ( 11.4−12.03 )2

2 ( 12−12.03 )2+ ( 11.7−12.03 )2 + ( 11.8−12.03 )2 + ( 12.3−12.03 )2 1.721
σ = = =0
10−1 9
s
σ 2=√ 0.19= 0.43 x́=
0.43
√ 10
=0 . 13
g' =10-1=9
0.1
∝=1−.90= =0 . 05
2
t=1.833
ICM =12.03+ (1.833) (0.13)
ICM =12.03 + 0.23 =12.26L.S
ICM =12.03 – 0.23 =11.8 L.I
(11.8, 12.2)
g' =10-1=9
0.05
∝=1−.95= =0 . 025
2
28
CUADERNILLO
t=2.262
ICM =12.03+ (2.262) (0.13)
ICM =12.03 + 0.29 = 12.32 L.S
ICM =12.03 – 0.29 = 11.74 L.I
(11.7, 12.32)
g' =10-1=9
0.01
∝=1−.99= =0 . 005
2
t=3.250
ICM =12.03+ (3.250) (0.13)
ICM =12.03 + 0.42 = 12.45 L.S
29
CUADERNILLO
ICM =12.03 – 0.42 = 11.61 L.I
(11.61, 12.45)
EJERCICIO 2:
Use la siguiente información para calcular el intervalo de confianza para calcular la
proporción poblacional.
a) n= 284 ṗ=.71 90% de confianza

b) n=1250 ṗ=.48 95% de confianza
a)n=284
ṗ=.71
( .71 ) (.29)
σ ṗ= √ =.026
284
IC =.71± (1.65) (0.026)
IC =.71 + 0.042 = 0.752
IC =.71 – 0.042 = 0.668
(0.66, 0.75)
30
CUADERNILLO
b)n=1250
ṗ=.48
( .48 )( .52)
σ ṗ= √ =0.014
1250
IC =.48± (1.96) (0.014)
IC =.48+ 0.027 = 0.50
IC =.71 – 0.027 = 0.45
(o.45, 0.05
PRUEBA DE HIPÓTESIS.
Es importante recordar que las hipótesis siempre son proposiciones sobre la

población o distribución bajo estudio, proposiciones sobre la muestra .Por lo
31
CUADERNILLO
general, el valor del parámetro de la población especificado en la hipótesis nula se
determina en una de tres maneras diferentes:
1. Puede ser resultado de la experiencia pasada o del conocimiento del proceso,

entonces el objetivo de la prueba de hipótesis usualmente es determinar si ha
cambiado el valor del parámetro.
2. Puede obtenerse a partir de alguna teoría o modelo que se relaciona con el

proceso bajo estudio. En este caso, el objetivo de la prueba de hipótesis es
verificar la teoría o modelo
3. Cuando el valor del parámetro proviene de consideraciones externas tales como

las especificaciones de diseño o ingeniería, o de obligaciones contractuales. En
esta situación, el objetivo usual de la prueba de hipótesis es probar el
cumplimiento de las especificaciones.
Los procedimientos de prueba de hipótesis dependen del empleo de la

información contenida en la muestra aleatoria de la población de interés.
TIPOS DE PRUEBAS DE TIPOS HIPÓTESIS
Se pueden presentar dos tipos de pruebas de hipótesis que son:
1. De dos colas, o bilateral.
2. De una cola, o unilateral.
Este último puede ser de cola derecha o izquierda.
La hipótesis es una afirmación sobre un parámetro de la población,

Como la media, la varianza o la desviación estándar.
La hipótesis inicial que se define sobre la población se llama hipótesis nula; pero si
rechazamos esa hipótesis nula debemos tener una hipótesis alternativa, la cual
tomaremos si la hipótesis inicial o nula es falsa.
El proceso de revisión de la hipótesis para determinar si se considera

Verdadera o falsa se llama Prueba de Hipótesis.
Una prueba de hipótesis es una regla que especifica
32
CUADERNILLO
1. Para que valores de la muestra se toma la decisión de que H0 es
Verdadera.
2. Para que valores de la muestra se rechaza H0 y se acepta H1 como

Verdadera.
CONCEPTOS BÁSICOS PARA EL PROCEDIMIENTO DE PRUEBA

DE HIPÓTESIS
HIPÓTESIS ESTADÍSTICA:
Al intentar alcanzar una decisión, es útil hacer hipótesis (o conjeturas) sobre la
población aplicada.
Tales hipótesis, que pueden ser o no ciertas, se llaman hipótesis estadísticas.
Son, en general, enunciados acerca de las distribuciones de probabilidad de las
poblaciones.
HIPÓTESIS NULA.
En muchos casos formulamos una hipótesis estadística con el único propósito de
rechazarla o invalidarla. Así, si queremos decidir si una moneda está trucada,
formulamos la hipótesis de que la moneda es buena (o sea p = 0,5, donde p es la
probabilidad de cara).
Analógicamente, si deseamos decidir si un procedimiento es mejor que otro,
formulamos la hipótesis de que no hay diferencia entre ellos (o sea. Que cualquier
diferencia observada se debe simplemente a fluctuaciones en el muestreo de la
misma población). Tales hipótesis se suelen llamar hipótesis nula y se denotan por
Ho.
Para todo tipo de investigación en la que tenemos dos o más grupos, se
establecerá una hipótesis nula.
La hipótesis nula es aquella que nos dice que no existen diferencias significativas
entre los grupos.
Por ejemplo, supongamos que un investigador cree que si un grupo de jóvenes se
somete a un entrenamiento intensivo de natación, éstos serán mejores nadadores
que aquellos que no recibieron entrenamiento. Para demostrar su hipótesis toma
al azar una muestra de jóvenes, y también al azar los distribuye en dos grupos:
uno que llamaremos experimental, el cual recibirá entrenamiento, y otro que no
recibirá entrenamiento alguno, al que llamaremos control. La hipótesis nula
señalará que no hay diferencia en el desempeño de la natación entre el grupo de
jóvenes que recibió el entrenamiento y el que no lo recibió.
33
CUADERNILLO
Una hipótesis nula es importante por varias razones:
Es una hipótesis que se acepta o se rechaza según el resultado de la
investigación.
El hecho de contar con una hipótesis nula ayuda a determinar si existe una
diferencia entre los grupos, si esta diferencia es significativa, y si no se debió al
azar.
No toda investigación precisa de formular hipótesis nula. Recordemos que la
hipótesis nula es aquella por la cual indicamos que la información a obtener es
contraria a la hipótesis de trabajo.
Al formular esta hipótesis, se pretende negar la variable independiente. Es decir,
se enuncia que la causa determinada como origen del problema fluctúa, por tanto,
debe rechazarse como tal.
OTRO EJEMPLO:
Hipótesis: el aprendizaje de los niños se relaciona directamente con su edad.
HIPÓTESIS ALTERNATIVA.
Toda hipótesis que difiere de una dada se llamará una hipótesis alternativa. Por
ejemplo: Si una hipótesis es p = 0,5, hipótesis alternativa podrían ser p = 0,7, p "
0,5 ó p > 0,5.
Una hipótesis alternativa a la hipótesis nula se denotará por H1.
Al responder a un problema, es muy conveniente proponer otras hipótesis en que
aparezcan variables independientes distintas de las primeras que formulamos. Por
tanto, para no perder tiempo en búsquedas inútiles, es necesario hallar diferentes
hipótesis alternativas como respuesta a un mismo problema y elegir entre ellas
cuáles y en qué orden vamos a tratar su comprobación.
34
CUADERNILLO
EJEMPLO 1
Un desarrollador considera dos ubicaciones alternativas para un centro comercial

regional dado que el ingreso domestico de la comunidad es una consideración
importante en la selección del sitio, el desarrollador desea probar la hipótesis nula
de que no existe ninguna diferencia entre los montos de ingreso domestico medio
de las dos comunidades. En consonancia con esta hipótesis se supone que la
desviación estándar del ingreso domestico también es igual en las dos
comunidades. En una muestra de n1 =30hogares de la primera comunidad el
ingreso anual promedio es de x́ 1=45,500 con una desviación estándar S1=1,800 .
En una muestra de n2 =40 hogares de la segunda comunidad x́ 2=44,600 y
S2=2,400 . Pruebe la hipótesis nula al nivel de significancia de 5%.
H 0 : μ1−μ 2=0
H 1 : μ1−μ 2 ≠ 0
0.20
n1 =30
0.15
x́ 1=45,500
Densidad
1.96
1.96
0.10
S1=1,800
n2 =40 0.05
x́ 2=44,600 0.00
-5.0 -2.5 0.0 2.5 5.0 7.5
X
S2=2,400 1.74
α =.05
35
CUADERNILLO
( x́1− x́ 2 ) −(μ1−μ 2) (45,500−44,600)−(0) 900

Z= Z= = =1.74
σ x́ 1−x́ 2 σ x́ 1− x́ 2 522.78
2 ( n1 −1 ) S 21+(n2−1) S 22
S=
n1 +n2 −2
( 30−1)1,8002 +(40−1)2,4002 318600000 =4,685,294

2
S= =
30+ 40−2 68
4,685,294 4,685,294
√ 30
+
40
=522.78
∴ Se acepta la hipótesis nula y se rechaza la hipótesis alternativa
EJEMPLO 2
Una muestra aleatoria de N1=12 estudiantes de informática tiene un promedio de
calificación media de 2.70 (donde A=4) con una desviación estándar de .40 en el
caso de los estudiantes de ingeniería en sistemas una muestra aleatoria de N=2
10 estudiantes tiene un promedio de calificación media de 2.90 con una desviación
estándar de .30 se supone que los valores de calificación sigue una distribución
normal ,prueba la hipótesis nula de que el promedio de calificación de las 2
categorías de estimación no es diferente con un nivel de significancia de .5%
H 0 : μ1−μ 2=0
H 1 : μ1−μ 2 ≠ 0
n1 =12
x́ 1=2.7
S1=40
n2 =10
x́ 2=2.90
S2=30
α =.05
.05/2=.025
gl=n1 +n 2−2=12+10−2=20 t=2.086

36
CUADERNILLO
( x́ 1−x́ 2) −( μ 1−μ2) ( 2.7−2.9 )−(0) −0.2
t= t= = = -1.30
σ x́ 1−x́ 2 σ x́ 1−x́ 2 .1534
2 ( n1 −1 ) S 21+(n2−1) S 22
S=
n1 +n2 −2
(12−1) .4 2+(10−1).3 2 2.57 =.1285

2
S= =
12+10−2 20
.1285 .1285
√ 12
+
10
=.1534
∴ Se acepta la hipótesis nula y se rechaza la hipótesis alternativa
EJEMPLO 3
El representante de un grupo comunitario le informa al posible desarrollador de un

centro comercial al sur de la ciudad, el ingreso promedio por hogar en la zona es
de 45000. Supongamos que puede sumirse que, para el tipo de zona del que se
trata, el ingreso hogar tiene una distribución aproximadamente normal y que
puede aceptarse que la desviación estándar es igual a 2000, con base a un
estudio anterior. A partir de una muestra aleatoria de 15 hogares se determina
que el ingreso domestico medio es x=44000. Pruebe la hipótesis nula µ =45000
estableciendo los limites críticos de la media muestral en términos de pesos y con
un nivel de significancia del 5%
a) Pruebe la hipótesis del problema con la variable normal estándar Z como

estadística de prueba
b) Prueba de hipótesis del problema con la variable normal t como estadística
de prueba
a) Gráfica de distribución
H0 µ1- µ2=0 45000 T, df=14
0.4
H1 µ1- µ2≠0 45000
n=45000 0.3
σ =2000
Densidad
0.2
x=44000
0.1
37
-4 -3 -2 -1 0 1 2 3 4
46012.13 X 43987.87
CUADERNILLO
n=15
∝=0.5= .95/2= .475 tabla
2000
45000+ (1.96) ( )
√15
45000+1012.13=46012.13
45000-1012.13=43987.87
b)
gl= 15-1=14 T, df=14
0.4
∝=1 - .05% = .95/2 =0.475 Z=1.96tabla

0.3
.05/2=0.025 =2.1415tabla
Densidad
0.2
ICM
0.1
2000
44000+ (2.1415) ( )
√15 0.0
-4 -3 -2 -1 0 1 2 3 4
X 42892.35
44000+1107.65=1107.65 45107.65
44000-1107.65=42892.35
EJEMPLO 4
El salario medio semanal de una muestra de n1=30 empleados de una gran
empresa manufacturera es x1=280, por una distribución estándar de 14 pesos. En
otra gran empresa una muestra aleatoria n2=40 empleados tiene un salario medio
de x2=270 pesos, con una desviación estándar de 10 pesos. Pruebe la hipótesis
38
CUADERNILLO
de que no existe diferencia entre los montos salariales semanales medio de las
dos empresas con un nivel de significancia del 5%.
n=30
x1=280
S=14
n2=40
x2=270
σ =10
( x 1−x 2 )−( µ 1−µ 2) ( 280 )−(0) 10

Z= = = =3.49
√ x 1−x 2 2.86 2.86
( n 1−1 ) S 1 ²+ ( n 2−1 ) S 2 ² ( 30−1 ) 14 ²+(40−1)10 ² 5684+3900 9584

S²= = = = =140.94
n 1+ n 2−2 30+40−2 68 68
140.94 140.94
√ 30
+
40
=2.86
∴ No se acepta la hipótesis
Normal, Media=3.49, Desv.Est.=2.86
0.14
0.12
0.10
Densidad
0.08
0.06
3.49 (no se acepta la hipotesis)
0.04
0.02
0.00
-5.0 -2.5 0.0 2.5 5.0 7.5 10.0 12.5
-1.96 X 1.96
39
CUADERNILLO
EJEMPLO 5
En una muestra aleatoria de n1=10 focos en un promedio de vida de los focos
x1=4000 horas S1=200 horas. Para otra marca de focos de cuya vida útil también
se presume que sigue una distribución normal, una muestra aleatoria de n2= 8
focos tiene una media muestral de X2=4300 horas y una desviación estándar
muestral de 250 pruebe la hipótesis de que no existe ninguna diferencia entre el
ciclo medio de vida útil de las 2 marcas de focos con un nivel de significancia del
1%
n1=10
x1=4000
S1=200
n2=8
x2=4300
S2=250
40
CUADERNILLO
( x 1−x 2 )−(µ 1−µ 2)
t=¿
σ x 1−x 2
( n 1−1 ) S 1 ²+ ( n 2−1 ) S 2 ² ( 10−1 ) 200 ²+( 8−1)250 ² 360000+ 437500 9584

S²= = = =
n 1+ n 2−2 16 16 68
=49843.75
S1² S2²
σ x 1−x 2
√ +
n1 n2
T, df=16
49843.75 49843.75
√ 10
+
48
=¿105.90 0.4
−300 0.3
t= (4000-43000) (0)= = -2.83
105.90
Densidad
0.2
.01/2 =0.005
gl= 10+8-2=16 =2.921 0.1

2.83
∴ Se acepta la hipótesis 0.0

-4 -3 -2 -1 0 1 2 3 4
-2.94 X 2.94
EJERCICIO 1
Un especialista en administración de hospitales dice que el número de empleados
de tiempo completo de un hospital se puede estimar al contar el número de camas
de hospital. Una investigadora de campo de servicios de salud decidió crear un
modelo de regresión para pronosticar el número de empleados de tiempo
completo de un hospital respecto al número de camas por lo que realizo una
encuesta en 12 y obtuvo los datos que se presentan en secuencia según el
número de camas.
Hospital N° de Camas Empleados de x2 xy

Tiempo
1 23 69 529 1584
2 29 95 841 2755
41
CUADERNILLO
3 29 102 841 2958
4 35 118 1225 4130
5 42 126 1764 5292
6 46 125 2116 5750
7 50 138 2500 6900
8 54 178 2916 9612
9 64 156 4096 9984
10 66 184 4356 12144
11 76 176 5776 13376
12 78 225 6084 7550
∑ ¿592 ∑ ¿1692 ∑ ¿33044 ∑ ¿ 92038
x y 2
x xy
592 1692
X́ = =49.333 Ý = =141
12 12
b=
∑ xy−n x́ ý
∑ x 2−n x́ 2
92038−( 12 ) ( 49.333 ) ( 141 ) 8566.564
b= = =b=2.231
33044−( 12 ) ( 2433.744 ) 3839.072
a= ý−b x́
a=141−( 2.231 ) ( 49.33 ) =141−110.061=¿ a=30.93
y=30.939+ 2.231 x
y=30.939+ 2.231 ( 23 ) =82.25
y=30.939+ 2.231 ( 78 ) =204.95

42
CUADERNILLO
Gráficas de residuos para empleados

Gráfica de probabilidad normal vs. ajustes
99
20
90
Porcentaje
10
Residuo
50 0
-10
10
-20
1
-40 -20 0 20 40 100 150 200
Residuo Valor ajustado
Histograma vs. orden

3
20
Frecuencia
2 10
Residuo
0
1 -10
-20
0
-20 -10 0 10 20 30 1 2 3 4 5 6 7 8 9 10 11 12
Residuo Orden de observación
ANALISIS DE REGRESION
La regresión estadística o regresión a la media es la tendencia de una medición
extrema a presentarse más cercana a la media en una segunda medición. La
regresión se utiliza para predecir una medida basándonos en el conocimiento de
otra.
EJERCICIO 1
Un especialista en administración de hospitales dice que el número de empleados
de tiempo completo de un hospital se puede estimar al contar el número de camas
de hospital. Una investigadora de campo de servicios de salud decidió crear un
modelo de regresión para pronosticar el número de empleados de tiempo
completo de un hospital respecto al número de camas por lo que realizo una
43
CUADERNILLO
encuesta en 12 y obtuvo los datos que se presentan en secuencia según el
número de camas.
Hospital N° de Camas Empleados de x2 xy

Tiempo
1 23 69 529 1584
2 29 95 841 2755
3 29 102 841 2958
4 35 118 1225 4130
5 42 126 1764 5292
6 46 125 2116 5750
7 50 138 2500 6900
8 54 178 2916 9612
9 64 156 4096 9984
10 66 184 4356 12144
11 76 176 5776 13376
12 78 225 6084 7550
∑ ¿592 ∑ ¿1692 ∑ ¿33044 ∑ ¿ 92038
x y 2
x xy
592 1692
X́ = =49.333 Ý = =141
12 12
b=
∑ xy−n x́ ý
∑ x 2−n x́ 2
92038−( 12 ) ( 49.333 ) ( 141 ) 8566.564
b= = =b=2.231
33044−( 12 ) ( 2433.744 ) 3839.072
a= ý−b x́
a=141−( 2.231 ) ( 49.33 ) =141−110.061=¿ a=30.93
y=30.939+ 2.231 x
y=30.939+ 2.231 ( 23 ) =82.25
44
CUADERNILLO
y=30.939+ 2.231 ( 78 ) =204.95
Gráficas de residuos para empleados

Gráfica de probabilidad normal vs. ajustes
99
20
90
Porcentaje
10
Residuo
50 0
-10
10
-20
1
-40 -20 0 20 40 100 150 200
Residuo Valor ajustado
Histograma vs. orden

3
20
Frecuencia
2 10
Residuo
0
1 -10
-20
0
-20 -10 0 10 20 30 1 2 3 4 5 6 7 8 9 10 11 12
Residuo Orden de observación
EJERCICIO 2
Un analista toma una muestra de 10 embarques recientes por una compañía que
registro la distancia en millas y tiempo de entrega al medio día más cercano a
partir del momento en que el embarque estuvo listo para su cargo.
Elabora el diagrama de dispersión y considere si el análisis de regresión lineal

parece apropiado.
Embarque muestreado 1 2 3 4 5 6 7 8 9 10
Distancia en millas (x) = 825 215 1070 550 480 920 1350 325 670 1215
Tiempo de entrega (y)= 3.5 1.0 4.0 2.0 1.0 3.0 4.5 1.5 3.0 5.0
45
CUADERNILLO
Embarque X Y x2 xy y2
1 825 3.5 680625 2887.5 12.25
2 215 1.0 46225 215 1
3 1070 4.0 1144900 4280 16
4 550 2.0 302500 1100 4
5 480 1.0 230400 480 1
6 920 3.0 846400 2760 9
7 1350 4.5 1822500 6075 20.25
8 325 1.5 105625 487.5 2.25
9 670 3.0 448900 2010 9
10 1215 5.0 1476225 6075 25
∑ ¿7620 ∑ ¿28.5 ∑ ¿7104300 ∑ ¿26370 ∑ ¿ 99.75
x y x
2
xy y
2
7620 28
x́= =762 ý = =2.85
10 10
b=Σxy−n x̅ y̅ = ¿ ¿
Σ x −n x͞ 2
2
26,370−10 ( 762 ) ( 2.85 ) 26,370−21,717

b= = =b=.003582
7,104,300−10 ( 580,644 ) 7,104,300−5,806,440
a= y̅ −b x̅
a=2.85− (.00358 )( 762 )=2.85−2.7279=a=.1221
46
CUADERNILLO
y=.1221+.00358 ( 215 )=0.89

y=.1221+.00358 ( 1350 )=4.95
Se seleccionaron al azar las siguientes observaciones de muestra:
a) Establezca la ecuación de regresión

b) Obtenga el valor de ycuando x=7
c) Determine el error estándar de estimación
d) Determine el intervalo de confianza de 95% para el valor medio
pronosticado cuando x =7
e) Obtenga el coeficiente de determinación suponiendo una relación directa
entre las variables
f) Cuál es el coeficiente de correlación
a)
47
CUADERNILLO
x2 y2
x Y xy
4 4 16 16 16
5 6 25 30 36
3 5 9 15 25
6 7 36 42 49
10 7 100 70 49
∑ ¿28 ∑ ¿29 ∑ ¿186 ∑ ¿173 ∑ ¿173
x y x
2
xy y
2
28 29
X́ = =5.6 Ý = =5.8
5 5
b=
∑ xy−n x́ ý
∑ x 2−n x́ 2
173−( 5 ) ( 5.6 ) ( 5.8 )
b= =0.3630
186−( 5 ) ( 31.36 )
a= ý−b x́
a=5.8− ( 0.3630 )( 5.6 ) ¿ 3.7672
y=3.7672+ 0.3630 ( 3 ) =4.85
y=3.7672+ 0.3630 ( 10 ) =7.39
48
CUADERNILLO
b)
ŷ=a+b x
ŷ=3.7672+ 0.3630(7)= 6.3082
c)
∑ y 2−a ∑ y−b ∑ x y
Syx= √
n−2
Syx=
√175−3.7672 ( 29 ) −0.3630(173) =0.9920
5−2
d)
gl=n−2
gl=5−2=3
1−.95=0.5/2=.025 = 3.182 t
ŷ ±t Sxy
6.3082 ±3.182(.9920)
6.3082+3.1565=9.46
6.3082−3.1565=3.15
(3.1, 9.4)
49
CUADERNILLO
e)
a ∑ y +b ∑ x y−n ý 2
r 2= √
∑ y 2−n ý 2
2
r 2=
√ 3.7672 ( 29 )+.3630 ( 173 ) −5(5.8) =0.5658
175−5(5.8)2
f)
r =√ r 2
r =√ 0.5658
r =0.7521
REGRESION LINEAL MULTIPLE
Es evidente que lo más económico y rápido para modelar el comportamiento de

una variable Y es usar una sola variable preeditora y usar un modelo lineal. Pero
algunas veces es bastante obvio de que el comportamiento de Y es imposible que
sea explicada en gran medida por solo una variable.
Por ejemplo, es imposible tratar de explicar el rendimiento de un estudiante en un

examen, teniendo en cuenta solamente el número de horas que se preparó para
ella. Claramente, el promedio académico del estudiante, la carga académica que
lleva, el año de estudios, son tres de las muchas otras variables que pueden
explicar su rendimiento. Tratar de explicar el comportamiento de Y con más de
una variable preeditora usando una funcional lineal es el objetivo de regresión
lineal múltiple.
Frecuentemente, uno no es muy familiar con las variables que están en juego y
basa sus conclusiones solamente en cálculos obtenidos con los datos tomados.
Es decir, si ocurre que el coeficiente de determinación R 2 sale bajo (digamos

menor de un 30%) , considerando además que su valor no se ha visto afectado
por datos anormales, entonces el modelo es pobre y para mejorarlo hay tres
alternativas que frecuentemente se usan:
50
CUADERNILLO
a) Transformar la variable preeditora, o la variable de respuesta Y, o ambas y usar
luego un modelo lineal.
b) Usar regresión polinómica con una variable preeditora.
c) Conseguir más variables preeditoras y usar una regresión lineal múltiple.
En el primer caso, se puede perder el tiempo tratando de encontrar la

transformación más adecuada y se podría caer en “overfitting”, es decir,
encontrar un modelo demasiado optimista, que satisface demasiado la tendencia
de los datos tomados pero que es pobre para hacer predicciones debido a que
tiene una varianza grande.
En el segundo caso el ajuste es más rápido, pero es bien fácil caer en

“overfitting” y, además se pueden crear muchos problemas de cálculo ya que
pueden surgir problemas de colinealidad, es decir relación lineal entre los términos
del modelo polinomio.
El tercer caso es tal vez la alternativa más usada y conveniente. Tiene bastante
analogía con el caso simple, pero requiere el uso de vectores y matrices.
En el siguiente ejemplo se mostrará el uso interactivo de las tres alternativas a

través de seis modelos de regresión y servirá como un ejemplo de motivación para
introducirnos en regresiónlineal múltiple
En la tabla se presentan datos muéstrales relativos a números de horas de estudio

fuera durante un periodo de 3 semanas de algunas de 1 curso de estadística y a
sus calificaciones en el examen final de ese periodo. Elabore un diagrama de
dispersión para estos datos y observe si cumplen con los siguientes datos.
51
CUADERNILLO
Estudiante 1 2 3 4 5 6 7 8
muestread
o
Horas de 20 16 34 23 27 32 18 22
Estudio(x)
Calificación 64 61 84 70 88 92 72 77
En
examen(y)
∑ x =¿ ¿192
192
x́= =24
8
∑ ý=608
608
ý= =76
8
52
CUADERNILLO
x2 400 256 1156 529 729 1024 324 484 ∑ x 2=4902
xy 1280 976 2856 1610 2376 2994 1296 1694 ∑ xy =15032
y2 4096 3721 7056 4900 7744 6464 5184 5929 ∑ y2 =47094
a) Determine la línea de regresión de mínimos centrados de los datos y

trácela en el diagrama.
b) Calcule el error estándar de la estimación.
c) Use la ecuación de regresión para estimar la calificación en el examen
de un estudiante que dedico 30 horas al estudio de la materia que
curso.
d) Elabore el intervalo de confianza del 90% para estimar la calificación
media de los estudiantes que dedicaron 30 horas al estudio en curso.
e) Calcule el coeficiente de determinación y el coeficiente de correlación,
interprete los coeficientes calculados.
b=
∑ xy−nx̅y̅
∑ x2 −n x̅ 2
15032−8(24)(76)
b=
4902−8(576)
440
b=
294
b=1.4965
a= ý−b x́ =76−( 1.4965 ) ( 24 )=40.084
y=40.084+1.4965 ( 16 ) =64.028
y=40.084+1.4964 ( 34 )=90.965
53
CUADERNILLO
ŷ=40.084+1.49658 ( 30 )=84.979
s
∑ y 2−a ∑ y−b ∑ x y
x=
√ n−2
s 47094−40.084 ( 608 ) −1.496 ( 15032)

x=
√ 8−2
s 227.54
x=
√ 6
s x=√37.9233
s x=6.1581
54
CUADERNILLO
ɡl =8−2=6
0.1
1−.90= =0.05
2
t=1.943
Iс ∝ =84.979+1.943 ( 6.1581 )=96.94
Iс ∝ =84.979−1.943 ( 6.1581 )=73.01
a ∑ y +b ∑ x y−n ȳ 2
r 2=
∑ y 2−n ȳ 2
55
CUADERNILLO
2 40.084 ( 608 ) +1.4965 ( 15032 ) −8(5776)
r=
47094−8(5776)
658.46
r 2=
886
r 2=0.7431
r =√ r 2
r =√ 0.7431
r =0.8620
INTERPRETACION
EL 86.02% DE LOS ALUMNOS QUE ESTUDIAN 30 HRS PASAN EL EXAMEN.
56

Unidad Academica Univesistaria La Paz

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Unidad Academica Univesistaria La Paz

Cargado por

Copyright:

Formatos disponibles

Estadística básica

1.1 Definición y campo de

La estadística es la ciencia cuyo objetivo es reunir información cuantitativa

“Ciencia que se ocupa del estudio de fenómenos de tipo genérico, normalmente

En México, el Instituto Nacional de Estadística y Geografía (INEGI) se encarga de

La Estadística para su mejor estudio se ha dividido en dos grandes ramas: la

 Estadística Descriptiva: La función descriptiva de la estadística se enfoca

 Estadística Inferencial: Esta aplicación de la estadística busca plantear y

La estadística descriptiva describe datos.

Población: Conjunto de todos los elementos que presentan una característica

Individuo: Un individuo o unidad estadística es cada uno de los elementos que

Muestra: La mayoría de los estudios estadísticos se realiza, no a partir de toda la

Variable: Se llama variable a una característica que se observa en una población

a) Variable cuantitativa: se expresa en valores numéricos. Dentro de ella, se

b) Variable cualitativa: es aquella que describe cualidades. No son numéricas

Una ordenación de datos es una de las formas más sencillas de presentarlos:

 Podemos identificar los valores mayor y menor rápidamente

 Es fácil dividir los datos en secciones

 Podemos ver si algunos valores aparecen más de una vez en el arreglo

 Podemos observar la distancia entre valores sucesivos de los datos

TABLA 1 Rendimientos anuales en tanto porciento y corregidos por el nivel de

2,7 -1,6 41,0 20,8 6,1 -21,8

1.2 TABLA 2. Subdivisión de los rendimientos de la tabla 1 en clases

Rendimiento corregido por el Número de años Frecuencias Acumuladas

a) Encuentre la media aritmética

C) Encuentre la desviación estándar de la muestra

S=√ S 2 S=√ 218.93=14.7

La distribución de frecuencia de un estadístico muestral se denomina distribución

Suponga que se han seleccionado muestras aleatorias de tamaño 20 en una

Suponga que se eligen muestras aleatorias de tamaño 20, de una población

a) Calcule la probabilidad de tener un valor entre 75 y 90

b) Halle la probabilidad de tener un valor de 75 0 menor

σ =14 1 - .6368 = .3632

c) Calcule la probabilidad de tener un valor entre 75 y 70

a) Sea mayor que 63

P (x̅>56) .05 + .0398 = .539

P (56<X<63) .0398 + .2734 = 0.3132 0.3132X100 = 31.32%

DISTRIBUCIÓN MUESTRAL DE LA PROPORCIÓN

Para ello se extrae una muestra aleatoria de la población y se calcula el valor de

Y es el conjunto de todas las muestras posibles del mismo tamaño extraídas de

La distribución muestral de proporciones es la adecuada para dar respuesta a

DISTRIBUCIÓN MUESTRAL DE DIFERENCIA DE MEDIAS

Suponga que se tienen dos poblaciones distintas, la primera con media 1 y

desviación estándar 1, y la segunda con media 2 y desviación estándar 2.

La distribución es aproximadamente normal para n 1 30 y n2 30. Si las

De una población se toma una muestra de 40 observaciones. La media muestral

Supongo que las medias poblacionales son iguales a las varianzas.

( n−1 ) S 21 +( n2−1) S22 ( 40−1 ) 52 + ( 50−1 ) 6 2 975+1764 2739

Cuando la variable aleatoria toma valores en el conjunto de los números reales, la

Permite decidir si dos variables aleatorias normales y con la misma varianza

∝=1−.95 %=0.05÷ 2=0.025

45.61+3.42=49 . 03Límite superior

45.61−3.42=42. 12Límite inferior

2.-Si se supone que X esta normalmente distribuida utiliza la siguiente información

37.9456+0.7056+0.0256+ 434.305634 .1056+83.9056+ 3.3856+96.82564 .6656+66.5856+ ¿147.8656+ 1.345

319.16 – 4.7179=314.4421Límite Inferior

128.4 – 9.8168=118.58 Límite Inferior

INTERVALO DE CONFIANZA PARA ESTIMAR P

Si el estadístico S es la proporción de “éxitos “en una muestra de tamaño,

Si el muestreo se hizo sin el reemplazamiento de una población de tamaño finito

INTERVALOS DE CONFIANZA PARA DIFERENCIAS Y SUMAS

Si S1 y S2 son dos estadísticos muéstrales con distribuciones de muestreo

Una compañía textil produce pantalones para hombre, los pantalones se

IC=.16± ( 1.65 )( 0.25 )=0.41