Está en la página 1de 56

Estadística básica

CUADERNILLO

UNIDAD ACADEMICA
UNIVESISTARIA LA PAZ

ESTADÍSTICAS BÁSICAS

“CUADERNILLO”

INTEGRANTES:
Audelo Rebollar Karla
Estrada Olvera Nallely Haydee
Ramírez Ortiz Gerardo
San Vicente Fernández Gabriela

1
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO

TEMARIO
UNIDAD TEMAS SUBTEMAS

1.1 Definición y campo de


la estadística.
1.2 Planteamiento de un
caso específico.
1 Estadística descriptiva. 1.3 Organización de datos.
1.4 Medidas de tendencia
central.
1.5 Medidas de dispersión.
1.6 Aplicación en el caso
específico.

2 Distribuciones muéstrales.
2.1 Introducción.
2.2 Distribución muestral
de la media con varianza
conocida.
2.3 Teorema del límite
central.
2.4 Distribución muestral
de la proporción.
2.5 Distribución muestral
de la diferencia de medias
y de diferencia de
proporciones.
2.6 Distribución muestral
de la media con varianza
desconocida.
2.7 Distribución muestral
de la diferencia de medias.
2.8 Distribución muestral
de la varianza.
2.9 Distribución muestral
de la razón de varianzas.
2.10 Aplicación en el caso
específico.

3 Teoría de la estimación.
3.1 Introducción.
3.2 Estimación y
propiedades de los

2
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
estimadores.
3.3 Estimación por
intervalo.
3.4 Intervalo de confianza
para la media con varianza
conocida y desconocida.
3.5 Intervalo de confianza
para una proporción y
diferencia de proporciones.
3.6 Intervalo de confianza
para diferencias de medias
con varianza conocida y
desconocida.
3.7 Intervalo de confianza
para una varianza.
3.8 Intervalo de confianza
para una razón de
varianzas.
3.9 Aplicación en el caso
específico.

4 Pruebas de hipótesis.
4.1 Conceptos de la teoría
de prueba de hipótesis.
4.2 Errores tipo I y II.
4.3 Prueba de hipótesis
para una media con
varianza conocida y
desconocida.
4.4 Prueba de hipótesis
para una proporción y
diferencia de proporciones.
4.5 Prueba de hipótesis
para diferencia de medias
con varianzas conocidas y
desconocidas.
4.6 Prueba de hipótesis
para una varianza
4.7 Prueba de hipótesis
para una razón de
varianzas.
4.8 Prueba de bondad de
ajuste.
4.9 Aplicación en el caso

ESTADISTICA:

3
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO

La estadística es la ciencia cuyo objetivo es reunir información cuantitativa


relacionada a individuos, grupos, series de hechos, entre otros. Gracias al análisis
de estos datos se pueden deducir algunos significados precisos o algunas
previsiones para el futuro. La estadística, en general, es la ciencia que trata la
recopilación, la organización, la presentación, el análisis y la interpretación de
datos numéricos con el fin de realizar una toma de decisiones más efectiva.

“Ciencia que se ocupa del estudio de fenómenos de tipo genérico, normalmente


complejos y enmarcados en un universo variable, mediante el empleo de modelos
de reducción de la información y de análisis de validación de los resultados en
términos de representatividad”. La información puede ser numérica, alfabética o
simbólica. Consta de las fases de recogida de información, de análisis y de
presentación e interpretación de los resultados y elaboración de métodos.

IMPORTANCIA

La estadística resulta muy útil no sólo para recopilar y describir datos, sino
también para interpretar la información obtenida, que puede ser aprovechada para
demostrar la evolución de un fenómeno a través de cierto tiempo.

En México, el Instituto Nacional de Estadística y Geografía (INEGI) se encarga de


recabar información estadística y geográfica de todo el país, en diferentes áreas y
contextos. Los datos que publica sirven para dar a conocer a cualquier persona la
situación en la que se encuentra el área de donde se obtuvo la información.

Al gobierno le son muy útiles para tomar decisiones, por ejemplo, para saber qué
acciones se deben implementar en tal o cual zona del país, conocer los avances
que se han registrado o como herramienta para la evaluación de un proyecto. Los
métodos estadísticos se utilizan prácticamente en investigaciones de todas las
áreas de conocimiento; tanto en el ámbito académico, como en el profesional y
laboral.

DIVISIÓN DE LA ESTADÍSTICA
4
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO

La Estadística para su mejor estudio se ha dividido en dos grandes ramas: la


Estadística Descriptiva y la Inferencial.

 Estadística Descriptiva: La función descriptiva de la estadística se enfoca


en la presentación y clasificación de los datos obtenidos de la población
que se analiza.

 Estadística Inferencial: Esta aplicación de la estadística busca plantear y


resolver problemas específicos y/o hacer previsiones a partir de los datos
de una muestra.

La estadística descriptiva describe datos.


La estadística Inferencial infiere con esos datos, entendiendo inferir como la
predicción de un resultado.

CONCEPTOS BÁSICOS:

Población: Conjunto de todos los elementos que presentan una característica


común determinada, observable y medible. Por ejemplo, si el elemento es una
persona, se pueden estudiar las características edad, peso, nacionalidad, sexo,
etc. Los elementos que integran una población pueden corresponder apersonas,
objetos o grupos (por ejemplo, familias, las manzanas de una cosecha, empleados
de una empresa, etc.).

Individuo: Un individuo o unidad estadística es cada uno de los elementos que


componen la población. Nota que un individuo en estadística puede ser distinto a
un individuo como persona. Por ejemplo, en los censos económicos se obtienen
datos de los negocios. En este caso cada negocio, que está formado por varias
personas, es un individuo de la población.

Muestra: La mayoría de los estudios estadísticos se realiza, no a partir de toda la


población, sino de un subconjunto o parte de ésta, llamado muestra, partiendo del
supuesto de que este sub conjunto presenta el mismo comportamiento y
características que la población. En general el tamaño de la muestra es mucho
menor al tamaño de la población.

5
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
Muestreo: Es el proceso de recabar los datos que se desean analizar, obtenidos
de una proporción reducida y representativa de la población.

Variable: Se llama variable a una característica que se observa en una población


o muestra, y a la cual se desea estudiar. La variable puede tomar diferentes
valores dependiendo de cada individuo. Las variables se pueden clasificar en
cuantitativas y cualitativas:

a) Variable cuantitativa: se expresa en valores numéricos. Dentro de ella, se


subdividen en:
 Discreta: Se tratan de variables expresadas con valores enteros. Ej. N°
de hijos de una Familia, n° de alumnos de un curso.
 Continua: son valores que pueden tomar cualquier valor dentro de un
intervalo. Ej. Peso, estatura, sueldos.

b) Variable cualitativa: es aquella que describe cualidades. No son numéricas


y se subdividen en:

 Nominal: son variables presentadas sin orden ni jerarquía. Ej. Estado civil,
preferencia por una marca, sexo, lugar de residencia.
 Ordinal: son variables organizadas de acuerdo con una clasificación. Ej.
grado de estudios, días de la semana, calidad de la atención, nivel
socioeconómico.

6
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
DATOS AGRUPADOS
Ordenamiento de datos en arreglos de datos y distribuciones de frecuencias

Una ordenación de datos es una de las formas más sencillas de presentarlos:


organiza los valores en orden ascendente o descendente. La ordenación de datos
ofrece varias ventajas con respecto a los datos sin procesar:

 Podemos identificar los valores mayor y menor rápidamente

 Es fácil dividir los datos en secciones

 Podemos ver si algunos valores aparecen más de una vez en el arreglo

 Podemos observar la distancia entre valores sucesivos de los datos

DATOS AGRUPADOS
Para ilustrar el método de datos agrupados, observaremos la tabla 1, que muestra
los rendimientos anuales de ACCIONES de una empresa a lo largo de un periodo
de 30 años expresados en tanto porciento y corregidos por el nivel de inflación.
Para resumir estos datos, podríamos calcular su media y varianza.

La tarea de interpretar los datos de la tabla 1 pueda hacerse más fácil si se reduce
la cantidad de información que ha de ser asimilada, agrupando las observaciones.

TABLA 1 Rendimientos anuales en tanto porciento y corregidos por el nivel de


inflación de unas ordinarias en un periodo de 30 años.

1.1 TABLA 1

7
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
-3,2 17,4 -13,4 -9,9 20,4 15,1

2,7 -1,6 41,0 20,8 6,1 -21,8


20,9 53,4 10,3 15,1 -13,8 -34,8
24,6 31,1 -1,0 10,3 -1,5 28,3
17,2 3,6 26,0 -13,0 10,6 18,2

1.2 TABLA 2. Subdivisión de los rendimientos de la tabla 1 en clases

Rendimiento corregido por el Número de años Frecuencias Acumuladas


nivel de inflación (frecuencias)

-39,95% a -19,95% 2 2
-19,95% a 0,05% 8 10

0,05% a 20,05% 11 21

20,05% a 40,05% 7 28

40,05% a 60,05% 2 30

Los sub intervalos en los que se han dividido el conjunto de datos, reciben el
nombre de clases, y el número de observaciones de cada clase se llama
frecuencia. Para cada clase particular, la frecuencia acumulada es el número total
de observaciones que hay en esa clase y en las anteriores.

EJERCICIO

8
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
f M
Venta en Frecuencia Marca de fM fM 2
dólares clase
10-20 1 15 15 225
20-30 8 25 200 5000
30-40 10 35 350 12250
40-50 9 45 405 18225
50-60 8 55 440 24200
60-70 4 65 260 16900
70-80 2 75 150 11250
Σfᵢ=42 ΣfᵢMᵢ=1820 Σ M 2ᵢ=88050

a) Encuentre la media aritmética


n
f ᵢM ᵢ 1820
x́=∑ x́= =43.33
i=1 Σf ᵢ 42

b) Determine la varianza
n
fi M 2 8850
S2=∑ −x́ 2 S 2= −¿
i =1 N 42

2096.428571-1877.4889= 218.93

C) Encuentre la desviación estándar de la muestra

S=√ S 2 S=√ 218.93=14.7

DISTRIBUCIONES MUÉSTRALES

Las muestras aleatorias obtenidas de una población son, por naturaleza propia,
impredecibles. No se esperaría que dos muestras aleatorias del mismo tamaño y
tomadas de la misma población tenga la misma media muestral o que sean

9
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
completamente parecidas; puede esperarse que cualquier estadístico, como la
media muestral, calculado a partir de las medias en una muestra aleatoria, cambie
su valor de una muestra a otra, por ello, se quiere estudiar la distribución de todos
los valores posibles de un estadístico. Tales distribuciones serán muy importantes
en el estudio de la estadística Inferencial, porque las inferencias sobre las
poblaciones se harán usando estadísticas muéstrales. Como el análisis de las
distribuciones asociadas con los estadísticos muéstrales, podremos juzgar la
confiabilidad de un estadístico muestral como un instrumento para hacer
inferencias sobre un parámetro poblacional desconocido.

Como los valores de un estadístico, tal como x, varían de una muestra aleatoria a
otra, se le puede considerar como una variable aleatoria con su correspondiente
distribución de frecuencias.

La distribución de frecuencia de un estadístico muestral se denomina distribución


muestral. En general, la distribución muestral de un estadístico es la de todos sus
valores posibles calculados a partir de muestras del mismo tamaño.

Suponga que se han seleccionado muestras aleatorias de tamaño 20 en una


población grande. Se calcula la madia muestral x para cada muestra; la colección
de todas estas medias muéstrales recibe el nombre de distribución muestral de
medias.

10
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO

Suponga que se eligen muestras aleatorias de tamaño 20, de una población


grande, y se calcula la deviación estándar de cada una. La colección de todas
estas desviaciones estándar muéstrales se llama distribución muestral de la
desviación estándar, y lo podemos ver en la siguiente figura:

EJEMPLO 1
Una población normal tiene μ=80 σ =14

a) Calcule la probabilidad de tener un valor entre 75 y 90

90−80
μ=80 Z= =0.7142=0.2611
14
σ =14

P (75<X<90)

11
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
75−80
Z= =0.3571=0.1368 0.2611+0.1368=39.79%
14

b) Halle la probabilidad de tener un valor de 75 0 menor


μ=80 0.5 + .1368 = .6368

σ =14 1 - .6368 = .3632

P (75<X) =36.32%

c) Calcule la probabilidad de tener un valor entre 75 y 70

μ=80
σ =14

70−80
P (75<X<70) Z= =0.7142 =.2611
14

12
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
.2611 - .1368= .1243

=12.43%

EJEMPLO 2
La media de la población normal, es 60 y la desviación=12. Se toma una muestra
aleatoria de 9. Calcule la probabilidad de que la media muestral.

a) Sea mayor que 63


x̅=60 P (x̅>63)

63−20
3
σ =56 Z= 12 = =.75
4
√9
.5 + 2734 = .7734 1 - .7734 = 0.2266 = 22.66%

b) Menor que 56

P (x̅>56) .05 + .0398 = .539


13
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
56−60
4
Z= 12 = =1 1 - .5398 = .4602= 46.02%
4
√9

c) Este entre 56 y 63

P (56<X<63) .0398 + .2734 = 0.3132 0.3132X100 = 31.32%

14
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO

DISTRIBUCIÓN MUESTRAL DE LA PROPORCIÓN


Uno de los objetivos de la estadística es conocer acerca del comportamiento de
parámetros poblacionales tales como: la media (μ), la varianza (σ 2) o la
proporción (p).

Para ello se extrae una muestra aleatoria de la población y se calcula el valor de


un estadístico correspondiente, por ejemplo, la media muestral (X), la varianza
muestral.

Y es el conjunto de todas las muestras posibles del mismo tamaño extraídas de


una población, junto con el conjunto de todas las proporciones muéstrales posibles
del mismo tamaño extraídas de una población, junto con el conjunto de todas las
proporciones muéstrales.

La distribución muestral de proporciones es la adecuada para dar respuesta a


estas situaciones. Esta distribución se genera de igual manera que la distribución
muestral de medias, a excepción de que al extraer las muestras de la población se
calcula el estadístico proporción (p=x/n en donde "x" es el número de éxitos u
observaciones de interés y "n" el tamaño de la muestra) en lugar del estadístico
media.

15
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO

EJEMPLO 2
Se elige una muestra de 2000 electores potenciales en el estado de México; se
encontró que 1550 planearon botar por el gobernador actual. ¿Cuál es la
probabilidad de que el gobernador sea elegido presidente de la república? En una
encuesta previa se determino que el 80% de la población total del padrón votante
elegiría a dicho candidato

T.F 1550
P(A) P ( A )= =.775
T .P 2000

.775−.80
Z= =−2.67
P= .80 √ (.775)(.225)
2000

ṕ−P
ṕ= .775 Z=
√ ṕ

n= 2000

q= .225

16
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO

DISTRIBUCIÓN MUESTRAL DE DIFERENCIA DE MEDIAS

Suponga que se tienen dos poblaciones distintas, la primera con media 1 y

desviación estándar 1, y la segunda con media 2 y desviación estándar 2.


Más aún, se elige una muestra aleatoria de tamaño n 1 de la primera población y
una muestra independiente aleatoria de tamaño n 2 de la segunda población; se
calcula la media muestral para cada muestra y la diferencia entre dichas medias.
La colección de todas esas diferencias se llama distribución muestral de las
diferencias entre medias o la distribución muestral del estadístico

17
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO

La distribución es aproximadamente normal para n 1 30 y n2 30. Si las


poblaciones son normales, entonces la distribución muestral de medias es normal
sin importar los tamaños de las muestras.

EJEMPLO

De una población se toma una muestra de 40 observaciones. La media muestral


es de 102 y la desviación estándar de 5. De otra población se toma una muestra
de 50 observaciones y la media muestral es ahora 99 y la desviación estándar es
6. Calcule el valor estadístico de la prueba.

Supongo que las medias poblacionales son iguales a las varianzas.

x͞ 1= 102 Z=¿ ¿ ¿= 99

S1=5
(102−99)(0) 3
Z= = =2.54
1.18 1.18

S2=6

( n−1 ) S 21 +( n2−1) S22 ( 40−1 ) 52 + ( 50−1 ) 6 2 975+1764 2739


S2
= n1 +n −2 2
= 40+ 50−2 = 88
=
88 = 31.13

2
S2 S2 31.13 31.13
σ x1 x 2
√ +
n1 n 2
=
√ 40
+
50
=√ 0.77+0.62= √1.3926=1.18

.5+.4945=0.9945
18
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
.1-0.9945=.0055

DISTRIBUCION DE PROBABILIIDAD

T DE STUDENT

DISTRIBUCIÓN DE PROBABILIDAD

Con respecto a una variable aleatoria es una función que asigna a cada suceso
definido sobre la variable aleatoria la probabilidad de que dicho suceso ocurra. La
distribución de probabilidad está definida sobre el conjunto de todos los eventos
rango de valores de la variable aleatoria.

Cuando la variable aleatoria toma valores en el conjunto de los números reales, la


distribución de probabilidad está completamente especificada por la función de
distribución, cuyo valor en cada real x es la probabilidad de que la variable
aleatoria sea menor o igual que x.

“T” DE STUDENT

Permite decidir si dos variables aleatorias normales y con la misma varianza


tienen medias diferentes. Dada la ubicuidad de la distribución normal puede
aplicarse en numerosos contextos, para comprobar si la modificación en las
condiciones de un proceso (humano o natural) esencialmente aleatorio producen
una elevación o disminución de la media poblacional. Esto opera decidiendo si una
diferencia en la media muestral entre dos muestras es estadísticamente
significativa, y entonces poder afirmar que las dos muestras corresponden a
distribuciones de probabilidad de media poblacional distinta, o por el contrario
afirmar que la diferencia de medias puede deberse a oscilaciones estadísticas.

La eficacia aumenta con el número de datos del que constan las dos muestras, en
concreto del número de grados de libertad conjunto de las dos muestras, este
número viene siendo Ni el tamaño muestral, es decir, el número de datos en cada
muestral.

19
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO

EJEMPLOS
1.- Suponga que los datos siguientes se seleccionan al azar de una población de
valores normalmente distribuidos y realicen un intervalo de confianza del 95%para
calcular la media poblacional.

40,51,43,48,44,57,54,39,42,48,45,39 y 43
n
X i 40+51+ 43+48+ 44+57 +54+39+ 42+48+ 45+39+ 43 593
χ́ =∑ = = = 45.61
i=1 n 13 13
n
( x −xi )
s2=∑ =¿ ¿
i=1 n−1

+¿ ¿

+¿ ¿

s= √ s2 =√ 32.42=5 .69

∝=1−.95 %=0.05÷ 2=0.025

gl=n−1=13−1=12

5.69
S x= =1. 57
√ 13

I ∝=x ±t S x

20
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
I ∝=45.61+ ( 2.179 ) (1.57 )=¿

45.61+3.42=49 . 03Límite superior

45.61−3.42=42. 12Límite inferior

(42.12, 49.03)

2.-Si se supone que X esta normalmente distribuida utiliza la siguiente información


para calcular un intervalo de confianza de 90% para estimar la media poblacional.
n
Xi
χ́ =∑ 313, 320, 319, 340, 325, 310, 321, 329, 317, 311, 307, 318.
i=1 n

313 ,320 , 319 ,340 , 325 , 310 ,321 , 329 ,317 ,311 , 307 , 318.
= 319.16
12
n
2= ∑ ¿¿¿
S i=1
¿
¿¿
¿

37.9456+0.7056+0.0256+ 434.305634 .1056+83.9056+ 3.3856+96.82564 .6656+66.5856+ ¿147.8656+ 1.345


12−1

911.6672
= = 82.87√ 82.87= 9.10
11

x́=319.16

σ 2=82.87

σ =9.10

gl= n-1

gl= 12-1=11

∝ 1-.90%= 0.2/2=0.05

21
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
9.10
IC=319.16+ (1.796) (2.6269) Sx́= =2.6269
√ 12
319.16 + 4.7179=323.8779Límite Superior

319.16 – 4.7179=314.4421Límite Inferior

(314.4, 323.8)

3.-Si una muestra aleatoria de 27 Artículos produce x́= 128.4 y S= 20.6, cual es el
intervalo de confianza de 98% para la media poblacional. Suponga que X esta
normalmente distribuida para la población. ¿Cuál es la estimación puntual?

x́= 128.4

S= 20.6

σ = 4.53

gl= n-1

gl= 27-1= 26

∝= 1-.98%= 0.02/2=0.01
22
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
20.6
IC= 128.4+ (2.479) (3.96) Sx́= =3.96
√ 27
128.4 + 9.8168=138.21Límite Superior

128.4 – 9.8168=118.58 Límite Inferior

(118.58, 138.21)

INTERVALO DE CONFIANZA PARA ESTIMAR P

Si el estadístico S es la proporción de “éxitos “en una muestra de tamaño,


obtenida de una población binomial en la que p es la proporción de éxitos es decir
la probabilidad de éxito, entonces los limites de confianza para p están dados por
la proporción de éxitos en la muestra de tamaño N. Usando los valores de p
obtenidos, ve que los limites de confianza para la proporción poblacional están
dados por:

P ± Zc

23
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
Si el muestreo se efectuó de una población finita o de una población infinita con
reemplazamiento y están dados por:

P± Zc

Si el muestreo se hizo sin el reemplazamiento de una población de tamaño finito


Np. Para calcular estos límites de confianza se puede usar el estimado muestral P
que por lo general, mostrara ser satisfactorio si N es mayor o igual a 30.

INTERVALOS DE CONFIANZA PARA DIFERENCIAS Y SUMAS

Si S1 y S2 son dos estadísticos muéstrales con distribuciones de muestreo


aproximadamente normales, entonces los límites de confianza se puede usar para
la diferencia de los parámetros poblacionales correspondientes a S1 y S2 están
dados por:

S1 y S2 ± zc s1 - s2

EJEMPLO

Una compañía textil produce pantalones para hombre, los pantalones se


confeccionan y venden con corte regular o con corte de bota. En un esfuerzo por
estimar la proporción del mercado de sus pantalones para hombre en el centro de
la ciudad que prefiere pantalones con corte de bota, el analista toma una muestra
aleatoria de 212 ventas de pantalones de las 2 tiendas de venta al público de la
ciudad solo 34 de las ventas fueron de pantalones de corte de bota. Construya un
intervalo de confianza de 90% para estimar la proporción de la población en toda
la ciudad que prefieren pantalones con corte de bota.

N=212

P= .16

pq
P= √
n

24
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
( .16 ) (.84)
P= √
212

P=0.025

34
P (A)= =.16
212

P= IC=P± ZP

IC=.16± ( 1.65 )( 0.25 )=0.41

.16+0.41=.2

.16-0.41=.11

PROBLEMAS
Use la información sobre cada una de las siguientes muestras para calcular el
intervalo de confianza para estimar la proporción de la población.

a) n= 44 ṕ=¿ .51 ; calcule un intervalo de confianza del 99%


b) n= 300 ṕ=¿ .82 ; calcule un intervalo de confianza del 95%
c) n= 1,150 ṕ=¿ .48 ; calcule un intervalo de confianza del 90%
d) n= 95 ṕ=¿ .32 ; calcule un intervalo de confianza del 88%

a) n=44 ṕ=.51 ; Calcule un Intervalo de Confianza del 99%

√ pq = .51(.49) = 0.075
σ ṕ=
n √ 44
p= IC∝ = ṕ ±Z√ ṕ

ṕ=.51 IC= .51± (2.57) (0.075)


Gráfica de distribución
Normal, Media=44, Desv.Est.=0.51
IC= .51+ 0.192= 0.70 Limite Superior
0.8

IC= .51- 0.192= 0.31 Limite Inferior


0.7

0.6
(.31, .70)
0.5 .495
Densidad

.495

99%
0.4

0.3

0.2 25
[ESTADISTICA BASICA] 0.1

0.0
42 43 44 45 46
X
Estadística básica
CUADERNILLO

b) n=300 P̅=.82; calcule un intervalo de confianza de 95%

σ P̅= √ pq σP̅= √ ( .82 ) (.18) =.022 n= 44 p= IC∝ = ṕ ±Z√ ṕ


n 300

ṕ=.82 IC= .82± (1.96) (0.022)

IC= .82+ .043= .863 Limite Superior

IC= .82- .043= .777 Limite Inferior

(.77, .86)
Gráfica de distribución
Normal, Media=300, Desv.Est.=0.82
0.5

0.4

0.3
Densidad

.475 .475

0.2
95%
0.1

0.0
297 298 299 300 301 302 303
X

|
Gráfica de distribución

0.9 de 90% σ P
c)n=1150 P̅=.48; calcule un intervalo de confianza ̅=
√ pq
σP̅=
√( .48 )( .52)
Normal, Media=1150, Desv.Est.=0.48

0.8
n 1150
=.014 p= IC∝ = ṕ ±Z√ ṕ 0.7

0.6

ṕ=.48 IC= .48± (1.65) (0.014)


Densidad

0.5 .45 .45

0.4

0.3
90%
26
0.2
[ESTADISTICA BASICA] 0.1

0.0
1148.5 1149.0 1149.5 1150.0 1150.5 1151.0 1151.5
X
Estadística básica
CUADERNILLO
IC= .48+ 0.023= .503 Limite Superior

IC= .48- 0.023= .45 Limite Inferior

(.45, 50)

d) n=95 P̅=.32; calcule un intervalo de confianza de 88%

σ P̅= √
pq
σP̅=
√( .32 ) (.68) =.047 p= IC∝ = ṕ ±Z√ ṕ
n 95

ṕ=.32 IC= .32± (1.56) (0.047)

IC= .32+ 0.073= .393 Limite Superior

IC= .32- 0.073= .247 Limite Inferior

(.24, 39) Gráfica de distribución


Normal, Media=95, Desv.Est.=0.32
1.4

1.2

1.0
Densidad

0.8

0.6

0.4 .44
88% .44

0.2

0.0
94.0 94.5 95.0 95.5 96.0
X

EJERCICIOS

27
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
Use la siguiente información para cumplir intervalo de confianza del 90%, 95% y
99% para estimar la media poblacional de los siguientes datos que proviene de
una población normalmente distribuida datos son:

12.3, 11.6, 11.9, 12.8, 12.5, 11.4, 12, 11.7, 11.8, 12.3.

12.3+11.6+11.9 +12.8+12.5+11.4 +12+11.7+ 11.8+12.3


x́= =12.03
10

(12.3−12.03)2 + ( 11.6−12.03 )2+ ( 11.9−12.03 )2+ ( 12.8−12.03 )2 + ( 12.5−12.03 )2 + ( 11.4−12.03 )2


2 ( 12−12.03 )2+ ( 11.7−12.03 )2 + ( 11.8−12.03 )2 + ( 12.3−12.03 )2 1.721
σ = = =0
10−1 9

s
σ 2=√ 0.19= 0.43 x́=
0.43
√ 10
=0 . 13

g' =10-1=9

0.1
∝=1−.90= =0 . 05
2

t=1.833

ICM =12.03+ (1.833) (0.13)

ICM =12.03 + 0.23 =12.26L.S

ICM =12.03 – 0.23 =11.8 L.I

(11.8, 12.2)

g' =10-1=9

0.05
∝=1−.95= =0 . 025
2

28
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
t=2.262

ICM =12.03+ (2.262) (0.13)

ICM =12.03 + 0.29 = 12.32 L.S

ICM =12.03 – 0.29 = 11.74 L.I

(11.7, 12.32)

g' =10-1=9

0.01
∝=1−.99= =0 . 005
2

t=3.250

ICM =12.03+ (3.250) (0.13)

ICM =12.03 + 0.42 = 12.45 L.S

29
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
ICM =12.03 – 0.42 = 11.61 L.I

(11.61, 12.45)

EJERCICIO 2:
Use la siguiente información para calcular el intervalo de confianza para calcular la
proporción poblacional.

a) n= 284 ṗ=.71 90% de confianza


b) n=1250 ṗ=.48 95% de confianza

a)n=284

ṗ=.71

( .71 ) (.29)
σ ṗ= √ =.026
284

IC =.71± (1.65) (0.026)

IC =.71 + 0.042 = 0.752

IC =.71 – 0.042 = 0.668

(0.66, 0.75)

30
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO

b)n=1250

ṗ=.48

( .48 )( .52)
σ ṗ= √ =0.014
1250

IC =.48± (1.96) (0.014)

IC =.48+ 0.027 = 0.50

IC =.71 – 0.027 = 0.45

(o.45, 0.05

PRUEBA DE HIPÓTESIS.

Es importante recordar que las hipótesis siempre son proposiciones sobre la


población o distribución bajo estudio, proposiciones sobre la muestra .Por lo

31
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
general, el valor del parámetro de la población especificado en la hipótesis nula se
determina en una de tres maneras diferentes:

1. Puede ser resultado de la experiencia pasada o del conocimiento del proceso,


entonces el objetivo de la prueba de hipótesis usualmente es determinar si ha
cambiado el valor del parámetro.

2. Puede obtenerse a partir de alguna teoría o modelo que se relaciona con el


proceso bajo estudio. En este caso, el objetivo de la prueba de hipótesis es
verificar la teoría o modelo

3. Cuando el valor del parámetro proviene de consideraciones externas tales como


las especificaciones de diseño o ingeniería, o de obligaciones contractuales. En
esta situación, el objetivo usual de la prueba de hipótesis es probar el
cumplimiento de las especificaciones.

Los procedimientos de prueba de hipótesis dependen del empleo de la


información contenida en la muestra aleatoria de la población de interés.

TIPOS DE PRUEBAS DE TIPOS HIPÓTESIS

Se pueden presentar dos tipos de pruebas de hipótesis que son:

1. De dos colas, o bilateral.

2. De una cola, o unilateral.

Este último puede ser de cola derecha o izquierda.

La hipótesis es una afirmación sobre un parámetro de la población,


Como la media, la varianza o la desviación estándar.

La hipótesis inicial que se define sobre la población se llama hipótesis nula; pero si
rechazamos esa hipótesis nula debemos tener una hipótesis alternativa, la cual
tomaremos si la hipótesis inicial o nula es falsa.

El proceso de revisión de la hipótesis para determinar si se considera


Verdadera o falsa se llama Prueba de Hipótesis.

Una prueba de hipótesis es una regla que especifica

32
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
1. Para que valores de la muestra se toma la decisión de que H0 es
Verdadera.

2. Para que valores de la muestra se rechaza H0 y se acepta H1 como


Verdadera.

CONCEPTOS BÁSICOS PARA EL PROCEDIMIENTO DE PRUEBA


DE HIPÓTESIS

HIPÓTESIS ESTADÍSTICA:
Al intentar alcanzar una decisión, es útil hacer hipótesis (o conjeturas) sobre la
población aplicada.
Tales hipótesis, que pueden ser o no ciertas, se llaman hipótesis estadísticas.
Son, en general, enunciados acerca de las distribuciones de probabilidad de las
poblaciones.
HIPÓTESIS NULA.
En muchos casos formulamos una hipótesis estadística con el único propósito de
rechazarla o invalidarla. Así, si queremos decidir si una moneda está trucada,
formulamos la hipótesis de que la moneda es buena (o sea p = 0,5, donde p es la
probabilidad de cara).
Analógicamente, si deseamos decidir si un procedimiento es mejor que otro,
formulamos la hipótesis de que no hay diferencia entre ellos (o sea. Que cualquier
diferencia observada se debe simplemente a fluctuaciones en el muestreo de la
misma población). Tales hipótesis se suelen llamar hipótesis nula y se denotan por
Ho.
Para todo tipo de investigación en la que tenemos dos o más grupos, se
establecerá una hipótesis nula.
La hipótesis nula es aquella que nos dice que no existen diferencias significativas
entre los grupos.
Por ejemplo, supongamos que un investigador cree que si un grupo de jóvenes se
somete a un entrenamiento intensivo de natación, éstos serán mejores nadadores
que aquellos que no recibieron entrenamiento. Para demostrar su hipótesis toma
al azar una muestra de jóvenes, y también al azar los distribuye en dos grupos:
uno que llamaremos experimental, el cual recibirá entrenamiento, y otro que no
recibirá entrenamiento alguno, al que llamaremos control. La hipótesis nula
señalará que no hay diferencia en el desempeño de la natación entre el grupo de
jóvenes que recibió el entrenamiento y el que no lo recibió.

33
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
Una hipótesis nula es importante por varias razones:
Es una hipótesis que se acepta o se rechaza según el resultado de la
investigación.
El hecho de contar con una hipótesis nula ayuda a determinar si existe una
diferencia entre los grupos, si esta diferencia es significativa, y si no se debió al
azar.
No toda investigación precisa de formular hipótesis nula. Recordemos que la
hipótesis nula es aquella por la cual indicamos que la información a obtener es
contraria a la hipótesis de trabajo.
Al formular esta hipótesis, se pretende negar la variable independiente. Es decir,
se enuncia que la causa determinada como origen del problema fluctúa, por tanto,
debe rechazarse como tal.
OTRO EJEMPLO:
Hipótesis: el aprendizaje de los niños se relaciona directamente con su edad.
HIPÓTESIS ALTERNATIVA.
Toda hipótesis que difiere de una dada se llamará una hipótesis alternativa. Por
ejemplo: Si una hipótesis es p = 0,5, hipótesis alternativa podrían ser p = 0,7, p "
0,5 ó p > 0,5.
Una hipótesis alternativa a la hipótesis nula se denotará por H1.
Al responder a un problema, es muy conveniente proponer otras hipótesis en que
aparezcan variables independientes distintas de las primeras que formulamos. Por
tanto, para no perder tiempo en búsquedas inútiles, es necesario hallar diferentes
hipótesis alternativas como respuesta a un mismo problema y elegir entre ellas
cuáles y en qué orden vamos a tratar su comprobación.

34
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO

EJEMPLO 1

Un desarrollador considera dos ubicaciones alternativas para un centro comercial


regional dado que el ingreso domestico de la comunidad es una consideración
importante en la selección del sitio, el desarrollador desea probar la hipótesis nula
de que no existe ninguna diferencia entre los montos de ingreso domestico medio
de las dos comunidades. En consonancia con esta hipótesis se supone que la
desviación estándar del ingreso domestico también es igual en las dos
comunidades. En una muestra de n1 =30hogares de la primera comunidad el
ingreso anual promedio es de x́ 1=45,500 con una desviación estándar S1=1,800 .
En una muestra de n2 =40 hogares de la segunda comunidad x́ 2=44,600 y
S2=2,400 . Pruebe la hipótesis nula al nivel de significancia de 5%.

H 0 : μ1−μ 2=0
Gráfica de distribución
Normal, Media=0, Desv.Est.=1.96
H 1 : μ1−μ 2 ≠ 0
0.20

n1 =30
0.15
x́ 1=45,500
Densidad

1.96
1.96
0.10
S1=1,800

n2 =40 0.05

x́ 2=44,600 0.00
-5.0 -2.5 0.0 2.5 5.0 7.5
X
S2=2,400 1.74

α =.05

35
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO

( x́1− x́ 2 ) −(μ1−μ 2) (45,500−44,600)−(0) 900


Z= Z= = =1.74
σ x́ 1−x́ 2 σ x́ 1− x́ 2 522.78

2 ( n1 −1 ) S 21+(n2−1) S 22
S=
n1 +n2 −2

( 30−1)1,8002 +(40−1)2,4002 318600000 =4,685,294


2
S= =
30+ 40−2 68

4,685,294 4,685,294
√ 30
+
40
=522.78

∴ Se acepta la hipótesis nula y se rechaza la hipótesis alternativa

EJEMPLO 2
Una muestra aleatoria de N1=12 estudiantes de informática tiene un promedio de
calificación media de 2.70 (donde A=4) con una desviación estándar de .40 en el
caso de los estudiantes de ingeniería en sistemas una muestra aleatoria de N=2
10 estudiantes tiene un promedio de calificación media de 2.90 con una desviación
estándar de .30 se supone que los valores de calificación sigue una distribución
normal ,prueba la hipótesis nula de que el promedio de calificación de las 2
categorías de estimación no es diferente con un nivel de significancia de .5%
H 0 : μ1−μ 2=0

H 1 : μ1−μ 2 ≠ 0

n1 =12

x́ 1=2.7

S1=40

n2 =10

x́ 2=2.90

S2=30

α =.05

.05/2=.025

gl=n1 +n 2−2=12+10−2=20 t=2.086


36
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
( x́ 1−x́ 2) −( μ 1−μ2) ( 2.7−2.9 )−(0) −0.2
t= t= = = -1.30
σ x́ 1−x́ 2 σ x́ 1−x́ 2 .1534

2 ( n1 −1 ) S 21+(n2−1) S 22
S=
n1 +n2 −2

(12−1) .4 2+(10−1).3 2 2.57 =.1285


2
S= =
12+10−2 20

.1285 .1285
√ 12
+
10
=.1534

∴ Se acepta la hipótesis nula y se rechaza la hipótesis alternativa

EJEMPLO 3

El representante de un grupo comunitario le informa al posible desarrollador de un


centro comercial al sur de la ciudad, el ingreso promedio por hogar en la zona es
de 45000. Supongamos que puede sumirse que, para el tipo de zona del que se
trata, el ingreso hogar tiene una distribución aproximadamente normal y que
puede aceptarse que la desviación estándar es igual a 2000, con base a un
estudio anterior. A partir de una muestra aleatoria de 15 hogares se determina
que el ingreso domestico medio es x=44000. Pruebe la hipótesis nula µ =45000
estableciendo los limites críticos de la media muestral en términos de pesos y con
un nivel de significancia del 5%

a) Pruebe la hipótesis del problema con la variable normal estándar Z como


estadística de prueba
b) Prueba de hipótesis del problema con la variable normal t como estadística
de prueba

a) Gráfica de distribución
H0 µ1- µ2=0 45000 T, df=14

0.4
H1 µ1- µ2≠0 45000

n=45000 0.3

σ =2000
Densidad

0.2

x=44000
0.1
37
[ESTADISTICA BASICA] 0.0
-4 -3 -2 -1 0 1 2 3 4
46012.13 X 43987.87
Estadística básica
CUADERNILLO
n=15

∝=0.5= .95/2= .475 tabla

2000
45000+ (1.96) ( )
√15
45000+1012.13=46012.13

45000-1012.13=43987.87

b)
Gráfica de distribución
gl= 15-1=14 T, df=14

0.4

∝=1 - .05% = .95/2 =0.475 Z=1.96tabla


0.3

.05/2=0.025 =2.1415tabla
Densidad

0.2
ICM
0.1
2000
44000+ (2.1415) ( )
√15 0.0
-4 -3 -2 -1 0 1 2 3 4
X 42892.35
44000+1107.65=1107.65 45107.65

44000-1107.65=42892.35

EJEMPLO 4
El salario medio semanal de una muestra de n1=30 empleados de una gran
empresa manufacturera es x1=280, por una distribución estándar de 14 pesos. En
otra gran empresa una muestra aleatoria n2=40 empleados tiene un salario medio
de x2=270 pesos, con una desviación estándar de 10 pesos. Pruebe la hipótesis

38
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
de que no existe diferencia entre los montos salariales semanales medio de las
dos empresas con un nivel de significancia del 5%.

n=30
x1=280
S=14
n2=40
x2=270
σ =10

( x 1−x 2 )−( µ 1−µ 2) ( 280 )−(0) 10


Z= = = =3.49
√ x 1−x 2 2.86 2.86

( n 1−1 ) S 1 ²+ ( n 2−1 ) S 2 ² ( 30−1 ) 14 ²+(40−1)10 ² 5684+3900 9584


S²= = = = =140.94
n 1+ n 2−2 30+40−2 68 68

140.94 140.94
√ 30
+
40
=2.86

∴ No se acepta la hipótesis

Gráfica de distribución
Normal, Media=3.49, Desv.Est.=2.86

0.14

0.12

0.10
Densidad

0.08

0.06
3.49 (no se acepta la hipotesis)
0.04

0.02

0.00
-5.0 -2.5 0.0 2.5 5.0 7.5 10.0 12.5
-1.96 X 1.96

39
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO

EJEMPLO 5
En una muestra aleatoria de n1=10 focos en un promedio de vida de los focos
x1=4000 horas S1=200 horas. Para otra marca de focos de cuya vida útil también
se presume que sigue una distribución normal, una muestra aleatoria de n2= 8
focos tiene una media muestral de X2=4300 horas y una desviación estándar
muestral de 250 pruebe la hipótesis de que no existe ninguna diferencia entre el
ciclo medio de vida útil de las 2 marcas de focos con un nivel de significancia del
1%

n1=10
x1=4000
S1=200
n2=8
x2=4300
S2=250

40
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
( x 1−x 2 )−(µ 1−µ 2)
t=¿
σ x 1−x 2

( n 1−1 ) S 1 ²+ ( n 2−1 ) S 2 ² ( 10−1 ) 200 ²+( 8−1)250 ² 360000+ 437500 9584


S²= = = =
n 1+ n 2−2 16 16 68
=49843.75

S1² S2²
σ x 1−x 2
√ +
n1 n2
Gráfica de distribución
T, df=16
49843.75 49843.75
√ 10
+
48
=¿105.90 0.4

−300 0.3
t= (4000-43000) (0)= = -2.83
105.90
Densidad

0.2
.01/2 =0.005

gl= 10+8-2=16 =2.921 0.1


2.83

∴ Se acepta la hipótesis 0.0


-4 -3 -2 -1 0 1 2 3 4
-2.94 X 2.94

EJERCICIO 1
Un especialista en administración de hospitales dice que el número de empleados
de tiempo completo de un hospital se puede estimar al contar el número de camas
de hospital. Una investigadora de campo de servicios de salud decidió crear un
modelo de regresión para pronosticar el número de empleados de tiempo
completo de un hospital respecto al número de camas por lo que realizo una
encuesta en 12 y obtuvo los datos que se presentan en secuencia según el
número de camas.

Hospital N° de Camas Empleados de x2 xy


Tiempo
1 23 69 529 1584
2 29 95 841 2755

41
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
3 29 102 841 2958
4 35 118 1225 4130
5 42 126 1764 5292
6 46 125 2116 5750
7 50 138 2500 6900
8 54 178 2916 9612
9 64 156 4096 9984
10 66 184 4356 12144
11 76 176 5776 13376
12 78 225 6084 7550
∑ ¿592 ∑ ¿1692 ∑ ¿33044 ∑ ¿ 92038
x y 2
x xy

592 1692
X́ = =49.333 Ý = =141
12 12

b=
∑ xy−n x́ ý
∑ x 2−n x́ 2
92038−( 12 ) ( 49.333 ) ( 141 ) 8566.564
b= = =b=2.231
33044−( 12 ) ( 2433.744 ) 3839.072

a= ý−b x́

a=141−( 2.231 ) ( 49.33 ) =141−110.061=¿ a=30.93

y=30.939+ 2.231 x

y=30.939+ 2.231 ( 23 ) =82.25

y=30.939+ 2.231 ( 78 ) =204.95


42
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO

Gráficas de residuos para empleados


Gráfica de probabilidad normal vs. ajustes
99
20
90
Porcentaje

10

Residuo
50 0

-10
10
-20
1
-40 -20 0 20 40 100 150 200
Residuo Valor ajustado

Histograma vs. orden


3
20
Frecuencia

2 10
Residuo

0
1 -10

-20
0
-20 -10 0 10 20 30 1 2 3 4 5 6 7 8 9 10 11 12
Residuo Orden de observación

ANALISIS DE REGRESION
La regresión estadística o regresión a la media es la tendencia de una medición
extrema a presentarse más cercana a la media en una segunda medición. La
regresión se utiliza para predecir una medida basándonos en el conocimiento de
otra.

EJERCICIO 1
Un especialista en administración de hospitales dice que el número de empleados
de tiempo completo de un hospital se puede estimar al contar el número de camas
de hospital. Una investigadora de campo de servicios de salud decidió crear un
modelo de regresión para pronosticar el número de empleados de tiempo
completo de un hospital respecto al número de camas por lo que realizo una

43
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
encuesta en 12 y obtuvo los datos que se presentan en secuencia según el
número de camas.

Hospital N° de Camas Empleados de x2 xy


Tiempo
1 23 69 529 1584
2 29 95 841 2755
3 29 102 841 2958
4 35 118 1225 4130
5 42 126 1764 5292
6 46 125 2116 5750
7 50 138 2500 6900
8 54 178 2916 9612
9 64 156 4096 9984
10 66 184 4356 12144
11 76 176 5776 13376
12 78 225 6084 7550
∑ ¿592 ∑ ¿1692 ∑ ¿33044 ∑ ¿ 92038
x y 2
x xy

592 1692
X́ = =49.333 Ý = =141
12 12

b=
∑ xy−n x́ ý
∑ x 2−n x́ 2
92038−( 12 ) ( 49.333 ) ( 141 ) 8566.564
b= = =b=2.231
33044−( 12 ) ( 2433.744 ) 3839.072

a= ý−b x́

a=141−( 2.231 ) ( 49.33 ) =141−110.061=¿ a=30.93

y=30.939+ 2.231 x

y=30.939+ 2.231 ( 23 ) =82.25

44
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
y=30.939+ 2.231 ( 78 ) =204.95

Gráficas de residuos para empleados


Gráfica de probabilidad normal vs. ajustes
99
20
90
Porcentaje

10

Residuo
50 0

-10
10
-20
1
-40 -20 0 20 40 100 150 200
Residuo Valor ajustado

Histograma vs. orden


3
20
Frecuencia

2 10
Residuo

0
1 -10

-20
0
-20 -10 0 10 20 30 1 2 3 4 5 6 7 8 9 10 11 12
Residuo Orden de observación

EJERCICIO 2
Un analista toma una muestra de 10 embarques recientes por una compañía que
registro la distancia en millas y tiempo de entrega al medio día más cercano a
partir del momento en que el embarque estuvo listo para su cargo.

Elabora el diagrama de dispersión y considere si el análisis de regresión lineal


parece apropiado.

Embarque muestreado 1 2 3 4 5 6 7 8 9 10
Distancia en millas (x) = 825 215 1070 550 480 920 1350 325 670 1215
Tiempo de entrega (y)= 3.5 1.0 4.0 2.0 1.0 3.0 4.5 1.5 3.0 5.0

45
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
Embarque X Y x2 xy y2
1 825 3.5 680625 2887.5 12.25
2 215 1.0 46225 215 1
3 1070 4.0 1144900 4280 16
4 550 2.0 302500 1100 4
5 480 1.0 230400 480 1
6 920 3.0 846400 2760 9
7 1350 4.5 1822500 6075 20.25
8 325 1.5 105625 487.5 2.25
9 670 3.0 448900 2010 9
10 1215 5.0 1476225 6075 25
∑ ¿7620 ∑ ¿28.5 ∑ ¿7104300 ∑ ¿26370 ∑ ¿ 99.75
x y x
2
xy y
2

7620 28
x́= =762 ý = =2.85
10 10

b=Σxy−n x̅ y̅ = ¿ ¿
Σ x −n x͞ 2
2

26,370−10 ( 762 ) ( 2.85 ) 26,370−21,717


b= = =b=.003582
7,104,300−10 ( 580,644 ) 7,104,300−5,806,440

a= y̅ −b x̅

a=2.85− (.00358 )( 762 )=2.85−2.7279=a=.1221

46
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO

y=.1221+.00358 ( 215 )=0.89


y=.1221+.00358 ( 1350 )=4.95

Se seleccionaron al azar las siguientes observaciones de muestra:

a) Establezca la ecuación de regresión


b) Obtenga el valor de ycuando x=7
c) Determine el error estándar de estimación
d) Determine el intervalo de confianza de 95% para el valor medio
pronosticado cuando x =7
e) Obtenga el coeficiente de determinación suponiendo una relación directa
entre las variables
f) Cuál es el coeficiente de correlación

a)

47
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
x2 y2
x Y xy
4 4 16 16 16
5 6 25 30 36
3 5 9 15 25
6 7 36 42 49
10 7 100 70 49
∑ ¿28 ∑ ¿29 ∑ ¿186 ∑ ¿173 ∑ ¿173
x y x
2
xy y
2

28 29
X́ = =5.6 Ý = =5.8
5 5

b=
∑ xy−n x́ ý
∑ x 2−n x́ 2
173−( 5 ) ( 5.6 ) ( 5.8 )
b= =0.3630
186−( 5 ) ( 31.36 )

a= ý−b x́

a=5.8− ( 0.3630 )( 5.6 ) ¿ 3.7672

y=3.7672+ 0.3630 ( 3 ) =4.85

y=3.7672+ 0.3630 ( 10 ) =7.39

48
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO

b)

ŷ=a+b x

ŷ=3.7672+ 0.3630(7)= 6.3082

c)

∑ y 2−a ∑ y−b ∑ x y
Syx= √
n−2

Syx=
√175−3.7672 ( 29 ) −0.3630(173) =0.9920
5−2

d)

gl=n−2

gl=5−2=3

1−.95=0.5/2=.025 = 3.182 t
ŷ ±t Sxy

6.3082 ±3.182(.9920)

6.3082+3.1565=9.46

6.3082−3.1565=3.15

(3.1, 9.4)

49
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
e)

a ∑ y +b ∑ x y−n ý 2
r 2= √
∑ y 2−n ý 2
2
r 2=
√ 3.7672 ( 29 )+.3630 ( 173 ) −5(5.8) =0.5658
175−5(5.8)2

f)

r =√ r 2

r =√ 0.5658

r =0.7521

REGRESION LINEAL MULTIPLE

Es evidente que lo más económico y rápido para modelar el comportamiento de


una variable Y es usar una sola variable preeditora y usar un modelo lineal. Pero
algunas veces es bastante obvio de que el comportamiento de Y es imposible que
sea explicada en gran medida por solo una variable.

Por ejemplo, es imposible tratar de explicar el rendimiento de un estudiante en un


examen, teniendo en cuenta solamente el número de horas que se preparó para
ella. Claramente, el promedio académico del estudiante, la carga académica que
lleva, el año de estudios, son tres de las muchas otras variables que pueden
explicar su rendimiento. Tratar de explicar el comportamiento de Y con más de
una variable preeditora usando una funcional lineal es el objetivo de regresión
lineal múltiple.

Frecuentemente, uno no es muy familiar con las variables que están en juego y
basa sus conclusiones solamente en cálculos obtenidos con los datos tomados.

Es decir, si ocurre que el coeficiente de determinación R 2 sale bajo (digamos


menor de un 30%) , considerando además que su valor no se ha visto afectado
por datos anormales, entonces el modelo es pobre y para mejorarlo hay tres
alternativas que frecuentemente se usan:

50
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
a) Transformar la variable preeditora, o la variable de respuesta Y, o ambas y usar
luego un modelo lineal.

b) Usar regresión polinómica con una variable preeditora.

c) Conseguir más variables preeditoras y usar una regresión lineal múltiple.

En el primer caso, se puede perder el tiempo tratando de encontrar la


transformación más adecuada y se podría caer en “overfitting”, es decir,
encontrar un modelo demasiado optimista, que satisface demasiado la tendencia
de los datos tomados pero que es pobre para hacer predicciones debido a que
tiene una varianza grande.

En el segundo caso el ajuste es más rápido, pero es bien fácil caer en


“overfitting” y, además se pueden crear muchos problemas de cálculo ya que
pueden surgir problemas de colinealidad, es decir relación lineal entre los términos
del modelo polinomio.

El tercer caso es tal vez la alternativa más usada y conveniente. Tiene bastante
analogía con el caso simple, pero requiere el uso de vectores y matrices.

En el siguiente ejemplo se mostrará el uso interactivo de las tres alternativas a


través de seis modelos de regresión y servirá como un ejemplo de motivación para
introducirnos en regresiónlineal múltiple

En la tabla se presentan datos muéstrales relativos a números de horas de estudio


fuera durante un periodo de 3 semanas de algunas de 1 curso de estadística y a
sus calificaciones en el examen final de ese periodo. Elabore un diagrama de
dispersión para estos datos y observe si cumplen con los siguientes datos.

51
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO

Estudiante 1 2 3 4 5 6 7 8
muestread
o
Horas de 20 16 34 23 27 32 18 22
Estudio(x)
Calificación 64 61 84 70 88 92 72 77
En
examen(y)

∑ x =¿ ¿192
192
x́= =24
8

∑ ý=608
608
ý= =76
8

52
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
x2 400 256 1156 529 729 1024 324 484 ∑ x 2=4902
xy 1280 976 2856 1610 2376 2994 1296 1694 ∑ xy =15032
y2 4096 3721 7056 4900 7744 6464 5184 5929 ∑ y2 =47094

a) Determine la línea de regresión de mínimos centrados de los datos y


trácela en el diagrama.
b) Calcule el error estándar de la estimación.
c) Use la ecuación de regresión para estimar la calificación en el examen
de un estudiante que dedico 30 horas al estudio de la materia que
curso.
d) Elabore el intervalo de confianza del 90% para estimar la calificación
media de los estudiantes que dedicaron 30 horas al estudio en curso.
e) Calcule el coeficiente de determinación y el coeficiente de correlación,
interprete los coeficientes calculados.

b=
∑ xy−nx̅y̅
∑ x2 −n x̅ 2
15032−8(24)(76)
b=
4902−8(576)

440
b=
294

b=1.4965

a= ý−b x́ =76−( 1.4965 ) ( 24 )=40.084

y=40.084+1.4965 ( 16 ) =64.028

y=40.084+1.4964 ( 34 )=90.965

53
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO

ŷ=40.084+1.49658 ( 30 )=84.979

s
∑ y 2−a ∑ y−b ∑ x y
x=
√ n−2

s 47094−40.084 ( 608 ) −1.496 ( 15032)


x=
√ 8−2

s 227.54
x=
√ 6

s x=√37.9233

s x=6.1581

54
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
ɡl =8−2=6

0.1
1−.90= =0.05
2

t=1.943

Iс ∝ =84.979+1.943 ( 6.1581 )=96.94

Iс ∝ =84.979−1.943 ( 6.1581 )=73.01

a ∑ y +b ∑ x y−n ȳ 2
r 2=
∑ y 2−n ȳ 2
55
[ESTADISTICA BASICA]
Estadística básica
CUADERNILLO
2 40.084 ( 608 ) +1.4965 ( 15032 ) −8(5776)
r=
47094−8(5776)

658.46
r 2=
886

r 2=0.7431

r =√ r 2

r =√ 0.7431

r =0.8620

INTERPRETACION

EL 86.02% DE LOS ALUMNOS QUE ESTUDIAN 30 HRS PASAN EL EXAMEN.

56
[ESTADISTICA BASICA]

También podría gustarte