Documentos de Académico
Documentos de Profesional
Documentos de Cultura
GUÍA DIDÁCTICA
ESTADÍSTICA, PROBABILIDADES Y
PROCESOS ESTOCÁSTICOS
DOCENTE:
Mg. RUBÉN GALEAS ARANA
Huancayo – Perú
2015
1
Mg. RUBÉN GALEAS ARANA
2
Mg. RUBÉN GALEAS ARANA
UNIDAD I
ESTADÍSTICA
1.1. CONCEPTO.
1.2. CLASIFICACIÓN.
a) La Estadística Descriptiva.
b) La Estadística Inferencial.
1
http://es.wikipedia.org/wiki/Estadística
3
Mg. RUBÉN GALEAS ARANA
b) Individuo o Elemento.
Son las personas u objetos, que son parte de la muestra, que contienen
cierta información que se desea estudiar o investigar. Por ejemplo: se
4
Mg. RUBÉN GALEAS ARANA
c) Muestra.
Para calcular el tamaño de una muestra hay que tomar en cuenta tres
factores:
1. El porcentaje de confianza con el cual se quiere generalizar los datos
desde la muestra hacia la población total.
2. El porcentaje de error que se pretende aceptar al momento de hacer la
generalización
5
Mg. RUBÉN GALEAS ARANA
- Nivel de confianza.
- Porcentaje de error.
Equivale a elegir una probabilidad de aceptar una hipótesis que sea falsa
como si fuera verdadera. Comúnmente se aceptan entre el 4% y el 6%
como error, tomando en cuenta de que no son complementarios la
confianza y el error.
- La variabilidad.
Hay que considerar que “p” y “q” son complementarios, es decir, que su
suma es igual a la unidad (p+q=1). Además, cuando se habla de la
máxima variabilidad, en el caso de no existir antecedentes sobre la
investigación (no hay otras o no se pudo aplicar una prueba previa),
entonces los valores de variabilidad es p=q=0,5
𝑍 2 . 𝑝. 𝑞
𝑛0 =
𝐸2
Donde:
no es el tamaño de la muestra.
Z es el nivel de confianza.
p es la variabilidad positiva.
q es la variabilidad negativa.
E es el porcentaje de error.
6
Mg. RUBÉN GALEAS ARANA
𝑛𝑜
𝑛=
𝑛 −1
1+ 𝑜
𝑁
Donde:
n es el tamaño de la muestra.
Tabla 1.1. Tabla de apoyo al cálculo del tamaño de la muestra por niveles de confianza.
Confianza 95% 94% 93% 92% 91% 90% 80% 62,27% 50%
Z 1,96 1,88 1,81 1,75 1,69 1,65 1,28 1 0,6745
Z2 3,84 3,53 3,28 3,06 2,86 2,72 1,64 1,00 0,4550
E 0,05 0,06 0,07 0,08 0,09 0,10 0,20 0,37 0,50
E2 0,0025 0,0036 0,0049 0,0064 0,0081 0,0100 0,0400 0,1369 0,2500
𝑛𝑜 384,16
𝑛= = = 356,82
𝑛𝑜 − 1 384,16 − 1
1+ 1+
𝑁 5000
Lo que significa que el tamaño de la muestra para una población de 5000
individuos debe ser 357 individuos.
7
Mg. RUBÉN GALEAS ARANA
Figura 1.2. Pantalla con calculadora para determinar el tamaño de una muestra
e) Muestreo.
- Muestreo probabilístico
8
Mg. RUBÉN GALEAS ARANA
9
Mg. RUBÉN GALEAS ARANA
a) Variables Cualitativas.
10
Mg. RUBÉN GALEAS ARANA
b) Variables Cuantitativas.
- Variable Discreta.
- Variable Continua.
11
Mg. RUBÉN GALEAS ARANA
Una pregunta es confiable si significa lo mismo para todos los que la van a
responder. Por ejemplo, una pregunta no confiable sería ¿Ve usted mucho
la televisión?. Para un encuestado, dos horas diarias puede ser poco y para
otro mucho. Una buena pregunta sería: ¿Cuántas horas al día ve usted la
televisión? y se plantearían las siguientes posibilidades: menos de dos
horas, de dos a cinco horas, de seis a nueve horas, más de nueve horas.
2
Cada vez doy alguna sesión en un curso sobre encuestas, pongo mucho énfasis en que la redacción de las preguntas
es muy importante, e influye mucho en las respuestas, por lo que siempre, cualquier lector que observa los resultados
de una encuesta, debería pedir que le dejen ver las preguntas (y las respuestas) ofrecidas a los encuestados. Por
supuesto, deberían también hacerlo los periodistas antes de informar sobre la tal encuesta.
Pero cuando digo este tipo de cosas mucha gente tiende a pensar que estoy hablando de las encuestas "manipuladas",
es decir, de encuestas en las que la empresa o el investigador responsable han intentado, deliberadamente, formular las
preguntas y las respuestas para empujar en la dirección de una respuesta favorable a sus puntos de vista, o sus
propuestas políticas. Y obviamente, este tipo de encuestas existen y con un poco de diligencia, no son difíciles de
detectar.
Pero la cosa es mucho más complicada. Es que incluso queriendo hacer una encuesta correcta y neutral, la elección
de unas palabras u otras al preguntar puede dar lugar a resultados muy diferentes. Hoy he encontrado en un artículo de
George Lakoff en el Huffington Post un ejemplo fantástico, de libro, que apareció en febrero en el NYTimes. El periódico
hizo una encuesta para saber la opinión de los americanos sobre el tema de los gays en el ejército, pero decidió hacer
un pequeño experimento con las palabras. A la mitad de la muestra les preguntaron si estaban a favor de que "los
homosexuales" pudieran servir en el ejército; y a la otra mitad les preguntaron si estaban a favor de que "los gays y
lesbianas" pudieran hacerlo (redacción exacta de las preguntas y los resultados).
Resultado: el 70% está a favor de permitir que sirvan en el ejército los gays y lesbianas, pero sólo el 59% está a favor de
que lo hagan los homosexuales. Es más, preguntados por su reacción en caso de que hagan pública su orientación
sexual, seguía estando a favor de su reclutamiento un 58% de los preguntados por gays y lesbianas, pero sólo un 44%
de los preguntados por los homosexuales (según cuenta Lakoff, la diferencia en este último punto es particularmente alta
entre los demócratas, que responden a favor, en el primer caso, el 79% de las veces, pero sólo el 43% en el segundo
caso).
Ya ven: diferencias de 11, 14 puntos, o de 36 puntos (para los demócratas) según se pregunte, en distintas preguntas,
por "gays y lesbianas" o por "homosexuales". Cualquiera de las dos formulaciones podría haber sido escogida por un
investigador perfectamente neutral y deseoso de hacer un estudio serio y objetivo, sin agendas oscuras ni planes turbios.
Pero los resultados difieren, a veces espectacularmente.
Entonces, ¿Cuál de las dos preguntas representa la "verdadera" opinión de los norteamericanos? Ninguna en particular.
Cada una, si la encuesta está bien hecha, representa la respuesta de los americanos a una pregunta distinta. Lo que nos
recuerda una vez más lo exquisitos que hay que ser al tomar siempre con la debida moderación los datos de las
encuestas.
12
Mg. RUBÉN GALEAS ARANA
a) Finalidad.
Si la variable está bien definida será más fácil determinar cuáles son las
conductas representativas del mismo y, a partir de ellas, especificar el
contenido del cuestionario.
13
Mg. RUBÉN GALEAS ARANA
- Utilización prevista
b) Características.
c) Redacción.
El significado de las palabras empleadas debe estar claro para todos los
sujetos. Los enunciados cortos y directos contribuirán a evitar la
ambigüedad ya que la inclusión de palabras innecesarias complican la
lectura y pueden provocar confusión en los sujetos. Debemos evitar el
uso de palabras como muchas veces, a menudo, frecuentemente, ...
14
Mg. RUBÉN GALEAS ARANA
¿Considera que las mujeres deben tener los mismos derechos que los
hombres?
Por ejemplo:
Le parece a usted imposible que la llegada del hombre a la luna nunca
haya ocurrido.
15
Mg. RUBÉN GALEAS ARANA
* Elección múltiple
d) Revisión.
Una vez redactadas las preguntas, y antes de dar forma a la prueba piloto,
es conveniente que éstas sean revisadas por un grupo de personas que
no hayan intervenido en su elaboración, con el fin de que puedan revisar,
no sólo si se adaptan al contenido, sino la claridad de la redacción, si se
han cumplido las normas generales y específicas en función del tipo de
formato, etc..
16
Mg. RUBÉN GALEAS ARANA
UNIDAD II
ORGANIZACIÓN Y PRESENTACIÓN
DE DATOS ESTADÍSTICOS
2.1. TABLAS DE INFORMACIÓN ESTADÍSTICA.
a) Número de Tabla.
b) Título.
c) Encabezamiento
d) Cuerpo de la Tabla.
17
Mg. RUBÉN GALEAS ARANA
f) Fuente.
g) Elaboración.
h) Fecha.
18
Mg. RUBÉN GALEAS ARANA
∑ 𝑓𝑖 = 𝑓1 + 𝑓2 + 𝑓3 + ⋯ + 𝑓𝑛 = N
𝑖=0
𝑓𝑖
𝑛𝑖 =
𝑁
La frecuencia relativa se puede expresar en fracciones, en números
decimales o en porcentajes. En una tabla de distribución de
frecuencias la suma de todas las frecuencias relativas debe dar
como resultado 1,00 o 100%.
𝑛
∑ 𝑛𝑖 = 1
𝑖=0
19
Mg. RUBÉN GALEAS ARANA
𝐹𝑖
𝑁𝑖 =
𝑁
A continuación desarrollaremos un ejemplo de aplicación: Según
información preliminar de la empresa de vigilancia de la Empresa
ELECTROCENTRO S.A., la edad de las personas que ingresaron a
las instalaciones de Parque Industrial, el día 06 de diciembre de 2012
son las siguientes:
32; 31; 28; 29; 33; 32; 31; 30; 31; 31; 27; 28; 29; 30; 32; 31; 31; 30;
30; 29; 29; 30; 30; 31; 30; 31; 34; 33; 33; 29; 29.
Tabla 2.3. Edad de las personas que ingresaron a las instalaciones del Parque
Industrial de la empresa ELECTROCENTRO S.A. según empresa de vigilancia el
día 06 de diciembre de 2012.
xi Recuento fi Fi ni Ni
27 I 1 1 0,032 0,032
28 II 2 3 0,065 0,097
29 IIII I 6 9 0,194 0,290
30 IIII II 7 16 0,226 0,516
31 IIII III 8 24 0,258 0,774
32 III 3 27 0,097 0,871
33 III 3 30 0,097 0,968
34 I 1 31 0,032 1
31 1
Fuente: Empresa de vigilancia.
Elaboración: Rubén Galeas Arana.
Fecha: 2012-12-07
20
Mg. RUBÉN GALEAS ARANA
Rpta. 29,0%
𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛
- Clase.
21
Mg. RUBÉN GALEAS ARANA
- Límites de clase.
𝑅
𝑟=
𝑘
Si el valor de “r” no es entero, se debe redondear al entero más
próximo, luego con dicho valor se puede construir los intervalos de
clase respectivo, para ello generalmente se empieza con el valor de
xmin y se suma el valor de “r” y se va avanzando hasta llegar al valor
xmax.
𝑟 =𝑏−𝑎
𝑎+𝑏
𝑐=
2
A continuación desarrollaremos un ejemplo de aplicación: Según
información preliminar de la oficina de Recursos Humanos de la
Empresa ELECTROCENTRO S.A., la edad de los 48 trabajadores
se muestra en la Tabla 2.4:
22
Mg. RUBÉN GALEAS ARANA
𝑅 41
𝑟= = = 6,83 redondeando sería r = 7
𝑘 6
1 [21;28)
2 [28;35)
3 [35;42)
4 [42;49)
5 [49;56)
6 [56;63)
23
Mg. RUBÉN GALEAS ARANA
Tabla 2.6. Tipos de gráficos según el tipo de dato que estamos estudiando
GRÁFICA TIPO DE DATOS
Diagrama de barras Cualitativos y cuantitativos discretos
Histograma Cuantitativos continuos
Polígono de frecuencias Cuantitativos discretos y continuos
Diagrama de sectores Cualitativos y cuantitativos
24
Mg. RUBÉN GALEAS ARANA
25
Mg. RUBÉN GALEAS ARANA
Figura 2.3. Diagrama de barras sobre el grupo sanguíneo que poseen los
trabajadores de ELECTROCENTRO S.A.
2.2.2. HISTOGRAMAS.
26
Mg. RUBÉN GALEAS ARANA
27
Mg. RUBÉN GALEAS ARANA
𝑓𝑖 . 3600
𝛼𝑖 = = 𝑛𝑖 . 3600
𝑁
28
Mg. RUBÉN GALEAS ARANA
Tabla 2.9 Distribución de frecuencias del deporte que practican los 941
estudiantes.
Frecuencia
Frecuencia
Deporte Frecuencia relativa Frecuencia
Relativa
que Absoluta acumulada Absoluta
(%)
practican (fi) (%) (fi)
(ni)
(Ni)
Fútbol 407 43,3 43,3 43,3
Vóley 222 23,6 23,5 66,8
Básquet 183 19,4 19,5 86,3
Otro
129 13,7 13,7 100
deporte
Total 941 100 100
29
Mg. RUBÉN GALEAS ARANA
30
Mg. RUBÉN GALEAS ARANA
UNIDAD III
PARÁMETROS Y ESTADÍGRAFOS
ESTADÍSTICOS
Los PARÁMETROS ESTADÍSTICOS sirven para identificar a la población
mientras que los ESTADÍGRAFOS ESTADÍSTICOS sirven para identificar a la
muestra tal como se muestra en la Figura 3.1.
31
Mg. RUBÉN GALEAS ARANA
̅).
a) Media, Media Aritmética o Promedio (µ o 𝒙
32
Mg. RUBÉN GALEAS ARANA
𝑁
1 𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑁
𝜇 = ∑ 𝑥𝑖 =
𝑁 𝑁
𝑖=1
62; 50; 64; 52; 60; 55; 58; 52; 55; 53; 53; 65; 57; 52; 62 y 60 años
62+50+64+52+60+55+58+52+55+53+53+65+57+52+62+60
𝜇=
16
910
𝜇= = 56,875 (𝑣𝑎𝑙𝑜𝑟 𝑒𝑥𝑎𝑐𝑡𝑜)
16
𝑁
1
𝜇 = ∑(𝑥𝑖 . 𝑓𝑖 )
𝑁
𝑖=1
33
Mg. RUBÉN GALEAS ARANA
32; 31; 28; 29; 33; 32; 31; 30; 31; 31; 27; 28; 29; 30; 32; 31; 31; 30; 30;
29; 29; 30; 30; 31; 30; 31; 34; 33; 33; 29; 29.
944
𝜇= = 30,451 (𝑣𝑎𝑙𝑜𝑟 𝑒𝑥𝑎𝑐𝑡𝑜)
31
𝑁
1
𝜇 = ∑(𝑐𝑖 . 𝑓𝑖 )
𝑁
𝑖=1
34
Mg. RUBÉN GALEAS ARANA
2023
𝜇= = 42,1458 (𝑣𝑎𝑙𝑜𝑟 𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑜)
48
b) Mediana (Me).
𝑀𝑒 = 𝑋𝑁+1
2
35
Mg. RUBÉN GALEAS ARANA
𝑀𝑒 = 𝑋𝑁+1 = 𝑋9+1 = 𝑋5
2 2
Me=x5=16
𝑋𝑁 + 𝑋𝑁+1
2 2
𝑀𝑒 =
2
𝑀𝑒 = 17
𝑁+1
𝑀𝑒 = (solo la posición de la mediana)
2
36
Mg. RUBÉN GALEAS ARANA
32; 31; 28; 29; 33; 32; 31; 30; 31; 31; 27; 28; 29; 30; 32; 31; 31; 30;
30; 29; 29; 30; 30; 31; 30; 31; 34; 33; 33; 29; 29.
𝑁 + 1 31 + 1
𝑀𝑒 = = = 16 (𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑠𝑖𝑐𝑖ó𝑛)
2 2
Como la posición de la mediana es 16, su valor es el promedio de los
datos décimo sexto y décimo séptimo. Para observar con claridad cuáles
son los datos décimo y undécimo se aconseja calcular la frecuencia
acumulada (Fi), entonces observando la Tabla 3.5 los valores son 30 y
31, finalmente la mediana sería:
30 + 31
𝑀𝑒 = = 30,5
2
Lo que significa que la mitad de los datos están por debajo de 30,5 y la
otra mitad está por encima de 30,5.
𝑁
− 𝐹𝑀𝑒−1
𝑀𝑒 = 𝐿𝑖𝑀𝑒 + 𝑟 ( 2 )
𝑓𝑀𝑒
Donde:
Limd Límite inferior del intervalo de clase de la posición de la
mediana.
r Rango de clase.
N Número total de datos.
FMe-1 Frecuencia acumulada del intervalo de clase que antecede al
intervalo de la mediana.
fMe Frecuencia absoluta del intervalo de clase de la mediana.
37
Mg. RUBÉN GALEAS ARANA
𝑁
− 𝐹𝑀𝑒 24 − 18
𝑀𝑒 = 𝐿𝑖𝑀𝑒 + 𝑟 ( 2 ) = 35 + 7 ( )
𝑓𝑀𝑒 7
𝑀𝑒 = 41
c) Moda (Mo).
La moda, nos indica el valor que más veces se repite dentro de los datos;
es decir, si tenemos la serie ordenada (2; 2; 3; 3; 3; 3; 5 y 7), el valor que
más veces se repite es el número 3, dicho valor sería la moda de los datos.
Es posible que en algunas ocasiones se presente dos valores con la
mayor frecuencia, lo cual se denomina Bimodal (2; 2; 2; 3; 3; 3; 5 y 7) o
en otros casos más de dos valores, lo que se conoce como multimodal
(1; 2; 2; 3; 3; 5; 5 y 7) y cuando ningún dato tiene una frecuencia mayor,
se dice que la muestra no tiene moda o es amodal (2; 2; 3; 3; 5 y 5).
𝑓𝑖𝑀𝑜 − 𝑓𝑖𝑀𝑜−1
𝑀𝑜 = 𝐿𝑖𝑀𝑜 + 𝑟 [ ]
(𝑓𝑖𝑀𝑜 − 𝑓𝑖𝑀𝑜−1 ) + (𝑓𝑖𝑀𝑜 − 𝑓𝑖𝑀𝑜+1 )
Donde:
38
Mg. RUBÉN GALEAS ARANA
11 − 7
𝑀𝑜 = 28 + 7 [ ]
(11 − 7) + (11 − 7)
𝑀𝑜 = 31,5
39
Mg. RUBÉN GALEAS ARANA
De estas tres últimas medidas de posición los cuartiles son las de mayor
aplicación. Se emplean generalmente en la determinación de estratos o
grupos correspondientes a fenómenos socio-económicos, monetarios o
teóricos.
De igual manera los deciles se designan por D1, D2, D3,…, D9 y los
percentiles con P1, P2, P3,…, P99. Los deciles y percentiles se usan con
gran cantidad de datos.
𝑘 . (𝑁 + 1)
𝑋𝑄𝑘 = 𝑑𝑜𝑛𝑑𝑒 𝑘 = 1; 2; 3
4
1 . (7 + 1)
𝑋𝑄1 = =2
4
2 . (7 + 1)
𝑋𝑄2 = =4
4
3 . (7 + 1)
𝑋𝑄3 = =6
4
40
Mg. RUBÉN GALEAS ARANA
Q1 Q2 Q3
1 . (10 + 1)
𝑋𝑄1 = = 2,75 (𝑒𝑛𝑡𝑟𝑒 𝑒𝑙 2° 𝑦 3°)
4
2 . (10 + 1)
𝑋𝑄2 = = 5,50 (𝑒𝑛𝑡𝑟𝑒 𝑒𝑙 5° 𝑦 6°)
4
3 . (10 + 1)
𝑋𝑄3 = = 8,25 (𝑒𝑛𝑡𝑟𝑒 𝑒𝑙 8° 𝑦 9°)
4
𝑋𝑄2 = 2 . 𝑋𝑄1
𝑋𝑄3 = 3 . 𝑋𝑄1
Cuando los datos son agrupados, los cuartiles se calcula con la siguiente
fórmula:
41
Mg. RUBÉN GALEAS ARANA
𝑋𝑄𝑘 − 𝐹𝑖𝑄−1
𝑄𝑘 = 𝐿𝑖𝑄 + 𝑟 [ ]
𝑓𝑖𝑄
Donde:
𝑘 . (𝑁 + 1) 1 . (48 + 1)
𝑋𝑄1 = = = 12,25
4 4
12,5 − 7
𝑄1 = 28 + 7 [ ] = 31,5
11
𝑘 . (𝑁 + 1) 2 . (48 + 1)
𝑋𝑄2 = = = 24,5
4 4
24,5 − 18
𝑄2 = 35 + 7 [ ] = 41,5
7
Así como las medidas de tendencia central nos permiten identificar el punto
central de los datos, las Medidas de dispersión nos permiten reconocer qué
tanto se dispersan los datos alrededor del punto central; es decir, nos indican
cuanto se desvían las observaciones alrededor de su promedio aritmético
42
Mg. RUBÉN GALEAS ARANA
(Media). Este tipo de medidas son parámetros informativos que nos permiten
conocer como los valores de los datos se reparten a través de eje X,
mediante un valor numérico que representa el promedio de dispersión de los
datos. Las medidas de dispersión más importantes y las más utilizadas son
la Varianza y la Desviación estándar (o Desviación Típica).
Las medidas de dispersión nos informan sobre cuanto se alejan del centro
los valores de la distribución. Las medidas de dispersión son:
𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛
9; 3; 8; 8; 9; 8; 9; 18.
9 + 3 + 8 + 8 + 9 + 8 + 9 + 18
𝜇= =9
8
|9 − 9| + |3 − 9| + |8 − 9| + |8 − 9| + |9 − 9| + |8 − 9| + |9 − 9| + |18 − 9|
𝐷𝜇 =
8
𝐷𝜇 = 2,25
43
Mg. RUBÉN GALEAS ARANA
𝑁
|𝑥1 − 𝜇|. 𝑓1 + |𝑥2 − 𝜇|. 𝑓2 + ⋯ + |𝑥𝑁 − 𝜇|. 𝑓𝑁 1
𝐷𝜇 = = . ∑|𝑥𝑖 − 𝜇|. 𝑓𝑖
𝑁 𝑁
𝑖=1
21 457,5 98,570
457,5
𝜇= = 21,786
21
98,570
𝐷𝜇 = = 4,69
21
Esta medida nos permite identificar la diferencia promedio que hay entre
cada uno de los valores respecto a su punto central (Media ). Este
promedio es calculado, elevando cada una de las diferencias al cuadrado
(Con el fin de eliminar los signos negativos), y calculando su promedio o
media; es decir, sumado todos los cuadrados de las diferencias de cada
valor respecto a la media y dividiendo este resultado por el número de
observaciones que se tengan. Si la varianza es calculada a una población
(Total de componentes de un conjunto), la ecuación sería:
𝑁
2
(𝑥1 − 𝜇)2 + (𝑥2 − 𝜇)2 + ⋯ + (𝑥𝑁 − 𝜇)2 1
𝜎 = 𝜎 = . ∑(𝑥𝑖 − 𝜇)2
2
𝑁 𝑁
𝑖=1
44
Mg. RUBÉN GALEAS ARANA
𝑛
2
(𝑥1 − 𝑥)2 + (𝑥2 − 𝑥)2 + ⋯ + (𝑥𝑛 − 𝑥)2 2
1
𝑆 = 𝑆 = . ∑(𝑥𝑖 − 𝑥)2
𝑛−1 𝑛−1
𝑖=1
9; 3; 8; 8; 9; 8; 9; 18
9 + 3 + 8 + 8 + 9 + 8 + 9 + 18
𝜇= =9
8
𝑁
1
𝜎 = . ∑(𝑥𝑖 − 𝜇)2 . 𝑓𝑖
2
𝑁
𝑖=1
N 42 1 820 9183,333
45
Mg. RUBÉN GALEAS ARANA
1820
𝜇= = 43,33
42
9183,333
𝜎2 = = 218,65
42
d) Desviación Típica o Desviación Estándar ( o S).
𝜎 = √𝜎 2
Entonces la desviación típica del ejemplo de la Tabla 3.12, sería:
𝜎 = √218,65 = 14,79
La varianza sería:
𝑆 2 = 145
𝑆 = 12,04
46
Mg. RUBÉN GALEAS ARANA
a) Asimetría
1 𝑛
∑ (𝑥 − 𝑥 )3 . 𝑛𝑖
𝑔1 = 𝑛 𝑖=1 𝑖
3⁄
1 2
[ ∑𝑁 (𝑥 − 𝑥 )2 . 𝑛𝑖 ]
𝑛 𝑖=1 𝑖
47
Mg. RUBÉN GALEAS ARANA
Desde luego entre mayor sea el número (Positivo o Negativo), mayor será
la distancia que separa la aglomeración de los valores con respecto a la
media.
b) Curtosis.
1 𝑛
∑𝑖=1(𝑥𝑖 − 𝑥 )4 . 𝑛𝑖
𝑔2 = 𝑛 2−3
1 𝑁
[ ∑𝑖=1(𝑥𝑖 − 𝑥 )2 . 𝑛𝑖 ]
𝑛
48
Mg. RUBÉN GALEAS ARANA
Desde luego, los conceptos vistos hasta aquí, son sólo una pequeña
introducción a las principales medidas de Estadística Descriptiva; es de
gran importancia que los estudiantes profundicen en estos temas ya que
la principal dificultad del software SPSS radica en el desconocimiento de
los conceptos estadísticos.
49
Mg. RUBÉN GALEAS ARANA
UNIDAD IV
PROBABILIDADES
La estadística inferencial o deductiva, es necesaria cuando queremos sacar
algunas conclusiones generales sobre una población (N) a partir de datos
obtenidos de una muestra (n). La estadística inferencial hace que esa
afirmación de la parte al todo se haga de una manera “controlada”, es decir se
haga con cierto grado de confiabilidad. Aunque nunca nos ofrecerá seguridad
absoluta, sí nos ofrecerá una respuesta probabilística. Es importante resaltar
que la estadística no decide; sólo ofrece elementos para que el investigador
decida. En muchos casos, distintas personas perciben diferentes conclusiones
de los mismos datos.
Como se dijo al inicio del curso, la estadística inferencial, para poder inferir sobre
algún fenómeno de estudio, toma en cuenta la aleatoriedad de las
observaciones, apoyándose en el cálculo de probabilidades, por ello a
continuación desarrollaremos algunos conceptos sobre probabilidades.
a) Experimento.
b) Experimento aleatorio.
50
Mg. RUBÉN GALEAS ARANA
51
Mg. RUBÉN GALEAS ARANA
𝑛(𝐸)
𝑃(𝐸) =
𝑛(𝑆)
Donde:
P(E) probabilidad de que ocurra el evento E.
n(E) número de elementos del evento E.
n(S) número de elementos del espacio muestral de E.
Luego:
𝑛(𝐸) 1
𝑃(𝐸) = = = 0,166667
𝑛(𝑆) 6
Luego:
𝑛(𝐸) 3
𝑃(𝐸) = = = 0,5
𝑛(𝑆) 6
52
Mg. RUBÉN GALEAS ARANA
a) P(E) ≥ 0.
b) P(S) = 1.
c) Si E1, E2 ∈ S ʌ E1 ∩ E2 = ∅, entonces P(E1 ∪ E2) = P(E1) + P(E2)
53
Mg. RUBÉN GALEAS ARANA
Solución:
54
Mg. RUBÉN GALEAS ARANA
P(A ∩ B)
P(A|B) = , P(B) ≠ 0
P(B)
55
Mg. RUBÉN GALEAS ARANA
56
Mg. RUBÉN GALEAS ARANA
UNIDAD V
DISTRIBUCIÓN DE PROBABILIDAD
Para entender mejor las distribuciones de probabilidades que existen es
necesario conocer el concepto de variables aleatorias, estas variables son
aquellas que pueden asumir diferentes valores, como resultado de un
experimento aleatorio. Las variables aleatorias pueden ser discretas (por
ejemplo: número de hijos de una familia, número de panetones vendidos en la
semana, etc.) o continuas por ejemplo (peso de una persona, talla de una
persona expresada en cm, etc.).
n!=(n).(n-1).(n-2)…(3).(2).(1)
- Expansión binomial.
(x+y)2 = x2 + 2xy + y2
binomio expansión binomial
57
Mg. RUBÉN GALEAS ARANA
n!
Ckn =
(n − k)!. k!
La distribución binomial se utiliza para calcular probabilidades de
variables discretas. Se aplica en aquellos experimentos aleatorios que
tienen solo dos resultados mutuamente excluyentes; en la Tabla 5.1 se
muestra unos ejemplos donde se puede aplicar la distribución binomial.
p+q=1
58
Mg. RUBÉN GALEAS ARANA
p2 + 2p.q + q2 = (p+q)2
Y de la columna numérica sería:
(p+q)5 = (0,70+0,30)5
Entonces si quisiéramos saber la probabilidad de que tres personas estén
ocupadas, sería muy laborioso desarrollar la expansión binomial; por lo
59
Mg. RUBÉN GALEAS ARANA
60
Mg. RUBÉN GALEAS ARANA
- media: μ = n. p
- Varianza: σ2 = n. p. q
p(X≥5)=1-p(X<5)=1-p(X≤4)=1-CDF.BINOM(4,20,0.7)=1-0,0000055502531
p(X≥5)= 0,9999944497469=99,99%
2) Más de 10 personas.
p(X>10)=1-p(X≤10)=1-CDF.BINOM(10,20,0.7)=1-0,0479618973313
p(X>10)= 0,9520381026687=95,20%
3) Exactamente 10 personas.
p(X=10)=PDF.BINOM(10,20,0.7)=0,0308170809001=3,08%
p(6≤X≤10)= 0,0479618973313-0,0000429400220=0,0479189573094=4,79%
b) DISTRIBUCIÓN POISSON.
61
Mg. RUBÉN GALEAS ARANA
e−λ . λx
p(X = x) = , para x = 0; 1; 2; …
x!
Donde:
e−3,5 . (3,5)4
p(X = 4) = = 0,1888122854 = 18,88%
4!
Luego la probabilidad de que en una hora determinada se produzcan
exactamente 4 llamadas es 18,88%.
62
Mg. RUBÉN GALEAS ARANA
63
Mg. RUBÉN GALEAS ARANA
64
Mg. RUBÉN GALEAS ARANA
65
Mg. RUBÉN GALEAS ARANA
1 −1/2
(x − μ)2
f(x) = ∙e ∙
σ. √2. π σ
Donde:
En la Figura 5.2 se puede observar, que las tres curvas normales, tienen
idéntica dispersión () pero distintas medias (µ), mientras que en la Figura
5.3 las tres curvas normales tienen la misma media (µ) pero diferente
dispersión ().
Esto significa que cada curva normal tiene su propia distribución, lo que
hace imposible el cálculo de probabilidades, por lo tanto se hace necesario
que la curva normal así obtenida, se transforme en una CURVA NORMAL
TIPIFICADA (ver Figura 5.4) con el fin de suprimir la individualidad de
cada una de las distribuciones señaladas anteriormente. La curva normal
se convierte en un modelo matemático con características fijas y
definidas, el cual hace posible el cálculo de probabilidades, para el cual
se supone lo siguiente:
x−μ
z=
67
Mg. RUBÉN GALEAS ARANA
Por otro lado, si quisiéramos calcular el área bajo la curva normal para
valores de z entre -1,82 y 0 (-1,82 ≤ z ≤ 0), sería el mismo valor 0,4656,
ya que la curva normal tipificada es simétrica.
68
Mg. RUBÉN GALEAS ARANA
Tabla 5.5. Tabla de valores para calcular el área bajo la curva normal tipificada
Existen algunas veces que nos dan la probabilidad y nos piden hallar el
valor de “z” el procedimiento sería el inverso; por ejemplo si la probabilidad
es 47,36%, entonces esto equivale a 0,4736, este valor se busca en la
Tabla 5.5, si no hay un valor exacto, se busca el que más se aproxima, en
este caso sería 0,4738 por lo tanto el valor de z es 1,94.
69
Mg. RUBÉN GALEAS ARANA
x − μ 13 − 12
z= = = 0,33
3
p(0 ≤ Z ≤ z)=CDFNORM(z)
70
Mg. RUBÉN GALEAS ARANA
UNIDAD VI
CONTRASTACIÓN DE HIPÓTESIS
La contrastación o prueba de hipótesis comienza con una suposición, hipótesis,
que hacemos acerca de un parámetro de población. Una hipótesis estadística
es una proposición o supuesto sobre los parámetros de una o más poblaciones.
En todo trabajo estadístico existen dos tipos de hipótesis estadísticas:
H0 Hipótesis nula (negación de la hipótesis alternativa). Supone que no hay
diferencia entre el estadígrafo y el parámetro.
H1 Hipótesis alternativa (propone el investigador). Supone que existe
diferencia entre el estadígrafo y el parámetro.
En este sentido se dice que la aplicación del método científico no nos permite
demostrar la veracidad de una hipótesis sino su falsedad, es decir, que las
hipótesis alternativas (H1) que propone el investigador se dan por válidas
siempre y cuando se rechaza la hipótesis nula (H0).
71
Mg. RUBÉN GALEAS ARANA
72
Mg. RUBÉN GALEAS ARANA
73
Mg. RUBÉN GALEAS ARANA
Por otro lado, observando la Figura 6.2 se puede determinar tres casos:
74
Mg. RUBÉN GALEAS ARANA
75
Mg. RUBÉN GALEAS ARANA
4°) Tomar una decisión, el cual puede ser: Aceptar o rechazar la hipótesis
nula (Ho).
Datos:
n=357 clientes.
µ=3,5 kg (para toda la población).
x = 2,8647 kg (promedio de la muestra).
S=1,13946 kg (desviación estándar de la muestra)
76
Mg. RUBÉN GALEAS ARANA
Ejemplo 6.2. Otro ejemplo de aplicación plantea una prueba para una
proporción poblacional: El gerente de la empresa Luminarias S.A.C.
plantea que en un lote de producción de 5000 lámparas ahorradoras como
máximo el 2% están falladas. Una muestra aleatoria de 357 lámparas indica
que 10 lámparas están falladas. Con un nivel de significancia del 5%,
determinar si el gerente tiene razón.
Datos:
n=357 lámparas.
P=2%=0,02 (proporción poblacional).
p=10/357=0,028 (proporción muestral)
Ejemplo 6.3. Otro ejemplo de aplicación plantea una prueba para una
diferencia de medias muestrales: El gerente de la empresa Luminarias
S.A.C. organizó un curso de capacitación para sus empleados (50 varones
77
Mg. RUBÉN GALEAS ARANA
y 40 damas) luego los sometió a una misma evaluación cuyo calificativo fue
de 0 a 20, luego del cual los varones obtuvieron un promedio de 12,46 con
una desviación típica de 5,068, mientras que las damas obtuvieron un
promedio de 11,95 con una desviación típica de 4,546. El gerente desea
saber si existe diferencia significativa entre los promedios de damas y
varones con un nivel de significancia del 5%.
Datos:
n1=50 varones.
µ1=12,46
σ1=5,068
n2=40 damas.
µ2=11,95
σ2=4,546
𝜇1 − 𝜇2 12,46 − 11,95
𝑍= = = 0,5024
2 2
𝜎2 𝜎22 √5,068 + 4,546
√ 1 50 40
𝑁1 + 𝑁2
78
Mg. RUBÉN GALEAS ARANA
Para calcular el valor de “p” primero se debe calcular el valor de Z (tal como
los ejemplos anteriores) luego se debe hallar el área bajo la curva normal
tipificada (ver Tabla 5.5) y aplicar las siguientes fórmulas:
área=0,5+0,3186=0,8186
p=1-0,8186=0,1814 (por ser prueba de cola derecha)
p>0,05 (por lo tanto se acepta la hipótesis nula).
3
En el software SPSS el grado de significación se simboliza por (Sig.)
79
Mg. RUBÉN GALEAS ARANA
S
ES =
√n
Luego para estimar la media poblacional (µ) con un intervalo de confianza
del 95% se utiliza la siguiente fórmula.
μ = x̅ ± 1,96 ES
La constante 1,96 es el valor del nivel de confianza “Z”, para un intervalo
de confianza del 95% (ver Tabla 1.1)
80
Mg. RUBÉN GALEAS ARANA
81
Mg. RUBÉN GALEAS ARANA
Reducción
357 2,8647 1,13946 ,06031
de Peso
Inferior Superior
Reducción
-10,534 356 ,000 -,63529 -,7539 -,5167
de Peso
El valor del sig que calcula el SPSS es cuando la hipótesis es diferente, entonces
cuando se presenta ese caso se debe tener en cuenta los valores que se
muestran en el siguiente cuadro:
82
Mg. RUBÉN GALEAS ARANA
o diferentes. Esta prueba, lo que verifica es, si el valor de la diferencia entre las
medias de los dos grupos (𝑥̅1 − 𝑥̅2 ) o (µ1- µ2) tiene diferencia estadísticamente
significativa o no.
Estadísticos de grupo
83
Mg. RUBÉN GALEAS ARANA
El resultado indica que la media del sueldo promedio no guarda ninguna relación
ya que Sig. es 0,00 (menor a 0,05 por lo tanto la Ho se rechaza)
84
Mg. RUBÉN GALEAS ARANA
e. Chi-Cuadrado
Para esta prueba se tiene que construir una tabla de contingencia ingresando
al menú:
85
Mg. RUBÉN GALEAS ARANA
Recuento
Edad (agrupado) Total
24 a 28 28 a 32 32 a 36 36 a 40 40 a 44 44 a 48 48 a 52
Genero Varón 15 6 5 8 12 9 11 66
(sexo) Dama 13 10 11 8 11 11 9 73
Total 28 16 16 16 23 20 20 139
Pruebas de chi-cuadrado
Valor gl Sig. asintótica
(bilateral)
Chi-cuadrado de Pearson 3,493a 6 ,745
Razón de verosimilitudes 3,551 6 ,737
Asociación lineal por lineal ,180 1 ,671
N de casos válidos 139
a. 0 casillas (0,0%) tienen una frecuencia esperada inferior a 5. La
frecuencia mínima esperada es 7,60.
Medidas simétricas
Valor Error típ. asint.a T aproximadab Sig.
aproximada
Intervalo por intervalo R de Pearson -,036 ,085 -,423 ,673c
Ordinal por ordinal Correlación de Spearman -,034 ,085 -,396 ,693c
N de casos válidos 139
a. Asumiendo la hipótesis alternativa.
b. Empleando el error típico asintótico basado en la hipótesis nula.
c. Basada en la aproximación normal.
Como el valor de Sig. del Chi cuadrado es 0,745 (mayor a 0,5 se acepta la Ho),
lo que significa que la asociación entre género y la edad no es significativa.
86