Documentos de Académico
Documentos de Profesional
Documentos de Cultura
PROBABILIDAD Y ESTADÍSTICA
Depto. Ms. Básicas
ESPECIALIDADES
Ingeniería Eléctrica
Ingeniería Mecánica
Ingeniería Metalúrgica
DOCENTES
Amplitud de los Intervalos de clase (h): Resulta conveniente que cada intervalo tenga la
misma amplitud. Para determinarla se procede de la siguiente manera:
Una vez efectuados estos cálculos, deben determinarse los límites de los intervalos los
cuales se plantearán en forma simple, que facilite la interpretación y lectura de los datos.
Proponemos armar los mismos en forma continua, es decir el límite superior de una clase
coincidirá con el límite inferior de la clase siguiente con la convención de que en cada clase
se incluye el límite inferior pero no el superior de los intervalos (intervalos de números
reales cerrados a la izquierda y abiertos a la derecha).
Se debe tener en cuenta otra desventaja de la distribución de frecuencias de variables
continuas, cual es la de no mostrar la distribución de los datos individuales ya que una vez
construida se pierden de vista los datos originales. El punto medio de cada clase es el
punto representativo de los datos que están en esa clase por lo que se sugiere como
límite inferior del primer intervalo un punto anterior (muy cercano) al menor dato
observado.
La selección de los intervalos resulta muy subjetiva y puede proporcionar conclusiones
diferentes sobre todo cuando se trata de conjuntos de datos no numerosos. Este
inconveniente se atenúa si se está trabajando con un gran número de datos.
Ejemplo 1: caso de variable continua
Supongamos contar con la información del puntaje obtenido en un test de aptitud observado
en una muestra de 150 empleados administrativos de las distintas sucursales de una
empresa. No se listan aquí los 150 datos, sólo diremos que el mínimo observado es 29
puntos y el máximo 41 puntos. Nótese que aunque el dato es un número natural, la variable
es considerada de naturaleza continua y se tratará de esta manera.
En este caso 2k ≥ 150, resulta que k debería estar alrededor de 8 con lo cual la amplitud
del intervalo sería:
41 − 29 41 − 29
= 1,714 (Si hiciésemos 7 intervalos) ó = 1,5 (para 8 intervalos)
7 8
Variable en estudio
X: puntaje obtenido en un test de aptitud
Tabla 1
Se completa la tabla con las columnas correspondientes a los puntos medios de cada
intervalo y las de frecuencia acumulada y relativa. La distribución de frecuencias
Probabilidad y Estadística 2017– Dra. Ana M. Craveri Página 3
relativas se obtiene de dividir las frecuencias absolutas de cada clase por el número total de
datos, se puede expresar en porcentaje resultando una distribución relativa porcentual.
La distribución acumulada: se obtiene acumulando las frecuencias en la distribución de
frecuencias absolutas. También se puede obtener de las frecuencias relativas o relativas
porcentuales.
Tabla 2
Distribución de frecuencias relativas y acumuladas
Puntos Número de Puntos Proporción Frecuencia
(X) empleados Medios de Acumulada
(fi) empleados
(xi) fi (fa)
( fr = )
n
28 - 30 3 29 0,020 3
30 - 32 25 31 0,167 28
32 - 34 33 33 0,220 61
34- 36 34 35 0,227 95
36 - 38 41 37 0,273 136
38- 40 11 39 0,073 147
40 - 42 3 41 0,020 150
Total 150 1,000
45
40
35
30
25
20
15
10
5
0
29 31 33 35 37 39 41
28 30 32 34 36 38 40 42
La variable
X: número de bacterias por mm3 en tubos de ensayo que contienen muestras de agua.
n= 407 tubos
Gráfico 5
Gráfico Escalonado Porcentual
Se debe hacer una prueba de destreza entre los operarios especialistas en soldaduras de la
empresa. Para ello se seleccionó una muestra de 20 soldadores.
La variable en estudio X: Tiempo en segundos para realizar una soldadura
58 – 50 – 58 – 56 - 60 – 40 – 41 – 54 – 52 – 61 - 57 – 62 – 62 – 62 – 65 - 53 – 48 – 59 –
45 - 53
Tamaño de la muestra: n= 20
40 – 41 – 45 – 48 – 50 – 52 – 53 – 53 – 54 – 56 – 57 – 58 – 58 – 59 – 60 – 61 – 62 – 62 –
62 – 65
n + 1 21
Posición Mna = = = 10,5
2 2
56 + 57
Luego Mna= = 56,5 seg (promedio aritmético entre los datos que están en el 10ª y
2
11ª lugar)
Se interpreta que el 50% de los operarios demoró menos de 56,5 seg en realizar la
soldadura.
Mdo=62 seg
Se interpreta: el tiempo más frecuente fue de 62 seg.
En nuestro ejemplo
n +1
Posición del Cuartil uno: = 5,25 ≅ 5 Q1= 50seg
4
3(n + 1)
Posición del Cuartil tres: = 15,75 ≅ 16 Q3= 61seg.
2
La interpretación es: la cuarta parte de los operarios tardaron menos de 50seg. y el 25%
demoró más de 61seg.
En el Ejemplo 1: x = 34,73puntos
Se interpreta que el puntaje promedio obtenido por los empleados de la muestra en el test
de aptitud es de 34,73 puntos.
Cuartil 1: Q1
n + 1 150 + 1
Posición de Q1= = = 37,75
4 4
Interpolando
Análogamente se calculan:
Cuartil 3, Q3 =36,89 puntos, o sea el 75% de los empleados obtuvieron 36,89 puntos ó
menos
Gráfico 6
Si las frecuencias anterior y posterior a la clase modal fueran iguales, el Modo sería el
punto medio del intervalo. Como en general esto no sucede, una vez determinado el
intervalo modal se aplica la siguiente interpolación:
d1
Mdo= Li + h
d1 + d 2
El promedio resulta ser el valor más representativo de una serie de observaciones pero no
todas las observaciones están concentradas en el valor promedio y distribuciones con un
mismo promedio difieren significativamente en cómo los datos se concentran o no
alrededor del valor central.
Gráfico 8
Variancia y desvío estándar: Estas medidas toman en consideración todos los datos y
evalúan como se dispersan las observaciones respecto al valor central ( )
∑(x
i =1
i − x ) = 0 (1)
Una forma de evitar esto sería elevando al cuadrado los desvíos. La variancia S2 es
justamente el promedio de las desviaciones al cuadrado. La razón de dividir por (n-1) es
porque al tener que satisfacerse la condición (1) quedan (n-1) desvíos linealmente
independientes que son llamados los grados de libertad del S2. Su unidad de medida es la
unidad de medida de la variable elevada al cuadrado. Su aplicación será importante en la
Inferencia Estadística, en este momento la medida que resulta más útil es el Desvío
Estándar S= S 2 que está expresado en las unidades de medida de la variable
Desvío Estandar:
1 k
S= ∑
k − 1 i =1
( xi − x ) 2 f i
Cuando se comparan dos o más conjuntos de datos con las mismas unidades de medida se
puede decir si una muestra tiene menor ó mayor dispersión que otra. De lo contrario es
difícil hacer una declaración precisa sobre si un valor del Desvío Estándar implica un grado
de variabilidad alto, moderado ó bajo.
Se recurre entonces al siguiente concepto:
Coeficiente de Variación:
2,689
En el Ejemplo 1, C.V. = 100 =7,74% (Bajo)
34,73
En el Ejemplo 2, CV=76% (Alto)
7,11
En el Ejemplo 3, CV= .100 =12,97% (Medio)
54,8
En el Ejemplo 3, Q= 61 – 50 = 11seg.
2.3 Medidas de Forma : Permiten estudiar la forma con la que se distribuyen los datos
Curtosis Solo daremos en este curso el concepto de esta medida. Se refiere a la relación
entre la ordenada máxima de la curva empírica de la función y la correspondiente con la
que se obtiene en una curva normal .El coeficiente de curtosis indica si los datos se
distribuyen simétricamente de forma normal ( curva mesocúrtica), más empinados que la
curva normal (curva leptocúrtica) ó mas aplanados que la curva normal ( curva platicúrtica)
Los valores entre B.I y B.E se consideran anómalos moderados. Si están fuera de B.E se
consideran anómalos extremos. En el caso que suceda esto último investigamos si tales
valores fueron recolectados siguiendo las mismas condiciones que los demás valores y si
pudo ocurrir un error de medición.
Ejemplo 3
Medidas xm Q1 Mna Q3 xM
Tiempo (seg) 40 50 56,5 61 65
Gráfico 9
Gráfico de Box
Observe que se han representado los cuartiles que determinan el bloque. La línea vertical
que está en el interior representa la ubicación de la mediana. El bloque contiene el 50% de
las observaciones que están en la mitad de la distribución. Un 25% de los datos se
encuentra entre el extremo izquierdo y el bloque y el otro 25% entre el bloque y el extremo
derecho.
Estamos observando gráficamente que los datos se distribuyen en forma sesgada hacia la
izquierda. Este ejemplo carece de datos anómalos severos, dado que todos los valores se
hallan dentro de las Barreras Internas.
El Diagrama de Bloques y líneas resulta ser muy ilustrativo para comparar dos o más
series de datos, para esto le proponemos construir, sobre una misma escala, las 4 cajas que
resultan del siguiente ejemplo
Los siguientes datos corresponden a la variable: número de piezas defectuosas
producidas por una máquina a las 6 hs. (defectuosos1) a las 12 hs (defectuosos2)
a las 18 hs (defectuosos3) y a las 24 hs (defectuosos4) de producción.
6 hs 12 hs 18 hs 24 hs
11 35 76 52
24 36 72 53
32 39 64 52
22 44 91 51
15 19 43 56
21 27 58 53
14 15 60 55
31 55 68 67
20 26 46 68
34 1 3 67
28 19 12 75
16 26 33 71
14 10 9 68
18 28 31 72
12 21 69 67
7 36 71 53
2.4 Informe
En el desarrollo de este capítulo y al ir presentando cada una de las medidas, se
ha efectuado la interpretación ó análisis de cada una de ellas. El paso que sigue
sería integrar todos estos conceptos en un Informe que resulte un análisis objetivo
de los resultados encontrados y que sirvan eventualmente para una toma de
decisión. Sabido es que la interpretación de los resultados involucra una parte
subjetiva que el investigador debe utilizar éticamente. Además debe discernirse
sobre la conveniencia de poner énfasis en la significación de una u otra medida
estadística atendiendo a las propiedades que presentan.
EJERCICIOS
1.- La materia prima que se usa en la elaboración de una fibra sintética se almacena en un
depósito que no tiene control de humedad. Las mediciones de la humedad relativa ambiente
en el local durante 12 días dieron los siguientes resultados (unidad de medida %)