Capítulo 2 - 2017

CÁTEDRA
PROBABILIDAD Y ESTADÍSTICA
Depto. Ms. Básicas
ESPECIALIDADES
Ingeniería Eléctrica
Ingeniería Mecánica
Ingeniería Metalúrgica
DOCENTES
Prof. Adjunto: Dra. Ana María Craveri

Ayudante de Primera: Est. Susana Carasai
Probabilidad y Estadística 2017– Dra. Ana M. Craveri Página 1

UNIDAD Nº 2
ESTADÍSTICA DESCRIPTIVA: Análisis Descriptivo de datos numéricos
2.1 Organización y presentación de un conjunto de observaciones que responden a
una variable numérica
Cuando la variable en estudio es cuantitativa la estadística descriptiva cuenta con técnicas

de presentación particulares que permiten un adecuado análisis. Haremos una primera
diferencia relativa al tamaño de muestra. Cuando el tamaño de muestra n es chico (30 o
menos datos) realizaremos un análisis de datos sin agrupar. A medida que el número de
observaciones crece es necesario compactar más la información y entonces resulta
conveniente agrupar los datos en tablas de frecuencias, diremos entonces que se está en un
análisis de datos agrupados en tablas de frecuencias. El agrupamiento se hace en clases
(o intervalos) si la variable es continua, o en valores puntuales si es una variable discreta.
La información se presenta entonces en una tabla denominada de Distribución de
Frecuencias que podríamos definir como una tabla resumen, donde aparecen los valores de
la variable y su correspondiente frecuencia. Si la variable es continua la frecuencia está
dada por el número de observaciones comprendidas entre los límites de un intervalo de
clase, si la variable es discreta la frecuencia es el número de veces que se repite cada uno de
los valores de la variable. Este agrupamiento, que en el caso de una variable continua, hace
perder información, ya que el supuesto de que la frecuencia absoluta se distribuye
uniformemente dentro del intervalo de clase determina que ésta se adjudique al punto
medio de cada intervalo, facilita el proceso de análisis e interpretación de los datos y
permite visualizar la forma en que se distribuyen.
2.1.1 Construcción de la tabla de frecuencias La construcción de la tabla de distribución

de frecuencias de una variable continua requiere construir en primer lugar los intervalos
de clase, es decir elegir los límites (inferior y superior) entre los cuales se encontrarán los
valores observados. La amplitud del intervalo de clase depende del Rango de las
Observaciones (diferencia entre el mayor y menor valor observado) y del número de
observaciones (n). Si usamos pocos intervalos se pierde mucha información y aumenta el
error debido al agrupamiento pero si usamos demasiados no tendría sentido la construcción
de intervalos de clase ya que no se lograría resumir la información ni visualizar su forma.
Establecemos que la distribución de frecuencia debe tener como mínimo 5 intervalos y
como máximo 15.
Hay entonces dos cuestiones a tener en cuenta en la construcción de la Tabla de
Distribución de frecuencias:
Numero de intervalos de Clases: resulta conveniente seleccionar un número natural k (nº

de intervalos de clases) tal que 2k > n. Siendo n el tamaño de muestra.
Amplitud de los Intervalos de clase (h): Resulta conveniente que cada intervalo tenga la
misma amplitud. Para determinarla se procede de la siguiente manera:

Amplitud del Intervalo = h ≅ Rango / Nº de intervalos (k).
Una vez efectuados estos cálculos, deben determinarse los límites de los intervalos los
cuales se plantearán en forma simple, que facilite la interpretación y lectura de los datos.
Proponemos armar los mismos en forma continua, es decir el límite superior de una clase
coincidirá con el límite inferior de la clase siguiente con la convención de que en cada clase
se incluye el límite inferior pero no el superior de los intervalos (intervalos de números
reales cerrados a la izquierda y abiertos a la derecha).
Se debe tener en cuenta otra desventaja de la distribución de frecuencias de variables
continuas, cual es la de no mostrar la distribución de los datos individuales ya que una vez
construida se pierden de vista los datos originales. El punto medio de cada clase es el
punto representativo de los datos que están en esa clase por lo que se sugiere como
límite inferior del primer intervalo un punto anterior (muy cercano) al menor dato
observado.
La selección de los intervalos resulta muy subjetiva y puede proporcionar conclusiones
diferentes sobre todo cuando se trata de conjuntos de datos no numerosos. Este
inconveniente se atenúa si se está trabajando con un gran número de datos.
Ejemplo 1: caso de variable continua
Supongamos contar con la información del puntaje obtenido en un test de aptitud observado
en una muestra de 150 empleados administrativos de las distintas sucursales de una
empresa. No se listan aquí los 150 datos, sólo diremos que el mínimo observado es 29
puntos y el máximo 41 puntos. Nótese que aunque el dato es un número natural, la variable
es considerada de naturaleza continua y se tratará de esta manera.
En este caso 2k ≥ 150, resulta que k debería estar alrededor de 8 con lo cual la amplitud
del intervalo sería:
41 − 29 41 − 29
= 1,714 (Si hiciésemos 7 intervalos) ó = 1,5 (para 8 intervalos)
7 8
Se decidió tomar como amplitud de los intervalos h= 2
Variable en estudio
X: puntaje obtenido en un test de aptitud
Tabla 1
Distribución de frecuencias del puntaje

Puntaje Número de empleados
28 - 30 3
30 - 32 25
32 - 34 33
34 - 36 34
36 - 38 41
38 - 40 11
40 - 42 3
Total 150
Se completa la tabla con las columnas correspondientes a los puntos medios de cada
intervalo y las de frecuencia acumulada y relativa. La distribución de frecuencias
relativas se obtiene de dividir las frecuencias absolutas de cada clase por el número total de
datos, se puede expresar en porcentaje resultando una distribución relativa porcentual.
La distribución acumulada: se obtiene acumulando las frecuencias en la distribución de
frecuencias absolutas. También se puede obtener de las frecuencias relativas o relativas
porcentuales.
Tabla 2
Distribución de frecuencias relativas y acumuladas
Puntos Número de Puntos Proporción Frecuencia
(X) empleados Medios de Acumulada
(fi) empleados
(xi) fi (fa)
( fr = )
n
28 - 30 3 29 0,020 3
30 - 32 25 31 0,167 28
32 - 34 33 33 0,220 61
34- 36 34 35 0,227 95
36 - 38 41 37 0,273 136
38- 40 11 39 0,073 147
40 - 42 3 41 0,020 150
Total 150 1,000
Interpretando algunos elementos de la tabla diremos que el 27,3% de los empleados de la

muestra obtuvieron entre 36 y 38 puntos, 136 empleados obtuvieron puntajes por debajo
de 38 puntos y sólo 3 empleados obtuvieron entre 40 y 42 puntos.
Representación gráfica de frecuencias absolutas: Histograma

Gráfico 1

Gráfico 2 Polígono de frecuencia
45
40
35
30
25
20
15
10
5
0
29 31 33 35 37 39 41
Gráfico 3 Gráfico de Frecuencias Acumuladas
28 30 32 34 36 38 40 42
Si la variable es discreta, la construcción de la tabla es más sencilla y notamos diferencias

sobre todo en las representaciones gráficas.
Ejemplo 2: caso de variable discreta

Distribución del número de bacterias por mm3 en 407 tubos de ensayo que contienen
muestras de agua.
Tabla 3
Nº de Cantidad Frecuencia Frecuencia Frec Relat. Frec. Relat Frec. Relat

bacterias de tubos Acumulada Relativa Acumulada Porcentual Acum Porc
(x) (fi) (Fi) (fr) (Fr) (%) (%)
0 75 75 0,18 0,18 18 18
1 80 155 0,20 0,38 20 38
2 90 245 0,22 0,60 22 60
3 71 316 0,17 0,77 17 77
4 47 363 0,12 0,89 12 89
5 24 387 0,06 0,95 6 95
6 20 407 0,05 1 5 100
Total: 407 1 100
La variable
X: número de bacterias por mm3 en tubos de ensayo que contienen muestras de agua.
n= 407 tubos
Representación gráfica de las frecuencias absolutas
Gráfico 4 Gráfico de bastones
El gráfico permite observar la forma de la distribución de frecuencias así como su valor

máximo.

Este gráfico se acompaña con el gráfico de frecuencias acumuladas que en este caso, dado
que la variable es discreta resulta ser un gráfico escalonado.
Gráfico 5
Gráfico Escalonado Porcentual
2.2 Medidas de resumen. El Análisis de la Información no se limita a la presentación y

cálculo de los tipos de frecuencias sino que debe cumplimentarse con el cálculo de medidas
que permiten describir los datos teniendo en cuenta tres aspectos: Tendencia central,
Variabilidad y Forma.
2.2.1 Medidas de tendencia central. Medidas de posición no central.

La primera cuestión que se plantea en el análisis exploratorio de un conjunto de
observaciones es poder representarlos mediante un valor central. Para resolver esto se
dispone de medidas que tienen aplicación según el tipo de problema que se estudia. La más
común es la media aritmética ( x ) o promedio de las observaciones, mencionaremos
también en este grupo a la Mediana (Mna) y al Modo o Moda (Mdo)
a) Datos sin agrupar
Ejemplo 3
Se debe hacer una prueba de destreza entre los operarios especialistas en soldaduras de la
empresa. Para ello se seleccionó una muestra de 20 soldadores.
La variable en estudio X: Tiempo en segundos para realizar una soldadura
58 – 50 – 58 – 56 - 60 – 40 – 41 – 54 – 52 – 61 - 57 – 62 – 62 – 62 – 65 - 53 – 48 – 59 –
45 - 53
Tamaño de la muestra: n= 20

Cálculo de la media aritmética
n
x = ∑ xi = 54,8seg
i =1
El tiempo promedio para realizar la soldadura es 54,8 seg.
La media es única y es un valor comprendido dentro del rango de variación de la variable.

Dado que el cálculo de la media se basa en todas las observaciones se ve afectada por
valores extremos con lo que no sería la mejor medida de tendencia central a aplicar en los
casos en que hay presencia de datos anómalos. Otra propiedad interesante es que la suma de
las desviaciones de cada valor a la media es cero. (Se sugiere probarlo con los datos del
ejemplo). Retomaremos este concepto cuando tratemos el cálculo del desvío estándar.
Cálculo de la mediana
La mediana se define como el valor medio de una secuencia ordenada de datos. Resulta ser
el valor por debajo del cual se halla el 50% de las observaciones. No está afectada por
valores anómalos.
Para calcularla, luego de ordenar los datos de menor a mayor, se ubica primero la posición
de la mediana
40 – 41 – 45 – 48 – 50 – 52 – 53 – 53 – 54 – 56 – 57 – 58 – 58 – 59 – 60 – 61 – 62 – 62 –
62 – 65
n + 1 21
Posición Mna = = = 10,5
2 2
56 + 57
Luego Mna= = 56,5 seg (promedio aritmético entre los datos que están en el 10ª y
2
11ª lugar)
Se interpreta que el 50% de los operarios demoró menos de 56,5 seg en realizar la
soldadura.
El valor modal. El modo de una distribución es el valor de la variable más frecuentemente

observado (el de máxima frecuencia). Cuando el tamaño de muestra es pequeño puede no
presentarse. En nuestro ejemplo:
Mdo=62 seg
Se interpreta: el tiempo más frecuente fue de 62 seg.
Otras medidas de posición no central. Se calculan para completar la descripción de un

conjunto de datos numéricos. Según el número de divisiones que se efectúen serán
cuartiles, quintiles, deciles ó percentiles. Nos dedicaremos a los cuartiles que son
aquellos que dividen la distribución de frecuencias en cuartos. De esta manera el primer
cuartil que indicaremos con Q1 será el valor de la variable tal que una cuarta parte de las
observaciones se hallan por debajo de su valor. El segundo cuartil coincidirá con la
Mediana y el tercero Q3 es el valor de la variable por debajo del cual se encuentra el 75%
de las observaciones.
Para obtener los cuartiles en datos sin agrupar las reglas son:
1- si la posición es un número entero, entonces el cuartil será el valor de la
variable que está en esa posición.
2- si la posición está en la mitad de dos enteros el cuartil será el promedio de los
valores correspondientes (tal como se operó en la Mna).
3- en otro caso se aproximará al valor más cercano.
En nuestro ejemplo
n +1
Posición del Cuartil uno: = 5,25 ≅ 5 Q1= 50seg
4
3(n + 1)
Posición del Cuartil tres: = 15,75 ≅ 16 Q3= 61seg.
2
La interpretación es: la cuarta parte de los operarios tardaron menos de 50seg. y el 25%
demoró más de 61seg.
b) Datos agrupados en tablas de frecuencias

Cálculo de las medidas de tendencia central y medidas de posición no central
Cálculo de la media aritmética
En el caso de tener una distribución de frecuencia, deben ponderarse los valores de la
variable por la correspondiente frecuencia. En caso de una variable continua, los xi serán
los puntos medios de los respectivos intervalos. Este cálculo puede efectuarse utilizando el
módulo estadístico de una calculadora científica. Para ello consulte el Manual del Usuario
de su calculadora.
k
x = ∑ xi f i
i =1
En el Ejemplo 1: x = 34,73puntos
Se interpreta que el puntaje promedio obtenido por los empleados de la muestra en el test
de aptitud es de 34,73 puntos.
En el Ejemplo 2: x = 2,21 bacterias. Es el promedio de bacterias por mm3 de agua
Cálculo de la mediana y demás cuartilas

En el caso de tener que calcular las cuartilas a partir de una tabla de distribución de
frecuencia, una vez ubicada la posición se debe efectuar una interpolación lineal. Veremos
el Ejemplo 1
Cuartil 1: Q1
n + 1 150 + 1
Posición de Q1= = = 37,75
4 4
Interpolando

61------------34
28------------32
33------------ 2
9,75-----------x= 0,59 ► Q1 = 32,59 puntos
El 25 % de los empleados obtuvieron 32,59 puntos ó menos
Análogamente se calculan:
Cuartil 2 que es la Mediana resultando Mna= 34,85 puntos

diremos que el 50% de los empleados obtuvieron un puntaje de hasta 34,85 puntos.
Cuartil 3, Q3 =36,89 puntos, o sea el 75% de los empleados obtuvieron 36,89 puntos ó
menos
Gráfico 6
Cálculo del modo

Para calcular exactamente el Modo cuando se trata de una distribución de frecuencias de
una variable continua se debería calcular el máximo de la curva de frecuencia. Dado que no
siempre se conoce la expresión matemática de la función se obtiene un valor aproximado
del mismo a partir del Histograma
Observar en el Histograma de Frecuencia donde está ubicado el Modo

Gráfico 7
Si las frecuencias anterior y posterior a la clase modal fueran iguales, el Modo sería el
punto medio del intervalo. Como en general esto no sucede, una vez determinado el
intervalo modal se aplica la siguiente interpolación:
d1
Mdo= Li + h
d1 + d 2
Li: límite inferior del intervalo modal

d1: diferencia entre la frecuencia del intervalo modal y la del intervalo anterior
d2: diferencia entre la frecuencia del intervalo modal y la del intervalo posterior
h: amplitud del intervalo
En nuestro Ejemplo 1, este cálculo sería:
41 − 34
Mdo= 36 + 2 = 36,38 puntos es el puntaje más frecuentemente
( 41 − 34) + ( 41 − 11)
observado.
¿Cuándo aplicar las tres medidas de Tendencia Central estudiadas?

La aplicación dependerá del propósito de la investigación. Si el propósito es describir la
tendencia central, la elección dependerá de la forma de la distribución de frecuencias. Será
entonces descripta por la media aritmética si la distribución es simétrica ó por la mediana si
es marcadamente asimétrica ya que ésta última no se ve afectada por valores extremos. En
el caso que la distribución tenga más de un pico la mejor medida es el Modo ya que los
otros promedios disimulan esta característica.

Gráfico 8
2.2.2 Medidas de variabilidad
El promedio resulta ser el valor más representativo de una serie de observaciones pero no
todas las observaciones están concentradas en el valor promedio y distribuciones con un
mismo promedio difieren significativamente en cómo los datos se concentran o no
alrededor del valor central.
Gráfico 8
Una medida de variabilidad es un número que nos indica el grado de dispersión en un

conjunto de datos. Si este valor es chico con respecto a la unidad de medida significa que
hay uniformidad en los datos. Por el contrario un valor grande estaría indicando poca
uniformidad.
La variabilidad puede determinarse de distintas formas. Estudiamos las más importantes
Amplitud o Rango: Resulta ser la medida más sencilla de dispersión y expresa la

diferencia entre los valores máximo y mínimo de la muestra. Por supuesto es una medida
burda de dispersión ya que está fuertemente influenciada por valores anómalos de la
muestra.
En nuestro ejemplo: R= 65 – 40 = 25 seg
Es la amplitud del intervalo de variación de la variable.
Variancia y desvío estándar: Estas medidas toman en consideración todos los datos y
evalúan como se dispersan las observaciones respecto al valor central ( )

Variancia de la muestra:
Observamos que la dispersión de un conjunto de datos es reducida si éstos se concentran

alrededor de su media y aumenta en la medida en que éstos se esparcen alrededor de su
promedio, por otra parte llamamos desvío a la diferencia ( xi − x ), parecería razonable
evaluar la dispersión de un conjunto de datos en términos del promedio en que éstos se
desvían de su media aritmética. Lamentablemente esto no es posible puesto que la
n
∑(x
i =1
i − x ) = 0 (1)
Una forma de evitar esto sería elevando al cuadrado los desvíos. La variancia S2 es
justamente el promedio de las desviaciones al cuadrado. La razón de dividir por (n-1) es
porque al tener que satisfacerse la condición (1) quedan (n-1) desvíos linealmente
independientes que son llamados los grados de libertad del S2. Su unidad de medida es la
unidad de medida de la variable elevada al cuadrado. Su aplicación será importante en la
Inferencia Estadística, en este momento la medida que resulta más útil es el Desvío
Estándar S= S 2 que está expresado en las unidades de medida de la variable
Desvío Estandar:
El cálculo se hará con el módulo estadístico de las calculadoras manuales

En el Ejemplo 3, S= 7,11 seg
En el caso de datos agrupados en tablas de frecuencias:
1 k
S= ∑
k − 1 i =1
( xi − x ) 2 f i
En el Ejemplo 1, S=2,69 puntos

En el Ejemplo 2, S=1,68 bacterias
Cuando se comparan dos o más conjuntos de datos con las mismas unidades de medida se
puede decir si una muestra tiene menor ó mayor dispersión que otra. De lo contrario es
difícil hacer una declaración precisa sobre si un valor del Desvío Estándar implica un grado
de variabilidad alto, moderado ó bajo.
Se recurre entonces al siguiente concepto:

Cuando n es grande y cuando la distribución de las observaciones es aproximadamente
simétrica (en forma de campana), diremos que:
Coeficiente de Variación:
La desviación estándar y la variancia son medidas de variación absolutas, para comparar la

variación en varias series de datos es necesario contar con una medida de variación relativa
es decir que no dependa de las unidades de medida de las variables. El coeficiente de
variación se expresa en porcentaje, esta medida especifica el tamaño de la desviación
estándar como un porcentaje de la media e indica la cantidad relativa de variabilidad en un
conjunto de observaciones. Se lo utiliza para : 1)determinar la fiabilidad de la media como
medida de tendencia central 2) determinar si la desviación estándar es grande, regular ó
pequeña y 3) comparar la variabilidad de dos ó más conjuntos de observaciones.
Empíricamente podemos asumir que un CV menor al 10% se considera bajo, entre 10 y
30% medio y un CV superior al 30% es alto.
2,689
En el Ejemplo 1, C.V. = 100 =7,74% (Bajo)
34,73
En el Ejemplo 2, CV=76% (Alto)
7,11
En el Ejemplo 3, CV= .100 =12,97% (Medio)
54,8
Desviación o rango intercuartil (Q)

Q = Q3 - Q1
Esta medida se refiere a la dispersión en la mitad de los datos centrales, por lo que los
valores extremos no forman parte de la misma. Es la amplitud del intervalo (Q1;Q3)
En el Ejemplo 1, Q = Q3 – Q1= 36,89 - 32,59 = 4,3 puntos es la dispersión del puntaje en
el 50% de datos centrales
En el Ejemplo 3, Q= 61 – 50 = 11seg.
2.3 Medidas de Forma : Permiten estudiar la forma con la que se distribuyen los datos
Medida de Asimetría . Debe compararse la media y la mediana. (Observar Gráfico 8)
Si x = Mna la distribución es simétrica, sesgo nulo
Si x > Mna la distribución presenta un sesgo positivo ó a la derecha

Si x < Mna la distribución presenta un sesgo negativo o a la izquierda
Además , si la distribución es simétrica , la distancia entre Mna y Q1 debe ser igual a la

distancia entre Q3 y la Mna., es decir Mna - Q1 = Q3 - Mna y la distancia entre
Q1 y xi menor debe ser igual a la de xi mayor y Q3 , o sea Q1 - x m = xM - Q3
En el Ejemplo 1, Mna - Q1 > Q3 - Mna

34,85 – 32,59 > 36,89 – 34,85 ⇒ leve asimetría negativa (a la izquierda)
En el Ejemplo 3, Mna – Q1=56,5 – 50 = 6,5 seg Q3 – Mna = 61 - 56,5= 4,5seg
Mna – Q1> Q3 – Mna ⇒ leve asimetría negativa (a la izquierda)
Curtosis Solo daremos en este curso el concepto de esta medida. Se refiere a la relación
entre la ordenada máxima de la curva empírica de la función y la correspondiente con la
que se obtiene en una curva normal .El coeficiente de curtosis indica si los datos se
distribuyen simétricamente de forma normal ( curva mesocúrtica), más empinados que la
curva normal (curva leptocúrtica) ó mas aplanados que la curva normal ( curva platicúrtica)
2.3 Gráfico de box

Proporciona una representación gráfica de la forma de distribución de las observaciones
utilizando cinco números. Además permite ubicar las observaciones anómalas
determinando:
Barreras Internas (B.I), ubicadas a 1,5 Q en cada dirección. El intervalo para anómalos
leves es: Q1 – 1,5(Q3 - Q1) ; Q3 + 1,5(Q3 – Q1)
Barreras Externas (B.E), ubicadas a 3 Q en cada dirección:

Q1 – 3(Q3 - Q1) ; Q3 + 3(Q3 – Q1)
Los valores entre B.I y B.E se consideran anómalos moderados. Si están fuera de B.E se
consideran anómalos extremos. En el caso que suceda esto último investigamos si tales
valores fueron recolectados siguiendo las mismas condiciones que los demás valores y si
pudo ocurrir un error de medición.
Ejemplo 3
Medidas xm Q1 Mna Q3 xM
Tiempo (seg) 40 50 56,5 61 65
Gráfico 9
Gráfico de Box

40 43 46 49 52 55 58 61 64 67
Observe que se han representado los cuartiles que determinan el bloque. La línea vertical
que está en el interior representa la ubicación de la mediana. El bloque contiene el 50% de
las observaciones que están en la mitad de la distribución. Un 25% de los datos se
encuentra entre el extremo izquierdo y el bloque y el otro 25% entre el bloque y el extremo
derecho.
Estamos observando gráficamente que los datos se distribuyen en forma sesgada hacia la
izquierda. Este ejemplo carece de datos anómalos severos, dado que todos los valores se
hallan dentro de las Barreras Internas.
El Diagrama de Bloques y líneas resulta ser muy ilustrativo para comparar dos o más
series de datos, para esto le proponemos construir, sobre una misma escala, las 4 cajas que
resultan del siguiente ejemplo
Los siguientes datos corresponden a la variable: número de piezas defectuosas
producidas por una máquina a las 6 hs. (defectuosos1) a las 12 hs (defectuosos2)
a las 18 hs (defectuosos3) y a las 24 hs (defectuosos4) de producción.
6 hs 12 hs 18 hs 24 hs
11 35 76 52
24 36 72 53
32 39 64 52
22 44 91 51
15 19 43 56
21 27 58 53
14 15 60 55
31 55 68 67
20 26 46 68
34 1 3 67
28 19 12 75
16 26 33 71
14 10 9 68
18 28 31 72
12 21 69 67
7 36 71 53

Nótese como se incrementan los valores tanto de las medidas de posición como
los rangos (variabilidad). A las 24 hs. se estabilizan los rangos pero están
triplicadas las medidas de posición.
2.4 Informe
En el desarrollo de este capítulo y al ir presentando cada una de las medidas, se
ha efectuado la interpretación ó análisis de cada una de ellas. El paso que sigue
sería integrar todos estos conceptos en un Informe que resulte un análisis objetivo
de los resultados encontrados y que sirvan eventualmente para una toma de
decisión. Sabido es que la interpretación de los resultados involucra una parte
subjetiva que el investigador debe utilizar éticamente. Además debe discernirse
sobre la conveniencia de poner énfasis en la significación de una u otra medida
estadística atendiendo a las propiedades que presentan.
EJERCICIOS
1.- La materia prima que se usa en la elaboración de una fibra sintética se almacena en un
depósito que no tiene control de humedad. Las mediciones de la humedad relativa ambiente
en el local durante 12 días dieron los siguientes resultados (unidad de medida %)

X: 42 – 35 – 50 – 43 – 48 – 62 – 31 – 36 – 44 – 39 – 55 – 48
Realice el análisis descriptivo de la serie de datos y el gráfico de caja.
2.- Con estas 13 mediciones de temperatura ( en Cº ) de un alto horno:

1084 -1080 -1089 - 1085 – 1092 – 1090 – 10854 – 1093 – 1085 – 1089 – 1086 – 1085 –
1088
Obtener las medidas: promedio y desvío estándar, mediana, cuartiles, modo (si existe),
rango intercuartil, coeficiente de variación, rango en el total de datos. Redacte un breve
informe utilizando todas estas medidas y haga un gráfico de caja.
3.- Se analiza el contenido de aceite (en %) de un producto. Para ello se seleccionaron al

azar 75 bidones y se midió el % de aceite de la sustancia contenida en cada uno de ellos.
Obteniéndose la siguiente información.
Contenido de aceite Número de bidones
____(%)__________________________________
20 - 22 3
22 - 24 12
24 - 26 20
26 - 28 24
28 - 30 12
30 - 32 4
a) ¿Cuál es el contenido promedio de aceite de este producto y su desviación estándar?
b) ¿Cuál es, aproximadamente, el contenido de aceite más frecuentemente observado en
esta muestra?
c) Complete la tabla con las frecuencias acumuladas y las frecuencias relativas
d) Haga la representación gráfica de la distribución de frecuencias absolutas (Histograma)
y de las frecuencias acumuladas.

Capítulo 2 - 2017

Cargado por

Información del documento

Título original

Derechos de autor

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Capítulo 2 - 2017

Cargado por

Copyright:

CÁTEDRA

Prof. Adjunto: Dra. Ana María Craveri

Probabilidad y Estadística 2017– Dra. Ana M. Craveri Página 1

Cuando la variable en estudio es cuantitativa la estadística descriptiva cuenta con técnicas

2.1.1 Construcción de la tabla de frecuencias La construcción de la tabla de distribución

Numero de intervalos de Clases: resulta conveniente seleccionar un número natural k (nº

Probabilidad y Estadística 2017– Dra. Ana M. Craveri Página 2

Se decidió tomar como amplitud de los intervalos h= 2

Distribución de frecuencias del puntaje

Interpretando algunos elementos de la tabla diremos que el 27,3% de los empleados de la

Representación gráfica de frecuencias absolutas: Histograma

Probabilidad y Estadística 2017– Dra. Ana M. Craveri Página 4

Gráfico 3 Gráfico de Frecuencias Acumuladas

Si la variable es discreta, la construcción de la tabla es más sencilla y notamos diferencias

Ejemplo 2: caso de variable discreta

Probabilidad y Estadística 2017– Dra. Ana M. Craveri Página 5

Nº de Cantidad Frecuencia Frecuencia Frec Relat. Frec. Relat Frec. Relat

Representación gráfica de las frecuencias absolutas

Gráfico 4 Gráfico de bastones

El gráfico permite observar la forma de la distribución de frecuencias así como su valor

Probabilidad y Estadística 2017– Dra. Ana M. Craveri Página 6

2.2 Medidas de resumen. El Análisis de la Información no se limita a la presentación y

2.2.1 Medidas de tendencia central. Medidas de posición no central.

Probabilidad y Estadística 2017– Dra. Ana M. Craveri Página 7

La media es única y es un valor comprendido dentro del rango de variación de la variable.

El valor modal. El modo de una distribución es el valor de la variable más frecuentemente

Otras medidas de posición no central. Se calculan para completar la descripción de un

b) Datos agrupados en tablas de frecuencias

En el Ejemplo 2: x = 2,21 bacterias. Es el promedio de bacterias por mm3 de agua

Cálculo de la mediana y demás cuartilas

Probabilidad y Estadística 2017– Dra. Ana M. Craveri Página 9

Cuartil 2 que es la Mediana resultando Mna= 34,85 puntos

Cálculo del modo

Probabilidad y Estadística 2017– Dra. Ana M. Craveri Página 10

Li: límite inferior del intervalo modal

¿Cuándo aplicar las tres medidas de Tendencia Central estudiadas?

Probabilidad y Estadística 2017– Dra. Ana M. Craveri Página 11

2.2.2 Medidas de variabilidad

Una medida de variabilidad es un número que nos indica el grado de dispersión en un

Amplitud o Rango: Resulta ser la medida más sencilla de dispersión y expresa la

Probabilidad y Estadística 2017– Dra. Ana M. Craveri Página 12

Observamos que la dispersión de un conjunto de datos es reducida si éstos se concentran

El cálculo se hará con el módulo estadístico de las calculadoras manuales

En el caso de datos agrupados en tablas de frecuencias:

En el Ejemplo 1, S=2,69 puntos

Probabilidad y Estadística 2017– Dra. Ana M. Craveri Página 13

La desviación estándar y la variancia son medidas de variación absolutas, para comparar la

Desviación o rango intercuartil (Q)

Medida de Asimetría . Debe compararse la media y la mediana. (Observar Gráfico 8)

Si x = Mna la distribución es simétrica, sesgo nulo

Si x > Mna la distribución presenta un sesgo positivo ó a la derecha

Probabilidad y Estadística 2017– Dra. Ana M. Craveri Página 14

Además , si la distribución es simétrica , la distancia entre Mna y Q1 debe ser igual a la

En el Ejemplo 1, Mna - Q1 > Q3 - Mna

En el Ejemplo 3, Mna – Q1=56,5 – 50 = 6,5 seg Q3 – Mna = 61 - 56,5= 4,5seg

Mna – Q1> Q3 – Mna ⇒ leve asimetría negativa (a la izquierda)

2.3 Gráfico de box

Barreras Externas (B.E), ubicadas a 3 Q en cada dirección:

Probabilidad y Estadística 2017– Dra. Ana M. Craveri Página 15

Probabilidad y Estadística 2017– Dra. Ana M. Craveri Página 16

Probabilidad y Estadística 2017– Dra. Ana M. Craveri Página 17

2.- Con estas 13 mediciones de temperatura ( en Cº ) de un alto horno:

3.- Se analiza el contenido de aceite (en %) de un producto. Para ello se seleccionaron al

Probabilidad y Estadística 2017– Dra. Ana M. Craveri Página 18

También podría gustarte