Está en la página 1de 54

CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -

Matemática Aplicada

1. Introducción

Los conceptos y métodos estadísticos, además de ser útiles, también suelen ser
indispensables para comprender el mundo que nos rodea. Proporcionan formas de reflexionar
acerca del comportamiento de muchos fenómenos con los que se enfrenta el profesional.
La disciplina de la estadística enseña cómo razonar de manera lógica y tomar decisiones
informadas en presencia de incertidumbre y variación.
Los profesionales en general, y los arquitectos en particular, tratan de forma constante con
conjuntos de hechos, datos, tanto en su práctica profesional como en la vida cotidiana. La
estadística les proporciona métodos para organizar y resumir datos y para sacar conclusiones
con base en la información que contienen los datos.

Población y muestra

A fin de entender cómo se pueden aplicar los métodos estadísticos, se debe distinguir entre
población y muestra. En el ámbito estadístico se denomina población al conjunto de todos los
individuos que se desea estudiar. Aquí el término tiene un significado mucho más amplio que el
usual, ya que puede referirse a personas, cosas, áreas geográficas e, incluso al tiempo.
Al definir una población, se debe ser cuidadoso de que el conjunto de elementos que la
integren quede perfectamente delimitado. Si estamos analizando las escuelas primarias, éstas
deben quedar claramente especificadas, por ejemplo: escuelas primarias de la ciudad de Santa
Fe, año 1992.
Muestra es un subconjunto de la población que se selecciona para realizar el estudio, ésta
deber ser representativa, es decir, debe reflejar las características esenciales de la población
que se desea estudiar.

Variables

En general, el interés se centra sólo en ciertas características de los individuos de una


población: la cantidad de defectos en la superficie de cada tramo, el espesor de pared de cada
cápsula, el género de un graduado en Arquitectura, la edad a la que se graduó, entre otras.
Una característica puede ser categórica, como el género o tipo de defecto, o bien puede ser de
naturaleza numérica. En el primer caso, la característica es una categoría (como género
femenino, o soldadura insuficiente), y en el último caso, es un número (por ejemplo, edad,
diámetro).
Una variable es cualquier característica que cambia entre los individuos de la población.

Tipos de variables

• Variables cualitativas: se refieren a características no medibles o categóricas. Por


ejemplo: sexo, trastornos de salud, color de ojos, tipo de vivienda, etc.

• Variables cuantitativas: se refieren a características numéricas. Por ejemplo: peso,


estatura, edad, precio del metro cuadrado, índice del costo de la construcción, número
de automóviles, número de hijos, etc.

En las variables cuantitativas se distinguen, a su vez, dos categorías diferentes:

• Las variables cuantitativas discretas, que toman valores pertenecientes a conjuntos


numéricos discretos, por ejemplo: número de empleados en una obra.
• Las variables cuantitativas continuas, que toman valores pertenecientes a conjuntos
numéricos continuos, como la estatura y el peso.

1
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada
Estadística descriptiva e inferencial

La estadística descriptiva se puede definir como los métodos que implican la recolección,
presentación y caracterización de un conjunto de datos, considerándolo como un todo, a fin de
describir en forma apropiada las diversas características de ese conjunto de datos, mientras
que, la inferencia estadística se puede definir como los métodos que posibilitan la estimación
de una característica de una población o la toma de una decisión concerniente a una población,
tomando como base los resultados de una muestra.

Nosotros nos limitaremos al tratamiento de los métodos concernientes a la estadística


descriptiva, es decir, analizaremos un grupo dado de datos sin sacar conclusiones para un
grupo mayor.

2. Métodos gráficos y tabular en estadística descriptiva

La estadística está relacionada no sólo con la organización y análisis de datos una vez que han
sido recopilados, sino también con el desarrollo de técnicas para resumirlos.
Existen distintas formas para presentar los datos ya organizados y procesados de
cualquier estudio estadístico. Cada una de estas formas presenta ventajas y
desventajas, de acuerdo al tipo de variables en análisis, y al objetivo que se persigue
con la presentación. Veremos, entonces, algunas de las más usadas.

2.1 Cuadros

Este tipo de presentación de la información permite volcar un gran número de datos en forma
resumida, haciendo fácil y clara su lectura. Es más breve, puesto que los encabezados de las
columnas y los títulos de las filas evitan repetir explicaciones y, fundamentalmente, facilita las
comparaciones de los datos.
Generalmente, un cuadro completo debe incluir las siguientes partes: título, encabezado,
cuerpo del cuadro, notas al pie, fuente.

Ejemplo
Evolución del total de alumnos de carreras de grado, clasificados según lugar de procedencia.
Universidad Nac. del Litoral de Santa Fe, período 1994-1997.

Departamento Año 1994 Año 1995 Año 1996 Año 1997


La capital 7420 8096 9030 9245
Las Colonias 826 947 1046 1129
Castellanos 754 798 884 904
Gral. Obligado 445 467 530 588
Garay 84 77 78 97
Belgrano 8 6 13 18

Fuente: Información institucional 1997- UNL

2.2 Tablas

Los datos obtenidos a partir de un relevamiento se ordenan también en forma de tablas,


llamadas de distribución de frecuencias.

2
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada
La primera columna de una tabla está formada por los valores o atributos que toma la variable,
y la segunda columna, por la cantidad de veces que se registró cada uno de los datos
obtenidos.
La cantidad de veces que se repite una observación se denomina frecuencia absoluta ( f )
correspondiente a dicho valor.
También se consideran las frecuencias relativas ( f R ) que se obtienen dividiendo la
frecuencia absoluta de cada valor por el total de observaciones realizadas(n).
Se llama frecuencia acumulada ( F ) de un valor a la suma de todas las frecuencias absolutas
de los valores menores o iguales al considerado.

A modo de ejemplo, se presenta la tabla correspondiente a las edades de 120 niños:

111356654123335556512325563554565455411233425523211
111555251563456214456321554156412533255112422145321
212354125242511232

Cant. de
Conteo F fR Porcentaje
EDAD niños (f)
1 //// //// //// //// //// 25 25 0.208 20.8%
2 //// //// //// //// /// 23 48 0.1916 19.1%
3 //// //// //// / 16 64 0.133 13.3%
4 //// //// //// 14 78 0.116 11.6%
5 //// //// //// //// //// //// /// 33 111 0.275 27.5%
6 //// //// 09 120 0.075 7.5%
Totales 120 1 100 %

Cada dato obtenido también se lo denomina observación. En la situación analizada, la


frecuencia absoluta se presentó como “cantidad de niños”.

En la tabla, podemos interpretar los distintos valores, como por ejemplo:


• El 27,5% de los 120 niños observados, tienen 5 años.
• En la columna de frecuencia absoluta el número 23, indica la cantidad de niños de 2
años que hay dentro de los 120 niños.
• En la columna de frecuencia acumulada el número 64 indica la cantidad de niños que
tienen hasta 3 años inclusive.

Cuando se tiene una gran cantidad de datos, cuantitativos, es conveniente organizarlos de


manera tal que resulte más rápida su lectura. Para ello se puede recurrir a una distribución de
frecuencias agrupadas en INTERVALOS DE CLASE.

Es conveniente que los intervalos de clase tengan las siguientes características:


• Todas las clases deben tener la misma amplitud.
• Cada dato debe pertenecer exclusivamente a un intervalo.
• Se recomienda trabajar con más de 5 y menos de 15 intervalos. Se puede utilizar para
calcular el número de intervalos la regla de Sturges: Nro de intervalos = 1 + 3,3  log(n) .
• No deben quedar intervalos vacíos.
• Todos los datos deben estar incluidos en los intervalos.

Para calcular la amplitud de los intervalos de clase:

Dato mayor - Dato menor


Amplitud de cada intervalo =
número de intervalos

3
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada
El punto medio de cada intervalo se denomina marca de clase y lo simbolizamos con xm .
Este es el valor que será el representante del intervalo.

Ejemplo

Los siguientes datos corresponden a las cantidades de horas extras (por mes y por obrero)
realizadas por los 50 obreros que trabajan en una construcción:

48 25 34 52 46 33 35 20 15 38
25 55 40 37 26 14 46 25 18 56
52 37 39 42 22 28 36 22 55 58
58 27 24 12 25 35 58 45 38 32
12 26 32 32 48 33 26 45 42 34

Vamos a construir la tabla de distribución de frecuencias considerando 6 intervalos de clase:

58 − 12
La amplitud de cada intervalo será:  7,66 . Tomamos como amplitud el entero mayor,
6
más próximo. Habrá, entonces, 6 intervalos de amplitud 8.

En el intervalo [a , b)
a: límite inferior, dato incluido
b: límite superior, dato no incluido

xm Frecuencia Frecuencia Frecuencia


Horas extras
absoluta( f ) acumulada (F) relativa% ( fR% )

[12; 20) 16 5 5 10%

[20; 28) 24 12 17 24%

[28; 36) 32 10 27 20%

[36; 44) 40 9 36 18%

[44; 52) 48 6 42 12%

[52; 60) 56 8 50 16%

2.3 Gráficos Estadísticos

Un gráfico estadístico es una representación clara, fácil de leer y de entender, que permite ver
de un modo rápido y global los datos recolectados.
Existe una gran variedad de gráficos. Su elección depende de las variables en estudio y de la
información que se quiere resaltar.
Un gráfico completo debe reunir las siguientes partes: título, variable que se representa, escala
y fuente de los datos.

4
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada

2.3.1 Diagrama de Sectores

El diagrama de sectores se utiliza tanto para variables cualitativas como para variables
cuantitativas discretas.
Estos gráficos tienen forma circular. Cada valor de la variable viene representada por un sector
circular cuyo ángulo tiene una amplitud proporcional a su frecuencia, ésta se obtiene por una
regla de tres simple directa, teniendo en cuenta que el ángulo de 360º corresponde al total de
observaciones.

Ejemplo

Gran Bretaña Empleo civil (millones) 0.62 x360 º


Agricultura------ = 9º16'  9º
24.07
Agricultura 0.62
Industria 7.80 7.80 x360 º
Servicios 15.64 Industria-------- = 116 º39'  117 º
Total 24.07 24.07

15.64 x360º
Servicios------- = 233º55'  234º
24.07

El diagrama por sectores correspondiente es:

Empleo civil-Gran Bretaña

0,62
Agricultura
7,8

Industria

15,64
Servicios

2.3.2 Gráfico de barras o diagrama de barras

El gráfico de barras se utiliza tanto para variables cualitativas como para variables cuantitativas
discretas.
Es un gráfico compuesto por un grupo de barras rectangulares, donde cada una representa
una categoría que adquiere la variable y su altura es proporcional a su frecuencia.

Para su construcción, hay que tener en cuenta las siguientes pautas:


• Todas las barras deben tener el mismo ancho.
• La altura de cada barra muestra los datos representados.
• El espacio entre barra y barra debe ser menor que el ancho de barra.

5
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada
Ejemplo

El siguiente diagrama de barras muestra la cantidad de alumnos de Ingeniería, inscriptos para


el segundo cuatrimestre de 2003.

Cantidad de alumnos de
Ingeniería Inscriptos al 2do.
cuatrimestre

50 43 40
40 35
Número de
alumnos

30 26
20
10
0
Ing. Ing. Ing. Civil Ing.
Mecánica Eléctrica Industrial

Carrera

2.3.3 Histogramas

El diagrama que se utiliza para las distribuciones de variables cuantitativas agrupadas por
intervalos es el histograma. Para construir un histograma, en el eje horizontal se marcan los
intervalos de clase y se toma cada uno de ellos como la base de un rectángulo, cuya altura es
la frecuencia de cada clase.

Tomemos el ejemplo de las horas extras de los 50 obreros de una construcción:

Horas extras xm f F f R (%)

[12; 20) 16 5 5 10%

[20; 28) 24 12 17 24%

[28; 36) 32 10 27 20%

[36; 44) 40 9 36 18%

[44; 52) 48 6 42 12%

[52; 60) 56 8 50 16%

6
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada

Polígono de frecuencias

El polígono de frecuencias se obtiene trazando una poligonal que une los puntos medios de
las bases superiores de los rectángulos que forman el histograma. Para cerrar la poligonal se
considera un intervalo adicional al inicio y al final con frecuencia cero. Este polígono permite
sustituir el histograma por el gráfico de una función continua, que aproxima la distribución de
frecuencias.

Ojiva

Es la representación grafica de las frecuencias acumuladas de una variable agrupada en


intervalo, mediante una línea poligonal obtenida uniendo los puntos que tienen por abscisas los
límites superiores del intervalo y por ordenadas las respectivas frecuencias acumuladas.

7
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada
2.4 Diagrama de tallo y hojas

El diagrama de tallo y hojas se utiliza para variables cuantitativas. Permite organizar los datos
y observar cómo están distribuidos.
Para construir este diagrama, tomamos cada dato, de dos o más dígitos, y lo dividimos en dos
partes: un tallo, que contiene el/los primeros dígitos, y una hoja, que es el/los últimos dígitos.
Luego hacemos una lista de los diferentes tallos y anotamos las hojas correspondientes, en
orden creciente.
También podemos obtener la curva de distribución girando el esquema 90º en sentido contrario
al de las agujas del reloj.

Ejemplo 1

El conjunto de los promedios de octanaje de la gasolina correspondiente a una muestra de 21


productores, se muestra en la siguiente lista:

87.6 - 84.8 – 84.9 – 86.2 – 88.6 – 89.5 – 84.6 – 85.4 – 84.8 – 86.3 – 87.6 – 86.7 - 85.2 – 86.5 –
87.3 – 88.8 – 85.3 – 86.2 – 85.3 – 87.3 – 90.2

para eliminar el punto decimal multiplicamos cada valor por 10. Al leer el diagrama debemos
tener en cuenta que debemos invertir este procedimiento.

Tallo Hojas .

84 6, 8, 8, 9
85 2, 3, 3, 4
86 2, 2, 3, 5, 7
87 3, 3, 6, 6
88 6, 8
89 5
90 2

Ejemplo 2

La siguiente tabla muestra los horarios de trenes del trayecto Castelldefels-Barcelona/Sants


tomados en la estación de Renfe. El horario ocupa una tabla de 10 filas y 9 columnas más una
columna de un solo elemento con el tren de las 22:38. Un total de 91 elementos con formato
hh.mm cada uno (455 caracteres).
5.03 7.32 9.02 11.07 13.32 15.07 16.50 18.32 20.07 22.38
6.02 7.37 9.07 11.32 13.37 15.20 17.02 18.37 20.20
6.18 7.50 9.24 11.37 13.50 15.32 17.07 18.50 20.32
6.37 8.02 9.32 12.02 14.02 15.37 17.20 19.02 20.37
6.48 8.05 9.37 12.07 14.07 15.50 17.32 19.07 20.50
6.55 8.20 10.02 12.32 14.20 16.02 17.37 19.20 21.02
7.02 8.24 10.07 12.37 14.32 16.07 17.50 19.32 21.07
7.07 8.32 10.32 13.02 14.37 16.20 18.02 19.37 21.20
7.20 8.37 10.37 13.07 14.50 16.32 18.07 19.50 21.32
7.25 8.51 11.02 13.20 15.02 16.37 18.20 20.02 21.37

8
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada
Con un diagrama de tallo y hoja se puede representar la hora a la izquierda de la barra | y los
minutos de la salida de cada tren a la derecha. Así, la frecuencia de los trenes se deduce
fácilmente de la longitud de las filas y es, además, muy fácil ver en qué minutos de cada hora
pasan los trenes.

05 | 03
06 | 02 18 37 48 55
07 | 02 07 20 25 32 37 50
08 | 02 05 20 24 32 37 51
09 | 02 07 24 32 37
10 | 02 07 32 37
11 | 02 07 32 37
12 | 02 07 32 37
13 | 02 07 20 32 37 50
14 | 02 07 20 32 37 50
15 | 02 07 20 32 37 50
16 | 02 07 20 32 37 50
17 | 02 07 20 32 37 50
18 | 02 07 20 32 37 50
19 | 02 07 20 32 37 50
20 | 02 07 20 32 37 50
21 | 02 07 20 32 37
22 | 38

Además, dado que algunas horas se repiten exactamente los horarios de los trenes se puede
reducir aún más el tamaño del gráfico, sin perder información y ganando claridad con el
siguiente diagrama reducido:
05 | 03
06 | 02 18 37 48 55
07 | 02 07 20 25 32 37 50
08 | 02 05 20 24 32 37 51
09 | 02 07 24 32 37
10 11 12 | 02 07 32 37
13 14 15 16 17 18 19 20 | 02 07 20 32 37 50
21 | 02 07 20 32 37
22 | 38
En este diagrama quedan 59 elementos de 2 dígitos. 118 caracteres más los separadores, es
decir casi 4 veces menos dígitos que con el horario original. Menos espacio y más claridad.

Este ejemplo nos muestra que una disposición apropiada de los datos puede ser doblemente
informativa y que la representación grafica puede contribuir enormemente a la percepción de
patrones y a la comprensión de la naturaleza de los fenómenos.

9
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada

3. Medidas resúmenes (o estadísticos)

Las tablas estadísticas son una forma organizada de dar toda o casi toda la información, de los
datos que disponemos. Con las gráficas estadísticas se pierde algo de información, pero el
mensaje entra por los ojos, que es lo que se pretende.
La razón de ser de las medidas resúmenes o estadísticos es el de resumir en un número un
aspecto relevante de la distribución, que pueda dar una idea de la misma o compararla, en ese
aspecto, con otras distribuciones.
Estas medidas proporcionan una visión esquemática muy importante de los rasgos de la
distribución. Con esta visión podemos trabajar cuantitativamente de modo muy eficaz y con
sentido común.
Las medidas de resúmenes, que vamos a estudiar, son:

• MEDIDAS DE TENDENCIA CENTRAL:


MEDIA, MEDIANA, MODA.

• MEDIDAS DE DISPERSIÓN:
RANGO, VARIANZA, DESVIACIÓN ESTÁNDAR O TÍPICA.

• MEDIDAS DE POSICIÓN:
CUARTILES, DECILES, PERCENTILES

Comenzaremos viendo lo que significan y el papel que juegan en la distribución.

3.1 Medidas de tendencia central

Al considerar un conjunto de datos es razonable buscar un único número que sea


representativo del conjunto de observaciones en su totalidad. Este número sustituye al conjunto
de datos y ha de reflejar la tendencia de las observaciones.
El carácter representativo de dicho número exige evidentemente que esté comprendido entre
los valores extremos observados de la variable.
Las medidas de tendencia central más usadas son: media, moda, mediana.

A continuación analizaremos las medidas de tendencia central según sea la presentación y


organización de los datos.

3.1.1 Datos no presentados en tablas

Los siguientes datos representan las temperaturas máximas registradas durante los siete días
de la semana en una ciudad: 10ºC, 8ºC, 7ºC, 6ºC, 11ºC, 9ºC, 11ºC.

Media

La media ( x ), también llamada media aritmética o promedio, es el resultado de la división


entre la suma de todos los valores registrados y la cantidad de registros efectuados.

Si calculamos el promedio de las temperaturas máximas:

x = 10º C +8º C +7º C +6º C +11º C +9º C +11º C = 62º C = 8.85º C


7 7

Es decir, el promedio de las temp. máximas registradas durante la semana fue de 8.85º C.

10
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada
Moda

La moda (M O ) es el valor que se registra más veces, es decir, el de mayor frecuencia absoluta.

Entre las temperaturas máximas el valor de mayor frecuencia absoluta es 11º C.


Entonces, simbólicamente: Mo =11º C
Es decir, la temperatura máxima más frecuente durante la semana fue de 11º C.

Mediana

La mediana (M e ) es el valor ubicado en el lugar central de la distribución, al ordenar los datos


de menor a mayor.

Las temperaturas máximas ordenadas de menor a mayor son:

6º C, 7º C, 8º C, 9º C, 10º C ,11º C, 11º C

Si la cantidad n de registros es
un número impar,
Valor central
el lugar central es n +1
2
------------------------------------
Si la cantidad n de registros es
un número par, la mediana es el
promedio de los dos valores
centrales.

Entonces, simbólicamente: Me= 9º C

Es decir, en el 50% de los días las temperaturas máximas fueron menores a 9º C(lo que es
lo mismo que decir, en el 50% de los días las temperaturas máximas fueron mayores a 9ºC).

3.1.2 Datos presentados en tablas

3.1.2.1 Datos no agrupados

En la siguiente tabla se muestran los resultados de una evaluación de matemática obtenidos


por un grupo de alumnos.

X:nota 1 2 3 4 5 6 7 8 9 10
f 2 3 1 3 6 8 4 7 4 2

Media

La media aritmética es la suma de los productos resultantes de multiplicar cada valor de la


variable por su correspondiente frecuencia absoluta, dividida por el total de observaciones.

11
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada
n

x . f + x 2 . f 2 + .....x n . f n x .f i i • n : cantidad de observaciones


x= 1 1 = i =1
• x i : valor de la variable
n n
• f i : frecuencia absoluta

Para obtener la media agregamos una columna a la tabla de frecuencias: xi . f i

xi fi xi .fi
1 2 2
2 3 6
3 1 3
4 3 12
5 6 30
6 8 48
7 4 28
8 7 56
9 4 36
10 2 20

x i f i = 241

241
Por lo tanto, x = = 6.025 . Es decir, el promedio de las notas de la prueba de
40
matemática es 6.025 puntos.

Moda

El valor de la variable con mayor frecuencia es 6. Mo =6


Esto es, la nota registrada más veces fue 6 puntos.

Mediana

Para obtener la mediana:


• Agregamos a la tabla de frecuencias la columna de frecuencias acumuladas(Fi)
• Si se divide la población en dos partes (n/2), la mediana estará en el valor de la
variable que contiene dicha frecuencia acumulada. n/2 = 20
• Buscamos en la columna Fi (frecuencias acumuladas) donde está contenida la posición
20.

xi fi xi .fi Fi
1 2 2 2
2 3 6 5
3 1 3 6

12
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada
xi fi xi .fi Fi
4 3 12 9
5 6 30 15 Contiene la posición 20
6 8 48 23
7 4 28 27
8 7 56 34
9 4 36 38
10 2 20 40

Entonces, la mediana es 6.

Me=6. Es decir, el 50% de los estudiantes obtuvo menos de 6 puntos en la prueba de


matemática.

3.1.2.2 Datos agrupados

En la tabla se presentan los precios de los alquileres de 100 casas, publicados un fin de
semana en un diario de la ciudad de Santa Fe en el año 2010.

Precio (en pesos) Frecuencia absoluta


[250; 400) 32
[400; 550) 30
[550; 700) 16
[700; 850) 18
[850; 1000) 4

Para nuestro estudio estadístico, necesitamos agregar la marca de clase de cada intervalo, que
se calcula con:
a+b
xm = a: límite inferior del intervalo
2
b: límite superior del intervalo

Media

• Para calcular la media aritmética agregamos la columna de marca de clase (x m ), porque los
datos están agrupados.
• Además, debemos realizar la suma de los productos entre cada valor de la variable por su
correspondiente frecuencia absoluta, entonces, agregamos la columna (x m .f)

Precio (en pesos) Frecuencia absoluta xm x m .f

[250; 400) 32 325 10400


[400; 550) 30 475 14250

13
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada
Precio (en pesos) Frecuencia absoluta xm x m .f

[550; 700) 16 625 10000


[700; 850) 18 775 13950
[850; 1000) 4 925 3700

x i f i = 52300

52300
Luego, el valor de la media es: x = = 523 . Es decir, el promedio de los alquileres
100
publicados es de $523.-

Moda

El intervalo modal es [250; 400) ya que es el intervalo de mayor frecuencia absoluta. Esto nos
indica que los precios más frecuentes de los alquileres publicados se encuentran entre $ 250 y
$400.

Mediana

Para calcular la mediana cuando los datos están agrupados:


• Agregamos la columna de frecuencias acumuladas(Fi)
• Si se divide la población en dos partes (n/2), la mediana estará en el intervalo de la
variable que contiene dicha frecuencia acumulada.

n/2 = 50

Buscamos en la columna de las frecuencias acumuladas (Fi) donde está contenida la


posición 50.

Precio (en pesos) Frecuencia absoluta Fi


[250; 400) 32 32
[400; 550) 30 62
[550; 700) 16 78
[700; 850) 18 96
[850; 1000) 4 100

Por lo tanto, el Intervalo que contiene a la mediana es: [400; 550)

Una vez identificado el intervalo donde está la mediana, la calculamos aplicando la siguiente
fórmula:

14
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada

n
− Fi −1
M e = li + 2 .h
fi

li : Límite inferior del intervalo que contiene a la mediana


Fi −1 : Frecuencia acumulada del intervalo que antecede al de la mediana

f i : Frecuencia absoluta del intervalo que contiene a la mediana.

h : Amplitud del intervalo.

En nuestro ejemplo:

100
− 32
M e = 400 + 2  150 = 490
30

Observamos que este valor esté contenido en el intervalo y luego lo interpretamos: el 50% de
los alquileres registran precios entre $250 y $ 490.
También podríamos decir que el 50 % de los alquileres registrados fueron entre $ 490 y $1000.

3. 2 Medidas de dispersión

Hasta ahora nos ocupamos de las medidas de tendencia central, las cuales se emplean para
localizar el centro de un conjunto de observaciones. Con mucha frecuencia, es igualmente
importante describir la forma en qué las observaciones están dispersas a cada lado del centro
a esto por lo general se lo conoce como dispersión o variabilidad.
La medida de la dispersión es importante debido a que dos muestras de observaciones con el
mismo valor central, pueden tener una variabilidad muy distinta.

Ejemplo

Se aplica una prueba idéntica a un grupo de 20 hombres y a un grupo de 20 mujeres. Las


distribuciones de las calificaciones para los dos grupos son las siguientes:

Calificación 20 30 40 50 60 70 80 90 100
Hombres(n=20) 2 4 7 6 1
Mujeres(n=20) 1 1 2 3 6 3 2 1 1

La calificación promedio para cada grupo es la misma ( ), pero las dispersiones para los
dos grupos son muy distintas.

15
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada

Histograma:PUNTAJE (MUJERES) Histograma:PUNTAJE( HOMBRES)

6 7

6
5

5
4

frequencia
frequencia

4
3
3

2
2

1 1

0 0
20 40 60 80 100 20 30 40 50 60 70 80 90 100
PUNTAJE PUNTAJE

Los veinte hombres muestran muy poca variabilidad en sus calificaciones de prueba,
mientras que las calificaciones de las mujeres muestran una variabilidad mucho mayor.

Las medidas estadísticas de la variabilidad ayudan a formar una imagen mental de la


dispersión de los datos. Presentaremos algunas de las más importantes: rango, varianza y
desviación estándar.

Rango

El rango R de un conjunto de n mediciones se define como la diferencia entre la medición


mayor y la menor.
Esta medida nos permite tener una somera idea en cuanto a la dispersión o variación de los
datos, pero tiene como inconveniente que sólo toma en cuenta los dos valores extremos,
descuidando por completo los valores intermedios. En los siguientes gráficos vemos dos
distribuciones con el mismo valor para el rango (R=1.6), sin embargo la variabilidad de cada
una de ellas es muy diferente.

7 20

15
5
Frequency
Frequency

4
10
3

2
5

0 0
1,8 2,0 2,2 2,4 2,6 2,8 3,0 3,2 3,4 1,8 2,0 2,2 2,4 2,6 2,8 3,0 3,2 3,4

¿Existe una medida de variabilidad que sea más sensible que el rango?

La variabilidad de cualquier distribución generalmente se contempla en términos de la


desviación de cada valor observado ( ) con respecto a la media ( ), es decir: xi − x . Si las
desviaciones son pequeñas obviamente los datos son menos variables o están menos
dispersos, que si las desviaciones son grandes. Entonces, la desviación ( xi − x ) proporciona
información acerca del grado de dispersión.

16
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada
Varianza

La varianza de un conjunto de observaciones, que simbolizaremos con 2 , es el promedio de


las desviaciones con respecto a la media elevadas al cuadrado.

Observación:
• Cuando los datos están agrupados
n en intervalos el valor “xi” de la

 (x − x ) fi
2
i
variable es reemplazado por la marca
de clase del intervalo en cuestión.
 =
2 i =1 • xi :valor de la variable
• f i :frecuencia absoluta de cada valor
n de la variable
• x : media

Se puede demostrar, con el fin de facilitar los cálculos, que esta fórmula es equivalente a:

x i
2
 fi
 =2 i =1
− x2
n
En la varianza se eleva al cuadrado cada diferencia (o desvío) evitando así el problema de
diferencias negativas. Esto tiende a magnificar el valor de la variación ya que se mide en
unidades al cuadrado. Como esta medida no coincide con la medida de la variable, una
alternativa, de uso frecuente, es trabajar con la raíz cuadrada de la varianza. Este valor es la
desviación estándar.

Desviación estándar

 (x − x ) . fi x
2 2
. fi
= = − x2
i i
ó
n n
La desviación estándar mide la dispersión promedio en torno a la media, es decir, como
fluctúan las observaciones mayores por encima de ella y como se distribuyen las
observaciones menores por debajo de ella. Observamos que cuanto más grande sea el número
calculado como desvío estándar mayor será la dispersión del conjunto de datos.

Ejemplo

Dos alumnos A y B han recibido la misma cantidad de evaluaciones y cada uno ha obtenido
distintas calificaciones. Si se halla el promedio de las calificaciones, ambos tienen el mismo
promedio, pero B tiene un rendimiento más estable que A.

Notas de A xi2 Notas de B xi2


28 232
4 16 8 64 xA = =7 y A = − 72 = 3
10 100 7 49 4 4
4 16 7 49
10 100 6 36
x i = 28 x 2
i = 232 x i = 28 x 2
i = 198

17
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada
28 198
xB = =7 y B = − 7 2  0,71
4 4

El valor de la desviación estándar es mayor cuando los datos están muy disgregados o
disperso y es menor cuando están más concentrados.

Como  A   B entonces las calificaciones que obtuvo el alumno A están más dispersas
que las obtenidas por B.

Regla de la Normal

Podemos asegurar que, si el histograma tiene un patrón de distribución aproximadamente en


forma de campana, es posible aplicar la regla de la normal para obtener la distribución
porcentual aproximada de las observaciones. La regla de la normal enuncia que:
Para una distribución de frecuencias simétrica en forma de campana, aproximadamente
68% de los datos caerán en el intervalo formado a una desviación estándar medida a partir de
la media: (x −  , x +  ) , el 95% de los datos caerán en el intervalo medido a dos desviaciones
estándares a partir de la media: (x − 2 , x + 2 ) y casi el 100% de los datos caerá dentro del
intervalo medido a tres desviaciones estándares a partir de la media: (x − 3 , x + 3 ) .

Retomemos el ejemplo de los precios de los alquileres de100 casas, publicados un fin de
semana en Santa Fe, y calculemos su desviación estándar:

• Para aplicar la fórmula debemos completar la tabla con la columna xi2 f i que resulta del
producto de la columna “ x i ” por la “ xi f i ”.
• Además debemos calcular la media: x = 523.

Precio (en pesos) Frecuencia absoluta xi xi f i xi2 f i


[250; 400) 32 325 10400 3380000
[400; 550) 30 475 14250 6768750
[550; 700) 16 625 10000 6250000
[700; 850) 18 775 13950 10811250
[850; 1000) 4 925 3700 3422500

 100 52300 30632500

Aplicando la fórmula:

=
x 2
i fi
− x2 =
30632500
− 523 2 = 181 .09
n 100

La desviación estándar es: 181.09. Podemos decir, entonces, que aproximadamente el 68%
de los alquileres registrados varían entre ($341.9, $ 704.1).

18
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada

Coeficiente de variación

La medida de variación relativa más usada es el coeficiente de variación, que se expresa como
porcentaje. El coeficiente de variación es un número abstracto, una medida de variación
relativa a los datos que se estudian, que puede compararse con valores similares procedentes
de otras distribuciones.

Coeficiente de variación: CV = .100
x
A medida que el coeficiente de variación disminuye, se observa una mayor homogeneidad en
los datos, o lo que es lo mismo, los datos están más concentrados alrededor del promedio.
Generalmente, se utiliza para comparar la homogeneidad de dos series de datos aún cuando
estén expresadas en distintas unidades.
En el ejemplo de las calificaciones de los alumnos A y B, el coeficiente de variación nos da:
3 0.71
CVA = .100  CVA  43% CVB = .100  CVB  10%
7 7

Tomemos, ahora, el siguiente ejemplo, de las notas de un examen de Matemática Aplicada:

x i : nota f i xi f i xi2 f i
x=
x .f i i
x=
216
 x  6.35
3 2 6 18 n 34
4 3 12 48
5
6
6 30 150
8 48 288 =
x 2
i . fi
− x2  =
1472
− (6.35) 2  1.72
7 4 28 196 n 34
8 7 56 448
9 4 36 324  1.72
CV = .100  CV = .100  CV  27%
 34 216 1472 x 6.35

El coeficiente de variación es bastante bajo, por lo que se puede considerar que la distribución
es relativamente homogénea.

3.3 Medidas de posición

Existen otras medidas que permiten analizar aspectos de la variabilidad de una distribución de
frecuencia. Ahora nos interesaremos por el lugar que ocupa cada individuo respecto de los
demás cuando los ordenamos según los valores de la variable.
Estas medidas son:

Cuartiles: Los cuartiles son los números que separan los datos, ordenados de manera
creciente, en cuatro partes iguales. Cada conjunto de datos tiene tres cuartiles, el primer cuartil
( C1 ) o cuartil inferior ( C I ), segundo cuartil ( C 2 ) coincidente con la mediana (M e ) y el tercer
cuartil ( C3 ) o cuartil superior (C s ).
Cuando los datos están ordenados de menor a mayor, C I es un número tal que un cuarto de
los datos (25%) son menores o iguales que él y C s es un número tal que tres cuartos de los
datos (75%) son menores o iguales que él.

19
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada
Deciles: Los deciles son aquellos valores que dividen a la distribución en 10 partes
porcentualmente iguales.

Percentiles: Los percentiles son aquellos valores que dividen a la distribución en 100 partes
porcentualmente iguales.

3.3.1 Datos no presentados en tablas

Para encontrar los cuartiles, cuando los datos son numerables, los ordenamos de menor a
mayor y calculamos la mediana. Luego, pueden darse dos casos:
▪ Cuando la cantidad de datos (n) es múltiplo de cuatro: C I es el promedio de los datos
ubicados en las posiciones ( 1 n ) y ( 1 n + 1) y C S es el promedio de los datos
4 4
ubicados en las posiciones ( 3 n ) y ( 3 n + 1 ).
4 4
▪ Cuando la cantidad de datos no es múltiplo de cuatro, C I es el dato ubicado en la
posición igual al entero mayor más próximo a 1 n y C S es el dato ubicado en la
4
posición igual al entero mayor más próximo a 3 n.
4

Ejemplo

Para analizar el rendimiento de los equipos de básquet que entrena, se decidió estudiar la
cantidad de dobles por partido que éstos convirtieron durante el año pasado. El equipo A jugó 8
partidos y, en cada uno, convirtió estos tantos: 63, 30, 75, 38, 58, 65, 62, 42.

Como la cantidad de datos ( n = 8 ) es múltiplo de cuatro, resulta que:

30 38 42 58 62 63 65 75

C I = 40 M e = 60 C S = 64

El equipo B jugó 10 partidos y convirtió estos tantos: 23, 49, 81, 20, 31, 18, 38, 46, 70, 34.

Como la cantidad de datos ( n = 10 ) no es múltiplo de cuatro, resulta que:

18 20 23 31 34 38 46 49 70 81

C I = 23 M e = 36 C S = 49

Podemos concluir, entonces que:

▪ C I = 23. En el 25% de los 10 partidos jugados por el equipo B, convirtió menos de 23


tantos por partido.
▪ M e = 36. En el 50% de los 10 partidos jugados por el equipo B, convirtió menos de 36
tantos y en el otro 50% convirtió más de 36 tantos.

20
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada
▪ C S = 49. En el 75% de los 10 partidos jugados por el equipo B, convirtió menos de 49
tantos por partido.

3.3.2 Datos presentados en tablas

3.3.2.1 Datos no agrupados

Veamos con un ejemplo como se calculan las medidas de posición:

La producción por hora de 300 obreros de una compañía manufacturera varía de 56 a 65


unidades. La distribución de frecuencias se muestra a continuación:

Producción por hora Nro. de obreros


56 9
57 15
58 35
59 36
60 54
61 60
62 35
63 25
64 23
65 8

Para calcular las medidas de posición agregamos a la tabla la columna de frecuencias


acumuladas.

Producción por hora Nro. de obreros Frec. acumuladas


56 9 9
57 15 24
58 35 59
59 36 95
60 54 149
61 60 209
62 35 244
63 25 269
64 23 292
65 8 300

n
Cuartil inferior: Dividimos la muestra en 4 partes iguales   :
4

300
= 75  la posición Nro. 75 está acumulada, para el valor de la variable 59.
4
 C I = 59.
Es decir, el 25% de los obreros produce menos de 59 unidades por hora.

21
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada

300
Mediana: .2 = 150  la posición Nro. 150 está acumulada, para el valor de la variable 61.
4
 M e = C 2 = 61.
Por lo tanto, el 50% de los obreros produce menos de 61 unidades por hora y el otro 50%
produce más de 61 unidades por hora.

300
C.superior: .3 = 225  la posición Nro.225 está acumulada, para el valor de la variable 62.
4
 C S = 62.
Podemos, entonces, decir que el 75% de los obreros produce menos de 62 unidades por hora.

Para calcular los percentiles dividimos la muestra en 100 partes iguales:

300
Percentil 1: = 3  la posición Nro. 3 está acumulada, para el valor de la variable 56.
100

P 1 = 56. Es decir, el 1% de los obreros produce menos de 56 unidades por hora.

Observemos que: P50 = M e = 61

3.3.2.2 Datos agrupados

En una distribución de frecuencias con datos agrupados pueden calcularse los cuartiles en
forma similar a la mediana con la siguiente fórmula:

n
k   − FK −1
C K = LK +  
4
.h Con k = 1, 2, 3.
fK

Siendo:
LK : Límite inferior del intervalo del cuartil.
n : número de datos.
FK −1 : Frecuencia acumulada en el intervalo anterior al del cuartil.
f K : Frecuencia absoluta del intervalo del cuartil.
h : amplitud del intervalo del cuartil k.

Para calcular los deciles se utiliza la siguiente expresión:

n
k   − FK −1
D K = LK +  
10
.h Con k = 1,2,3,......9
fK

Siendo:

22
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada

n : número de datos.
FK −1 : Frecuencia acumulada en el intervalo anterior al del decil.
f K : Frecuencia absoluta del intervalo del decil.
h : amplitud del intervalo del decil k.

Y para calcular los percentiles se utiliza:


 n 
k  − FK −1
PK = LK +  100 
.h Con k = 1,2,3,......99.
fK

LK : Límite inferior del intervalo del percentil.


n : número de datos.
FK −1 : Frecuencia acumulada en el intervalo anterior al del percentil.
f K : Frecuencia absoluta del intervalo del percentil.
h : amplitud del intervalo del percentil k.

Es sencillo deducir que el primer cuartil coincide con el percentil 25, el segundo cuartil con el
percentil 50 y el tercero con el percentil 75.

Ejemplo

Tomemos el ejemplo de los precios de los alquileres de 100 casas publicados un fin de semana
en un diario de la ciudad de Santa Fe.

Precio ( en pesos ) Frecuencia absoluta


[ 250, 400 ) 32
[ 400, 550 ) 30
[ 550, 700 ) 16
[ 700, 850 ) 18
[ 850, 1000) 4

Agregamos a la tabla la columna de frecuencias acumuladas.

Precio ( en pesos ) Frec. Abs. Frec. Ac.


[ 250, 400 ) 32 32
[ 400, 550 ) 30 62
[ 550, 700 ) 16 78
[ 700, 850 ) 18 96
[ 850, 1000) 4 100

El primer cuartil pertenece al primer intervalo de la distribución pues se acumula el 25% de los
datos. Entonces:
 100 
1. −0
C I = 250 +  4 
.150  367
32

Es decir, el 25% de los precios de los alquileres de las casas que aparecen en el diario de
Santa Fe, son menores a $ 367.

23
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada
 100 
2.  − 32
M e = C 2 = 400 +  4 
.150 = 490
30

Podemos decir, entonces que el 50% de los precios de los alquileres de las casas que
aparecen en el diario de Santa Fe, son mayores a $ 490.

Para calcular el percentil 80, buscamos el intervalo donde se acumula el 80% de los datos.

 100 
80.  − 78
P80 = 700 +  100 
.150 = 716.6
18

Por lo tanto, el 80% de los precios de los alquileres de las casas que aparecen en el diario de
Santa Fe, son menores a $ 716.

3.4 Cinco números de resumen y el gráfico de caja

El gráfico de caja es otra representación útil para dar una forma visual a la distribución de los
datos. Se utiliza para variables cuantitativas.
Para construirlo se colocan líneas en cinco posiciones, las que corresponden,
respectivamente, al valor más pequeño de la lista de datos (valor mínimo), al cuartil inferior, a la
mediana, al cuartil superior y al valor más grande de la lista de datos (valor máximo). Estos
cinco números se conocen frecuentemente como los cinco números de
resumen. Una caja es dibujada entre las posiciones correspondientes al primer y tercer
cuartil. A la vez, dos segmentos de recta (los bigotes) conectan la caja (por supuesto,
partiendo del primer y del tercer cuartil) con los dos extremos de los valores arriba
indicados. Específicamente, El bigote izquierdo conecta el valor mínimo de la lista con el cuartil
inferior; mientras que el bigote derecho conecta el cuartil superior con el valor máximo de la
lista.

Con un diagrama de caja y bigotes, se define otra medida de dispersión mediante la distancia
entre el primer y tercer cuartil. Esta distancia se conoce como el rango intercuartílico (RI):
RI = C S − C I .

Ejemplo 1

Consideremos la siguiente lista de números ordenados en forma creciente:


1, 2, 3, 4, 5, 6, 7, 8, 9, 10.

24
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada

Como la cantidad de datos n = 10 , resulta que:

1 2 3 4 5 6 7 8 9 10

CI = 3 M e = 5,5 CS = 8

Tendremos: RI = C S − C I = 8 − 3 = 5 y el gráfico de caja:

Ejemplo 2

Analizaremos en el siguiente gráfico de caja algunas de sus características:

Se observa que la mediana está


más cerca del lado izquierdo de
la caja (valores más bajos); lo
que implica asimetría. El bigote
de la izquierda es más corto que
el de la derecha,es decir, que
sugiere una menor dispersión de
las observaciones hacia los
valores más bajos.

Ejemplo 3

En el siguiente cuadro se muestran las edades de los 20 asistentes a un curso.


Edades 36 25 37 24 39 20 36 45 31 31
24 29 23 41 40 33 24 34 40 39

25
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada
Observamos que la mediana
se encuentra cercana al cuartil
20 24 33 39 45
superior, lo cual sugiere
asimetría, es decir, la parte
izquierda de la caja es mayor
que la de la derecha; ello
quiere decir que las edades
comprendidas entre el 25% y el
50% de la muestra están más
dispersas que entre el 50% y el
75%.
El bigote de la izquierda (mín,
Ci) es más corto que el de la
derecha; por ello el 25% de los
más jóvenes están más
20 25 30 35 40 45
concentrados que el 25% de
los que más edad tienen.
RI = C S − C I = 15 (aproximadamente) es la variación (en años) de las edades de la mitad
central de los 20 asistentes. El intervalo de 24 a 39 suele recibir el nombre mitad central.

Estas cinco medidas (mínimo, cuartil inferior, mediana, cuartil superior y máximo) dan una
simplificación del conjunto entero de datos. Provee una medida del centro a través de la
mediana y medidas de dispersión a través del rango intercuartílico(RI) y del rango(R). La
distancia de los cuartiles a la mediana puede indicar asimetría. Es decir, con el diagrama de
caja se detecta con rapidez cualquier sesgo en la forma de la distribución de los datos y si hay
valores atípicos en el conjunto de datos según veremos a continuación.

Representación de valores atípicos en el gráfico de caja.

Un valor atípico (outlier) es un valor muy alejado del resto de los datos.
Un valor atípico es un valor que se ubica a una distancia mayor a 1,5 veces el RI, medida a
partir del cuartil inferior y cuartil superior.

Un valor atípico podría resultar de una medición incorrecta con un instrumento, el mal
funcionamiento de una máquina o de trasponer dígitos al registrar una medición.Sin embargo
puede ocurrir que aun sin errores de registro o de observación, el conjunto pueda contener
valores alejados del resto. Estos valores atípicos causan una marcada distorsión en las
medidas numéricas como el promedio y la desviación estándar, por lo que en estos casos se
sugiere la utilización de la mediana y el rango intercuartílico.

26
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada

Ejemplo 4

Consideremos los siguientes datos:


Datos 104 112 134 146 155 168 170 195 246 302 338 412 678

Tenemos:

Q1 = Cuartil inferior
Q3 = Cuartil
superior
El rango intercuartílico es: RI = 302 − 146 = 156 .
Por lo tanto, podemos determinar la existencia de puntos atípicos, haciendo:
CI − 1,5  RI = 146 − 1,5(156) = 146 − 234 = −88 (no tendríamos datos atípicos a la izquierda)
C S + 1,5  RI = 302 + 1,5(156) = 302 + 234 = 536 (Por lo que todos los valores mayores a 536
serán considerados datos atípicos. En este caso tendremos un único dato atípico que sería el
678, que coincide con el valor máximo).
Ante la presencia de un dato atípico la longitud del bigote derecho (en nuestro ejemplo) queda
determinado por el segmento que va del cuartil superior que es 302 hasta 412 que es el mayor
de los datos menores que 536 .

Gráfica de caja de Datos

Mínimo Mediana
Máximo

La información visual de los


gráficos de caja no intenta ser
una prueba formal. Es una
Cuartil infeior Cuartil superior herramienta de diagnóstico.

100 200 300 400 500 600 700


Datos

¿Qué se observa?
Además del dato atípico(que coincide con el valor máximo), vemos que la distribución de los
datos es asimétrica.La mitad inferior de los datos se distribuye en un rango mucho menor que
la mitad superior.

Ventajas
El gráfico de caja es una buena alternativa a la presentación tradicional de datos medidos con
escala cuantitativa: el histograma. En éste algunas características de la distribución pueden
quedar enmascaradas por la construcción de los intervalos de clase; como, por ejemplo: los

27
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada
valores de la escala que corresponden al 50 % de las observaciones centrales y al 25 % de las
observaciones de cada lado, el valor de la mediana, los valores de observaciones muy
apartadas de las posiciones centrales, etc. Es decir, el grafico de caja es una presentación que
agrega a las ventajas de los gráficos (rápida comprensión visual) algunas referencias
estadísticas.
Además, permite cotejar varias series de datos medidos con la misma escala; siendo, en tal
sentido, más claro y de mayor información que el polígono de frecuencias (utilizado para
comparar dos o más histogramas).

Ejemplo 5

La Figura siguiente muestra los datos correspondientes a los resultados de un examen que se
tomó en cuatro grupos diferentes, los que se identifican de 1 a 4. La variable que se registró
es el nota final del examen (puntaje de 0 a 100).

¿Qué concluimos a partir de este gráfico?


La nota de los alumnos de los distintos grupos difiere en posición (la mediana cambia
notablemente) y en dispersión (el grupo 3 presenta mayor dispersión que los demás).
Las distribuciónes tienen diferentes formas (grupo 4 muy asimétrico, muchos alumnos
obtuvieron muy buena nota , mientras que en los demás la distribución es simétrica).
Podemos observar además que el cuartil inferior (percentil 25) del puntaje en el grupo 3 es
aproximadamente 63 y coincide con el cuartil superior del grupo 2, es decir, en el grupo 3 el
75% de los alumnos obtuvieron puntajes de 63 o más, en tanto que en el Grupo 2 sólo el 25%
asignaron puntajes de 63 o más.
Del mismo modo, podemos observar que los alumnos del grupo 4 tienen notas más altas que
practicamente todos los alumnos en los demás grupos.

28
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada
4. Descripción de datos bivariados

Algunas veces los datos reunidos constan de observaciones para dos variables en la misma
unidad experimental, como por ejemplo en los siguientes casos:

Ejemplo 1

Cierta inmobiliaria estudia los precios de venta de las propiedades que ofrece. ¿Qué variables
parecen estar relacionadas con el precio de venta de las propiedades? Por ejemplo, ¿las
propiedades más grandes se venden a un precio superior que las más pequeñas? Es probable
así, que la inmobiliaria estudie la relación entre el área en metros cuadrados y el precio de
venta.

Ejemplo 2

El Estado Nacional estudia el tipo de viviendas de sus habitantes, ¿existirá alguna evolución en
la calidad de las viviendas? Para ello debería clasificar el parque de viviendas habitadas
resultante del Censo 2010 a partir de una clasificación utilizada en los censos anteriores, y
comparar la variación de los datos durante la última década.

Cuando se miden dos variables en un mismo grupo de individuos la información obtenida se


conoce como datos bivariados.

Cada una de las dos variables puede ser cualitativa o cuantitativa. En consecuencia, tres
combinaciones de tipos de variable pueden formar datos bivariados:

1. Ambas variables son cualitativas


2. Una variable es cualitativa y la otra es cuantitativa
3. Ambas variables son cuantitativas

4.1 Relación entre dos variables cualitativas

Cuando resultan datos bivariados de dos variables cualitativas, es frecuente que los datos se
ordenen en una tabulación cruzada o tabla de contingencia. Vemos esta situación sobre un
ejemplo concreto.

Ejemplo 3

Un grupo de estudiantes de la Facultad de Arquitectura, Diseño y Urbanismo (n=485) que


cursaban Taller de Matemática, se identificaron y clasificaron al azar según dos variables:
género (M/F) y carrera (Arquitectura y Urbanismo, Licenciatura en Comunicación Visual,
Licenciatura en Diseño Industrial). Estos 485 datos bivariados pueden resumirse en una tabla
cruzada de 2 x 3, donde las dos filas representan los dos géneros, masculino(M) y femenino
(F), y las tres columnas representan las tres categorías de especialidad de Arquitectura y
Urbanismo (AU), Licenciatura en Comunicación Visual (LCV), y Licenciatura en Diseño
Industrial (LDI).

29
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada
La tabla muestra la frecuencia para cada categoría cruzada de las dos variables junto con los
dos totales de fila y columna, llamados totales marginales. El total de los totales marginales es
el gran total y es igual a n, el tamaño muestral.

Tabulación cruzada de Género y Carrera (frecuencia absoluta)

Carrera Total

Género AU LCV LDI

M 125 37 66 228

F 139 78 40 257

Total 264 115 106 485

Es frecuente que las tablas de contingencia muestren porcentajes. Estos porcentajes pueden
basarse en toda la muestra o en las clasificaciones de la submuestra (fila o columna).

Porcentajes basados en el gran total (toda la muestra)

Las frecuencias de la tabla de contingencia mostrada en la tabla anterior pueden convertirse


fácilmente en porcentajes del gran total, si se divide cada frecuencia por el gran total y el
resultado se multiplica por 100. Por ejemplo, 125 se convierte en 25,8%.

Tabulación cruzada de Género y Carrera (frecuencias relativas porcentuales; gran total)

Carrera Total (%)

Género AU (%) LCV (%) LDI (%)

M (%) 25,8 7,6 13,6 47

F (%) 28,7 16,1 8,2 53

Total (%) 54,5 23,7 21,8 100

De la tabla de porcentajes del gran total se puede ver fácilmente que 47% de la muestra eran
hombres, 53% mujeres;54,5 % estudiaban AU, y así sucesivamente. Estos mismos valores
numéricos que describen resultados muestrales se pueden mostrar en una gráfica de barras
comparativas.

30
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada

Distribución porcentual de la carrera según el género(n=485)


30

25

20
Porcentaje

15

10

0
Género M F M F M F
Carrera AU LCV DI

Porcentajes basados en los totales de fila

Las frecuencias de la misma tabla de contingencia pueden expresarse como porcentajes de los
totales de fila al dividir cada valor de fila por el total de la fila y multiplicar por 100 los
resultados. La tabla y gráfica siguientes están basadas en los totales de fila.

Tabulación cruzada de Género y Carrera


(frecuencias relativa porcentual; totales por fila)

Carrera Total
(%)

Género AU (%) LCV LDI (%)


(%)

M (%) 54,8 16,2 29,0 100

F (%) 54,1 30,3 15,6 100

Total 54,5 23,7 21,8 100


(%)

De la tabla anterior vemos que 54,8 % de los estudiantes hombres estudiaban Arquitectura,
mientras que el 54,1% de las estudiantes mujeres estudiaban Arquitectura. Esos mismos
porcentajes se muestran en la gráfica de barras.

31
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada
Porcentajes basados en totales de columna

Las frecuencias de la misma tabla de contingencia pueden expresarse como porcentajes de los
totales de columna al dividir cada valor de columna por el total de la columna y multiplicar por
100 los resultados. La tabla y gráfica siguientes están basadas en los totales por columna.

Tabulación cruzada de Género y Carrera


(frecuencias relativa porcentual; totales por
columna)

Carrera Total
(%)

Género AU (%) LCV LDI (%)


(%)

M (%) 47,4 32,2 62,3 47

F (%) 52,6 67,8 37,7 53

Total 100 100 100 100


(%)
De la tabla vemos que 47,4% de los estudiantes de la carrera Arquitectura eran hombres,
mientras que 52,6% de los estudiantes de Arquitectura eran mujeres. Estos mismos
porcentajes se muestran en la gráfica de barras.

4.2 Relación entre una variable cualitativa y una variable cuantitativa

Para cada nivel de la variable cualitativa, los valores cuantitativos se registran como muestras
separadas. Cada muestra se describe usando las medidas resúmenes vistas anteriormente.
Vemos esta situación sobre un ejemplo concreto.

Ejemplo 4

Una empresa constructora relevó información de las 24 obras en ejecución, en cuanto el Nivel
de satisfacción del cliente clasificado en cuatro categorías: Nada satisfecho, poco satisfecho,
Moderadamente satisfecho, muy satisfecho; y el Tiempo de realización (días) de una tarea
determinada. La información se resumió en la siguiente tabla, donde cada celda es el dato
correspondiente a un individuo de la muestra:
Nivel de Satisfacción Tiempo (días)

Nada 15 26 9 14 30 28

Poco 25 33 29 38 17 54

Moderado 34 47 53 38 41 33

Mucho 35 53 38 31 23 36

32
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada
El Nivel de Satisfacción es una variable cualitativa con cuatro niveles de respuesta y el
Tiempo de realización es una variable cuantitativa. Por ejemplo, el elemento 15 de la primera
posición de la tabla nos indica que el Nivel de Satisfacción del cliente cuyo tiempo de
realización de la tarea por parte de la empresa fue de 15 días, es nada satisfactorio.

Nivel de satisfacción
Nada Poco Moderado Mucho
Mín. 9,00 17,00 33,00 23,00
Q1 12,75 23,00 33,75 29,00
Me 20,50 31,00 39,50 35,50
Q3 28,50 42,00 48,50 41,75
Máx. 30,00 54,00 53,00 53,00

Vemos que en las tres primeras categorías a mayor tiempo de realización de la tarea hay
mayor nivel de satisfacción, aunque para los clientes muy satisfechos (cuarta categoría) el
tiempo de realización de la tarea es algo menor que para los clientes con un nivel moderado de
satisfacción.

Esta forma de cruzar una variable cualitativa y otra cuantitativa es la más común, pero hay
otras posibilidades:

• Si la variable cuantitativa es discreta con pocos valores puede ser tratada como
cualitativa.
• Si la variable cuantitativa es continua se pueden agrupar sus valores en intervalos. Sin
embargo, hay que tener en cuenta que todo agrupamiento supone una pérdida de
información, ya que todos los individuos con valores de la variable en un mismo
intervalo son considerados equivalentes. Por ejemplo, si se agrupan las edades por
quinquenios, serán equivalentes todos aquellos que tengan 20, 21,22,23 y 24 años, ya
que pertenecen al mismo quinquenio. Es preferible mantener Edad como tal.

En el siguiente ejemplo, se tienen las variables: Tipo de residencia que es cualitativa con tres
categorías y la variable Número de miembros de la familia, que es cuantitativa discreta y se
trata como cualitativa con cuatro categorías.

Ejemplo 5

La Cámara de Comercio de una ciudad entrevistó a 126 familias para conocer la cantidad de
miembros que habita en cada tipo de viviendas, para ello realizo un registro del tipo de
residencia y el número de miembros de la familia en cada una de éstas. Los datos se muestran
en la tabla siguiente:

33
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada

Miembros Tipo de residencia


de la
familia Departamento Dúplex Casa Total
1 8 (21,05%) 10 (50%) 2 (2,94%) 20
14
2 15 (39,47%) 4 (20%) (20,59%) 33
24
3 9 (23,68%) 5 (25%) (35,29%) 38
28
4 6 (15,79%) 1 (5%) (41,18%) 35
Total 38 (100%) 20(100%) 68 (100%) 126

Para representar gráficamente los datos de las 126 familias se puede usar una gráfica de
barras comparativas, como se muestra a continuación.

La altura de las barras (frecuencia absoluta) es la cantidad de familias, cada barra muestra el
número de miembros que habita la vivienda y cada conjunto de barras a lo largo del eje
horizontal representa un tipo de vivienda diferente. Se puede observar que la casa es el tipo de
residencia más frecuente para una familia con 3 o más miembros y que el dúplex es la opción
menos elegida cuando el número de miembros por familia es mayor a 2.

También se podría realizar gráficas de barras apiladas, en donde cada barra representa una
categoría que se segmenta en múltiples conjuntos de datos una encima de la otra. Se utilizan
para mostrar cómo una categoría más grande se divide en categorías más pequeñas y cuál es
la proporción de cada parte sobre la cantidad total.

34
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada

Se observa la contribución porcentual de la cantidad de miembros de familias que habita en


cada tipo de residencia. En las casas la mayor contribución porcentual está dada por 4
integrantes, en los departamentos por las de 2 integrantes y en los dúplex por las de un único
integrante. La menor contribución en las casas está dada por un único integrante, mientras que
en los departamentos y los dúplex está dada por 4 integrantes.

4.3 Relación entre dos variables cuantitativas

Cuando los datos bivariados son el resultado de dos variables cuantitativas, se acostumbra
expresar matemáticamente los datos como pares ordenados(x,y), donde x es la variable de
entrada (variable independiente o variable explicativa) e y es la variable de salida (variable
dependiente o variable respuesta).

La forma gráfica más habitual para describir la relación entre dos variables cuantitativas es
utilizar la nube de puntos o diagrama de dispersión.

Un diagrama de dispersión muestra la relación entre dos variables cuantitativas medidas en los
mismos individuos. Los valores de una variable aparecen en el eje de las abscisas y los de la
otra en el eje de las ordenadas. Cada individuo aparece como un punto del diagrama. Su
posición depende de los valores que toman las dos variables en cada individuo.

Un diagrama de dispersión, como cualquier gráfico de datos, permite identificar el patrón


general y las desviaciones sorprendentes del mismo. Un tipo importante de desviación son las
observaciones atípicas, valores individuales que quedan fuera del aspecto general de la
relación.

Ejemplo 6

A los 12 primeros estudiantes (por orden de lista) de un colegio se les toma las notas de los
últimos exámenes en Matemática, Física, Filosofía y Educación Física.

35
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada

Id Matemática Física Filosofía E. Física


1 2 1 2 5
2 3 3 5 8
3 4 2 7 6
4 4 4 8 8
5 5 4 5 9
6 6 4 3 5
7 6 6 4 7
8 7 4 6 6
9 7 6 7 8
10 8 7 5 5
11 10 9 5 6
12 10 10 9 9

Podemos, por ejemplo, representar las distribuciones bidimensionales:

I-Notas de Matemática- Notas de Física

II-Notas de Matemática- Notas de Filosofía

III-Notas Matemática- Notas de Educación Física

En estos diagramas de dispersión, a cada estudiante le corresponden dos valores que se


toman, respectivamente, como abscisa y ordenada de un punto. Así, cada alumno viene
representado por un punto.
La nube de puntos permite apreciar la mayor o menor relación entre las variables. Si los puntos
trazados en el diagrama están dispersos al azar, sin un patrón discernible, significa que los dos
conjuntos de mediciones no tienen relación entre sí. Si los puntos forman algún patrón (lineal,
cuadrático, logarítmico, …), se denota la existencia de relación entre los dos grupos de
mediciones. En el ejemplo, si se observan las notas de Matemática y Física se ve que existe
una muy estrecha relación entre ellas (los valores se encuentran más concentrados y con un
patrón lineal); si se observa el diagrama de dispersión de las notas de Matemática y las de
Filosofía, podría pensarse en alguna relación, pero mucho menor que la anterior, en cambio no
se observa relación entre las notas de Matemática con las de Educación Física.

36
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada
5. software estadístico InfoStat
InfoStat es un software para análisis estadístico de aplicación general desarrollado bajo la
plataforma Windows, desarrollado por un equipo de trabajo conformado por docentes-
investigadores de Estadística y Biometría y de Diseño de Experimentos de la Universidad
Nacional de Córdoba (FCA-UNC).

Cubre tanto las necesidades elementales para la obtención de estadísticas descriptivas y


gráficos para el análisis exploratorio, como métodos avanzados de modelación estadística y
análisis multivariado. Una de sus fortalezas es la sencillez de su interfaz combinada con
capacidades profesionales para el análisis estadístico y el manejo de datos. Debido al
origen universitario, el programa tiene muchas facilidades para la enseñanza de la estadística
que no son fáciles en encontrar en otros programas similares. La versión en español es muy
valorada por los usuarios, especialmente por los estudiantes.

Trabajaremos con la versión estudiantil disponible para su descarga en


http://www.infostat.com.ar/. En el Aula virtual de la asignatura se dispone de un tutorial para el
uso del software.

Desarrollaremos ejemplos trabajando con las salidas producidas por Infostat.

Ejemplo 1

Sobre 40 individuos se estudian las siguientes características: el salario mensual (en miles de
pesos), los años de estudio y la edad. Las variables Salario y Años de estudio siguen una
distribución Normal.

Se presentan a continuación gráficos correspondientes a las variables estudiadas, junto con la


media y la desviación estándar. Se utilizó el software estadístico InfoStat:

Variable n Media D.E.


Salario mensual 40 20,90 2,16
Años de estudios 40 12,26 1,58
Edad 40 39,58 10,83

37
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada

Teniendo en cuenta toda la información, responder:

a) ¿Cuáles son las variables estudiadas? Clasificarlas

Variable Tipo
Salario mensual Cuantitativa continua
Años de estudios Cuantitativa continua
Edad Cuantitativa continua

b) ¿podría decirse que la distribución de la variable edad es simétrica?

No. Observando el gráfico de caja vemos que la mediana está próxima al Cuartil inferir, lo que
sigiere que la distribución es asimétrica

c) ¿Qué porcentaje, aproximadamente, de los trabajadores ganan entre $18000 y $20000?

Observamos el eje y en el histograma para la variable salario mensual. La frecuencia relativa


multiplicada por 100 nos da el porcentaje, por lo tanto podemos decir que aproximadamente el 32%
de los trabajadores tiene su salario entre $18000 y $20000.

d) ¿Cuántos individuos, aproximadamente, ganan $22000 o menos?

Aproximadamente 27 individuos ganan $22000 o menos.

e) ¿Cómo se interpretan la media y desviación estándar para la variable salario mensual?

El sueldo promedio de los 40 trabajadores es aproximadamente $21000. Aproximadamente 27


trabajadores (68%) tiene su salario mensual entre $18840 y $21000.

f) ¿En cuál de las variables es la distribución más homogénea?

La distribución es más homogénea en el Salario mensual ya que es la de menor coeficiente de


variación. Siendo: , y

g) ¿Cuál es la edad máxima?

El valor máximo para la variable edad se puede observar en el correspondiente gráfico de caja, se
tiene entonces que la edad máxima es 65 años.

h) ¿Cuál es la edad alcanzada o superada por el 75% de los individuos?

Observando el Cuartil Superior, en el gráfico de caja, vemos que la edad es 37 años.

i) ¿Informaría que la edad promedio de 39,58 años es representativa de las edades de los 40
individuos? Justificar

No, ya que los valores atípicos tienen influencia en el cálculo del promedio. Por lo tanto, la mediana
es la recomendada. Es decir, el 50 % de los trabajadores tiene, aproximadamente, 34 años o
menos.

38
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada
Ejemplo 2

La corrosión de varillas de esfuerzo de acero es el problema de


durabilidad más importante de las estructuras de concreto
reforzadas.
La carbonatación del concreto ocurre a consecuencia de una
reacción química que reduce el pH lo suficiente para iniciar la
corrosión de las varillas de esfuerzo. A continuación se dan los
datos sobre: x= profundidad de carbonatación (mm) ; y=
resistencia (MPa) para una muestra de especímenes testigos de
un edificio particular.

x 8 15 16,5 20 20 27,5 30 30 35 38 40 45 50 50 55 55 59 65
y 22,8 27,2 23,7 17,1 21,5 18,6 16,1 23,4 13,4 19,5 12,4 13,2 11,4 10,3 14,1 9,7 12 6,8

Se presenta el diagrama de dispersión salida del software:

Observando el diagrama de dispersión se ve que los valores se encuentran concentrados y sugiere


un patrón lineal. A medida que los valores de x aumentan, en promedio los valores de y decrecen,
es decir, si la profundidad de carbonatación (mm) aumenta, la resistencia (MPa) decrece para una
muestra de especímenes testigos de un edificio particular.

39
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada

6. Trabajo Práctico

1) A continuación, se presentan algunos ejemplos de fichas. Determinar las posibles


variables a analizar indicando si son cualitativas o cuantitativas y proponer categorías o
valores posible para cada una de ellas.

a) Ficha de productos que elabora una fábrica:

Nombre del producto:


..........................
Tipo de envase:
....................................
Peso por unidad:
...................................
Tiempo de procesamiento:
...................
b) Ficha del personalCosto
que entraporaunidad:
trabajar en una empresa:
.................................
Nombre
Precio de y Apellido:
venta por unidad:
....................................
...................
Edad (en años):
..........................................
Estado Civil:
...............................................
Estudios:
...................................................
Sección en la que ingresa:
..........................
2) Se registró semanalmente, durante un año, en la ciudad A, la lluvia caída (expresada en
Sueldo básico:
milímetros). Se presenta el siguiente histograma:
............................................
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Estatura:
Versión Estudiantil Lluvia caída en un año en la ciudad A.
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
...................................................
Versión Estudiantil
0,89
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Peso:
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil0,67
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
..........................................................
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
frecuencia relativa

Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil0,45
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
0,22
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión 0,00
Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión
-4,64 Estudiantil
0,00 Versión 4,64
Estudiantil Versión
9,29 Estudiantil
13,93 Versión18,57
Estudiantil 23,21
Versión Estudiantil
27,86 Versión32,50
Estudiantil 37,14
Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
mm Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil

a) ¿Cuál es la variable estudiada? Clasificarla.


b) Aproximadamente, ¿qué porcentaje de semanas registró entre 0 y 4,64 mm?
c) ¿Se podría pensar que el histograma tiene un patrón de distribución simétrico? ¿Por
qué?
d) ¿Se observan valores extremos? Especificar.

3) Se registraron las notas de 30 alumnos del grupo A de una clase de matemática.


Se presentan las siguientes salidas del software.

40
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada

Tablas de frecuencias

Variable Clase LI LS FA FR FAA FRA


GA 1 [ 1,00 2,00 ] 1 0,03 1 0,03
GA 2 ( 2,00 3,00 ] 0 0,00 1 0,03
GA 3 ( 3,00 4,00 ] 3 0,10 4 0,13
GA 4 ( 4,00 5,00 ] 8 0,27 12 0,40
GA 5 ( 5,00 6,00 ] 14 0,47 26 0,87
GA 6 ( 6,00 7,00 ] 4 0,13 30 1,00

Medidas resumen

Resumen GA
n 30,00
Media 5,17
D.E. 1,10
Mín 1,00
Máx 6,60
Mediana 5,35
Q1 4,80
P(05) 3,80
P(95) 6,40

A partir de la información dada:

a) Interpretar los valores recuadrados en la tabla de frecuencia.


b) La media de las notas, ¿es representativa? Justificar.
c) ¿Cuál es la nota mínima? y ¿cuál la nota máxima?
d) Cuál es la nota que es superada por el 5% de los alumnos?
e) Interpretar el Q1.

4) Con la finalidad de decidir cuántas cajas se necesitarán en sucursales que serán


construidas en el futuro, una cadena de supermercados quiso obtener información acerca del
tiempo (en minutos) requerido para atender a los clientes. Se registró la duración de 60 casos:

41
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada
3,6 1,9 2,1 0,3 0,8 0,2 1,0 1,4 1,8 1,6
1,1 1,8 0,3 1,1 0,5 1,2 0,6 1,1 0,8 1,7
1,4 0,2 1,3 3,1 0,4 2,3 1,8 4,5 0,9 0,7
0,6 2,8 2,5 1,1 0,4 1,2 0,4 1,3 0,8 1,3
1,1 1,2 0,8 1,0 0,9 0,7 3,1 1,7 1,1 2,2
1,6 1,9 5,2 0,5 1,8 0,3 1,1 0,6 0,7 0,6
a) ¿Cuál es la variable a analizar? ¿Es cuantitativa o cualitativa?

b) Versión
Versión Estudiantil
Si el histograma correspondiente es el que se presenta, escribir brevemente un informe
Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
de lo queEstudiantil
Versión Estudiantil
Versión se observa.
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Título
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
0,61
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil0,46
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
frecuencia relativa

Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil0,31
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
0,15
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión 0,00
Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión
-0,80 Estudiantil 0,20
Versión Estudiantil
1,20 Versión Estudiantil
2,20 Versión Estudiantil
3,20 Versión Estudiantil Versión
4,20 5,20 Estudiantil 6,20
Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
tiempo(min) Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil

c) ¿Qué proporción de los tiempos de servicio es menor a un 2,20 min?

d) Se muestra a continuación la salida del software con las medidas numéricas.


Medidas resumen
Resumen tiempo(min)
n 60,00
Media 1,37
Var(n-1) 1,01
CV 73,36
Mín 0,20
Máx 5,20
Mediana 1,10
Q1 0,70
Q3 1,80
Percentil 40 1,00
Percentil 60 1,30

A partir de ellas, completar las siguientes afirmaciones:

d1) El tiempo promedio de atención al cliente es……………….


d2) El 50% de los casos con menores tiempos de atención, requieren ....... minutos
como máximo para ser atendidos.
d3) El 25% de los casos que requieren mayor tiempo de atención, son atendidos en un
tiempo mayor o igual a ....... minutos.
d4) El 40% de los casos con menores tiempos de atención, son atendidos en un tiempo
mayor o igual a ....... minutos y menor o igual a ....... minutos.
d5) La desviación estándar de los tiempos es ….…y el coef. de Variación es ……

e) ¿La media es representativo del conjunto de datos?

42
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada
5) En una ciudad existen 3 grandes plantas de fabricación de automóviles: A, B y C, cada una
con 50 empleados. En cada una de estas plantas se registró el salario de cada uno de los
empleados. En la tabla siguiente, se muestran los valores de los indicadores de posición y
dispersión calculados para cada conjunto de datos:
Valor Desv.
Media Mediana Cuartil 1 Cuartil 3 Valor mín. N
máx. estándar
A $ 550 $ 510 $ 505 $ 515 $ 500 $ 2500 $ 280 50
B $ 1200 $ 1000 $ 800 $ 1500 $ 500 $ 2500 $ 500 50
C $ 1300 $ 600 $ 550 $ 2400 $ 500 $ 2500 $ 900 50

a) Si recibieras una propuesta para trabajar en alguna de estas 3 plantas y te aseguraran


que vas a estar entre el 50% de los que menos cobran, ¿en qué planta elegirías trabajar
y por qué?
b) Si recibieras una propuesta para trabajar en alguna de estas 3 plantas y te aseguraran
que vas a estar entre el 25% de los que más cobran, ¿en qué planta elegirías trabajar y
por qué?
c) ¿En cuál de las 3 plantas se observa una menor variabilidad de salarios (con respecto a
la media)? Justificar.
d) ¿En cuál o cuáles de las 3 plantas de fabricación de automóviles el salario promedio no
es representativo de los salarios de los 50 empleados? En ese caso, ¿con qué
indicadores resumirías la información? Justificar.

6) La distribución de la población estudiantil española del año 1994, se muestra en la


siguiente tabla:
Nivel Educativo total Enseñanza Enseñanza
pública privada
Educación pre- 1.050.970 685.088 365.882
escolar 4.300.832 2.810.311 1.490.521
Educación primaria 2.618.337 1.927.894 690.443
Educación media 1.376.805 1.331.996 44.809
Educación
universitaria

a) Realizar un diagrama circular para mostrar la distribución del total de alumnos


según el nivel educativo en que se encuentran.
b) ¿En qué Nivel tenemos mayor proporción de la enseñanza pública?
c) ¿En el Nivel universitario que proporción corresponde a la enseñanza privada?

7) Las calificaciones medias de los 42 estudiantes que aprobaron un determinado


examen fueron:
5.90 7.07 6.53 9.00 7.36 8.13 6.95 7.80 6.05 6.78 7.35 6.92 7.77 7.81
6.78 7.97 6.49 7.53 8.50 7.22 7.58 6.33 7.22 6.14 7.30 7.92 8.85 5.29
6.02 9.28 5.31 8.40 7.52 8.25 6.83 9.07 6.20 5.83 5.69 7.34 7.14 5.87

a) Realizar la tabla de frecuencias absolutas y relativas porcentuales, agrupando los datos en


intervalos de un punto de amplitud, cuyos extremos sean números enteros.
b) Construir el histograma.
c) ¿Qué cantidad de alumnos obtuvieron más de 7 puntos de calificación?
d) ¿Qué porcentaje de alumnos obtuvo hasta 9 puntos de calificación?

43
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada
8) Hallar la media, la mediana, la moda y el cuartil superior del siguiente conjunto de datos:
40, 42, 56, 55, 52, 52, 46, 42, 46, 44, 43, 43, 55, 46, 43, 43

9) Dadas las dos poblaciones: Población A: 8 9 10 11 17


Población B: 3 9 10 11 12
Calcular la media, mediana y desviación estándar para cada población. Comparar los
resultados y explicar las posibles diferencias.

10) Se seleccionaron 100 vendedores de una compañía de seguros. El


número de pólizas vendidas por estos durante un cierto periodo vario de la siguiente
forma:

1 2 3 4 4 5 5 5 6 6 1 2 3 4 4 5 5 5 6 7
2 3 3 4 4 5 5 5 6 7 2 3 3 4 4 5 5 5 6 7
2 3 3 4 4 5 5 5 6 7 2 3 3 4 4 5 5 5 6 7
2 3 3 4 4 5 5 5 6 8 2 3 4 4 5 5 5 6 6 8
2 3 4 4 5 5 5 6 6 9 2 3 4 4 5 5 5 6 6 9
a) Indicar la variable estudiada y clasificarla.
b) Realizar la Tabla de Frecuencias.
c) Dibujar el correspondiente diagrama de barras.
d) Calcular el valor de la mediana y de los cuartiles superior e inferior. Interpretar
dichos valores.
e) ¿Qué porcentaje de vendedores vendieron entre 3 y 6 pólizas inclusive?
f) ¿Qué número de vendedores vendieron más de 5 pólizas?

11) Los siguientes datos corresponden a las alturas, en pies, de los 29


edificios más altos del mundo:
750 800 900 1046 1127 1250 1350 1454 750 808
914 1136 756 813 927 764 841 935 778 850
950 784 850 787 853 790 858 792 859
a) Indicar la variable estudiada y clasificarla.
b) Construir una tabla de distribución de frecuencias, estableciendo 5 intervalos
de clase.
c) Graficar el correspondiente histograma de frecuencias.
d) Observando al histograma, ¿qué medida tendencia central utilizaría para
describir el conjunto de alturas?
e) Calcular la media, la mediana y el valor correspondiente al cuartil inferior.
Interpretar dichos valores.
f) ¿Cuál es el valor tal que el 20% de los edificios tenga una altura mayor a él?
¿Con qué medida de resumen relacionamos este valor?

12) El siguiente es el polígono de


frecuencias acumuladas (Ojiva)
correspondientes a la distribución de los
puntajes obtenidos en el último examen de
Matemática, agrupados en intervalos.
a) Escribir la tabla de frecuencias absolutas
y frecuencias absolutas acumuladas.
b) Calcular la media y la desviación
estándar. Interpretar cada valor.
c) Calcular el puntaje correspondiente al
cuartil superior e inferior. Interpretar.

44
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada
d) ¿Cuál es el puntaje tal que el 60% de los alumnos haya sacado más que él?
e) Si se aprueba el examen con 70 puntos. ¿Cuál es el porcentaje de alumnos aprobados?

13) Los pesos (en kilogramos) de los empleados de una cierta empresa se presentan a
continuación:

64, 84, 67, 64, 81, 98, 78, 77, 48, 76, 63, 66, 44, 94, 65, 44, 89, 71, 68, 58
92, 50, 78, 52, 78, 70, 62, 61, 62, 70, 83, 80, 48, 60, 80, 71, 53, 55, 85, 75
71, 63, 66, 85, 51, 57, 65, 76, 59, 81

a) Realizar la tabla de frecuencias, agrupando los datos en intervalos de 10 kilos de amplitud.


b) Calcular la media, mediana. Interpretar dichos valores en el contexto del ejercicio.
c) ¿Qué porcentaje de empleados pesan más de 78kg?

14) El número de días que faltaron los alumnos a un curso anual se presenta en la
siguiente tabla.
Nro de días 0 1 2 3 4 5 6 7 10 12
Frecuencia 9 5 4 3 2 2 1 3 2 1

a) Indicar la variable estudiada y clasificarla.


b) Realizar el diagrama de barras correspondiente.
c) Calcular e interpretar la media y la desviación estándar.
d) Si para regularizar el curso es necesario no tener más de 7 inasistencias, ¿Qué porcentaje
de alumnos quedo libre en el curso?

15) La producción por hora de 300 obreros de una compañía manufacturera varía de 56
a 65 unidades. La distribución de frecuencias se presenta en la siguiente tabla:
Producción Nº obreros
56 9
57 15
58 35
59 36
60 54
61 60
62 35
63 25
64 23
65 8

a) Realizar el diagrama de barras correspondiente.


b) Calcular la media, la mediana y la Desviación estándar. INTERPRETAR dichos valores.
c) ¿Qué porcentaje de obreros producen entre 58 y 63 unidades inclusive, por hora?

45
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada

16) Se registraron las edades (años) de las personas que residen en dos edificios de
departamentos: Uno de edificación Horizontal (Edificio 1) y el otro de edificación vertical
(Edificio 2) de la ciudad de Santa Fe. Se llevó a cabo el análisis descriptivo resultando el
siguiente diagrama de caja. Teniendo en cuenta
el mismo completar:
a) La variable cualitativa es: …………………
La variable cuantitativa es:………………..

b) Las medidas resúmenes


Edificio 1 Edificio 2
Mín. (años)
Q1 (años)
Me (años)
Q3 (años)
Máx. (años)
aproximadamente son:

c) El valor atípico es:…………………… Dicho valor,¿ podría ser real?, ¿Qué podría
decirse?
d) ¿En cuál de las categorías de la variable cualitativa se observa mayor dispersión?

17) Se ha estudiado el costo (en pesos) del consumo de energía eléctrica durante el primer
bimestre del año para una muestra aleatoria de 50 departamentos de dos ambientes de un
determinado barrio de una ciudad.
a) ¿Cuál es la variable estudiada? Clasificarla.

b) A partir del histograma responder:


b1) ¿Qué porcentaje de
departamentos tiene el mayor costo
de consumo de energía eléctrica?
b2) ¿Cuál es el rango del costo de
consumo de energía eléctrica?
b3) ¿Qué número de departamentos
tiene un costo de consumo de energía
eléctrica menor a $1575?

c) La siguiente figura muestra los gráficos de caja del consumo de energía eléctrica y el
consumo de gas para la misma muestra de 50 departamentos:

46
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada

Teniendo en cuenta los gráficos de caja, completar:


c1) La mayor variabilidad se observa en el consumo de ……………………….. .
c2) La menor dispersión ocurre en el consumo de ……………………. .
c3) El mínimo consumo de gas es aproximadamente de ……………… .
c4) El 50% de los hogares consume aproximadamente $......................... de energía
eléctrica o menos.
c5) En el gas el 75% de los hogares consumió $ …………(aprox) o menos.
c6) En la energía eléctrica sólo el …… % de los hogares consumió $1300(aprox) o menos.
c7) Los valores de consumo de energía eléctrica que se encuentren por encima de
$................. se considerarían valores atipicos.
c8) El 50% de los valores (determinados por la caja) del consumo de energía eléctrica se
encuentra por ………………….. del 50% de los valores del consumo de gas.

18) Para realizar estudios económicos y sociales se clasifica a la población en tres grandes
grupos de edades. Comúnmente estos 3 grupos de edades son: 0-14, 15-64 y 65 años y más.
El siguiente gráfico muestra la evolución histórica de la población de Argentina para estos tres
grandes grupos de edad, según censos de población. Teniendo en cuenta el mismo,
responder:
a) ¿Cuáles son las variables analizadas?
b) ¿Cuál fue el mayor porcentaje de personas que pertenece al grupo 65 y más? y ¿en
qué Censo poblacional ocurrió?
c) ¿Cuál fue el menor porcentaje de personas que pertenece al grupo de 0 a 14 años? y
¿en qué Censo poblacional ocurrió?
d) ¿Qué comentario general se podría hacer? Justificar.

47
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada

Evolución histórica de la población por grandes grupos de edad, según censos de población.

Fuente: INDEC. Censos de población de 1895 a 2010

19) El gerente de personal de una empresa considera que puede haber una relación
entre el ausentismo de los empleados y su edad, por lo que se selecciona una muestra
aleatoria de 10 empleados, con los siguientes resultados:
EMPLEADO 1 2 3 4 5 6 7 8 9 10
EDAD (años) 27 61 37 23 46 58 29 36 64 40
DIAS AUSENTES 15 6 10 18 9 7 14 11 5 8

Realizar el diagrama de dispersión que muestre la relación de las variables y a partir de él


responder: ¿Qué conclusiones se podría obtener respecto a lo que considera el gerente?

20) La siguiente tabla muestra el gasto en publicidad y las ventas conseguidas en un


semestre por una empresa:
Publicidad
10 20 30 40 50 60
(miles de $)
Ventas
100 170 300 280 390 470
(miles de $)

a) Calcular la media y la desviación Típica de los gastos en publicidad. Interpretar dichos


valores.
b) Calcular la media y la desviación Típica de las ventas. Interpretar dichos valores.
c) Realizar el diagrama de dispersión de la variable Ventas en relación con la variable
Publicidad. Describir el patrón general.

48
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada
RESPUESTAS

2) a) Lluvia caída(mm). Cuantitativa continua


b) 87% aprox.
c) Los datos no tienen forma simétrica.
d) Pareciera que existen valores extremos cuando la lluvia caída está entre 28 mm y 32 mm
aprox.

3) a) FA: 0 En el GA no hay alumnos que tengan su nota entre 2 y 3 inclusive.


FAA: 4. En el GA. Como máximo 4 alumnos obtuvieron sus notas entre 1 y 4 inclusive.
FR: 0,47. En el GA el 47% de los alumnos obtuvo su nota entre 5 y 6 inclusive.
FRA: 0,83. Como máximo el 87% de los alumnos obtuvieron su nota entre 1 y 6 inclusive.
b) No es representativa, debido a que el histograma muestra que la distribución no es
simétrica, sería recomendable utilizar la mediana.
c) Nota mínima: 1 y nota máxima: 6,60.
d) P95: 6,40
e) El 75% de alumnos obtuvo una nota superior o igual a 4,80, siendo la nota máxima 6,60.

4) a) Tiempo en minutos. Cuantitativa.


b) La distribución de los tiempos es asimétrica. En el 60% de los casos se requirió entre
0,20 y 1, 20 min; mientras que hubo un muy bajo porcentaje de casos en que tardaron entre
4,20 y 5,20.
c) Aproximadamente en un 90%.
d) d1) El tiempo promedio de atención al cliente es: 1,37 min.
d2) El 50% de los casos con menores tiempos de atención, requieren 1,10 minutos como
máximo para ser atendidos.
d3) El 25% de los casos que requieren mayor tiempo de atención, son atendidos en un
tiempo mayor o igual a 1,80 minutos.
d4) El 40% de los casos con menores tiempos de atención, son atendidos en un tiempo
mayor o igual a 0,20 minutos y menor o igual a 1 minutos.
d5) La desviación estándar de los tiempos es 1,01 y el Coef. de Variación es 73,36%.
e) No. Ya que la distribución no es simétrica y la media se ve afectada por valores extremos.
Además, el CV es alto, lo que significa que la población tiene una alta variabilidad respecto
a la media.

5)
a) En la planta B, porque la mediana es mayor y tiene menor CV, es decir los sueldos son
menos dispersos.
b) En la planta C, porque, aunque tenga mayor variabilidad el Q3 es mayor. Es decir,
cobraría entre 2400 y 2500.
c) En la planta B, su CV es de 42%. Mientras que para las otras es de 51% y 69%
d) La planta C tiene media=$1300; mediana=$600; Q3= 2400 y el y es la que tiene mayor
variabilidad, 69%. Aquí la media se ve influenciada claramente por valores grandes, por
lo que NO es representativa. Se debería utilizar la MEDIANA.

49
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada

6) a) Pre-escolar: 40º Primaria: 165º Media: 102º Universitaria: 53º


b) Universitaria
c) 3,2 %

7)
a) Tabla de frecuencias

Variable Clase LI LS FA FR FAA FRA


Notas 1 [ 5,00 6,00 ] 6 0,14 6 0,14
Notas 2 ( 6,00 7,00 ] 12 0,29 18 0,43
Notas 3 ( 7,00 8,00 ] 16 0,38 34 0,81
Notas 4 ( 8,00 9,00 ] 6 0,14 40 0,95
Notas 5 ( 9,00 10,00 ] 2 0,05 42 1,00

c) 24 estudiantes d) 95%.

x = 46.75 xˆ = 43
8)
x m ed = 45 c S = 52

9) x A = 11 x m edA = 10  A = 3.16
xB = 9 x medB = 10  B = 3.16

10) a) Variable: número de pólizas vendidas - Cuantitativa discreta


c) Medidas resumen

Resumen Nºpolizas
n 100,00
Mediana 5,00
Q1 3,00
Q3 5,00
El 50% de los vendedores, es decir, 50 de ellos, vendieron 5 pólizas o menos.
Tres pólizas o menos vendió el 25% de los empleados que menos vendieron.

d) 79% e) 23 vendedores.

11)
a) Altura de los edificios – Cuantitativa continua

b) Tablas de frecuencias

50
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada

c) Histograma

d) La distribución de las alturas es asimétrica, por lo que sería recomendable utilizar la


mediana.

e) Media=912,83. La altura promedio de los 29 edificios es de 912,83 pies.


Mediana=850. El 50% de los edificios tiene una altura menor o igual a 850 pies.
CI=790. El 25% de los edificios más bajos tiene una altura igual o menor a 790 pies.

f) P(80)=1046.

12) a) b)
Intervalos x i Frec. absoluta Frec. Acumulada
x = 52.5
[10,30) 20 10 10
 = 22.22
[30,50) 40 5 15
[50,70) 60 15 30
[70,90) 80 10 40
Ci = 30
c) d) P40 = 51.333 e) 25%
C3 = 70

13) a)
Tabla de frecuencias
Variable Clase LI LS FA FR FAA FRA
Peso empleados 1 [ 48,00 58,00 ] 11 0,23 11 0,23
Peso empleados 2 ( 58,00 68,00 ] 15 0,31 26 0,54
Peso empleados 3 ( 68,00 78,00 ] 11 0,23 37 0,77
Peso empleados 4 ( 78,00 88,00 ] 7 0,15 44 0,92
Peso empleados 5 ( 88,00 98,00 ] 4 0,08 48 1,00

51
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada

b) Media 68,88
Mediana 66,50

c) el 23%

14) a) Variable: número de faltas (cuantitativa discreta)


x = 3.09
c) d) 9.3%
 = 3.31

15)
b)

c) 82%.

16)
a) La variable cualitativa: Tipo de edificio.
La variable cuantitativa es: Edad.

b) Las medidas resúmenes aproximadamente son:

Edificio 1 Edificio 2
Mín. (años) 10 20
Q1 (años) 30 30
Me (años) 40 40
Q3 (años) 70 50
Máx. (años) 90 140

c) El valor atípico es: 140. Dicho valor no podría ser real ya que según el libro Guinness
de récords la persona viva más longeva tenía 116 años a marzo del 2019. Podría
decirse que se debe a un error de carga de datos.
d) En el edificio de edificación horizontal.

17)
a) Consumo de energía eléctrica. Variable cuantitativa continua.
b)
b1) 18%.
b2) $1110
b3) 31 departamentos.
c)
c1) La mayor variabilidad se observa en el consumo de Energía eléctrica.
c2) La menor dispersión ocurre en el consumo de Gas.
c3) El mínimo consumo de gas es aproximadamente de $570.
c4) El 50% de los hogares consume aproximadamente $1480 de energía eléctrica o
menos.

52
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada
c5) En el gas el 75% de los hogares consumió $ 900(aprox) o menos.
c6) En la energía eléctrica sólo el 25 % de los hogares consumió $1300(aprox) o menos.
c7) Los valores de consumo de energía eléctrica que se encuentren por encima de
$2355 se considerarían valores atipicos.
c8) El 50% de los valores (determinados por la caja) del consumo de energía eléctrica se
encuentra por encima del 50% de los valores del consumo de gas.

18)
a) Censos de la población y Grupos de edad.
b) 10,2%. Se dio en el censo 2010.
c) 25,5%. Se dio en el censo 2010.
d) Existe una tendencia en la dinámica demográfica argentina respecto del descenso de la
fecundidad y descenso de la mortalidad.

19)
El diagrama muestra que los valores se
encuentran concentrados y con un patrón
lineal, por lo que podría decirse que es
correcto lo que sostiene el gerente. Además,
podría decirse que a medida que aumenta la
edad del empleado, disminuyen los días de
ausencia.

20) a) y = 35 (miles de $) (miles de $)

b) x = 285 (miles de $) (miles de $)

c)

Se podría decir que hay relación entre las


ventas y lo invertido en publicidad ya que el
diagrama muestra un padrón lineal. Además,
se podría decir que al aumentar la publicidad
aumentaría las ventas.

53
CATEDRA DE MATEMÁTICA - FADU – UNL - Estadística descriptiva -
Matemática Aplicada

54

También podría gustarte