Está en la página 1de 81

INTRODUCCIÓ N A

LA ESTADÍSTICA
DESCRIPTIVA
PROBABILIDAD Y ESTADÍSTICA – Ing. Tradicionales
Facultad Regional Rosario (FRRO-UTN)
¿Qué es la estadística?
A medida que aumenta la complejidad del mundo, se hace necesario
tomar decisiones sobre los más diversos temas. En general estas
decisiones deben tomarse en condiciones de incertidumbre. La
estadística ha demostrado ser una valiosa herramienta en este aspecto.
Tiene aplicaciones en los más diversos campos:
 Investigación de mercado
 Para evaluar oportunidades de inversión por parte de asesores
financieros
 Para determinar la efectividad de un nuevo medicamento
 Para controlar la calidad de un producto
 Para analizar un programa social, etc.
Te aconsejamos mirar: https://www.youtube.com/watch?v=GRVQr-Op_ck&t=6s
Este vídeo se encuentra en la Unidad I, te servirá para que conozcas los distintos
campos de aplicación de la ESTADÍSTICA.
Definición: La Estadística es una ciencia que proporciona métodos y
técnicas para recolectar, presentar, organizar y analizar información,
a partir de la cual se podrán tomar decisiones en condiciones de
incertidumbre.
Estadística

Estadística Descriptiva Estadística Inferencial

Comprende la recolección, Comprende el conjunto de


sistematización y descripción de métodos que permiten extender
un conjunto de datos, a través los resultados obtenidos en el
del uso de tablas o cuadros, análisis de una muestra hacia
gráficos y medidas cuantitativas toda la población de interés
resumen, con el objetivo de
describirlos. Constituye la base
de la estadística inferencial. Estimación Prueba de
hipótesis
CONCEPTOS BÁSICOS

Población (universo): es el conjunto total de elementos bajo estudio,


cada uno de los cuales recibe el nombre de unidad elemental. El
tamaño de la población se indica con N. Puede ser finita o infinita,
según tenga un número limitado o ilimitado de elementos,
respectivamente.

Ejemplo:
Característica: nº de materias rendidas por los alumnos que cursan
Probabilidad y Estadística.
Unidad elemental: el alumno.
Población: todos los alumnos que cursan Probabilidad y Estadística en
FRRO-UTN.
CONCEPTOS BÁSICOS

Muestra: es un subconjunto de la población que se selecciona para ser


analizada y a partir de la cual se extraen conclusiones que se
generalizan a toda la población. Su tamaño se indica con n.
CONCEPTOS BÁSICOS

MUESTRA

Para que sea válida estadísticamente

REPRESENTATIVA ALEATORIA

Las distintas características de cada unidad elemental tiene


la población deben estar cierta probabilidad de ser
reflejadas aproximadamente incluida en la muestra
en la misma proporción
en la muestra
CONCEPTOS BÁSICOS

¿Por qué utilizar una muestra en lugar de toda la población?

• En general el tamaño de la población es considerable y por razones


de tiempo y de costo no es posible estudiarla por completo.

• En otros casos como en ensayos destructivos, analizar toda la


población significaría destruirla por completo.

Es por eso que se trabaja con muestras, el mecanismo que consiste en


seleccionar una o más muestras de una población se llama muestreo.

De una población se pueden extraer infinitas muestras, pero solo se


seleccionara una, que habrá que utilizar para describir a toda la
población.
CONCEPTOS BÁSICOS

ESTADÍSTICO PARÁMETRO

Medida resumen que Medida resumen que


describe una característica describe una característica
de una muestra. poblacional.
No es un valor fijo, ya que Es un valor fijo,
depende de la muestra que Estimación generalmente desconocido
se extrajo. Varía de muestra y suele simbolizarse con
en muestra. letras griegas.
Una vez seleccionada la
muestra y calculado el
estadístico, es un valor
conocido.
CONCEPTOS BÁSICOS

𝜇,𝜎 ,𝑝

𝑋 , 𝑓 𝑟 ,𝑆
Las características que se analizan en las unidades elementales reciben
el nombre de variables.

TIPO DE VARIABLES

CUALITATIVAS
no medibles
numéricamente CONTINUAS
VARIABLES
Entre dos valores consecutivos,
se pueden encontrar infinitos
CUANTITATIVAS
valores intermedios
toman valores
DISCRETAS
numéricos
Entre dos valores consecutivos,
no hay valores intermedios
Hay distintos métodos estadísticos para cada tipo de
variable

IMPORTANTE DETERMINAR CON QUE


VARIABLE ESTOY TRABAJANDO
Recordando la definición de estadística descriptiva:

Comprende la recolección, sistematización y descripción de un


conjunto de datos, a través del uso de tablas o cuadros, gráficos
y medidas cuantitativas resumen, con el objetivo de
describirlos. Constituye la base de la estadística inferencial.

Una vez que los datos fueron recolectados, procedemos a organizarlos,


una manera de hacerlo es mediante una tabla de frecuencias.
TABLAS DE FRECUENCIAS

Tabla de frecuencias: Agrupación de datos, en clases mutuamente


excluyentes, que muestra el número de observaciones en cada
clase.

Las variables, como se sabe, pueden ser variables cualitativas o


cuantitativas. Recordar: una variable cualitativa es de naturaleza no
numérica; es decir, que la información es clasificable en distintas
categorías.

Se presentarán a continuación las distintas tablas de frecuencia que


pueden construirse.
TABLAS DE FRECUENCIAS PARA
VARIABLES CUALITATIVAS
Suponga que se tiene la información de 50 alumnos de la FRRO – UTN
de los cuales se registró, entre otras características, la provincia de
procedencia. Se utilizan las letras SF, BA, ER, C, O para identificar a
Santa Fe, Buenos Aires, Entre Ríos, Córdoba y otras provincias
respectivamente.

Las observaciones son:


SF, SF, ER, BA, CO, BA, SF, SF, SF, BA, SF, SF, CO, O, SF, CO, BA, BA, O, ER,
SF, O, CO, ER, BA, SF, SF, SF, SF, O, CO, BA, SF, CO, O, ER, BA, SF, SF, SF,
BA, CO, BA, SF, SF, SF, SF, O, SF, SF
TABLAS DE FRECUENCIAS PARA VARIABLES CUALITATIVAS

A continuación, puede observarse una tabla de frecuencias que


organiza la información anterior.

Provincia Frecuencia absoluta Frecuencia relativa


Santa Fe 23 0,46
Buenos Aires 10 0,20
Córdoba 7 0,14
Entre Ríos 4 0,08
Otras 6 0,12
Total 50 1

Las frecuencias absolutas, surgen del conteo, es decir, que el número


23 indica que la categoría SF se observó 23 veces.
TABLAS DE FRECUENCIAS PARA VARIABLES CUALITATIVAS

La tabla anterior tiene 3 columnas.


• La primer columna indica las distintas categorías de la variable que
se está analizando. En nuestro ejemplo: “Provincia de procedencia
de los alumnos”. Las filas de esta columna, que en este caso
representan las distintas categorías, se definieron como
mutuamente excluyentes, esto quiere decir que un alumno no
puede ser de dos provincias en forma simultánea.

• La segunda columna, denominada frecuencias absolutas, exhibe la


cantidad de elementos que cumplen con las distintas categorías, es
decir, para una fila particular, pertenecer a una determinada
provincia. Por ejemplo la tercera fila indica que 7 alumnos son de
Córdoba. Si sumamos las frecuencias absolutas para todas las
categorías se alcanza el valor de n o N, dependiendo si el estudio es
muestral o censal respectivamente. En el ejemplo, la suma da 50
que es la cantidad de alumnos que conforman la muestra.
TABLAS DE FRECUENCIAS PARA VARIABLES CUALITATIVAS

• La tercer columna, está compuesta por frecuencias relativas (fri).


Éstas nos indican para cada categoría de la variable, la proporción
de observaciones que pertenecen a esa categoría. En el caso de la
tercera fila, se puede decir entonces, que la proporción de alumnos
cordobeses es de 0.14. Este último valor se obtiene de realizar el
cociente entre el número 7 y el 50, que es el total de alumnos. En
términos porcentuales, esto indica que el 14% del alumnado
investigado proviene de Córdoba.

• La notación fri se usa para representar a la frecuencia relativa de la


i-ésima categoría de la tabla. Las frecuencias relativas se obtienen
dividiendo cada frecuencia absoluta por el total de datos: fri=fi/n (N
si el estudio fuera censal). La suma de todas las frecuencias relativas
es igual a 1. Generalmente, estas frecuencias se interpretan en
porcentaje al ser multipilicadas por 100.
TABLAS DE FRECUENCIAS PARA VARIABLES CUALITATIVAS

Otro ejemplo para variable cualitativa

Supongamos que además de información sobre la provincia se


cuenta con información acerca de cómo esos 50 alumnos
calificaron el estado edilicio de la facultad. Siendo las opciones
de calificación: Malo, Regular, Bueno, Muy Bueno y Excelente.
TABLAS DE FRECUENCIAS PARA VARIABLES CUALITATIVAS

La información se resumió en la siguiente tabla:


Frecuencia Frecuencia
Calificación del Frecuencia absoluta Frecuencia relativa
estado edilicio absoluta relativa
acumulada acumulada
Malo 4 4 0.08 0.08
Regular 8 12 0.16 0.24
Bueno 21 33 0.42 0.66
Muy Bueno 12 45 0.24 0.90
Excelente 5 50 0.10 1
Total 50 - 1 -

Se puede observar que la tabla contiene dos columnas adicionales a la


presentada en el ejemplo anterior. Éstas son las que corresponden a las
llamadas frecuencias absolutas acumuladas y relativas acumuladas
(segunda y cuarta columna). Esto se debe a que en esta variable se
puede establecer un orden entre sus categorías
TABLAS DE FRECUENCIAS PARA VARIABLES CUALITATIVAS

• Las frecuencias absolutas acumuladas indican, para cada categoría,


cuántas observaciones son menores o iguales a dicha clase. La notación
es: Fi
Se tiene entonces que: F1=f1; F2=f1+f2 ; F3=f1+f2+f3 ; …
La última frecuencia absoluta acumulada en la tabla debe coincidir con
el total de datos.

• De manera similar se obtienen las frecuencias relativas acumuladas,


cuya notación es: Fri
La última frecuencia relativa acumulada en la tabla siempre será igual a
1.
TABLAS DE FRECUENCIAS PARA VARIABLES CUALITATIVAS

Interpretación de una línea en particular.

Si se toma la tercera línea de la tabla, se puede decir que:


- 21 alumnos calificaron al estado del edificio como “Bueno”.
- El 42% de los alumnos calificaron al estado del edificio como
“Bueno”.
- 33 alumnos calificaron al estado del edificio como: “Bueno, Regular
o Malo” (bueno o peor)
- El 66% de los alumnos calificaron al edificio como: “Bueno, Regular
o Malo” (bueno o peor)
- El 34% (100% - 66%) de los alumnos calificaron al edificio como
“Muy Bueno o mejor”.
TABLAS DE FRECUENCIAS PARA VARIABLES CUALITATIVAS

Representación gráfica
A continuación, se ven las gráficas usadas para distribuciones de
variables cualitativas. Una de ellas es el sectograma o gráfico circular.

El sectograma se utiliza cuándo se quiere observar cuánto


representa cada categoría con respecto al total de observaciones
TABLAS DE FRECUENCIAS PARA VARIABLES CUALITATIVAS

Otra de las representaciones que pueden utilizarse es la gráfica de


barras horizontales. Esta técnica es más adecuada cuando la intención
es realizar comparaciones entre las distintas categorías de la variable
analizada.

Calificación del estado edilicio


0 5 10 15 20 25

Excelente

Muy Bueno

Bueno

Regular

Malo
TABLAS DE FRECUENCIAS PARA VARIABLE
CUANTITATIVA DISCRETA

Ejemplo: supongamos que otra de las características que se midió al


grupo de 50 alumnos fue la cantidad de materias que aprobaron en
el último semestre. Esta información se presenta en una tabla,
donde las columnas de la misma se refieren a las diferentes
frecuencias. Estas frecuencias se determinan de manera análoga a
las que fueron presentadas anteriormente.
TABLAS DE FRECUENCIAS PARA VARIABLE DISCRETA

Cantidad de materias aprobadas fi Fi fri Fri


0 15 15 0.30 0.30
1 10 25 0.20 0.50
2 12 37 0.24 0.74
3 8 45 0.16 0.90
4 5 50 0.10 1
Total 50 - 1 -

Si se interpreta una línea en particular, por ejemplo la cuarta, se puede


decir que en el último semestre:
-8 alumnos aprobaron 3 materias.
-El 16% de los alumnos aprobaron 3 materias.
-45 alumnos aprobaron hasta 3 materias.
-El 90% de los alumnos aprobaron hasta 3 materias.
TABLAS DE FRECUENCIAS PARA VARIABLE DISCRETA

Representación gráfica

Además de la presentación tabular, se puede realizar una


representación gráfica. Para estos casos, la gráfica correspondiente
recibe el nombre de gráfico de bastones (si lo que se representa son
las frecuencias absolutas o relativas) y gráfico escalonado (si lo que se
representa son las frecuencias absolutas acumuladas o relativas
acumuladas).
TABLAS DE FRECUENCIAS PARA VARIABLE DISCRETA

Gráfica de bastones
TABLAS DE FRECUENCIAS PARA VARIABLE DISCRETA

Gráfico escalonado
TABLAS DE FRECUENCIAS PARA VARIABLE
CUANTITATIVA CONTINUA
Consideremos que se obtuvo además, la información de la cantidad de
dinero que gastan los alumnos semanalmente en transportarse (en
pesos) desde sus lugares de residencia hasta la facultad. Dicha
información fue resumida como sigue.

Cantidad de dinero fi Fi fri Fri


(en pesos)
0-100 6 6 0.12 0.12
100-200 13 19 0.26 0.38
200-300 16 35 0.32 0.70
300-400 10 45 0.20 0,90
400-500 5 50 0.10 1
Total 50 - 1 -
TABLAS DE FRECUENCIAS PARA VARIABLE CONTINUA

Si se interpreta una línea en particular, por ejemplo la segunda, puede


decirse que semanalmente en transportarse a la facultad:
- 13 alumnos gastan entre $100 y $200.

- El 26% de los alumnos gastan entre $100 y $200.


- 19 alumnos gastan hasta $200.

- El 38% de los alumnos gastan hasta $200


TABLAS DE FRECUENCIAS PARA VARIABLE CONTINUA

Observación: La tabla expuesta con anterioridad es la que se utiliza


siempre para una variable continua, ya que por la naturaleza de la
variable habrá muchos valores distintos presentes en un conjunto de
gran cantidad de observaciones. Sin embargo, también puede
presentarse para variables discretas que hayan presentado muchos
valores distintos, como podría ser cantidad de empleados en un
estudio de 500 empresas.

Cantidad de fi Fi fri Fri


empleados
0-50 fi
… … … … …
Total 500 - 1 -
TABLAS DE FRECUENCIAS PARA VARIABLE CONTINUA

Representación gráfica

Para estos casos, la gráfica correspondiente recibe el nombre de


histograma (si lo que se representa son las frecuencias absolutas o
relativas) y ojiva o polígono de frecuencias acumulativo (si lo que se
representa son las frecuencias absolutas acumuladas o relativas
acumuladas)
TABLAS DE FRECUENCIAS PARA VARIABLE CONTINUA

Histograma
TABLAS DE FRECUENCIAS PARA VARIABLE CONTINUA

Ojiva
FORMAS DE UNA DISTRIBUCIÓN

A través del histograma se puede apreciar la forma de la distribución.


En el ejemplo recién visto la forma de la distribución es
aproximadamente simétrica. Una distribución es simétrica cuando
existe la misma cantidad de valores a la izquierda y a la derecha del
centro. Esto quiere decir que si partimos la gráfica a la mitad, ambas
partes son iguales. Las distribuciones también pueden ser asimétricas a
la derecha (o positiva), cuando la cola a la derecha es más larga que a
la izquierda; o asimétrica a la izquierda (o negativa), cuando la cola a la
izquierda es más larga que a la derecha.
FORMA DE UNA DISTRIBUCIÓN
MEDIDAS DESCRIPTIVAS O RESUMEN
Son medidas resúmenes que permiten expresar las características más
notables de un conjunto de datos. Si el conjunto en estudio es la muestra,
dichas medidas reciben el nombre de estadísticos y si se trata de la
población, dichas medidas se conocen como parámetros. Se dividen en:
1) Posición o ubicación 2) Dispersión 3) Forma
Media aritmética Desvío estándar Asimetría

Moda Variancia

Mediana Rango intercuartílico

Cuartiles Rango

Coeficiente de variación
MEDIDAS DESCRIPTIVAS O RESUMEN

Ejemplo: Se cuenta con información acerca de la cantidad


de materias que aprobaron 10 alumnos elegidos al azar de
Probabilidad y Estadística de FRRO – UTN durante el año
lectivo 2019.
Las observaciones fueron:
6 4 5 3 5 2 6 2 5 7

Resulta de interés resumir dicha información, por lo tanto se van a


presentar y calcular las medidas descriptivas que se enunciaron
anteriormente.
Observación: debido a que el conjunto de datos es pequeño, se
trabajará con los mismos sin agruparlos en una tabla de distribución de
frecuencias.
MEDIDAS DESCRIPTIVAS O RESUMEN

1) Medidas de posición o tendencia central: Permiten ubicar el


“centro” de un conjunto de datos.
Media aritmética:
También conocida como promedio, es una de las medidas descriptivas
numéricas más útil y de mayor conocimiento. La media aritmética de
un conjunto de observaciones es igual a la suma de todas las
observaciones dividido por el total de observaciones. Es necesario
distinguir entre la media de la población y la media de la muestra:

Media poblacional:
Parámetro

Media muestral:
Estadístico
MEDIDAS DESCRIPTIVAS O RESUMEN

Cálculo de la media aritmética para el conjunto de datos del ejemplo:

Calculamos la media
muestral porque estamos
trabajando con una
muestra!!

Interpretación: Los alumnos de Probabilidad y Estadística


aprobaron en promedio 4,5 materias en el año 2019
MEDIDAS DESCRIPTIVAS O RESUMEN

Características de la media aritmética:


 Todo conjunto de datos posee una media
 Es un valor único para cada conjunto de datos.
 En su cálculo intervienen todas las observaciones, aprovechando al
máximo la información.
 La media es la única medida de ubicación donde la suma de las
desviaciones de cada valor con respecto a la media, siempre es cero.
n n n

  x  x    x  x  nx  nx  0
i 1
i
i 1
i
i 1
 Se ve afectada por valores extremos. No es adecuada para conjuntos
de datos con valores inusualmente bajos o altos o con distribuciones
asimétricas.
MEDIDAS DESCRIPTIVAS O RESUMEN

Veamos qué significa la última característica!

Supongamos que uno de los alumnos de la muestra hubiese rendido


una cantidad exagerada de materias, por ejemplo 25 materias
durante el año 2019 en vez de rendir 2. Nuestro nuevo conjunto de
datos sería:
6 4 5 3 5 25 6 2 5 7

Ahora la media aritmética valdría 6,8. Por lo tanto interpretaríamos


que los alumnos de Probabilidad y Estadística rindieron en promedio
6,8 materias durante el año 2019. Pero, si revisamos los datos,
vemos que en realidad la mayoría de los alumnos rindieron menos
materias. Por lo tanto, en el caso de presentarse algún valor
extremadamente grande o pequeño la media aritmética no es una
medida representativa para resumir la información.
MEDIDAS DESCRIPTIVAS O RESUMEN

Mediana ():
Es el valor central de las observaciones una vez que las mismas se han
ordenado. Es el valor de la variable que divide al conjunto en 2 partes
con igual número de elementos, tal que el 50% de los datos son
menores o iguales a él y el 50% restante mayor o igual.

• Si el nº de observaciones es impar, la mediana es el valor


central. Ejemplo: 2 – 3 – 4 – 6 – 7. =4.
• Si el nº de observaciones es par, la mediana es el
promedio de los dos valores centrales. Ejemplo: 2 – 3 – 4 –
6 – 7 – 9.=(4+6)/2=5.
• Teniendo los datos ordenados, la mediana se encuentra en
la posición 0 = (n+1)/2.
MEDIDAS DESCRIPTIVAS O RESUMEN

Cálculo de la mediana
En primer lugar se ordenan las observaciones (en este caso de menor a
mayor):
2 2 3 4 5 5 5 6 6 7

Observamos que como el número de observaciones es par la mediana


va a ser el promedio entre las dos observaciones centrales. En este caso
(5+5)/2=5 materias.
También la podemos obtener calculando la posición de la mediana:
0
= (n+1)/2 = (10+1)/2=5,5. Cuyo valor indica que la mediana se
encuentra entre los valores que ocupan la posición 5 y 6. Por lo tanto
promediamos los dos valores 5 y obtenemos como resultado final 5
materias.

Interpretación: El 50% de los alumnos aprobaron entre 2 y 5


materias en el año 2019, mientras que el 50% restante aprobó
entre 5 y 7 materias.
MEDIDAS DESCRIPTIVAS O RESUMEN

Características de la mediana:
 Todo conjunto de datos posee una mediana.
 Es un valor único para cada conjunto de datos.
 En su cálculo no intervienen todos los valores de la variable.
 No se ve afectada por valores extremos, por eso resulta ser una
medida de posición útil en esos casos o para distribuciones
asimétricas.

Ésta última característica se puede corroborar para el conjunto de


datos modificado con el valor 25. En ese caso la mediana sigue
siendo 5 materias. Esto demuestra que es una medida adecuada
para describir un conjunto de datos en el caso en que se presenten
valores inusualmente altos o bajos, ya que no se distorsionan los
resultados .
MEDIDAS DESCRIPTIVAS O RESUMEN

Modo ():
También conocida como Moda. Es el valor de la variable que ocurre con
mayor frecuencia.

Ventajas: A semejanza de la mediana, al modo tampoco lo afectan los


valores extremos.
Desventajas: A pesar de sus ventajas el modo se usa menos que la
media y la mediana, ya que, puede no existir en el caso en que ninguna
observación se repita. Otras veces todos los valores son modo ya que
ocurren el mismo número de veces. Sin duda, el modo es una medida
inútil en tales situaciones.

Cálculo del modo para el conjunto de datos del ejemplo:


=5 materias

Interpretación: El número más frecuente de materias


aprobadas por alumnos en el año 2019 fue 5.
MEDIDAS DESCRIPTIVAS O RESUMEN

Cuartiles (Qi)
Son tres medidas de posición no central que parten a la distribución en
cuatro partes iguales. Su cálculo requiere, al igual que la mediana, que
los datos estén ordenados.

• Cuartil 1 (Q1): es el valor de la variable que acumula el 25%


de los datos. Por lo tanto, el 25% de los datos son menores o
iguales a dicho valor y el 75% son mayores o iguales a el. Se
encuentra en la posición Q10=(n+1)/4.
• Cuartil 2 (Q2): coincide con la mediana.
• Cuartil 3 (Q3): es el valor de la variable que acumula el 75%
de los datos. Por lo tanto, el 75% de los datos son menores o
iguales a dicho valor y el 25% son mayores o iguales a el. Se
encuentra en la posición Q30 =3(n+1)/4.
MEDIDAS DESCRIPTIVAS O RESUMEN

Cálculo de los cuartiles


Una vez ordenado los datos en forma ascendente se calcula la posición
del cuartil 1 y del cuartil 3.

q10 = (n+1)/4.= (10+1)/4= 2,75 aprox. 3  q1= 3

Interpretación q1: El 25% de los alumnos aprobaron entre 2 y 3


materias en el año 2019, mientras que el 75% restante aprobó
entre 3 y 7 materias.

q30 = 3(n+1)/4.=3 (10+1)/4= 8,25 aprox. 8  q3= 6

Interpretación q3: El 75% de los alumnos aprobaron entre 2 y 6


materias en el año 2019, mientras que el 25% restante aprobó
entre 6 y 7 materias.
MEDIDAS DESCRIPTIVAS O RESUMEN

Si sólo se toma en cuenta las medidas de posición de un conjunto de


datos o si compara varios conjuntos de datos utilizando valores
centrales, se llegará a una conclusión incorrecta.
Además de las medidas de posición, se debe tomar en consideración la
dispersión.
MEDIDAS DESCRIPTIVAS O RESUMEN

2) Medidas de dispersión o variabilidad: La dispersión se refiere al


esparcimiento de los datos. O sea, al grado de variabilidad de las
observaciones. Un valor pequeño en una medida de dispersión indica
que los datos están estrechamente agrupados alrededor del centro,
mientras que un valor grande indica una alta variabilidad.

Rango (R): el rango es un valor numérico que indica la diferencia entre


el valor máximo y mínimo que tomó la variable en una población o una
muestra.
R=Xmáx-Xmín

Cálculo del rango para el conjunto de datos del ejemplo:


R=7-2=5 materias

Interpretación: La máxima diferencia que existe entre quién


más materias aprobó y el que menos aprobó es 5.
MEDIDAS DESCRIPTIVAS O RESUMEN

El rango es fácil de entender y calcular, pero es escasa su utilidad como


medida de dispersión. Incluye únicamente los valores máximo y
mínimo, sin tener en cuenta ninguna otra observación dentro del
conjunto de datos. De ahí que ignore la naturaleza de la variación entre
todas las demás observaciones, siendo afectado profundamente por
los valores extremos.
MEDIDAS DESCRIPTIVAS O RESUMEN

Rango Intercuartílico (RI)


Mide la amplitud del 50% central de la distribución. No se ve afectado
por valores extremos.

RI=Q3-Q1
 
Cálculo del rango intercuartílico para el conjunto de datos del ejemplo:

RI= 6 - 3 =3

Interpretación: La dispersión del 50% central del número de


materias aprobadas es de 3.
MEDIDAS DESCRIPTIVAS O RESUMEN

Desvío estándar (S) y Variancia(S2)


Son las medidas de dispersión más utilizadas, acompañan a la media
aritmética.
La variancia es el promedio de la sumas de los cuadrados de los desvíos
de los valores de la variable, respecto a la media. Es difícil de
interpretar porque está medida en unidades al cuadrado, por lo tanto
se interpreta el desvío estándar que tiene la misma unidad de medida
que la variable bajo estudio.
Las diferencias se elevan al cuadrado para reflejar la distancia absoluta
entre los valores y la media. Si se dejaran las diferencias sin elevar, la
suma de esas diferencias sería igual a 0, que es una de las
características de la media ya mencionadas.
MEDIDAS DESCRIPTIVAS O RESUMEN

Desvío estándar (S) y Variancia(S2) muestral


El desvío estándar es la raíz cuadrada de la variancia e indica cuánto se
alejan, en promedio, los valores respecto de la media del grupo. Se ve
afectada por valores extremos.

Variancia Desvío estándar


MEDIDAS DESCRIPTIVAS O RESUMEN

Cálculo del desvío estándar

Interpretación: En promedio, el número de materias aprobadas


por los alumnos en año lectivo 2019 se aleja en 1,72 materias de
la media.

El desvío estándar se puede utilizar para comparar la


dispersión entre dos o más conjuntos de datos siempre
y cuando las medias sean similares!!
MEDIDAS DESCRIPTIVAS O RESUMEN

Coeficiente de variación (CV)

Las medidas de dispersión vistas hasta aquí son absolutas, en cambio el


Coeficiente de Variación es una medida de dispersión relativa que se
usa para comparar la dispersión entre dos o más distribuciones de
variables con distinta unidad de medida, con distinto valor promedio o
con distinto desvío. Expresa al desvío estándar como un porcentaje de
la media. El conjunto de datos que posee un coeficiente de variación
menor es más homogéneo, es decir, presenta menor dispersión en los
valores, menor variabilidad.
MEDIDAS DESCRIPTIVAS O RESUMEN

Cálculo del coeficiente de variación

1,75
𝐶𝑉 = 𝑋 100=38,22 %
4,5

Interpretación: El desvío estándar representa el 38,22% de


la media del número de materias aprobadas.
MEDIDAS DESCRIPTIVAS O RESUMEN

3) Medidas de forma: Compararemos media, mediana y modo. Si los


tres coinciden aproximadamente, la distribución es simétrica. Si la
media es mayor que la mediana y el modo, la distribución es asimétrica
hacia la derecha. Si la media es menor que el modo y la mediana, la
distribución es asimétrica hacia la izquierda.
MEDIDAS DESCRIPTIVAS O RESUMEN

CÁLCULO DE MEDIDAS DESCRIPTIVAS PARA


LAS DISTINTAS TABLAS PRESENTADAS
Variables cualitativas :
Provincia Frecuencia absoluta Frecuencia relativa
Santa Fe 23 0,46
Buenos Aires 10 0,20
Córdoba 7 0,14
Entre Ríos 4 0,08
Otras 6 0,12
Total 50 1

Con este tipo de variables, donde todas las categorías son igualmente
importantes, sólo podemos calcular una medida: = Santa Fe
La provincia de procedencia más frecuente entre los alumnos es Santa
Fe.
MEDIDAS DESCRIPTIVAS O RESUMEN

Variables cualitativas:

Calificación del Frecuencia Frecuencia


estado del Frecuencia absoluta Frecuencia relativa
absoluta relativa
edificio acumulada acumulada

Malo 4 4 0.08 0.08


Regular 8 12 0.16 0.24
Bueno 21 33 0.42 0.66
Muy Bueno 12 45 0.24 0.90
Excelente 5 50 0.10 1
Total 50 - 1 -

Además del Modo, en este ejemplo dado que hay un orden en las
categorías, se puede calcular también la Mediana y los cuartiles.
MEDIDAS DESCRIPTIVAS O RESUMEN

Primero se debe buscar en que posición están la mediana y los


cuartiles:

= (n+1)/2= (50+1)/2=25,5

La mediana corresponde a la calificación que está entre la posición 25 y


26.

Observar las Frecuencias acumuladas y la primera que supere la ,


corresponderá a la Mediana.

= Bueno

El mismo procedimiento se repite con los cuartiles 1 y 3:


= (n+1)/4= (50+1)/4= 12,75 aprox. 13  q1= Bueno
=(n+1)/4=3x(50+1)/4=38,25 aprox. 38  q3=Muy Bueno
MEDIDAS DESCRIPTIVAS O RESUMEN

Variables discreta:

Cantidad de materias aprobadas fi Fi fri Fri

0 15 15 0.30 0.30
1 10 25 0.20 0.50
2 12 37 0.24 0.74
3 8 45 0.16 0.90
4 5 50 0.10 1
Total 50 - 1 -

En este caso, ya se pueden calcular todas las medidas descriptivas.


MEDIDAS DESCRIPTIVAS O RESUMEN

Media aritmética:

En este caso, tenemos 50 observaciones que sólo toman 5 valores


distintos. En vez de sumar los 50 datos, se multiplica cada valor distinto
de la variable, por su frecuencia:

En promedio, los alumnos aprobaron 1,56 materias

= 0 (frecuencia más alta)

La cantidad de materias aprobadas más frecuente es 0.


MEDIDAS DESCRIPTIVAS O RESUMEN

Mediana
=
0

El valor de la mediana es el promedio entre el 25to (1) y el 26to (2). Por


lo tanto la mediana es 1,5.
El 50% de los alumnos aprobaron 1.5 materia o menos y el 50%
restante 1.5 materia o más.

Cuartil 1 y cuartil 3
q10 = = 12,75 aprox. 13  q1= 0
q30==38,25 aprox. 38  q3 = 3
El 25% de los alumnos aprobaron hasta 0 materias y el 75% aprobaron
hasta 3.
MEDIDAS DESCRIPTIVAS O RESUMEN

Rango = Max – Min = 4 – 0 = 4


La diferencia entre los alumnos que más materias aprobaron y los que
menos, es de 4 materias.

Rango intercuartil = Q3 – Q1 = 3 – 0 = 3
La dispersión máxima del 50% central de los alumnos es de 3 materias
aprobadas.

Desvío estándar y Variancia:


Estas medidas se pueden obtener mediante el uso de una calculadora
científica. Los resultados son: S2=1,80 y S=1,34
El desvío estándar indica que en promedio la cantidad de materias
aprobadas por los alumnos se desvían de la media aritmética en 1,34
materias.
Como se mencionó, la variancia no se interpreta, debido a qué no está
en la unidad de medida de la variable estudiada.
MEDIDAS DESCRIPTIVAS O RESUMEN

Coeficiente de variación:

CV= (1.34/1.56)x100= 85,89%.

Esto indica que el desvío estándar representa un 85,89% con respecto a


la media.
MEDIDAS DESCRIPTIVAS O RESUMEN

Variables continua:

X´ Punto medio del intervalo (última columna): promedio entre los


valores extremos del mismo. Por ej: (0+100)/2 = 50
MEDIDAS DESCRIPTIVAS O RESUMEN

Media aritmética:
En este caso, tenemos las 50 observaciones que consideramos que sólo
tomaron 5 valores distintos, que son los puntos medio de cada uno de
los intervalos* (el del primero sería 50, el del segundo 150, etc.) y
haremos:

Es decir, que los alumnos gastaron semanalmente en promedio $240


para trasladarse de sus viviendas a la facultad.
MEDIDAS DESCRIPTIVAS O RESUMEN

Modo:

Esta medida puede determinarse gráficamente por medio del


Histograma como se ve en la siguiente diapositiva. El valor que se
obtiene es un valor aproximado.

Existe una forma de cálculo analítico por medio de interpolación lineal


que no se verá en este curso.

Para obtener la medida en el histograma, en la barra más alta debe


realizarse el trazado de las líneas como se ve en la figura que sigue. El
valor del modo se encontrará en el eje de abscisas, dado que es un
valor de la variable, y los valores de la variable se grafican en el eje de
abscisas.
MEDIDAS DESCRIPTIVAS O RESUMEN

Histograma

De la gráfica puede observarse que aproximadamente el valor del


modo es $235. (un valor superior a $200 e inferior al punto medio).
La interpretación sería, con mayor frecuencia los alumnos gastaron
aproximadamente $235 en transportarse de sus viviendas a la facultad.
MEDIDAS DESCRIPTIVAS O RESUMEN

Mediana y cuartiles
Al igual que el modo estas medidas se obtienen de manera aproximada
en forma gráfica. Existen fórmulas para su cálculo analítico pero
tampoco se darán en este curso.
La gráfica que se utiliza para determinar estas medidas de manera
aproximada es la Ojiva
MEDIDAS DESCRIPTIVAS O RESUMEN

Para obtener las medidas, se observa en la gráfica anterior que en el


eje de ordenadas se debe ubicar los valores de las posiciones de las
medidas de interés, y luego a través de líneas horizontales llegar a la
Ojiva, una vez interceptada esta línea con la Ojiva, se traza una línea
vertical que llega hasta el eje de abscisas, ese valor es el del cuartil
correspondiente al orden que se buscó en el eje Y.
En la gráfica se observa que aproximadamente:
El cuartil 1 es $150, por lo tanto se puede interpretar que el 25% de los
alumnos gasta hasta $150 en transportarse a la facultad y el otro 75%
ente $150 y $500
La mediana es $240, por lo tanto se puede interpretar que el 50% de
los alumnos gasta hasta $240 en transportarse a la facultad y el otro
50% entre $240 y $500.
El cuartil 3 es $330, por lo tanto se puede interpretar que el 75% de los
alumnos gasta hasta $330 en transportarse a la facultad y el otro 25%
entre $330 y $500
MEDIDAS DESCRIPTIVAS O RESUMEN

Rango = Max – Min = 500 – 0 = $500


La diferencia entre los alumnos que más gastan en transporte y los que
menos, es de $500.

Rango intercuartil = Q3 - Q1 = 330 – 150 = $180


La dispersión máxima del 50% central de los alumnos es de $180 de
gasto en transporte.

Desvío estándar y Variancia:


Estas medidas se pueden obtener mediante el uso de una calculadora
científica como se vio con anterioridad. Para esta variable los
resultados son:

S=$116,50 y S2=$213.572,25.
En promedio los gastos en transporte de los alumnos se desvían del
gasto promedio en $116,50
Diagrama de Tallo y Hojas

Es una alternativa a las tablas de distribución de frecuencias para


organizar la información.

La explicación detallada del diagrama de Tallo y Hojas se encuentra en


un power point especifico en el aula virtual, en la sección
correspondiente a esta unidad.
Diagrama de caja (boxplot)

Es una representación gráfica muy utilizada que permite describir un


conjunto de datos. Se basa en 5 medidas de resumen: Xmín, Q1, Mna, Q3
y Xmáx . Permite analizar la forma de la distribución, si la Mna divide a la
caja en dos partes iguales la distribución es simétrica en su parte
central. Si además, las distancias entre la caja (Q1) y el valor mínimo y la
distancia entre la caja (Q3) y el máximo la distribución es simétrica. En
caso contrario presenta una asimetría.

También permite observar entre qué valores se encuentra el 50%


central de los datos (RI), comparar dos o más distribuciones, etc.
DIAGRAMA DE CAJA (BOXPLOT)
Los siguientes datos se refieren al número de veces que los alumnos
consultan el campus virtual de la UTN durante el primer mes de clases:
27 26 26 19 26 38 14 25 37 6 12 22 37 40 35 21 2 10
El diagrama de caja para la cantidad de veces que se ingresó al campus
virtual es como sigue:

En la construcción de dicho
diagrama observamos que
el mínimo es 2, el Q1=14,
Mna es 25,5, Q3=35 y el
máximo es 40.

Interpretación: La distribución del número de veces que se consulta el


campus virtual muestra que la lejanía del mínimo con la caja es mayor
que la que tiene el máximo con la caja, lo cual indica una leve asimetría
a la izquierda. El 50% central de las visitas se encuentra entre las 14 y
las 35 visitas.
DIAGRAMA DE CAJA (BOXPLOT)

Una amplia utilidad de esta técnica es comparar varias cajas en un


mismo gráfico. Por ejemplo:

Comparando ambas cajas se observa que en el Grupo 1 los datos son


más homogéneos, ya que la caja es más pequeña que la del Grupo 2.
LA DESIGUALDAD DE TCHEBYSHEV

Dado un conjunto de datos de una población , a partir de los mismos


podemos calcular la media y el desvío estándar .

Estos dos valores resumen la información, pero a partir de los mismos


no es posible reconstruir el conjunto de datos.

Sin embargo, estos valores contienen suficiente información para


acotar el porcentaje de los datos que se encuentran en los intervalos
de la forma , con .
LA DESIGUALDAD DE TCHEBYSHEV

• Este resultado se debe al matemático ruso Tchebyshev quien probo


que para cualquier conjunto de datos por lo menos el de los mismos se
encuentran en el intervalo .

• Para k = 2 se tiene que por lo menos el 75% de los datos se


encuentran en el intervalo

• Para k = 3, por lo menos el 88% de los datos se encuentran en el


intervalo .

También podría gustarte