Está en la página 1de 48

ESTADÍSTICA I

Estadística Descriptiva

Docente Silvina Del Duca Cátedra Silvia Vietri

Lun-Mie-Jue - 7-9 hs – Sede Paternal


1
Introducción

Cuando se nos presenta un problema estadís0co donde


necesitamos recolectar datos, si el número de observaciones es
grande, nuestro obje0vo será resumir los datos.
Esto lo podemos hacer mediante tablas y gráficos, que nos ayudan
a comprender mejor los datos visualmente.
No existe una única manera de describir los datos, sino que es
específica de cada problema y depende de dos factores: el 0po de
dato y la finalidad del estudio.

2
Silvina Del Duca
Población y Muestra

Población
• La compone la totalidad de individuos u objetos que se desea
estudiar. La conforma toda la información disponible referida a un
fenómeno.
Muestra
• Es la parte de la población que se selecciona para ser analizada, con
el fin de obtener conclusiones respecto de la totalidad de los
elementos que la componen.
3
Silvina Del Duca
Tipo de datos
Cualita0vos o categóricos
• Nominales: los números iden/ficadores de cada categoría son totalmente
arbitrarios.
• Ordinales: los números en la codificación de categorías se asignan de
acuerdo a un orden que con/ene información sobre la intensidad del
atributo.
Cuantitativos
• Discretos: surgen de un proceso de conteo. Los valores que puede asumir la
variable pertenecen a un conjunto finito o infinito numerable.
• Con/nuos: surgen de un proceso de medición y pueden tomar infinitos
valores dentro de un intervalo.
4
Silvina Del Duca
Tabla de Frecuencias
Respecto del i- ésimo valor xi:
• ni ó fi : frecuencia absoluta
• Ni: frecuencia absoluta
acumulada
• fri : frecuencia rela:va
• Fri: frecuencia rela:va
acumulada.
k indica la can:dad de valores
dis:ntos observados y N la
can:dad total de datos,
contando las repe:ciones.

Se denomina Distribución de Frecuencias al conjunto de los valores de las variables y sus


respectivas frecuencias, ya sean estas absolutas o relativas.
5
Silvina Del Duca
Tabla de Frecuencias para datos agrupados
• (Li , Ls]: intervalo
de amplitud
c = Ls - Li
• yi es la marca de la
i-ésima clase o
categoría (centro
o punto medio)
• ni y fri: frecuencia
de clase, absoluta
y relativa respect.

6
Silvina Del Duca
Gráficos
• Si graficamos cada valor observado en
el eje de abscisas y la frecuencia
correspondiente (absoluta o rela0va)
en el eje de ordenadas, obtendremos
un gráfico de barras, representa0vo
de la distribución de frecuencias del
conjunto de datos.
• También podemos construir gráficos
compara0vos de las frecuencias
(absolutas o rela0vas) de dos o más
conjuntos de datos. 7
Silvina Del Duca
Histograma
• Es el gráfico de frecuencias absolutas y relativas,
para datos agrupados por intervalos.
• Es un gráfico formado por barras verticales,
construidas sobre los intervalos de la variable
mostrada. La altura de cada barra es proporcional
al número de observaciones que hay en ese
intervalo.
• El Polígono de Frecuencias Acumuladas (Ojiva) se
obtiene uniendo mediante segmentos, los puntos
(Ls ; Ni) o (Ls ; Fri), donde la abscisa es el límite
superior del intervalo de clase y la ordenada es la
frecuencia (absoluta o relativa) acumulada.
8
Silvina Del Duca
Estadísticos

Los estadísticos son resúmenes de los datos muestrales. Describen


una distribución según como se comporta el centro, su dispersión y
su forma. Se agrupan en estadísticos de:
• Tendencia central
• Posición
• Dispersión
• Forma

9
Silvina Del Duca
Estadís?cos de tendencia central

Son los que se ubican al centro de la distribución de los datos.

• Media aritmé0ca (centro de gravedad de los datos)


• Moda (valor de la variable con mayor frecuencia)
• Mediana (valor central en el 50%)

10
Silvina Del Duca
Media aritmética

• En datos sin tabular:

xi es el i-ésimo dato y n es el tamaño de la muestra.

• En datos tabulados:

donde yi es la marca de la i-ésima clase (o categoría), ni es la


frecuencia absoluta de la i-ésima clase y k es el número de
categorías.
11
Silvina Del Duca
Mediana
• En datos sin tabular: los datos se ordenan de menor a mayor y, si
n es impar, se ubica el valor central. Si hay dos valores centrales
(n par), entonces se promedian.
• En datos tabulados: la mediana se encuentra dentro de la clase i,
que contiene a la posición n/2
Li es el límite inferior, c la amplitud y ni la
frecuencia absoluta de la clase i.
Ni-1 es la frecuencia acumulada anterior
a la clase i.
12
Silvina Del Duca
Moda

• En datos sin tabular: es el valor de la variable con mayor


frecuencia.
• En datos tabulados:

donde ni es la frecuencia absoluta mayor.

Si el conjunto de datos tiene dos valores modales (bimodal),


estaría indicando la posibilidad de que dos poblaciones se
encuentren mezcladas y sea necesario separarlas.
13
Silvina Del Duca
Relación entre Media, Mediana y Moda
• Si media=moda=mediana, la
distribución es simétrica.
• Si media > mediana > moda, la
distribución se dice sesgada a la
derecha.
• Si media < mediana < moda, la
distribución se dice sesgada a la
izquierda.

14
Silvina Del Duca
Media vs. Mediana

• La media es un estadís?co sensible a valores extremos. Basta que algún


dato dentro de la muestra sea muy alto o muy bajo, el promedio se verá
alterado.
• La mediana, en cambio, es un estadís?co robusto. Aunque los extremos
de los datos se vean alterados, la mediana permanece invariable.
• La media, mediana y moda representan tres métodos diferentes para
encontrar el valor central. Estos tres valores pueden ser un mismo valor,
pero a menudo son dis?ntos. Cuando son dis?ntos, pueden servir para
diferentes interpretaciones de los datos que queremos resumir.

15
Silvina Del Duca
Ejercicio 1:

El ingreso mensual de cinco familias en un barrio es:


$120.000 $120.000 $300.000 $900.000 $1.000.000
¿Cuál es el ingreso ]pico de este grupo?
El ingreso mensual promedio es:
La mediana del ingreso mensual es:
La moda del ingreso mensual es:
Si se está tratando de promover el barrio, ¿qué medida usarías?
Si se está tratando que bajen las contribuciones, ¿qué medida
usarías?
16
Silvina Del Duca
Estadís?cos de Posición

Son valores de la variable que dividen a la muestra en partes de


igual porcentaje. Los Percen0les separan la muestra en grupos
de 1% cada uno (son 99).
Cuar0les: agrupan 25% cada uno (son 3)
Quin0les: agrupan 20% cada uno (son 4)
Deciles: agrupan 10% cada uno (son 9)

17
Silvina Del Duca
Percentiles

• En datos sin tabular:


Primero se ordenan de menor a mayor los n datos.
Calcular el valor:

Si A es entero, entonces el percentil k corresponde al valor medio


de las observaciones ubicadas entre las posiciones A y A+1.
Si A no es un entero, el percentil k corresponde a la observación
ubicada en la posición entera siguiente, es decir, [A+1].
18
Silvina Del Duca
Percentiles

• En datos agrupados:

j : porcentaje hasta donde se desea acumular


Li : límite inferior de la clase del percentil
Ni-1 : frecuencia acumulada anterior a esta clase
ni : frecuencia absoluta de la clase

19
Silvina Del Duca
Ejercicio 2:

Determinar los percen0les 25 y 60 del siguiente conjunto de


datos:

3, 5, 5, 8, 12, 15, 21, 23, 25, 26, 29, 35 (n=12)

20
Silvina Del Duca
Estadís?cos de Dispersión

• Las medidas de tendencia central son ú0les, pero nos dan una
interpretación parcial de los datos.
• Qué podemos decir de los conjuntos de datos siguientes
respecto de su distribución?
Media1 = Media2 = 60

Mediana1 = Mediana2 = 60

Moda1 = Moda2 = 60

21
Silvina Del Duca
Rango

• Es la medida de dispersión más simple. Se calcula tomando la


diferencia entre el valor máximo y el mínimo observado.
• En los datos del ejemplo,
Rango1 = Máx – Mín= 65-55=10
Rango2 = Máx – Mín= 85-35=50

• En estos conjuntos de datos, cuáles


podrían ser las ventajas y desventajas
del rango como medida de variabilidad?
22
Silvina Del Duca
Varianza y desvío estándar muestral

Estas son las medidas más usadas para


representar la dispersión de los datos.
Se basan en los desvíos que existen
entre las observaciones y su media.
El desvío estándar (s) se define como la
raíz cuadrada de la varianza (s2).

23
Silvina Del Duca
Varianza muestral, sesgada e insesgada

Si x1, x2, ..., xn es una muestra con n observaciones, la varianza


muestral 0ene dos fórmulas posibles. Se llama varianza sesgada a
la suma de las desviaciones al cuadrado, dividido n.

Si la dividimos por (n-1), se llama varianza insesgada.

24
Silvina Del Duca
Desvío estándar

• Un problema que presenta la varianza, es que su valor está


expresado en unidades al cuadrado.
• Por eso, en lugar de u0lizar la varianza como medida de
dispersión, se suele usar el desvío estándar.
• Si todas las observaciones son iguales, la desviación estándar y
la varianza valen cero.
• Siempre son posi0vas y cuanto más alejados estén los valores
del promedio, mayor será su valor.

25
Silvina Del Duca
Varianza y desvío estándar muestral

El desvío estándar en datos agrupados lo definimos:

• yi : marca de clase de la categoría i-ésima


• ni :frecuencia absoluta de la i-ésima clase
• k : número de categorías

y la varianza será este desvío elevado al cuadrado.

26
Silvina Del Duca
Ejercicio 3:
Verificar la siguiente igualdad

27
Silvina Del Duca
Rango entre cuartiles

• Así como el promedio es una medida de tendencia central que


no es resistente a las observaciones extremas, la desviación
estándar, que usa el promedio en su definición, tampoco lo es.
• Es por eso que vamos a definir una nueva medida de dispersión.
• Se define el Rango Intercuartil como la diferencia entre el tercer
cuartil y el primer cuartil.
• Se indica por RQ = Q3 - Q1 y mide la variabilidad de la mitad
central de los datos.
28
Silvina Del Duca
Variabilidad

• Cuando queremos describir una variable, usamos alguna medida de


posición central y una medida de dispersión. El par de medidas más
usado, es la media aritmética y la desviación estándar.
• Pero cuando la distribución de las observaciones es sesgada, la media no
es una buena medida de posición central y preferimos la mediana. La
mediana en general va acompañada del rango como medida de
dispersión.
• Pero cuando observamos valores extremos, el rango se ve muy afectado,
por lo que preferimos usar el rango entre cuartiles.

29
Silvina Del Duca
Ejercicio 4:
Completar el cuadro y comparar:

30
Silvina Del Duca
Resumen

31
Silvina Del Duca
Outliers o valores extremos

• Son observaciones que se alejan del conjunto de datos.


• Una regla para determinar si un dato es outliers es la siguiente:
Si un dato es < Q1 – 1.5(Q3-Q1)
Si un dato es > Q3 + 1.5(Q3-Q1)
• Los valores extremos o anómalos, por lo general, son atribuibles a una
de las siguientes causas:
o La observación se registra incorrectamente
o La observación proviene de una población dis?nta
o La observación es correcta pero representa un suceso poco común.
32
Silvina Del Duca
Ejercicio 5:
Analizar si el siguiente conjunto de datos posee valores
extremos o outliers

45 41 51 46 47 42 43 50 39 32 41 44 47 49 45 42 41
40 45 37

33
Silvina Del Duca
Boxplot

El diagrama de cajas de construye de la


siguiente forma:
• Dibujar la caja que empieza en el primer
cuar?l y termina en el tercer cuar?l.
• Dibujar la mediana con una línea dentro
de la caja.
• Por úl?mo, se ex?enden las líneas
(bigotes) saliendo de la caja hasta el
mínimo y el máximo (salvo en la
presencia de outliers).
34
Silvina Del Duca
Boxplot

En el gráfico ilustra?vo podemos observar:


• la presencia de un outlier
• los bigotes que se ex?enden hasta el
valor observado anterior al valor
extremo.
• la distancia entre la mediana y los
cuar?les, que es aproximadamente la
misma y nos hace pensar que la
distribución de los datos es más o
menos simétrica.
35
Silvina Del Duca
Boxplot según el tipo de distribución

36
Silvina Del Duca
Coeficiente de Variación de Pearson

• Es otra medida de variabilidad. Se define como el cociente entre


la desviación estándar s y la media:

• Tiene la ventaja de no poseer unidades, si cambiamos la escala


de medición de la variable, el coeficiente de variación no cambia.
• Se lo suele expresar como un porcentaje. Si el CV es mayor o
igual a 0,20 ó 20%, la variable no se considera homogénea.
• Si la media es igual a cero, el CV no existe.
37
Silvina Del Duca
Estadís?cos de Forma

La simetría de una distribución de frecuencias hace referencia a si los


valores que equidistan de un valor que se considere el centro de la
distribución, poseen frecuencias similares.
Es un concepto más intui?vo a nivel visual.
Si se observa una representación gráfica
(diagrama de barras, histograma) de la
distribución de frecuencias, ésta será
simétrica si la mitad izquierda de la
distribución es la imagen en espejo de la
mitad derecha.
38
Silvina Del Duca
Asimetría

• En las distribuciones simétricas, la media y la mediana coinciden. Si la


distribución es unimodal, el valor de la moda también será igual al
valor de la media y la mediana.
• En distribuciones unimodales, el nivel de simetría se suele describir de
acuerdo a tres grandes categorías:
o distribuciones simétricas
o distribuciones asimétricas posi?vas (o sesgada a la derecha)
o distribuciones asimétricas nega?vas (o sesgada a la izquierda)

39
Silvina Del Duca
Asimetría

En caso de asimetría, los valores de la media, mediana y moda


difieren.
Asimetría posi0va: moda < mediana < media
Asimetría nega0va: moda > mediana > media

40
Silvina Del Duca
Asimetría
Hay diferentes índices estadísticos que permiten cuantificar el nivel de asimetría.
Para variables cuantitativas:

Para el caso de datos tabulados:

En el numerador de los coeficientes, el exponente de los desvíos es impar. Por lo


tanto:
• Si hay desvíos más importantes hacia la izquierda de la media que hacia la
derecha: As < 0 (asimetría nega/va)
• Si hay desvíos más importantes hacia la derecha de la media que hacia la
izquierda: As > 0 (asimetría posi/va)
• Si no hay casi desvíos de la media: As = 0 o muy próximo a cero (simétrica)
41
Silvina Del Duca
Asimetría

Según el ?po de variable, el histograma representa la mejor opción en la


visualización de la asimetría de una variable.
Por otro lado, el boxplot también cons?tuye una opción válida para tal fin.
Ejemplos de diferentes niveles de asimetría:

42
Silvina Del Duca
Curtosis o Apuntamiento

El apuntamiento o curtosis indica que tan puntiaguda es la distribución.


Se diferencian 3 grandes categorías:
o Si no es muy chata ni muy pun?aguda:
distribución mesocúr?ca (forma de
campana)
o Si es muy pun?aguda, respecto de la
anterior: distribución leptocúr?ca
o Si la distribución es muy chata, respecto de
la primera: distribución pla?cúr?ca
43
Silvina Del Duca
Curtosis

El coeficiente de curtosis para variables cuan0ta0vas, se basa en


las desviaciones de los valores observados respecto a la media.

Y para datos tabulados:

• Si K es igual o próximo a 0: mesocúr0ca


• Si K > 0: leptocúr0ca
• Si K < 0: pla0cúr0ca
44
Silvina Del Duca
Momentos

Se utilizan para calcular medidas de tendencia central, de dispersión y forma


• Momento Absoluto de Orden r (centrado respecto del origen):
xi : i-ésimo valor observado
fi : frecuencia del mismo
M: cantidad de valores distintos observados
n: cantidad total de valores observados
• Momento Centrado de Orden r (centrado respecto de la media):

ma1: momento absoluto de orden 1


En el caso de datos agrupados, xi será la marca de clase y el cálculo de los
momentos será aproximado. 45
Silvina Del Duca
Momentos

Los momentos se pueden utilizar en el cálculo de los estadísticos


muestrales:

Media: Asimetría:

Varianza: Curtosis:

46
Silvina Del Duca
FIN DE LA UNIDAD I

Gracias por su atención

47
Silvina Del Duca
BibliograRa Básica

Ø Bacchini; Vázquez (2007) Estadís'ca. Probabilidad e Inferencia u'lizando Microso7 Excel y SPSS. Omicron System.

Ø BacchinI; Vázquez; Bianco; García Fron@; Casparri (2018) Introducción a la Probabilidad y a la Estadís'ca. FCE - UBA
hIp://bibliotecadigital.econ.uba.ar/download/libros/Bacchini_Introduccion-a-la-probabilidad-y-a-la-estadis@ca-
2018.pdf

Ø Canavos (2003) Probabilidad y estadís'ca. Aplicaciones y métodos. McGraw-Hill.

Ø Landro; González (2018) Teoría general de las variables aleatorias. FCE – UBA
hIp://bibliotecadigital.econ.uba.ar/download/libros/Landro-Gonzalez_Teoria-general-de-las-variables-aleatorias-
2018.pdf

Ø Levin; Rubin (2004) Estadís'ca para Administradores. Pren@ce – Hall Hispanoamericana.

Ø Levine; Krehbiel; Berenson (2006) Estadís'ca para administración. Pearson Educación.

Ø Newbold; Carlson; Thorne (2013) Estadís'ca para Administración y Economía. Pearson Educación.
48
Silvina Del Duca

También podría gustarte