Estadistica Descriptiva Completo

ESTADISTICA DESCRIPTIVA
Cátedra: Probabilidad y Estadística
Ing. Héctor Iván Rodríguez
Ing. Gisella Mautino
1
Carrera
Nombre
Probabilidad y
Estadistica Descriptiva
Análisis Exploratorio de Datos
Probabilidad
Variables Aleatorias Discretas y Contiínuas . Distribuciones de

Probabilidad
Distribuciones Conjuntas. Covarianza y correlación
Medias y Varianzas de Comb Lineales de Var. Aleatorias
Muestreo y Distribuciones Muestrales
Estimación
Prueba de Hipótesis
PROBABILIDADES Y ESTADISTICA…
Análisis de Varianza
Teoría de la Confiabilidad
Regresión Lineal y Correlación

2
Régimen de Aprobación
AULA VIRTUAL:
PROMOCION:
• Aprobar 2 PARCIALES de teoría y práctica. TIENEN RECUPERATORIO
Se promociona con con nota ≥ 70
Nota final= nota parcial + nota presentación de prácticos + trabajo final.
• Cumplir con el 80 % de asistencia a las clases prácticas.
• Tener completa la carpeta de prácticas, y presentarla ante requerimiento
de la cátedra. Esta condición será excluyente para poder rendir los
parciales
3
Data de S. XIX
Orígenes 2 disciplinas que se integran
PROBABILIDADES Teoría matemática

de los juegos de
ESTADISTICA azar
Ciencia de estado.
ESTADISTICA Descripción de
datos sobre el
estado
Ciencia que estudia como obtener conclusiones de la
investigación empírica (realidad), mediante el uso de
modelos matemáticos
Realidad
Metodología para evaluar y
juzgar discrepancias entre ≠
el modelo real y el teórico
Modelo Teórico
4
Algunas definiciones
UNIDAD
EXPERIMENTAL Son los objetos medidos o unidades de observación, sobre las cuales
podemos medir diversas variables
VARIABLE Característica que cambia o se modifica para los distintos objetos o
individuos en cuestión, o con el tiempo
MEDICION O DATOS Cuando se mide una variable en la unidad experimental
Mediciones para cada unidad de la Mediciones sobre subconjuntos de

colección completa la población
• Costos
• Ensayo destructivo
POBLACION MUESTRA
• La existencia de los elementos es
conceptual Ej: piezas defectuosas a
producir
PARAMETRO: es una medida que se calcula
para describir una característica de la ESTADISTICO: es una medida que se calcula para describir
POBLACIÓN COMPLETA (ej.: promedio µ ) una característica de la MUESTRA (ej.: promedio  )
Cuidado: Definir cuidadosa y completamente la población antes de recolectar la muestra 5

INFERENCIA Métodos que hacen posible la estimación de 1 característica
ESTADISTICA de la población, o una toma de decisión sobre la población,
con base únicamente en resultados muestrales
6
Algunas definiciones
Ej: Control de calidad del producto, verificar cantidad acceptable envasada
Unidad Experimental Variable Medición

Línea de Producción
X
Cm3
POBLACION
Parámetro MUESTRA
Ej: Media
Ej: Media Estadístico Muestral
Poblacional
µ
7
INFERENCIA ESTADISTICA
Estadística
Descriptiva
8
ESCALAS DE MEDICION
ORGANIZACIÓN Y RESUMEN DE DATOS CATEGORICOS
Variable: Categoría ocupacional en el año 2010 de cada argentino de 14 o más años. Fuente: Censo 2010.
UNIDAD EXPERIMENTAL: Las personas, que son las portadoras de los datos mientras que las categorías ocupacionales
respectivas constituyen los datos. La estadística no estudia los portadores sino los datos.
Valores de la Frecuencia Frecuencia Frecuencia Relativa
Variable Absoluta: fi Relativa: fi/N Porcentual fi/N %
Porcentaje
Número Proporción
Categoría Ocupacional de
Habitantes habitantes
habitantes
Trabajador Familiar 561.078 0,0311 3,11%
Patrón 1.190.944 0,0660 6,60%
Trabajador por Cuenta Propia 3.346.107 0,1854 18,54%
Obreo o empleado 12.947.286 0,7175 71,75%
Total 18.045.415 1,0000 100%
N 10
Distribución de frecuencias de la variable.
11
GRAFICAS QUE SE PUEDEN USAR CON VARIABLES CUALITATIVAS:
GRAFICAS DE BARRAS HORIZONTALES:
GRAFICAS DE TORTA
GRAFICAS DE PUNTOS
12
GRAFICAS DE BARRAS HORIZONTALES:
13
14
GRAFICAS DE TORTA:
15
GRAFICAS DE PUNTOS:
16
GRAFICAS QUE SE PUEDEN USAR CON VARIABLES CUANTITATIVAS:
GRAFICAS DE BARRAS VERTICALES:
GRAFICAS DE BASTONES
HISTOGRAMAS
POLIGONOS DE FRECUENCIAS
OJIVAS (POLIGONOS DE FRECUENCIAS ACUMULADAS)
PARETO
17
ORGANIZACIÓN Y RESUMEN DE DATOS NUMERICOS NO AGRUPADOS
VARIABLE: número de hermanos que componen las familias de
los alumnos que cursan Probabilidad y Estadística, en distintos años
18
Frecuencia Frecuencia Frecuencia Relativa Frecuencia Relativa Porcentual
Absoluta: fi Relativa: fi/N Porcentual fi/N % acumulada Σfi/N %
19
20
ORGANIZACIÓN Y RESUMEN DE DATOS NUMERICOS AGRUPADOS
Cuando el número de valores posibles de una variable DISCRETA sea grande o

cuando la variable sea CONTINUA conviene agrupar los datos en clases o
categorías. Para ello se acomodan los datos en grupos de clases, es decir
categorías, dividiendo en forma conveniente las observaciones.
Al construir una tabla de Distribución de Frecuencias, se debe prestar atención a lo siguiente:

 Seleccionar el número adecuado de clases para cada tabla.
 Obtener un intervalo de clase apropiado para cada clase.
 Seleccionar los límites de las clases que definen los intervalos, de manera que cada observación
se clasifique sin ambigüedad en una sola clase.
21
Cálculo de la cantidad de clases a determinar
1. Fórmula de Sturges:
si N es el tamaño del lote, se trata de hallar el número de intervalos k que satisfaga la relación N ~ 2 ( k - 1)
De esta expresión resulta k ~ 1 + 3,322 log N  Redondeando al valor más próximo obtenemos un valor de k.
2. Regla empírica: para determinar el número de intervalos de clase
22
Cálculo de la amplitud h de cada clase
K = número de intervalos de clase
Intervalos de Clase
Definimos cada clase o categoría mediante un intervalo de

clase expresado en la forma x i - h, x i + h
El punto medio xi es la marca de clase. Este valor es el centro del intervalo que define la clase y es el valor
numérico representativo de los datos de la clase.
h Marca de Clase
Dato Min Dato Max
RANGO Intervalo de Clase Límite de Intervalo

23
de Clase
Rango Extendido
Definimos cada clase o categoría mediante un intervalo de clase expresado en la forma x i - h / 2 , x i + h / 2
El punto medio xi es la marca de clase. Como ya dijimos este valor es el centro del intervalo que define la
clase y es el valor numérico representativo de los datos de la clase.
x i - h / 2 es el límite inferior de la clase y x i + h / 2 es el límite superior de la clase.
Una manera de determinar la clase definida por x i sería: Desde xi - h/2 inclusive, hasta menos de xi+ h/2,
ésto es, el intervalo [x i - h / 2 , x i + h / 2)
Diremos que el dato v j pertenece a esta clase si y solo si x i - h/2  v j < x i + h/2 .
Como vemos, en cada intervalo de clase se incluye al límite inferior.
K = número de intervalos de clase

Marca de clase 1 = Dato Min h Marca de Clase k = Dato Max
Dato Max + h/2

Dato Min - h/2 RANGO EXTENDIDO 24
Ejemplo: Los contenidos de nicotina, en miligramos, de 40 cigarrillos de una cierta marca se registraron de la
siguiente manera:
1,09 1,92 2,31 1,79 2,28 1,74 1,47 1,97 0,85 1,24 1,58 2,03 1,70 2,17 2,55 2,11 1,86 1,90 1,68 1,51 1,64 0,72 1,69
1,85 1,82 1,79 2,46 1,88 2,08 1,67 1,37 1,93 1,40 1,64 2,09 1,75 1,63 2,37 1,75 1,69
n = 40
1) xmáximo = 2,55 y el xmínimo = 0,72
2) Rango = xmáximo - xmínimo Rango = 2,55 – 0,72 Rango = 1,83
3) Determinar la cantidad de intervalos de clase k ≈ 1 + 3,322 log 40 = 6,322 ,redondeamos k  7 clases
4) Dterminar la amplitud h de cada clase h=0,261
5) Determinar los Límites de Intervalos de Clase L1 = xmínimo + h; …..; Li = Li-1 + h;…
6) Determinar las Marcas de Clase

h Marca de Clase
xmínimo xmáximo
RANGO Intervalo de Clase Límite de Intervalo

25
de Clase
7) Clasificar los Datos en las Clase correspondiente
1,09 1,92 2,31 1,79 2,28 1,74 1,47 1,97 0,85 1,24 1,58 2,03 1,70 2,17 2,55 2,11 1,86 1,90 1,68 1,51 1,64 0,72 1,69
1,85 1,82 1,79 2,46 1,88 2,08 1,67 1,37 1,93 1,40 1,64 2,09 1,75 1,63 2,37 1,75 1,69
xmínimo xmáximo
RANGO 26
Continuando con el Ejemplo de contenido de nicotina:
1,09 1,92 2,31 1,79 2,28 1,74 1,47 1,97 0,85 1,24 1,58 2,03 1,70 2,17 2,55 2,11 1,86 1,90 1,68
1,51 1,64 0,72 1,69 1,85 1,82 1,79 2,46 1,88 2,08 1,67 1,37 1,93 1,40 1,64 2,09 1,75 1,63 2,37
1,75 1,69
Se desea obtener conclusiones sobre la distribución de los datos.
En primer lugar determinamos el número k de intervalos de clase. Aplicamos la fórmula de Sturges
k ≈ 1 + 3,322 log 40 = 6,322 ,redondeamos k  7 clases
Teniendo en cuenta que xmáximo = 2,55 y el xmínimo = 0,72, tomamos la amplitud de cada intervalo h, usando la
ecuación:
h  2,55 - 0,72 = 0,261 ≈ 0,30

7
27
La distribución de frecuencias para el ejemplo se presenta: Distribución de frecuencias del contenido
de nicotina en 40 cigarrillos
Contenido Proporción Porcentaje

Marca de
de Nicotina N° cigarrillos de de
clase
(en mg) Cigarrillos Cigarrillos
[0,60-0,90) 0,75 2 0,05 5,00%
[0,90-1,20) 1,05 1 0,025 2,50%
[1,20-1,50) 1,35 4 0,1 10,00%
[1,50-1,80) 1,65 15 0,375 37,50%
[1,80-2,10) 1,95 11 0,275 27,50%
[2,10-2,40) 2,25 5 0,125 12,50%
[2,40-2,70) 2,55 2 0,05 5,00%
40 1 100,00%
28
HISTOGRAMA (Karl Pearson)
Un histograma es un conjunto de rectángulos cada uno de los cuales representa un intervalo de agrupación o
clase. La base de cada rectángulo coincide con el intervalo de clase, y la altura se determina de manera que su
área sea proporcional a la frecuencia respectiva (o frecuencia relativa o frecuencia relativa porcentual) de cada
clase.
La variable de interés se grafica sobre el eje horizontal, el eje vertical representa el número, proporción o
porcentaje de observaciones para cada intervalo de clase.
Histograma de frecuencia
29
Distribución asimétrica que es típica de los
Distribución simétrica que aparece en muchos procesos
datos económicos, y en general de
de fabricación
mediciones de renta, población, consumo de
electricidad, tamaño de empresas, etc
aparece al mezclar elementos de varias poblaciones 30

presenta una distribución truncada, al someter a piezas a
un control de calidad que tiene límite de especificaciones
AyB
es muy asimétrica y surge al estudiar tiempos entre

averías, entre llegadas, entre accidentes, etc
31
Construcción de Polígonos de Frecuencias: estos pueden ser polígonos el punto medio de cada clase
represente los datos de esa clase y después conectando la secuencia de sus respectivos porcentajes de
clase. Se debe tener presente que el polígono es una representación de la forma de una distribución
particular.
Como el área bajo la distribución porcentual (la totalidad de la curva) debe ser del 100%, es necesario
conectar los puntos medios primero y último con el eje horizontal, para abarcar el área total de la
distribución observada
32
Curva de frecuencias suavizadas: en una muestra suficientemente grande podría suavizarse el polígono
de frecuencia y se obtendría el siguiente gráfico.
33
DISTRIBUCIONES ACUMULADAS Y POLIGONOS ACUMULADOS
Una tabla de distribución porcentual acumulada se construye “añadiendo” un intervalo de clase extra al
final. Para el ejemplo de los contenidos de nicotina se calculan los porcentajes acumulados en la columna del
“menor que”, determinando el porcentaje de las observaciones que son inferiores a cada uno de los límites
inferiores
34
35
DIAGRAMA DE PARETO:
Pasos para su construcción:
1. Organizar los datos en tabla de Distribución de frecuencias.
2. Ordenar los datos por frecuencia absoluta, de manera descendente (de mayor a menor)
3. Calcular la Frecuencia porcentual, y la Frecuencia porcentual acumulada
4. Graficar con barras la frecuencia porcentual
5. Agregar una serie de datos adicional, para la frecuencia % acumulada, de tipo línea
6. Se puede observar que en las primeras 2 a 4 categorías tengo la mayoría entre el 70 al 80% de
las causas que más impactan en mi problema.
36
DIAGRAMA DE PARETO:
Causas Reclamos Frecuencia relativa % Fr% Acumulado

Calidad del Trabajo 49,60% 49,60%
Calidad Atención al
Cliente 17% 66,80%
Plazos 15,80% 82,60%
Precio 10,40% 93,00%
Producto 3,80% 96,80%
Otros 3,20% 100,00%
Frec.Relat % Frec.Relat % acum. 37

CONSTRUCCION DE UN HISTOGRAMA CON INTERVALOS DE CLASE DE DISTINTO ANCHO
Ejemplo: En un estudio de ruptura por torsión durante el tejido de tela, se probaron 100 muestras de hilo. Se
determinó el número de ciclos de tensión a la ruptura para cada muestra de hilo y se realizó con dichos datos un
histograma con clases de la misma amplitud. Se presenta también un diagrama de puntos de los 100 datos
obtenidos.
Gráfico de puntos del número de ciclos de tensión a la ruptura para 100 muestras de hilo
Es posible que los intervalos de clase de igual amplitud no sea una elección atinada si un conjunto de datos se
“extiende” a un lado u otro. Si se utiliza una gran cantidad de clases del mismo ancho, muchas tienen
frecuencia cero, tal como puede apreciarse en la Figura 13.
38
39
Distribución de frecuencias del N° de ciclos de tensión a la ruptura para 100 muestras de hilo
40
IMPORTANTE: el área total de los rectángulos en un histograma de densidad es igual a 1. 41
ESTADISTICA DESCRIPTIVA
PROPIEDADES DE LOS DATOS NUMERICOS Las tres propiedades principales que

describen un conjunto de datos numéricos son:
 Tendencia central
 Dispersión
 Forma
Sirven para extraer y resumir las principales características de los datos.

Si se calculan a partir de una muestra se las denomina estadísticos, si se calculan a partir de una
población se las denomina parámetros.
MEDIDAS DE TENDENCIA CENTRAL: Aritmética, Mediana, Moda y Rango Medio
1. MEDIA ARITMÉTICA
42
MEDIA ARITMÉTICA
Ejemplo 1 : Los siguientes datos corresponden a las temperaturas diarias (en grados centígrados)
registradas durante una semana del mes de julio en San Salvador de Jujuy : 3, 2, 1, 2, 1, 0, -1
En este caso la media aritmética resulta
 =( 3 + 2 + 1 + 2 + 1 + 0 - 1 ) / 7 = 8 / 7, luego   1,14.
Se concluye que la “temperatura promedio en esa semana fue de 1, 14°C aproximadamente”
Una representación de la distribución de frecuencias mediante un diagrama de puntos
La MEDIA ARITMETICA resulta muy afectada por valores extremos.
43
1.1. MEDIA ARITMETICA OBTENIDA A PARTIR DE UNA DISTRIBUCION DE FRECUENCIAS DE
DATOS NO AGRUPADOS
Se puede obtener también  a partir de la distribución de frecuencias de los valores posibles de la variable
x. Obviamente es para el caso que el número de valores posibles de la variable sea pequeño.
En este caso
 : media aritmética, n: número de valores distintos de la variable x,

f i: frecuencia (número de observaciones iguales a xi)
Ejemplo 4 : Se ha realizado un estudio del número de hijos de mujeres de un lugar de España. Para ello
ha tomado una muestra de 100 mujeres mayores de 15 años y se ha registrado el número de hijos de las
mismas. El resultado ha sido:
44
1.2 MEDIA ARITMETICA OBTENIDA A PARTIR DE UNA DISTRIBUCION DE FRECUENCIAS DE DATOS
AGRUPADOS
x : media aritmética,
n: número de observaciones en la muestra (tamaño de la muestra),
mi: marca de clase (centro del intervalo),
f i: frecuencia de la clase (número de observaciones clasificadas en la i-ésima clase,
k: número de clases
45
LA MEDIA
1
𝑛
𝑥1 + 𝑥 2 + 𝑥3 + 𝑥 4 + … … ..+ 𝑥 𝑛
𝑋=
𝑛
+ + + ………+
n=1
=1
1 1 1 1
𝑛 𝑛 𝑛 La media es el centro 𝑛
de gravedad de los
datos
+ + + ………+ 46
n=1
PROCEDIMIENTO PARA EL CALCULO DE DECILES, CUARTILES Y PERCENTILES: Definición: el 100k-
ésimo percentil pk es un valor tal, que al menos el 100k% de las observaciones están en ese valor o por
debajo de él, y al menos el 100(1-k)% están en ese valor o por encima de él.
: N O Inicio
T E i ó n)
TAN s ic
P O R i (p ente la
R o i = n*K
IM NDI a lm
F U s re
ON e
C i que diana no i es si
o n X me
c entero?
i es el siguiente
i = n*k + 0,5
entero mas grande
no i es si
entero?
Pk= cuéntese desde la observación más
Pk= es el promedio de las observaciones pequeña hasta hallar el i-ésimo valor.
ordenadas Pk = X i
Fin
47
LA MEDIANA
La mediana de una muestra se denota a veces por .
La mediana es el valor que se encuentra en el medio de los datos ORDENADOS DE MENOR A MAYOR
Para calcular la mediana:

1) Se ordenan los datos de menor a mayor
2) Se calcula la posición con la fórmula p=(n+1)/2 (n es la cantidad de datos)
3) Se ubica el numero de la posición p, ese es elvalor de la mediana.
Ej:
6 datos 6 datos
1112445555899 n= 13 datos (cantidad impar) p=(13+1)/2 = 7

P=7 =5
6 datos 6 datos
111244 555589 n= 12 datos (cantidad impar) p=(12+1)/2 = 6,5

P=6,5 = 4,5
48
LA MEDIANA
La mediana divide el lote ordenado en dos partes iguales. No es afectada por datos extremos
49
50
DIFERENCIA ENTRE MEDIA Y MEDIANA
1112445555899 n= 13 datos (cantidad impar) p=(13+1)/2 = 7
~
𝑿 = 4,54 𝑿=𝟓
1 1 1 2 4 4 5 5 5 5 8 9 9 10 n= 14 datos (cantidad par) p=(14+1)/2 = 7,5
~
𝑿 = 4,𝟗𝟑 𝑿=𝟓
1 1 1 2 4 4 5 5 5 5 8 9 9 1000 n= 14 datos (cantidad par) p=(14+1)/2 = 7,5
~
𝑿 =𝟓 𝑿 = 75 ,64
51
LA MEDIA REPRESENTA AL
CENTRO DE GRAVEDAD DE
LOS DATOS Y SE VE
AFECTADA POR VALORES
EXTREMOS
𝑿 𝑿
LA MEDIANA REPRESENTA A
LA MAYORIA DE LOS DATOS
52
LA MODA: La moda de un conjunto de datos es el valor que se presenta con mayor frecuencia en la muestra.
Pueden presentarse casos de distribuciones multimodales. Se suele tomar el valor más próximo a la media.
La siguiente muestra 5, 1, 6, 9, 2, 3 no tiene moda.
La muestra 2, 8, 9, 6, 2, 8, 6, 2, 8, 7, 3 presenta dos modas 2 y 8. Estos datos se describen como bimodales.
En el ejemplo del tiempo de vida de las moscas, el tiempo modal de vida es de 7 segundos (pues 7 segundos es el
dato que presenta la mayor frecuencia)
RANGO MEDIO: Es el promedio de las observaciones mayor y menor de un conjunto de datos.
A pesar de su sencillez, el rango medio se debe usar con cautela, ya que sólo involucra las observaciones mayor y
menor de un conjunto de datos, si hay observaciones extremas se distorsiona
53
MEDIDAS DE DISPERSIÓN
La dispersión es el grado de variación o diseminación de los datos.
Dos conjuntos de datos pueden diferir tanto en tendencia central como en dispersión; o como se muestra en los
siguientes ejemplos, dos conjuntos de datos pueden tener las mismas medidas de tendencia central pero diferir
mucho en términos de dispersión. Este último caso se ejemplifica en los siguientes conjuntos de datos.
Ejemplo 17: Los datos de la muestra A señalan el tiempo de funcionamiento (en días) hasta que se presenta la
primera falla de n = 6 radiotransmisores-receptores de marca A y los datos de la muestra B corresponden a n = 6
radiotransmisores-receptores de marca B
Los datos de la muestra B son mucho menos variables que los de la muestra A. Observemos que ambos
tienen la misma media.
Las medidas de dispersión que analizaremos en primera instancia son: el rango, la varianza, la desviación
estándar y el coeficiente de variación
54
MEDIDAS DE DISPERSIÓN
Una segunda propiedad importante que describe a un conjunto de datos es la dispersión. La
dispersión es el grado de variación o diseminación de los datos. Analizaremos: el rango, la
varianza, la desviación estándar y el coeficiente de variación
El rango es la diferencia entre las observaciones Máxima y mínima de un conjunto de datos. Mide la
dispersión total del conjunto de datos. No es recomendable cuando tenemos observaciones extremas :
RANGO = xMAXIMO - x MINIMO
55
VARIANZA:
Para una muestra que contiene n observaciones x1 , x 2, . . . , x n , la varianza muestral (representada

por S2 ), se define de la siguiente manera :
La Varianza Muestral es casi el promedio de los cuadrados de las diferencias entre cada una de las
observaciones de un conjunto de datos y la media.
DESVIACION ESTANDAR:
La desviación estándar muestral (cuya notación es el símbolo S) es simplemente la raíz cuadrada

positiva de la varianza muestral.
56
Qué indican la varianza y la desviación estándar?
La varianza y la desviación estándar miden la dispersión “promedio” en torno a la media; es decir, cómo
fluctúan las observaciones mayores por encima de la media y cómo se distribuyen las observaciones menores
por debajo de ella.
La varianza tiene ciertas propiedades matemáticas útiles. Sin embargo, al calcularla se obtienen unidades al
cuadrado ( segundos al cuadrado, pesos al cuadrado , centímetros al cuadrado, años al cuadrado, etc. ). Por
ello en la práctica la principal medida de dispersión que se utiliza es la desviación estándar, cuyo valor está
dado en las unidades originales de los datos: segundos, pesos, centímetros, años, etc.
57
58
COEFICIENTE DE VARIACIÓN
El coeficiente de variación es una medida relativa de
dispersión. Se expresa en porcentaje y no en términos de unidades de los datos manejados. Es independiente
de las unidades utilizadas.
El coeficiente de variación, representado con el símbolo CV, mide la dispersión de los datos con respecto a la
media. Se lo puede calcular mediante
Donde S = desviación estándar del conjunto de datos

 = media del conjunto de datos
Como medida relativa, el coeficiente de variación es útil sobre todo cuando se compara la variabilidad
de dos o más conjuntos de datos expresados en diferentes unidades de medición.
El CV es también muy útil cuando se comparan dos o más conjuntos de datos que se miden en las
mismas unidades, pero que difieren en tal medida que una comparación directa de las respectivas
desviaciones estándar no resulta muy útil.
59
60
FORMA
Una distribución es simétrica si una mitad es aproximadamente una imagen de espejo de la otra. En caso
contrario se dice que la distribución es asimétrica.
Ej: histograma que muestra la distribución de las alturas de 1.100 estudiantes universitarios.
61
SESGO
Se conoce como sesgo el grado de asimetría de una distribución, es decir, cuánto se aparta de la simetría.
Una distribución asimétrica se dice sesgada a la derecha si tiene una cola más larga a la derecha que a la
izquierda; es decir si la distribución está más extendida hacia los valores mayores.
Será sesgada a la izquierda si tiene una cola más larga a la izquierda que a la derecha; es decir si la
distribución está más extendida hacia los valores menores. Ejemplos:
62
63
MEDIDAS DE ASIMETRIA
1. INDICE DE ASIMETRÍA DE PEARSON
• Si la distribución es simétrica el Sesgo será 0.

• Si la distribución es sesgada a la derecha (asimétrica positiva), el sesgo será mayor que 0.
• Si la distribución es sesgada a la izquierda (asimétrica negativa), el sesgo será menor que 0
Para evitar el uso de la moda, podemos recurrir al siguiente índice
2. INDICE DE ASIMETRÍA DE FISHER
Si la distribución es simétrica As será 0 (curva B del gráfico).

Si la distribución es asimétrica positiva, As será mayor que 0 (curva A del gráfico).
Si la distribución es asimétrica negativa, As será menor que 0 (curva C del gráfico).Desventaja: Muy
influida por puntuaciones atípicas
64
65
CURTOSIS
La curtosis representa la elevación o achatamiento de una distribución, normalmente se toma en
relación a la distribución normal.
Una distribución que presenta una elevación (o apuntamiento) relativo alto, tal como la de la curva de la figura
(A), se llama leptocúrtica, mientras que la curva de la figura (C), que es más achatada, se llama
platicúrtica. La distribución normal, figura (B), que no es muy puntiaguda ni achatada, se llama mesocúrtica
Si la distribución es normal (mesocúrtica), el índice vale 0.

Si la distribución es leptocúrtica, el índice es superior a 0.
Si la distribución es platicúrtica, el índice es inferior a 0.
66
ENCUESTA
Trabaje con la base de datos resultante de la encuesta que contestaste. Los mismos se
publicarán en un archivo de Excel en el Aula Virtual.
Desarrolle las siguientes consignas:
• Identifique cada una de las variables. Indique su Tipo y escala de medición.
• Tablas de distribución de frecuencias adecuadas para cada
• Calcule las medidas descriptivas aplicables a cada tipo de variables Cuales sugiere
• Incorpore los gráficos adecuados para describir cada variable analizada según su tipo.
• Interprete y proporcione las conclusiones que obtenga de cada uno de los mismos.
• Elabore un informe que responda mínimamente las siguientes preguntas orientativas:
• Peso y altura promedio de los alumnos del curso. Desviación estándar en cada
caso, ¿que significan?, interpretar.
• ¿Cuál es el color de ojos más común de la clase?
• ¿Cual es la empresa de celulares más utilizada?
• ¿Cuales son las 3 redes sociales que representan el mayor % de usuarios (Pareto).?
• ¿Cual es el estado civil menos frecuente entre los alumnos?
68

Estadistica Descriptiva Completo

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica Descriptiva Completo

Cargado por

Copyright:

Formatos disponibles

ESTADISTICA DESCRIPTIVA

Cátedra: Probabilidad y Estadística

Ing. Héctor Iván Rodríguez

Ing. Gisella Mautino

Análisis Exploratorio de Datos

Variables Aleatorias Discretas y Contiínuas . Distribuciones de

Distribuciones Conjuntas. Covarianza y correlación

Medias y Varianzas de Comb Lineales de Var. Aleatorias

Muestreo y Distribuciones Muestrales

Regresión Lineal y Correlación

PROBABILIDADES Teoría matemática

Mediciones para cada unidad de la Mediciones sobre subconjuntos de

Cuidado: Definir cuidadosa y completamente la población antes de recolectar la muestra 5

Unidad Experimental Variable Medición

GRAFICAS DE BARRAS HORIZONTALES:

GRAFICAS DE BARRAS VERTICALES:

OJIVAS (POLIGONOS DE FRECUENCIAS ACUMULADAS)

Cuando el número de valores posibles de una variable DISCRETA sea grande o

Al construir una tabla de Distribución de Frecuencias, se debe prestar atención a lo siguiente:

 Obtener un intervalo de clase apropiado para cada clase.

2. Regla empírica: para determinar el número de intervalos de clase

K = número de intervalos de clase

Definimos cada clase o categoría mediante un intervalo de

RANGO Intervalo de Clase Límite de Intervalo

x i - h / 2 es el límite inferior de la clase y x i + h / 2 es el límite superior de la clase.

Como vemos, en cada intervalo de clase se incluye al límite inferior.

K = número de intervalos de clase

Dato Max + h/2

2) Rango = xmáximo - xmínimo Rango = 2,55 – 0,72 Rango = 1,83

3) Determinar la cantidad de intervalos de clase k ≈ 1 + 3,322 log 40 = 6,322 ,redondeamos k  7 clases

4) Dterminar la amplitud h de cada clase h=0,261

5) Determinar los Límites de Intervalos de Clase L1 = xmínimo + h; …..; Li = Li-1 + h;…

6) Determinar las Marcas de Clase

RANGO Intervalo de Clase Límite de Intervalo

Se desea obtener conclusiones sobre la distribución de los datos.

En primer lugar determinamos el número k de intervalos de clase. Aplicamos la fórmula de Sturges

k ≈ 1 + 3,322 log 40 = 6,322 ,redondeamos k  7 clases

h  2,55 - 0,72 = 0,261 ≈ 0,30

Contenido Proporción Porcentaje

aparece al mezclar elementos de varias poblaciones 30

es muy asimétrica y surge al estudiar tiempos entre

Causas Reclamos Frecuencia relativa % Fr% Acumulado

Frec.Relat % Frec.Relat % acum. 37

PROPIEDADES DE LOS DATOS NUMERICOS Las tres propiedades principales que

Sirven para extraer y resumir las principales características de los datos.

MEDIDAS DE TENDENCIA CENTRAL: Aritmética, Mediana, Moda y Rango Medio

La MEDIA ARITMETICA resulta muy afectada por valores extremos.

 : media aritmética, n: número de valores distintos de la variable x,

Para calcular la mediana:

1112445555899 n= 13 datos (cantidad impar) p=(13+1)/2 = 7

111244 555589 n= 12 datos (cantidad impar) p=(12+1)/2 = 6,5

1112445555899 n= 13 datos (cantidad impar) p=(13+1)/2 = 7

1 1 1 2 4 4 5 5 5 5 8 9 9 10 n= 14 datos (cantidad par) p=(14+1)/2 = 7,5

1 1 1 2 4 4 5 5 5 5 8 9 9 1000 n= 14 datos (cantidad par) p=(14+1)/2 = 7,5

RANGO MEDIO: Es el promedio de las observaciones mayor y menor de un conjunto de datos.

Para una muestra que contiene n observaciones x1 , x 2, . . . , x n , la varianza muestral (representada

La desviación estándar muestral (cuya notación es el símbolo S) es simplemente la raíz cuadrada

Donde S = desviación estándar del conjunto de datos

• Si la distribución es simétrica el Sesgo será 0.

2. INDICE DE ASIMETRÍA DE FISHER

Si la distribución es simétrica As será 0 (curva B del gráfico).

Si la distribución es normal (mesocúrtica), el índice vale 0.

También podría gustarte