Está en la página 1de 84

Medidas de Resumen

Barry Bonds

2
Medidas de Resumen

Mediana
La mediana M es el punto medio de una distribución, el número tal que las observaciones son
más pequeñas y la otra mitad son más grandes. Para encontrar la mediana de una distribución:
1. Ordene todas las observaciones en orden de tamaño, desde el más pequeño hasta el más
grande.
2. Si el número de observaciones n es impar, la mediana M es la observación central en la lista
ordenada. Encuentre la ubicación de la mediana contando (n + 1) / 2 observaciones desde la
parte inferior de la lista.
3. Si el número de observaciones n es par, la mediana M es el promedio de las dos observaciones
del centro en la lista ordenada. La ubicación de la mediana es nuevamente (n + 1) / 2 desde el
final de la lista.

3
Medidas de Resumen

Ejercicio:

Hank Aaron

4
Medidas de Resumen

Solución:

Hank Aaron

¿Y Bonds?????

5
Medidas de Resumen

Solución:

6
Medidas de Resumen

Media:

La media muestral también se llama “media aritmética”, o, simplemente, “promedio”. Representa la suma de los números
en la muestra, dividido entre la cantidad total de números que hay.

Ejemplo: Una muestra aleatoria simple de cinco hombres se elige de entre una gran población de hombres y se mide su
estatura. Las cinco cifras de estatura (en pulgadas) son 65.51, 72.30, 68.31, 67.05 y 70.68. Encuentre la media muestral.

R=
7
Medidas de Resumen

Ejercicio:

Determine la media de los home-runs de Barry Bonds bateados en sus primeras 22 temporadas:

8
Medidas de Resumen

Solución:

9
Moda y Mitad de Intervalo

La moda y la Mitad de Intervalo son resúmenes estadísticos de uso limitado.

La moda muestral es el valor que tiene más frecuencia en una muestra. Si algunos valores tienen una frecuencia igual,
cada uno representa una moda.

La mitad de intervalo es la diferencia entre los valores más grandes y más pequeños en una muestra dividido entre dos . Es
una medida de la dispersión, pero rara vez se usa, porque depende solamente de los dos valores extremos y no
proporciona ninguna información acerca del resto de la muestra.

10
Moda y Mitad de Intervalo

Ejemplo:

Encuentre las modas y la mitad de intervalo para la muestra del ejemplo de los asfaltos:

Solución
Hay tres modas: 80, 179 y 232. Cada uno de estos valores aparece dos veces y ningún otro valor aparece más de una vez.
El rango es 470 -30 =440.

Nota: Es preferible llamar Intervalo en lugar de Rango.


11
Medidas de Resumen

Desviación Estándar:

He aquí dos series de datos: 28, 29, 30, 31, 32 y 10, 20, 30, 40, 50. Ambas tienen la misma media de 30. Pero obviamente
difieren en una manera importante que no es captada por la media: la segunda serie es mucho más dispersa que la
primera. La desviación estándar es una cantidad que mide el grado de dispersión en una muestra.

La idea básica detrás de la desviación estándar es que cuando la dispersión es grande, los valores de la muestra tenderán a
alejarse de su media, pero cuando la dispersión es pequeña, los valores tenderán a acercarse a su media.

El primer paso en el cálculo de la desviación estándar es calcular las distancias (desviaciones) de cada valor de la muestra a
la media de la muestra. Las desviaciones son .

12
Medidas de Resumen

Desviación Estándar:

He aquí dos series de datos: 28, 29, 30, 31, 32 y 10, 20, 30, 40, 50. Ambas tienen la misma media de 30. Pero obviamente
difieren en una manera importante que no es captada por la media: la segunda serie es mucho más dispersa que la
primera. La desviación estándar es una cantidad que mide el grado de dispersión en una muestra.

La idea básica detrás de la desviación estándar es que cuando la dispersión es grande, los valores de la muestra tenderán a
alejarse de su media, pero cuando la dispersión es pequeña, los valores tenderán a acercarse a su media.

El primer paso en el cálculo de la desviación estándar es calcular las distancias (desviaciones) de cada valor de la muestra a
la media de la muestra. Las desviaciones son

Para hacer todas las desviaciones positivas se elevan al cuadrado, con lo que se obtienen las desviaciones al cuadrado
partir de las desviaciones al cuadrado se puede calcular una medida de la dispersión llamada la varianza muestral.
. 13
Medidas de Resumen

14
Medidas de Resumen

Mientras que la varianza muestral es una cantidad importante, tiene una seria desventaja como una medida de la
dispersión. Sus unidades no son las mismas que las unidades de los valores de la muestra; éstas tienen unidades al
cuadrado.

Ejemplo:

Encuentre la varianza muestral y la desviación estándar muestral para los datos de las estaturas de 5 hombres. Las cinco
cifras de estatura (en pulgadas) son 65.51, 72.30, 68.31, 67.05 y 70.68.

15
Ejercicio:

Determinar la varianza y la desviación estándar muestral de los home runs realizados por Barry Bonds.

16
Solución:

Determinar la varianza y la desviación estándar muestral de los home runs realizados por Barry Bonds.

17
Rango (Intervalo)

El rango es la diferencia entre los valores más grandes y más pequeños en una muestra. Es una medida de la dispersión,
pero rara vez se usa, porque depende solamente de los dos valores extremos y no proporciona ninguna información
acerca del resto de la muestra.

18
Moda y Rango

Ejemplo:

Encuentre el rango para la muestra del ejemplo de los asfaltos:

El rango es 470 -30 =440.

Nota: Es preferible llamar Intervalo en lugar de Rango.

19
Análisis exploratorio de datos (AED)

El análisis exploratorio de datos es el proceso de utilizar herramientas estadísticas (como gráficas, medidas de tendencia
central y medidas de variación) con la finalidad de investigar conjuntos de datos para comprender sus características
importantes.

Valores extremos
Valor extremo o valor atípico: un valor que está muy alejado de la mayor parte de los demás valores.

En relación con los otros datos, un valor es extremo cuando está muy alejado del patrón general de la mayoría de los
datos. Cuando se explora un conjunto de datos, se deben considerar los valores extremos, ya que pueden revelar
información importante y afectar en gran medida el valor de la media y de la desviación estándar, así como
distorsionar gravemente un histograma.

20
1.- Un valor extremo puede tener un efecto importante sobre la media.

2.- Un valor extremo puede tener un efecto importante sobre la desviación estándar.

3.- Un valor extremo puede tener un efecto importante sobre la escala del histograma, de forma
que la verdadera naturaleza de la distribución se oculte por completo.

21
Medidas de Resumen

Quartiles:

La mediana divide la muestra a la mitad. Los cuartiles la dividen tanto como sea posible en cuartos.
Una muestra tiene tres de aquéllos. Existen diferentes formas de calcular cuartiles, pero todas dan
aproximadamente el mismo resultado.

1. Ordene las observaciones en orden creciente y ubique la mediana M en la lista ordenada de


observaciones.
2. El primer cuartil Q1 es la mediana de las observaciones cuya posición en la lista ordenada está a la
izquierda de la ubicación de la mediana global. La mediana general no está incluida en las
observaciones consideradas a la izquierda de la mediana global.
3. El tercer cuartil Q3 es la mediana de las observaciones cuya posición en la lista ordenada está a la
derecha de la ubicación de la mediana global. La mediana global no está incluida en las observaciones
consideradas a la derecha de la mediana global.

22
Medidas de Resumen

Cuartiles y Rango Inter cuartil:

Sea n el tamaño de la muestra. Ordene los valores de la muestra del más pequeño al más grande. Para
encontrar el primer cuartil, calcule el valor 0.25(n +1).
Si éste es un entero, entonces el valor de la muestra en esa posición es el primer cuartil. Si no, tome
entonces el promedio de los valores de la muestra de cualquier lado de este valor. El tercer cuartil se
calcula de la misma manera, excepto que se usa el valor 0.75(n+1). El segundo cuartil usa el valor 0.5(n +1).

23
Medidas de Resumen

Percentiles:

El p-ésimo percentil de una muestra, para un número p entre 0 y 100, divide a la muestra tanto como sea
posible.

Método:

Ordene los valores de la muestra del más pequeño al más grande y después calcule la cantidad (p/100)(n +1),
donde n es el tamaño de la muestra. Si esta cantidad es un entero, el valor de la muestra en esta posición es el
p-ésimo percentil. Por otro lado, promedie los dos valores de la muestra en cualquier lado.

Los percentiles con frecuencia se usan para interpretar puntajes de exámenes estandarizados.
Por ejemplo, si a una estudiante se le informa que su puntaje en un examen de ingreso a la universidad está en
el 64avo. percentil, esto significa que 64% de los estudiantes que presentaron el examen obtuvo puntajes
inferiores.

24
Medidas de Resumen

Ejemplo:

En el artículo “Evaluation of Low-Temperature Properties of HMA Mixtures” (P. Sebaaly, A. Lake y J. Epps, en
Journal of Transportation Engineering, 2002:578-583) se midieron los siguientes valores de la tensión de fractura
(en megapascales) para una muestra de 24 mezclas de asfalto mezclado caliente (HMA).

Encuentre el primer y tercer cuartil de los datos que se refieren al asfalto.


Encuentre el 65avo. percentil de los datos del caso de asfalto.

25
Medidas de Resumen

Solución:

Solución
El tamaño de la muestra es n =24.
Para encontrar el primer cuartil, calcule (0.25)(25)=6.25. Por tanto, el primer cuartil se encuentra determinando el
promedio del 6o. y 7o. puntos de datos, cuando la muestra se arregla en orden creciente. Se obtiene (105 +126)/2 =115.5.
Para encontrar el tercer cuartil, calcule (0.75)(25) =18.75. Promediamos los puntos de los datos 18avo. y 19avo., con lo
que se obtiene (242 +245)/2 =243.5.

El tamaño de la muestra es n=24.


Para encontrar el 65avo. percentil, calcule (0.65)(25)=16.25.
Por tanto, el 65avo. percentil se encuentra al determinar el promedio del 16avo. y 17avo. Puntos de datos, cuando la
muestra se arregla en orden creciente. Se obtiene (236 +240)/2 =238.

26
Medidas de Resumen

Puntaje Z:

Número de desviaciones estándar que un valor X se encuentra por debajo o por encima de la media.

Para una muestra:


𝑥 − 𝑥ҧ
𝑍=
𝑠
Para una población:

𝑥−µ
𝑍=
σ

27
Medidas de Resumen para datos agrupados o tabulados

Ejemplo:

Los ingresos quincenales en dólares (variable X) de 45 personas son:

Construir una distribución de frecuencias de 8 intervalos.

28
Medidas de Resumen para datos agrupados o tabulados

1) De los datos, se encuentra Xmax= 89 y X min = 26. El R = 89 — 26 = 63


2) La amplitud del intervalo se elige a partir del valor

Como los datos son enteros, elegimos A = 8 .

29
Medidas de Resumen para datos agrupados o tabulados

3) Los intervalos, el conteo y las frecuencias absolutas de los 45 ingresos quincenales se dan en el cuadro 1 .6 :

Un valor aproximado del número de


intervalos, k, nos proporciona la regla
de Sturges, donde,
k = 1 + 3.3log(n), n > 10 ,

Alternativamente se puede utilizar


k= 𝑛, donde 25 < n < 400 .

30
Medidas de Resumen para datos agrupados o tabulados

31
Medidas de Resumen para datos agrupados o tabulados

32
Medidas de Resumen para datos agrupados o tabulados

Mediana:

33
Medidas de Resumen para datos agrupados o tabulados

Mediana:

34
Medidas de Resumen para datos agrupados o tabulados

Moda:

35
Medidas de Resumen para datos agrupados o tabulados

Moda:

36
Medidas de Resumen para datos agrupados o tabulados

Media:

37
Medidas de Resumen para datos agrupados o tabulados

Media:

38
Medidas de Resumen para datos agrupados o tabulados

Media:

39
Medidas de Resumen para datos agrupados o tabulados

Varianza:

40
Medidas de Resumen para datos agrupados o tabulados

Varianza:

41
Medidas de Resumen para datos agrupados o tabulados

Varianza:

42
Medidas de Resumen para datos agrupados o tabulados

Varianza:

43
Medidas de Resumen para datos agrupados o tabulados

Cuartiles y percentiles:

44
Medidas de Resumen para datos agrupados o tabulados

Cuartiles y percentiles:

45
Curvas de densidad:

46
Curvas de densidad:

Configuramos curvas para mostrar la proporción de observaciones en cualquier región por áreas debajo de la curva. Para
hacer eso, elegimos la escala para que el área total debajo de la curva sea exactamente 1.

Entonces tenemos una curva de densidad. Usamos un histograma para comprender la distribución real de la población de
la que se seleccionó la muestra. La curva de densidad pretende reflejar la forma idealizada de la distribución de la
población.

47
Curvas de densidad:

(a) El área de las barras sombreadas en el histograma representa observaciones mayores que 0.51. Estos constituyen
171 de las 1000 observaciones. (b) El área sombreada bajo la curva Normal representa la proporción de observaciones
mayores que 0.51. Esta área es 0.1667. (Esta figura fue creada usando el paquete de software Stata).
48
Curvas de densidad:

La mediana y la media para dos curvas de densidad: (a) una curva Normal simétrica y (b) una curva que está sesgada
hacia la derecha.

49
Curvas de densidad:

50
Curvas de densidad:

51
Curvas de densidad:

La mediana de una curva de densidad es el punto de igualdad de áreas, el punto que divide el área bajo la curva por la
mitad.

La media de una curva de densidad es el punto de equilibrio, o centro de gravedad, en el cual la curva se equilibraría si
estuviera hecha de material sólido
.
La mediana y la media son las mismas para una curva de densidad simétrica. Ambos se encuentran en el centro de la
curva. La media de una curva sesgada se separa de la mediana en la dirección de la cola larga.

52
Curtosis:

La curtosis es la propiedad de una distribución de frecuencias por la cual se compara la dispersión de los datos observados
cercanos al valor central con la dispersión de los datos cercanos a ambos extremos de la distribución. La curtosis se
mide en comparación a la curva simétrica normal o mesocúrtica.

Una curva simétrica con curtosis mayor que de la normal es denominada curva leptocúrtica (fig. 3.3c).
Una curva simétrica con curtosis menor que de la normal es denominada curva platicúrtica (fig. 3.3b).

53
Curtosis basadas en percentiles:

Interpretación . Si la distribución es normal K tiende a 0. Si K tiende a 0.5, es


leptocúrtica, y si K tiende a -0 .5 , es platicúrtica.

54
Ejercicio

Complete la siguiente tabla de frecuencias y realice lo que se le indica


-Construya una ojiva empleando las fronteras de clase: 0.00, 0.495, 0.995… etc. y las frecuencias
relativas
-Construya el polígono de frecuencia (emplee las marcas de clase y las frecuencias absolutas)
Precipitación diaria Marca de Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia
(pulgadas) clase Absoluta Relativa porcentual Acumulada Acumulada
mi Fi hi (%) Absoluta Relativa
Pi Fi Hi

0.00-0.49 0.245 88.6


1
1.00- 0
1.745
0 34
-2.99 62
Total N/A 35 N/A

55
Ejercicio

Las notas del examen parcial de matemática dieron la siguiente distribución de frecuencias
a) Completar la distribución de frecuencias,
b) Graficar la ojiva de porcentajes.

56
Ejercicio

57
UNIDAD IV

Problemas de comparación (sub poblaciones a comparar, variable respuesta cualitativa,


variable respuesta cuantitativa discreta, variable respuesta cuantitativa continua).

58
UNIDAD IV

Regresión lineal simple

Trataremos con muestras bivariantes cuantitativas, es decir con muestras donde en cada unidad estadística se observan
dos características cuantitativas medibles X e Y; por ejemplo, ingresos y gastos mensuales.

El objetivo es estudiar la asociación entre dos variables conocida también como asociación simple.

La primera forma del estudio de la asociación entre las variables X e Y es la regresión, que consiste en determinar una
relación funcional (recta de regresión) entre ellas, con el fin de que se pueda predecir el valor de una variable en base a
la otra.

La variable que se va predecir se denomina variable dependiente y la variable que es la base de la predicción se
denomina variable independiente.

59
UNIDAD IV

Regresión lineal simple

La segunda forma del estudio de la asociación entre las variables X e Y, es denominada correlación, que consiste en
determinar la variación conjunta de las dos variables, su grado de relación, y su sentido (positivo o negativo).

La medida del grado de relación se denomina coeficiente o índice de correlación. El cuadrado del índice de correlación
se denomina coeficiente de determinación.

60
UNIDAD IV

Diagrama de dispersión: Definición. Se denomina diagrama de dispersión o nube de puntos, a la gráfica


de los valores (xi , yi ,) de las variables X e Y en el sistema cartesiano. (Y = a + bX)

61
UNIDAD IV
Covarianza:

La covarianza es una estadística que mide el grado de dispersión o variabilidad conjunta de dos variables X e Y con
respecto a sus medias respectivas (𝑥,ҧ 𝑦ത ).

Definición. La covarianza de n valores (x1, y1 ) , (x2, y2 ), …., (xn, yn ) de una variable bidimensional ( X , Y ) es el
número Cov(X, Y) o Sxy que se define igual a la media aritmética de los productos de las desviaciones de los datos
con respecto a sus correspondientes medias (𝑥,ҧ 𝑦ത ). Esto es,

σ𝒏𝒊=𝟏(𝒙𝒊 − ഥ
𝒙)(𝒚𝒊 − ഥ
𝒚)
𝑺𝑿𝒀 =
𝒏

En el númerador de Sxy se verifica la relación:

σ𝑛𝑖=1(𝒙𝒊 −ഥ 𝒚)=σ𝑛𝑖=1 𝒙𝒊 𝒚𝒊 − 𝒏𝒙𝒚


𝒙)(𝒚𝒊 − ഥ

La covarianza a diferencia de la varianza, puede ser negativa.

62
UNIDAD IV
Covarianza:

Luego:

σ𝑛𝑖=1 𝑥𝑖 𝑦𝑖
𝑆𝑋𝑌 = − 𝑥𝑦
𝑛

La covarianza a diferencia de la varianza, puede ser negativa.

63
UNIDAD IV
Coeficiente o índice de correlación

El coeficiente de correlación lineal de Pearson de n pares de valores (x1, y1 ) , (x2, y2 ), …., (xn, yn ) de una variable
bidimensional (X,Y ). es el número abstracto r que se calcula por

𝑺𝑿𝒀
𝒓=
𝑺𝒙 𝑺𝒀

donde:
𝑆𝑋𝑌 es la covarianza de X e Y
𝑆𝑋 es la desviación estándar de X
𝑆𝑌 es la desviación estándar de Y

el coeficiente de correlación r es un número comprendido entre - 1 y + 1 , esto es:


—1 < r < 1 .
Interpretación:
Si r = 1, se dice que hay una correlación perfecta positiva.
Si r = - 1, se dice que hay una correlación perfecta negativa.
Si r = 0 , se dice que no hay correlación entre las dos variables
64
UNIDAD IV
Regresión lineal simple

Dados n pares de valores (x1, y1 ) , (x2, y2 ), …., (xn, yn ) de una variable bidimensional ( X , Y ) . La regresión lineal
simple de Y con respecto a X , consiste en determinar la ecuación de la recta:

Y=a+bX

que mejor se ajuste a los valores de la muestra, con el fin de poder predecir o estimar Y (variable dependiente) a
partir de X (variable independiente).
El proceso de predecir o estimar Y a partir de la variable X , es la regresión.
Hallar la función lineal Y = a + b X , consiste en determinar los valores de a y b a partir de los datos de la muestra.
Usaremos la notación 𝑦ො𝑖 para representar un valor de Y calculado de la ecuación Y = a + b X cuando X es igual a x¡ .
Esto es, 𝑦ො𝑖 = a + bxi
Al valor 𝑦ො𝑖 se denomina valor estimado o predecido o ajustado de Y cuando X = x¡.

65
UNIDAD IV

66
UNIDAD IV
Regresión lineal simple

Se denomina error o residuo a cada diferencia,

d¡ = y¡ - 𝑦ො𝑖

del valor observado y¡ y el valor pronosticado 𝑦ො𝑖

Un método para determinar la recta que mejor se ajuste a los n datos de la muestra (𝑥𝑖 , 𝑦ො𝑖 ) es el método de
mínimos cuadrados.

67
UNIDAD IV
Recta de regresión de mínimos cuadrados

La recta de regresión de mínimos cuadrados de Y en X es aquella que hace mínima la suma de los cuadrados de
errores (SCE) cuya expresión es:

Luego, determinar una recta de regresión de mínimos cuadrados consiste en hallar los valores de a y b de manera
que hagan mínima, la suma:

68
UNIDAD IV
Recta de regresión de mínimos cuadrados

Este requisito se cumple, de acuerdo con el teorema de Gass-Markow, si a y b se determinan resolviendo el


siguiente sistema de ecuaciones normales:

Estas ecuaciones se obtienen de igualar a cero las derivadas de SCE con respecto a a y con respecto a b
respectivamente consideradas como variables, ya que ( xi, yi) son datos observados.

69
UNIDAD IV
Recta de regresión de mínimos cuadrados

Resolviendo el sistema de ecuaciones normales para b, se obtiene:

y dividiendo por n la primera ecuación normal, se tiene: el valor:

70
UNIDAD IV
Recta de regresión de mínimos cuadrados

Interpretación del coeficiente de regresión b


El coeficiente b es la pendiente o el coeficiente de la regresión lineal. La constante a es la ordenada en el origen.

Si b > 0 , entonces, la tendencia lineal es creciente, es decir, a mayores valores de X corresponden mayores valores
de Y. También, a menores valores de X corresponden menores valores de Y.

Si b < 0 , entonces, la tendencia lineal es decreciente, es decir, a mayores valores de X corresponden menores
valores de Y. También, a menores valores de X corresponden mayores valores de Y.

Si b = 0 , entonces, Y = a . Luego, Y permanece estacionario para cualquier valor de X. En este caso se dice que, no
hay regresión.

71
UNIDAD IV
Ejemplo:

En un estudio de la relación entre la publicidad por radio y las ventas de un producto, durante 10 semanas se han
recopilado los tiempos de duración en minutos de la publicidad por semana (X), y el número de artículos vendidos
(Y), resultando:

72
UNIDAD IV
Ejemplo:

a) Trazar el diagrama de dispersión, e indicar la tendencia.


b) Calcular la recta de regresión de mínimos cuadrados con el fin de predecir las
ventas.
c) Estimar la venta si en una semana se hacen 100 minutos de propaganda.
d) Calcular el coeficiente de correlación.
e) Si en la novena semana se incrementara la publicidad en 5 minutos, ¿en cuanto se estima se incrementen las
ventas?.

73
UNIDAD IV
Ejemplo:

74
UNIDAD IV
Ejemplo:

75
UNIDAD IV
Ejemplo:

76
UNIDAD IV
Ejemplo:

77
UNIDAD IV
Coeficiente de determinación:

78
UNIDAD IV
Coeficiente de determinación:

79
UNIDAD IV
Coeficiente de determinación:

80
UNIDAD IV
Nociones de regresión no lineal:

81
UNIDAD IV
Nociones de regresión no lineal:

82
UNIDAD IV
Nociones de regresión no lineal:

83
UNIDAD IV
Nociones de regresión no lineal:

84

También podría gustarte