Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Barry Bonds
2
Medidas de Resumen
Mediana
La mediana M es el punto medio de una distribución, el número tal que las observaciones son
más pequeñas y la otra mitad son más grandes. Para encontrar la mediana de una distribución:
1. Ordene todas las observaciones en orden de tamaño, desde el más pequeño hasta el más
grande.
2. Si el número de observaciones n es impar, la mediana M es la observación central en la lista
ordenada. Encuentre la ubicación de la mediana contando (n + 1) / 2 observaciones desde la
parte inferior de la lista.
3. Si el número de observaciones n es par, la mediana M es el promedio de las dos observaciones
del centro en la lista ordenada. La ubicación de la mediana es nuevamente (n + 1) / 2 desde el
final de la lista.
3
Medidas de Resumen
Ejercicio:
Hank Aaron
4
Medidas de Resumen
Solución:
Hank Aaron
¿Y Bonds?????
5
Medidas de Resumen
Solución:
6
Medidas de Resumen
Media:
La media muestral también se llama “media aritmética”, o, simplemente, “promedio”. Representa la suma de los números
en la muestra, dividido entre la cantidad total de números que hay.
Ejemplo: Una muestra aleatoria simple de cinco hombres se elige de entre una gran población de hombres y se mide su
estatura. Las cinco cifras de estatura (en pulgadas) son 65.51, 72.30, 68.31, 67.05 y 70.68. Encuentre la media muestral.
R=
7
Medidas de Resumen
Ejercicio:
Determine la media de los home-runs de Barry Bonds bateados en sus primeras 22 temporadas:
8
Medidas de Resumen
Solución:
9
Moda y Mitad de Intervalo
La moda muestral es el valor que tiene más frecuencia en una muestra. Si algunos valores tienen una frecuencia igual,
cada uno representa una moda.
La mitad de intervalo es la diferencia entre los valores más grandes y más pequeños en una muestra dividido entre dos . Es
una medida de la dispersión, pero rara vez se usa, porque depende solamente de los dos valores extremos y no
proporciona ninguna información acerca del resto de la muestra.
10
Moda y Mitad de Intervalo
Ejemplo:
Encuentre las modas y la mitad de intervalo para la muestra del ejemplo de los asfaltos:
Solución
Hay tres modas: 80, 179 y 232. Cada uno de estos valores aparece dos veces y ningún otro valor aparece más de una vez.
El rango es 470 -30 =440.
Desviación Estándar:
He aquí dos series de datos: 28, 29, 30, 31, 32 y 10, 20, 30, 40, 50. Ambas tienen la misma media de 30. Pero obviamente
difieren en una manera importante que no es captada por la media: la segunda serie es mucho más dispersa que la
primera. La desviación estándar es una cantidad que mide el grado de dispersión en una muestra.
La idea básica detrás de la desviación estándar es que cuando la dispersión es grande, los valores de la muestra tenderán a
alejarse de su media, pero cuando la dispersión es pequeña, los valores tenderán a acercarse a su media.
El primer paso en el cálculo de la desviación estándar es calcular las distancias (desviaciones) de cada valor de la muestra a
la media de la muestra. Las desviaciones son .
12
Medidas de Resumen
Desviación Estándar:
He aquí dos series de datos: 28, 29, 30, 31, 32 y 10, 20, 30, 40, 50. Ambas tienen la misma media de 30. Pero obviamente
difieren en una manera importante que no es captada por la media: la segunda serie es mucho más dispersa que la
primera. La desviación estándar es una cantidad que mide el grado de dispersión en una muestra.
La idea básica detrás de la desviación estándar es que cuando la dispersión es grande, los valores de la muestra tenderán a
alejarse de su media, pero cuando la dispersión es pequeña, los valores tenderán a acercarse a su media.
El primer paso en el cálculo de la desviación estándar es calcular las distancias (desviaciones) de cada valor de la muestra a
la media de la muestra. Las desviaciones son
Para hacer todas las desviaciones positivas se elevan al cuadrado, con lo que se obtienen las desviaciones al cuadrado
partir de las desviaciones al cuadrado se puede calcular una medida de la dispersión llamada la varianza muestral.
. 13
Medidas de Resumen
14
Medidas de Resumen
Mientras que la varianza muestral es una cantidad importante, tiene una seria desventaja como una medida de la
dispersión. Sus unidades no son las mismas que las unidades de los valores de la muestra; éstas tienen unidades al
cuadrado.
Ejemplo:
Encuentre la varianza muestral y la desviación estándar muestral para los datos de las estaturas de 5 hombres. Las cinco
cifras de estatura (en pulgadas) son 65.51, 72.30, 68.31, 67.05 y 70.68.
15
Ejercicio:
Determinar la varianza y la desviación estándar muestral de los home runs realizados por Barry Bonds.
16
Solución:
Determinar la varianza y la desviación estándar muestral de los home runs realizados por Barry Bonds.
17
Rango (Intervalo)
El rango es la diferencia entre los valores más grandes y más pequeños en una muestra. Es una medida de la dispersión,
pero rara vez se usa, porque depende solamente de los dos valores extremos y no proporciona ninguna información
acerca del resto de la muestra.
18
Moda y Rango
Ejemplo:
19
Análisis exploratorio de datos (AED)
El análisis exploratorio de datos es el proceso de utilizar herramientas estadísticas (como gráficas, medidas de tendencia
central y medidas de variación) con la finalidad de investigar conjuntos de datos para comprender sus características
importantes.
Valores extremos
Valor extremo o valor atípico: un valor que está muy alejado de la mayor parte de los demás valores.
En relación con los otros datos, un valor es extremo cuando está muy alejado del patrón general de la mayoría de los
datos. Cuando se explora un conjunto de datos, se deben considerar los valores extremos, ya que pueden revelar
información importante y afectar en gran medida el valor de la media y de la desviación estándar, así como
distorsionar gravemente un histograma.
20
1.- Un valor extremo puede tener un efecto importante sobre la media.
2.- Un valor extremo puede tener un efecto importante sobre la desviación estándar.
3.- Un valor extremo puede tener un efecto importante sobre la escala del histograma, de forma
que la verdadera naturaleza de la distribución se oculte por completo.
21
Medidas de Resumen
Quartiles:
La mediana divide la muestra a la mitad. Los cuartiles la dividen tanto como sea posible en cuartos.
Una muestra tiene tres de aquéllos. Existen diferentes formas de calcular cuartiles, pero todas dan
aproximadamente el mismo resultado.
22
Medidas de Resumen
Sea n el tamaño de la muestra. Ordene los valores de la muestra del más pequeño al más grande. Para
encontrar el primer cuartil, calcule el valor 0.25(n +1).
Si éste es un entero, entonces el valor de la muestra en esa posición es el primer cuartil. Si no, tome
entonces el promedio de los valores de la muestra de cualquier lado de este valor. El tercer cuartil se
calcula de la misma manera, excepto que se usa el valor 0.75(n+1). El segundo cuartil usa el valor 0.5(n +1).
23
Medidas de Resumen
Percentiles:
El p-ésimo percentil de una muestra, para un número p entre 0 y 100, divide a la muestra tanto como sea
posible.
Método:
Ordene los valores de la muestra del más pequeño al más grande y después calcule la cantidad (p/100)(n +1),
donde n es el tamaño de la muestra. Si esta cantidad es un entero, el valor de la muestra en esta posición es el
p-ésimo percentil. Por otro lado, promedie los dos valores de la muestra en cualquier lado.
Los percentiles con frecuencia se usan para interpretar puntajes de exámenes estandarizados.
Por ejemplo, si a una estudiante se le informa que su puntaje en un examen de ingreso a la universidad está en
el 64avo. percentil, esto significa que 64% de los estudiantes que presentaron el examen obtuvo puntajes
inferiores.
24
Medidas de Resumen
Ejemplo:
En el artículo “Evaluation of Low-Temperature Properties of HMA Mixtures” (P. Sebaaly, A. Lake y J. Epps, en
Journal of Transportation Engineering, 2002:578-583) se midieron los siguientes valores de la tensión de fractura
(en megapascales) para una muestra de 24 mezclas de asfalto mezclado caliente (HMA).
25
Medidas de Resumen
Solución:
Solución
El tamaño de la muestra es n =24.
Para encontrar el primer cuartil, calcule (0.25)(25)=6.25. Por tanto, el primer cuartil se encuentra determinando el
promedio del 6o. y 7o. puntos de datos, cuando la muestra se arregla en orden creciente. Se obtiene (105 +126)/2 =115.5.
Para encontrar el tercer cuartil, calcule (0.75)(25) =18.75. Promediamos los puntos de los datos 18avo. y 19avo., con lo
que se obtiene (242 +245)/2 =243.5.
26
Medidas de Resumen
Puntaje Z:
Número de desviaciones estándar que un valor X se encuentra por debajo o por encima de la media.
𝑥−µ
𝑍=
σ
27
Medidas de Resumen para datos agrupados o tabulados
Ejemplo:
28
Medidas de Resumen para datos agrupados o tabulados
29
Medidas de Resumen para datos agrupados o tabulados
3) Los intervalos, el conteo y las frecuencias absolutas de los 45 ingresos quincenales se dan en el cuadro 1 .6 :
30
Medidas de Resumen para datos agrupados o tabulados
31
Medidas de Resumen para datos agrupados o tabulados
32
Medidas de Resumen para datos agrupados o tabulados
Mediana:
33
Medidas de Resumen para datos agrupados o tabulados
Mediana:
34
Medidas de Resumen para datos agrupados o tabulados
Moda:
35
Medidas de Resumen para datos agrupados o tabulados
Moda:
36
Medidas de Resumen para datos agrupados o tabulados
Media:
37
Medidas de Resumen para datos agrupados o tabulados
Media:
38
Medidas de Resumen para datos agrupados o tabulados
Media:
39
Medidas de Resumen para datos agrupados o tabulados
Varianza:
40
Medidas de Resumen para datos agrupados o tabulados
Varianza:
41
Medidas de Resumen para datos agrupados o tabulados
Varianza:
42
Medidas de Resumen para datos agrupados o tabulados
Varianza:
43
Medidas de Resumen para datos agrupados o tabulados
Cuartiles y percentiles:
44
Medidas de Resumen para datos agrupados o tabulados
Cuartiles y percentiles:
45
Curvas de densidad:
46
Curvas de densidad:
Configuramos curvas para mostrar la proporción de observaciones en cualquier región por áreas debajo de la curva. Para
hacer eso, elegimos la escala para que el área total debajo de la curva sea exactamente 1.
Entonces tenemos una curva de densidad. Usamos un histograma para comprender la distribución real de la población de
la que se seleccionó la muestra. La curva de densidad pretende reflejar la forma idealizada de la distribución de la
población.
47
Curvas de densidad:
(a) El área de las barras sombreadas en el histograma representa observaciones mayores que 0.51. Estos constituyen
171 de las 1000 observaciones. (b) El área sombreada bajo la curva Normal representa la proporción de observaciones
mayores que 0.51. Esta área es 0.1667. (Esta figura fue creada usando el paquete de software Stata).
48
Curvas de densidad:
La mediana y la media para dos curvas de densidad: (a) una curva Normal simétrica y (b) una curva que está sesgada
hacia la derecha.
49
Curvas de densidad:
50
Curvas de densidad:
51
Curvas de densidad:
La mediana de una curva de densidad es el punto de igualdad de áreas, el punto que divide el área bajo la curva por la
mitad.
La media de una curva de densidad es el punto de equilibrio, o centro de gravedad, en el cual la curva se equilibraría si
estuviera hecha de material sólido
.
La mediana y la media son las mismas para una curva de densidad simétrica. Ambos se encuentran en el centro de la
curva. La media de una curva sesgada se separa de la mediana en la dirección de la cola larga.
52
Curtosis:
La curtosis es la propiedad de una distribución de frecuencias por la cual se compara la dispersión de los datos observados
cercanos al valor central con la dispersión de los datos cercanos a ambos extremos de la distribución. La curtosis se
mide en comparación a la curva simétrica normal o mesocúrtica.
Una curva simétrica con curtosis mayor que de la normal es denominada curva leptocúrtica (fig. 3.3c).
Una curva simétrica con curtosis menor que de la normal es denominada curva platicúrtica (fig. 3.3b).
53
Curtosis basadas en percentiles:
54
Ejercicio
55
Ejercicio
Las notas del examen parcial de matemática dieron la siguiente distribución de frecuencias
a) Completar la distribución de frecuencias,
b) Graficar la ojiva de porcentajes.
56
Ejercicio
57
UNIDAD IV
58
UNIDAD IV
Trataremos con muestras bivariantes cuantitativas, es decir con muestras donde en cada unidad estadística se observan
dos características cuantitativas medibles X e Y; por ejemplo, ingresos y gastos mensuales.
El objetivo es estudiar la asociación entre dos variables conocida también como asociación simple.
La primera forma del estudio de la asociación entre las variables X e Y es la regresión, que consiste en determinar una
relación funcional (recta de regresión) entre ellas, con el fin de que se pueda predecir el valor de una variable en base a
la otra.
La variable que se va predecir se denomina variable dependiente y la variable que es la base de la predicción se
denomina variable independiente.
59
UNIDAD IV
La segunda forma del estudio de la asociación entre las variables X e Y, es denominada correlación, que consiste en
determinar la variación conjunta de las dos variables, su grado de relación, y su sentido (positivo o negativo).
La medida del grado de relación se denomina coeficiente o índice de correlación. El cuadrado del índice de correlación
se denomina coeficiente de determinación.
60
UNIDAD IV
61
UNIDAD IV
Covarianza:
La covarianza es una estadística que mide el grado de dispersión o variabilidad conjunta de dos variables X e Y con
respecto a sus medias respectivas (𝑥,ҧ 𝑦ത ).
Definición. La covarianza de n valores (x1, y1 ) , (x2, y2 ), …., (xn, yn ) de una variable bidimensional ( X , Y ) es el
número Cov(X, Y) o Sxy que se define igual a la media aritmética de los productos de las desviaciones de los datos
con respecto a sus correspondientes medias (𝑥,ҧ 𝑦ത ). Esto es,
σ𝒏𝒊=𝟏(𝒙𝒊 − ഥ
𝒙)(𝒚𝒊 − ഥ
𝒚)
𝑺𝑿𝒀 =
𝒏
62
UNIDAD IV
Covarianza:
Luego:
σ𝑛𝑖=1 𝑥𝑖 𝑦𝑖
𝑆𝑋𝑌 = − 𝑥𝑦
𝑛
63
UNIDAD IV
Coeficiente o índice de correlación
El coeficiente de correlación lineal de Pearson de n pares de valores (x1, y1 ) , (x2, y2 ), …., (xn, yn ) de una variable
bidimensional (X,Y ). es el número abstracto r que se calcula por
𝑺𝑿𝒀
𝒓=
𝑺𝒙 𝑺𝒀
donde:
𝑆𝑋𝑌 es la covarianza de X e Y
𝑆𝑋 es la desviación estándar de X
𝑆𝑌 es la desviación estándar de Y
Dados n pares de valores (x1, y1 ) , (x2, y2 ), …., (xn, yn ) de una variable bidimensional ( X , Y ) . La regresión lineal
simple de Y con respecto a X , consiste en determinar la ecuación de la recta:
Y=a+bX
que mejor se ajuste a los valores de la muestra, con el fin de poder predecir o estimar Y (variable dependiente) a
partir de X (variable independiente).
El proceso de predecir o estimar Y a partir de la variable X , es la regresión.
Hallar la función lineal Y = a + b X , consiste en determinar los valores de a y b a partir de los datos de la muestra.
Usaremos la notación 𝑦ො𝑖 para representar un valor de Y calculado de la ecuación Y = a + b X cuando X es igual a x¡ .
Esto es, 𝑦ො𝑖 = a + bxi
Al valor 𝑦ො𝑖 se denomina valor estimado o predecido o ajustado de Y cuando X = x¡.
65
UNIDAD IV
66
UNIDAD IV
Regresión lineal simple
d¡ = y¡ - 𝑦ො𝑖
Un método para determinar la recta que mejor se ajuste a los n datos de la muestra (𝑥𝑖 , 𝑦ො𝑖 ) es el método de
mínimos cuadrados.
67
UNIDAD IV
Recta de regresión de mínimos cuadrados
La recta de regresión de mínimos cuadrados de Y en X es aquella que hace mínima la suma de los cuadrados de
errores (SCE) cuya expresión es:
Luego, determinar una recta de regresión de mínimos cuadrados consiste en hallar los valores de a y b de manera
que hagan mínima, la suma:
68
UNIDAD IV
Recta de regresión de mínimos cuadrados
Estas ecuaciones se obtienen de igualar a cero las derivadas de SCE con respecto a a y con respecto a b
respectivamente consideradas como variables, ya que ( xi, yi) son datos observados.
69
UNIDAD IV
Recta de regresión de mínimos cuadrados
70
UNIDAD IV
Recta de regresión de mínimos cuadrados
Si b > 0 , entonces, la tendencia lineal es creciente, es decir, a mayores valores de X corresponden mayores valores
de Y. También, a menores valores de X corresponden menores valores de Y.
Si b < 0 , entonces, la tendencia lineal es decreciente, es decir, a mayores valores de X corresponden menores
valores de Y. También, a menores valores de X corresponden mayores valores de Y.
Si b = 0 , entonces, Y = a . Luego, Y permanece estacionario para cualquier valor de X. En este caso se dice que, no
hay regresión.
71
UNIDAD IV
Ejemplo:
En un estudio de la relación entre la publicidad por radio y las ventas de un producto, durante 10 semanas se han
recopilado los tiempos de duración en minutos de la publicidad por semana (X), y el número de artículos vendidos
(Y), resultando:
72
UNIDAD IV
Ejemplo:
73
UNIDAD IV
Ejemplo:
74
UNIDAD IV
Ejemplo:
75
UNIDAD IV
Ejemplo:
76
UNIDAD IV
Ejemplo:
77
UNIDAD IV
Coeficiente de determinación:
78
UNIDAD IV
Coeficiente de determinación:
79
UNIDAD IV
Coeficiente de determinación:
80
UNIDAD IV
Nociones de regresión no lineal:
81
UNIDAD IV
Nociones de regresión no lineal:
82
UNIDAD IV
Nociones de regresión no lineal:
83
UNIDAD IV
Nociones de regresión no lineal:
84