7 Problemas de Comparación

Medidas de Resumen
Barry Bonds
2
Medidas de Resumen
Mediana
La mediana M es el punto medio de una distribución, el número tal que las observaciones son
más pequeñas y la otra mitad son más grandes. Para encontrar la mediana de una distribución:
1. Ordene todas las observaciones en orden de tamaño, desde el más pequeño hasta el más
grande.
2. Si el número de observaciones n es impar, la mediana M es la observación central en la lista
ordenada. Encuentre la ubicación de la mediana contando (n + 1) / 2 observaciones desde la
parte inferior de la lista.
3. Si el número de observaciones n es par, la mediana M es el promedio de las dos observaciones
del centro en la lista ordenada. La ubicación de la mediana es nuevamente (n + 1) / 2 desde el
final de la lista.
3
Medidas de Resumen
Ejercicio:
Hank Aaron
4
Medidas de Resumen
Solución:
Hank Aaron
¿Y Bonds?????
5
Medidas de Resumen
Solución:
6
Medidas de Resumen
Media:
La media muestral también se llama “media aritmética”, o, simplemente, “promedio”. Representa la suma de los números
en la muestra, dividido entre la cantidad total de números que hay.
Ejemplo: Una muestra aleatoria simple de cinco hombres se elige de entre una gran población de hombres y se mide su
estatura. Las cinco cifras de estatura (en pulgadas) son 65.51, 72.30, 68.31, 67.05 y 70.68. Encuentre la media muestral.
R=
7
Medidas de Resumen
Ejercicio:
Determine la media de los home-runs de Barry Bonds bateados en sus primeras 22 temporadas:
8
Medidas de Resumen
Solución:
9
Moda y Mitad de Intervalo
La moda y la Mitad de Intervalo son resúmenes estadísticos de uso limitado.
La moda muestral es el valor que tiene más frecuencia en una muestra. Si algunos valores tienen una frecuencia igual,
cada uno representa una moda.
La mitad de intervalo es la diferencia entre los valores más grandes y más pequeños en una muestra dividido entre dos . Es
una medida de la dispersión, pero rara vez se usa, porque depende solamente de los dos valores extremos y no
proporciona ninguna información acerca del resto de la muestra.
10
Moda y Mitad de Intervalo
Ejemplo:
Encuentre las modas y la mitad de intervalo para la muestra del ejemplo de los asfaltos:
Solución
Hay tres modas: 80, 179 y 232. Cada uno de estos valores aparece dos veces y ningún otro valor aparece más de una vez.
El rango es 470 -30 =440.
Nota: Es preferible llamar Intervalo en lugar de Rango.

11
Medidas de Resumen
Desviación Estándar:
He aquí dos series de datos: 28, 29, 30, 31, 32 y 10, 20, 30, 40, 50. Ambas tienen la misma media de 30. Pero obviamente
difieren en una manera importante que no es captada por la media: la segunda serie es mucho más dispersa que la
primera. La desviación estándar es una cantidad que mide el grado de dispersión en una muestra.
La idea básica detrás de la desviación estándar es que cuando la dispersión es grande, los valores de la muestra tenderán a
alejarse de su media, pero cuando la dispersión es pequeña, los valores tenderán a acercarse a su media.
El primer paso en el cálculo de la desviación estándar es calcular las distancias (desviaciones) de cada valor de la muestra a
la media de la muestra. Las desviaciones son .
12
Medidas de Resumen
Desviación Estándar:
He aquí dos series de datos: 28, 29, 30, 31, 32 y 10, 20, 30, 40, 50. Ambas tienen la misma media de 30. Pero obviamente
difieren en una manera importante que no es captada por la media: la segunda serie es mucho más dispersa que la
primera. La desviación estándar es una cantidad que mide el grado de dispersión en una muestra.
La idea básica detrás de la desviación estándar es que cuando la dispersión es grande, los valores de la muestra tenderán a
alejarse de su media, pero cuando la dispersión es pequeña, los valores tenderán a acercarse a su media.
El primer paso en el cálculo de la desviación estándar es calcular las distancias (desviaciones) de cada valor de la muestra a
la media de la muestra. Las desviaciones son
Para hacer todas las desviaciones positivas se elevan al cuadrado, con lo que se obtienen las desviaciones al cuadrado
partir de las desviaciones al cuadrado se puede calcular una medida de la dispersión llamada la varianza muestral.
. 13
Medidas de Resumen
14
Medidas de Resumen
Mientras que la varianza muestral es una cantidad importante, tiene una seria desventaja como una medida de la
dispersión. Sus unidades no son las mismas que las unidades de los valores de la muestra; éstas tienen unidades al
cuadrado.
Ejemplo:
Encuentre la varianza muestral y la desviación estándar muestral para los datos de las estaturas de 5 hombres. Las cinco
cifras de estatura (en pulgadas) son 65.51, 72.30, 68.31, 67.05 y 70.68.
15
Ejercicio:
Determinar la varianza y la desviación estándar muestral de los home runs realizados por Barry Bonds.
16
Solución:
Determinar la varianza y la desviación estándar muestral de los home runs realizados por Barry Bonds.
17
Rango (Intervalo)
El rango es la diferencia entre los valores más grandes y más pequeños en una muestra. Es una medida de la dispersión,
pero rara vez se usa, porque depende solamente de los dos valores extremos y no proporciona ninguna información
acerca del resto de la muestra.
18
Moda y Rango
Ejemplo:
Encuentre el rango para la muestra del ejemplo de los asfaltos:
El rango es 470 -30 =440.
Nota: Es preferible llamar Intervalo en lugar de Rango.
19
Análisis exploratorio de datos (AED)
El análisis exploratorio de datos es el proceso de utilizar herramientas estadísticas (como gráficas, medidas de tendencia
central y medidas de variación) con la finalidad de investigar conjuntos de datos para comprender sus características
importantes.
Valores extremos
Valor extremo o valor atípico: un valor que está muy alejado de la mayor parte de los demás valores.
En relación con los otros datos, un valor es extremo cuando está muy alejado del patrón general de la mayoría de los
datos. Cuando se explora un conjunto de datos, se deben considerar los valores extremos, ya que pueden revelar
información importante y afectar en gran medida el valor de la media y de la desviación estándar, así como
distorsionar gravemente un histograma.
20
1.- Un valor extremo puede tener un efecto importante sobre la media.
2.- Un valor extremo puede tener un efecto importante sobre la desviación estándar.
3.- Un valor extremo puede tener un efecto importante sobre la escala del histograma, de forma
que la verdadera naturaleza de la distribución se oculte por completo.
21
Medidas de Resumen
Quartiles:
La mediana divide la muestra a la mitad. Los cuartiles la dividen tanto como sea posible en cuartos.
Una muestra tiene tres de aquéllos. Existen diferentes formas de calcular cuartiles, pero todas dan
aproximadamente el mismo resultado.
1. Ordene las observaciones en orden creciente y ubique la mediana M en la lista ordenada de

observaciones.
2. El primer cuartil Q1 es la mediana de las observaciones cuya posición en la lista ordenada está a la
izquierda de la ubicación de la mediana global. La mediana general no está incluida en las
observaciones consideradas a la izquierda de la mediana global.
3. El tercer cuartil Q3 es la mediana de las observaciones cuya posición en la lista ordenada está a la
derecha de la ubicación de la mediana global. La mediana global no está incluida en las observaciones
consideradas a la derecha de la mediana global.
22
Medidas de Resumen
Cuartiles y Rango Inter cuartil:
Sea n el tamaño de la muestra. Ordene los valores de la muestra del más pequeño al más grande. Para
encontrar el primer cuartil, calcule el valor 0.25(n +1).
Si éste es un entero, entonces el valor de la muestra en esa posición es el primer cuartil. Si no, tome
entonces el promedio de los valores de la muestra de cualquier lado de este valor. El tercer cuartil se
calcula de la misma manera, excepto que se usa el valor 0.75(n+1). El segundo cuartil usa el valor 0.5(n +1).
23
Medidas de Resumen
Percentiles:
El p-ésimo percentil de una muestra, para un número p entre 0 y 100, divide a la muestra tanto como sea
posible.
Método:
Ordene los valores de la muestra del más pequeño al más grande y después calcule la cantidad (p/100)(n +1),
donde n es el tamaño de la muestra. Si esta cantidad es un entero, el valor de la muestra en esta posición es el
p-ésimo percentil. Por otro lado, promedie los dos valores de la muestra en cualquier lado.
Los percentiles con frecuencia se usan para interpretar puntajes de exámenes estandarizados.
Por ejemplo, si a una estudiante se le informa que su puntaje en un examen de ingreso a la universidad está en
el 64avo. percentil, esto significa que 64% de los estudiantes que presentaron el examen obtuvo puntajes
inferiores.
24
Medidas de Resumen
Ejemplo:
En el artículo “Evaluation of Low-Temperature Properties of HMA Mixtures” (P. Sebaaly, A. Lake y J. Epps, en
Journal of Transportation Engineering, 2002:578-583) se midieron los siguientes valores de la tensión de fractura
(en megapascales) para una muestra de 24 mezclas de asfalto mezclado caliente (HMA).
Encuentre el primer y tercer cuartil de los datos que se refieren al asfalto.

Encuentre el 65avo. percentil de los datos del caso de asfalto.
25
Medidas de Resumen
Solución:
Solución
El tamaño de la muestra es n =24.
Para encontrar el primer cuartil, calcule (0.25)(25)=6.25. Por tanto, el primer cuartil se encuentra determinando el
promedio del 6o. y 7o. puntos de datos, cuando la muestra se arregla en orden creciente. Se obtiene (105 +126)/2 =115.5.
Para encontrar el tercer cuartil, calcule (0.75)(25) =18.75. Promediamos los puntos de los datos 18avo. y 19avo., con lo
que se obtiene (242 +245)/2 =243.5.
El tamaño de la muestra es n=24.

Para encontrar el 65avo. percentil, calcule (0.65)(25)=16.25.
Por tanto, el 65avo. percentil se encuentra al determinar el promedio del 16avo. y 17avo. Puntos de datos, cuando la
muestra se arregla en orden creciente. Se obtiene (236 +240)/2 =238.
26
Medidas de Resumen
Puntaje Z:
Número de desviaciones estándar que un valor X se encuentra por debajo o por encima de la media.
Para una muestra:

𝑥 − 𝑥ҧ
𝑍=
𝑠
Para una población:
𝑥−µ
𝑍=
σ
27
Medidas de Resumen para datos agrupados o tabulados
Ejemplo:
Los ingresos quincenales en dólares (variable X) de 45 personas son:
Construir una distribución de frecuencias de 8 intervalos.
28
1) De los datos, se encuentra Xmax= 89 y X min = 26. El R = 89 — 26 = 63

2) La amplitud del intervalo se elige a partir del valor
Como los datos son enteros, elegimos A = 8 .
29
3) Los intervalos, el conteo y las frecuencias absolutas de los 45 ingresos quincenales se dan en el cuadro 1 .6 :
Un valor aproximado del número de

intervalos, k, nos proporciona la regla
de Sturges, donde,
k = 1 + 3.3log(n), n > 10 ,
Alternativamente se puede utilizar

k= 𝑛, donde 25 < n < 400 .
30
31
32
Mediana:
33
Mediana:
34
Moda:
35
Moda:
36
Media:
37
Media:
38
Media:
39
Varianza:
40
Varianza:
41
Varianza:
42
Varianza:
43
Cuartiles y percentiles:
44
Cuartiles y percentiles:
45
Curvas de densidad:
46
Curvas de densidad:
Configuramos curvas para mostrar la proporción de observaciones en cualquier región por áreas debajo de la curva. Para
hacer eso, elegimos la escala para que el área total debajo de la curva sea exactamente 1.
Entonces tenemos una curva de densidad. Usamos un histograma para comprender la distribución real de la población de
la que se seleccionó la muestra. La curva de densidad pretende reflejar la forma idealizada de la distribución de la
población.
47
Curvas de densidad:
(a) El área de las barras sombreadas en el histograma representa observaciones mayores que 0.51. Estos constituyen
171 de las 1000 observaciones. (b) El área sombreada bajo la curva Normal representa la proporción de observaciones
mayores que 0.51. Esta área es 0.1667. (Esta figura fue creada usando el paquete de software Stata).
48
Curvas de densidad:
La mediana y la media para dos curvas de densidad: (a) una curva Normal simétrica y (b) una curva que está sesgada
hacia la derecha.
49
Curvas de densidad:
50
Curvas de densidad:
51
Curvas de densidad:
La mediana de una curva de densidad es el punto de igualdad de áreas, el punto que divide el área bajo la curva por la
mitad.
La media de una curva de densidad es el punto de equilibrio, o centro de gravedad, en el cual la curva se equilibraría si
estuviera hecha de material sólido
.
La mediana y la media son las mismas para una curva de densidad simétrica. Ambos se encuentran en el centro de la
curva. La media de una curva sesgada se separa de la mediana en la dirección de la cola larga.
52
Curtosis:
La curtosis es la propiedad de una distribución de frecuencias por la cual se compara la dispersión de los datos observados
cercanos al valor central con la dispersión de los datos cercanos a ambos extremos de la distribución. La curtosis se
mide en comparación a la curva simétrica normal o mesocúrtica.
Una curva simétrica con curtosis mayor que de la normal es denominada curva leptocúrtica (fig. 3.3c).
Una curva simétrica con curtosis menor que de la normal es denominada curva platicúrtica (fig. 3.3b).
53
Curtosis basadas en percentiles:
Interpretación . Si la distribución es normal K tiende a 0. Si K tiende a 0.5, es

leptocúrtica, y si K tiende a -0 .5 , es platicúrtica.
54
Ejercicio
Complete la siguiente tabla de frecuencias y realice lo que se le indica

-Construya una ojiva empleando las fronteras de clase: 0.00, 0.495, 0.995… etc. y las frecuencias
relativas
-Construya el polígono de frecuencia (emplee las marcas de clase y las frecuencias absolutas)
Precipitación diaria Marca de Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia
(pulgadas) clase Absoluta Relativa porcentual Acumulada Acumulada
mi Fi hi (%) Absoluta Relativa
Pi Fi Hi
0.00-0.49 0.245 88.6

1
1.00- 0
1.745
0 34
-2.99 62
Total N/A 35 N/A
55
Ejercicio
Las notas del examen parcial de matemática dieron la siguiente distribución de frecuencias
a) Completar la distribución de frecuencias,
b) Graficar la ojiva de porcentajes.
56
Ejercicio
57
UNIDAD IV
Problemas de comparación (sub poblaciones a comparar, variable respuesta cualitativa,

variable respuesta cuantitativa discreta, variable respuesta cuantitativa continua).
58
UNIDAD IV
Regresión lineal simple
Trataremos con muestras bivariantes cuantitativas, es decir con muestras donde en cada unidad estadística se observan
dos características cuantitativas medibles X e Y; por ejemplo, ingresos y gastos mensuales.
El objetivo es estudiar la asociación entre dos variables conocida también como asociación simple.
La primera forma del estudio de la asociación entre las variables X e Y es la regresión, que consiste en determinar una
relación funcional (recta de regresión) entre ellas, con el fin de que se pueda predecir el valor de una variable en base a
la otra.
La variable que se va predecir se denomina variable dependiente y la variable que es la base de la predicción se
denomina variable independiente.
59
UNIDAD IV
La segunda forma del estudio de la asociación entre las variables X e Y, es denominada correlación, que consiste en
determinar la variación conjunta de las dos variables, su grado de relación, y su sentido (positivo o negativo).
La medida del grado de relación se denomina coeficiente o índice de correlación. El cuadrado del índice de correlación
se denomina coeficiente de determinación.
60
UNIDAD IV
Diagrama de dispersión: Definición. Se denomina diagrama de dispersión o nube de puntos, a la gráfica

de los valores (xi , yi ,) de las variables X e Y en el sistema cartesiano. (Y = a + bX)
61
UNIDAD IV
Covarianza:
La covarianza es una estadística que mide el grado de dispersión o variabilidad conjunta de dos variables X e Y con
respecto a sus medias respectivas (𝑥,ҧ 𝑦ത ).
Definición. La covarianza de n valores (x1, y1 ) , (x2, y2 ), …., (xn, yn ) de una variable bidimensional ( X , Y ) es el
número Cov(X, Y) o Sxy que se define igual a la media aritmética de los productos de las desviaciones de los datos
con respecto a sus correspondientes medias (𝑥,ҧ 𝑦ത ). Esto es,
σ𝒏𝒊=𝟏(𝒙𝒊 − ഥ
𝒙)(𝒚𝒊 − ഥ
𝒚)
𝑺𝑿𝒀 =
𝒏
En el númerador de Sxy se verifica la relación:
σ𝑛𝑖=1(𝒙𝒊 −ഥ 𝒚)=σ𝑛𝑖=1 𝒙𝒊 𝒚𝒊 − 𝒏𝒙𝒚

𝒙)(𝒚𝒊 − ഥ
La covarianza a diferencia de la varianza, puede ser negativa.
62
UNIDAD IV
Covarianza:
Luego:
σ𝑛𝑖=1 𝑥𝑖 𝑦𝑖
𝑆𝑋𝑌 = − 𝑥𝑦
𝑛
La covarianza a diferencia de la varianza, puede ser negativa.
63
UNIDAD IV
Coeficiente o índice de correlación
El coeficiente de correlación lineal de Pearson de n pares de valores (x1, y1 ) , (x2, y2 ), …., (xn, yn ) de una variable
bidimensional (X,Y ). es el número abstracto r que se calcula por
𝑺𝑿𝒀
𝒓=
𝑺𝒙 𝑺𝒀
donde:
𝑆𝑋𝑌 es la covarianza de X e Y
𝑆𝑋 es la desviación estándar de X
𝑆𝑌 es la desviación estándar de Y
el coeficiente de correlación r es un número comprendido entre - 1 y + 1 , esto es:

—1 < r < 1 .
Interpretación:
Si r = 1, se dice que hay una correlación perfecta positiva.
Si r = - 1, se dice que hay una correlación perfecta negativa.
Si r = 0 , se dice que no hay correlación entre las dos variables
64
UNIDAD IV
Dados n pares de valores (x1, y1 ) , (x2, y2 ), …., (xn, yn ) de una variable bidimensional ( X , Y ) . La regresión lineal
simple de Y con respecto a X , consiste en determinar la ecuación de la recta:
Y=a+bX
que mejor se ajuste a los valores de la muestra, con el fin de poder predecir o estimar Y (variable dependiente) a
partir de X (variable independiente).
El proceso de predecir o estimar Y a partir de la variable X , es la regresión.
Hallar la función lineal Y = a + b X , consiste en determinar los valores de a y b a partir de los datos de la muestra.
Usaremos la notación 𝑦ො𝑖 para representar un valor de Y calculado de la ecuación Y = a + b X cuando X es igual a x¡ .
Esto es, 𝑦ො𝑖 = a + bxi
Al valor 𝑦ො𝑖 se denomina valor estimado o predecido o ajustado de Y cuando X = x¡.
65
UNIDAD IV
66
UNIDAD IV
Se denomina error o residuo a cada diferencia,
d¡ = y¡ - 𝑦ො𝑖
del valor observado y¡ y el valor pronosticado 𝑦ො𝑖
Un método para determinar la recta que mejor se ajuste a los n datos de la muestra (𝑥𝑖 , 𝑦ො𝑖 ) es el método de
mínimos cuadrados.
67
UNIDAD IV
Recta de regresión de mínimos cuadrados
La recta de regresión de mínimos cuadrados de Y en X es aquella que hace mínima la suma de los cuadrados de
errores (SCE) cuya expresión es:
Luego, determinar una recta de regresión de mínimos cuadrados consiste en hallar los valores de a y b de manera
que hagan mínima, la suma:
68
UNIDAD IV
Este requisito se cumple, de acuerdo con el teorema de Gass-Markow, si a y b se determinan resolviendo el

siguiente sistema de ecuaciones normales:
Estas ecuaciones se obtienen de igualar a cero las derivadas de SCE con respecto a a y con respecto a b
respectivamente consideradas como variables, ya que ( xi, yi) son datos observados.
69
UNIDAD IV
Resolviendo el sistema de ecuaciones normales para b, se obtiene:
y dividiendo por n la primera ecuación normal, se tiene: el valor:
70
UNIDAD IV
Interpretación del coeficiente de regresión b

El coeficiente b es la pendiente o el coeficiente de la regresión lineal. La constante a es la ordenada en el origen.
Si b > 0 , entonces, la tendencia lineal es creciente, es decir, a mayores valores de X corresponden mayores valores
de Y. También, a menores valores de X corresponden menores valores de Y.
Si b < 0 , entonces, la tendencia lineal es decreciente, es decir, a mayores valores de X corresponden menores
valores de Y. También, a menores valores de X corresponden mayores valores de Y.
Si b = 0 , entonces, Y = a . Luego, Y permanece estacionario para cualquier valor de X. En este caso se dice que, no
hay regresión.
71
UNIDAD IV
Ejemplo:
En un estudio de la relación entre la publicidad por radio y las ventas de un producto, durante 10 semanas se han
recopilado los tiempos de duración en minutos de la publicidad por semana (X), y el número de artículos vendidos
(Y), resultando:
72
UNIDAD IV
Ejemplo:
a) Trazar el diagrama de dispersión, e indicar la tendencia.

b) Calcular la recta de regresión de mínimos cuadrados con el fin de predecir las
ventas.
c) Estimar la venta si en una semana se hacen 100 minutos de propaganda.
d) Calcular el coeficiente de correlación.
e) Si en la novena semana se incrementara la publicidad en 5 minutos, ¿en cuanto se estima se incrementen las
ventas?.
73
UNIDAD IV
Ejemplo:
74
UNIDAD IV
Ejemplo:
75
UNIDAD IV
Ejemplo:
76
UNIDAD IV
Ejemplo:
77
UNIDAD IV
Coeficiente de determinación:
78
UNIDAD IV
79
UNIDAD IV
80
UNIDAD IV
Nociones de regresión no lineal:
81
UNIDAD IV
82
UNIDAD IV
83
UNIDAD IV
84

7 Problemas de Comparación

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

7 Problemas de Comparación

Cargado por

Copyright:

Formatos disponibles

Medidas de Resumen

La moda y la Mitad de Intervalo son resúmenes estadísticos de uso limitado.

Nota: Es preferible llamar Intervalo en lugar de Rango.

Encuentre el rango para la muestra del ejemplo de los asfaltos:

El rango es 470 -30 =440.

Nota: Es preferible llamar Intervalo en lugar de Rango.

1. Ordene las observaciones en orden creciente y ubique la mediana M en la lista ordenada de

Cuartiles y Rango Inter cuartil:

Encuentre el primer y tercer cuartil de los datos que se refieren al asfalto.

El tamaño de la muestra es n=24.

Para una muestra:

Los ingresos quincenales en dólares (variable X) de 45 personas son:

Construir una distribución de frecuencias de 8 intervalos.

1) De los datos, se encuentra Xmax= 89 y X min = 26. El R = 89 — 26 = 63

Como los datos son enteros, elegimos A = 8 .

Un valor aproximado del número de

Alternativamente se puede utilizar

Interpretación . Si la distribución es normal K tiende a 0. Si K tiende a 0.5, es

Complete la siguiente tabla de frecuencias y realice lo que se le indica

0.00-0.49 0.245 88.6

Problemas de comparación (sub poblaciones a comparar, variable respuesta cualitativa,

Regresión lineal simple

Regresión lineal simple

Diagrama de dispersión: Definición. Se denomina diagrama de dispersión o nube de puntos, a la gráfica

En el númerador de Sxy se verifica la relación:

σ𝑛𝑖=1(𝒙𝒊 −ഥ 𝒚)=σ𝑛𝑖=1 𝒙𝒊 𝒚𝒊 − 𝒏𝒙𝒚

La covarianza a diferencia de la varianza, puede ser negativa.

La covarianza a diferencia de la varianza, puede ser negativa.

el coeficiente de correlación r es un número comprendido entre - 1 y + 1 , esto es:

Se denomina error o residuo a cada diferencia,

del valor observado y¡ y el valor pronosticado 𝑦ො𝑖

Este requisito se cumple, de acuerdo con el teorema de Gass-Markow, si a y b se determinan resolviendo el

Resolviendo el sistema de ecuaciones normales para b, se obtiene:

y dividiendo por n la primera ecuación normal, se tiene: el valor:

Interpretación del coeficiente de regresión b

a) Trazar el diagrama de dispersión, e indicar la tendencia.

También podría gustarte