Estadistica 2

GIMNASIO FONTANA
SUBJET MATH
2007 – 2008
GRADE: ELEVETH
TEACHER: PEDRO EMILIO PÉREZ ROMERO
CONCEPTOS BÁSICOS1
ESTADÍSTICA DESCRIPTIVA NUMÉRICA.

MEDIDAS DE TENDENCIA CENTRAL
Las medidas de “tendencia central” son valores numéricos que localizan,
de alguna manera, el centro de un conjunto de datos. El término
promedio a menudo es asociado con todas las medidas de tendencia
central.
Las medidas de tendencia central más conocidas son:
MEDIA
Promedio que quizá sea el más conocido. Se representa por x (que se
lee como “x barra” o “medid de la muestra”). La media se encuentra
sumando todos los valores de la variable x ( la suma de los valores de x
se simboliza como  x ) y dividiendo entre el número de estos valores,
n.
=
X
x
n
MEDIANA
Valor de los datos que ocupa la posición central cuando los datos se
ordenan según su tamaño. Se representa por ~ x ( se lee como “x tilde” o
“mediana de la muestra”).
Procedimiento para encontrar la mediana.
Paso 1: Ordene los datos.
Paso 2: Determine la profundidad de la mediana. La profundidad
(número de posiciones a partir de cualquier extremo), o posición, se
determina con la siguiente formula:
n 1
(d) ~
x= , donde n es el número de datos de la muestra.
2
Paso 3: Determine la mediana. La mediana será la misma sin importar a
partir de cuál extremo de los datos ordenados (máximo o mínimo) se
cuente.
MODA
1
Tomado y adaptado de Estadística Elemental Lo Esencial. Jonson. R, Kuby. P, 2ª. Edición. Editorial
Thomson. 1999.
Es el valor de x que ocurre más frecuentemente. Si dos o más datos
están empatados en cuanto a mayor frecuencia (número de
ocurrencias), se dice que no hay moda.
RANGO MEDIO
Número que está exactamente a la mitad del camino entre un dato con
menor valor Mín y un dato con mayor valor Máx. Se encuentra
promediando los valores mínimo y máximo.
Mín  Máx
Valor medio =
2
MEDIDAS DE DISPERSIÓN.
Una vez se ha localizado el “centro” con las medidas de tendencia
central, la investigación se dirige ahora a las medidas de dispersión. Las
medidas de dispersión incluyen el Rango, la Varianza y la Desviación
Estándar. Estos valores numéricos describen la cantidad de dispersión o
variabilidad, que se encuentra entre los datos: datos bastante agrupados
poseen valores relativamente pequeños, y datos más dispersos tienen
valores más grandes. El agrupamiento más estrecho ocurre cuando los
datos carecen de dispersión (todos los datos tienen el mismo valor),
para los cuales la medida de dispersión es cero. No hay límite respecto a
cuán dispersos pueden ser los datos; en consecuencia las medidas de
dispersión pueden ser muy grandes.
RANGO
Es la diferencia en valor entre las porciones de datos mayor (Máx) y de
menor valor (Mín):
Rango = Máx – Mín
DESVIACIÓN CON RESPECTO A LA MEDIA.

Una desviación de la media, x - x , es la diferencia entre el valor de x y
la media x . Cada valor individual x se desvía de la media por una
cantidad igual a (x - x ). Esta desviación (x - x ) es cero cuando x es
igual a la media. La desviación (x - x ) es positiva si x es mayor que x y
negativa en caso contrario.
La suma de las desviaciones   x - x  , siempre es cero debido al efecto
de neutralización entre las desviaciones de los valores menores que la
media que son negativos y los valores mayores que ésta que son
positivos; por esta razón no es un estadístico de utilidad. Una manera de
eliminar este efecto de neutralización es elevar las desviaciones al
cuadrado (serán valores positivos o cero), las desviaciones al cuadrado
se utilizan para determinar la varianza.
VARANZA DE LA MUESTRA.
2
La varianza de la muestra, s , es la media de las desviaciones al
cuadrado, calculada usando como divisor a n –1.
  x  x
2
2
s =
n 1
donde n es el tamaño de la muestra, es decir, el número de datos que
hay en la muestra.
DESVIACIÓN ESTÁNDAR.
La desviación estándar de una muestra, S, es la raíz cuadrada positiva
de la varianza:
2
s = s
MEDIAY DESVIACIÓN ESTÁNDAR DE DISTRIBUCIONES DE
FRECUENCIAS.
Cuando los datos de la muestra están en forma de distribución de
frecuencias, podemos utilizar las siguientes fórmulas para encontrar la
media, la varianza y la desviación estándar.
Para hallar la media:
x =
 xf
f
Para determinar la varianza:
  xf  2
2  x f  2
s = f
 f 1
ILUSTRACIÓN:
Encontrar la media, la varianza y la desviación estándar de la muestra
de 50 puntajes del examen, usando la distribución de frecuencias
agrupadas (del ejemplo ya realizado).
No. De Marca de f xf 2
Clase Clase x f
1 40 2 80 3200
2 50 2 100 5000
3 60 7 420 25200
4 70 13 910 63700
5 80 11 880 70400
6 90 11 990 89100
7 100 4 400 40000
f  50  xf  3780 x 2
f  296000
  xf  2
 xf 3780 2  x f 
2
x =
f
=
50
 75.6 ;
s = f =
 f 1
37802
296600 
50  10832  221.1
50  1 49
s s2  221.1  14.9
MEDIDAS DE POSICIÓN.
Las medidas de posición se usan para describir la posición que tiene un
valor de datos en relación con el resto de los datos. Dos de las medidas
de posición más conocidas son los cuarteles y los porcentiles
(percentiles).
CUARTILES.
Son los valores de la variable que dividen en cuartos a los daos
ordenados; cada conjunto de datos posee tres cuarteles. El primer
cuartil, Q1
, es un número tal que cuando mucho el 25% de los datos
es menor en valor que Q 1

y cuando mucho el 75% de los datos es
mayor que Q 1
. El segundo cuartil es la media. El tercer cuartil, Q 3
,
es un número tal que cuando mucho el 75% de los datos es menor en
valor que Q 3
y cuando mucho el 25% de los datos es mayor que Q 3
.
Datos clasificados en orden creciente

25% 25% 25% 25%
Mín
Q 1
Q 2
Q 3
Máx
PORCENTILES:
Son los valores de la variable que dividen a un conjunto de datos
ordenados en 100 subconjuntos iguales; cada conjunto de datos tiene 99
porcentiles. El K-ésimo porcentil, P k
, es el valor tal que cuando mucho
K% de los datos son más pequeños en valor que P k

y cuando mucho
(100 – K)% de los datos es mayor.
Datos clasificados en orden creciente

A lo más K % a lo más (100 – K ) %
Mín
P k
Máx
NOTAS
1. El primer cuartil y el 25avo porcentil son iguales;es decir
Q 1
 P 25 ,también Q 3
 P 75 .
2. La mediana, el segundo cuartil y el 50avoporcentil son iguales,

~
x Q 
2 P 50
Procedimiento para determinar el valor de cualquier K-ésimo porcentil (o

cuartil).
a. Ordenar los datos, del más chico al más grande.
nk
b. Calcular
100
c. Se obtiene un entero A, entonces d  P k   A.5 , P k
está a la
mitad entre el valor del dato en la A-ésima posición y el valor del
siguiente dato.
d. Se obtiene un número con una fracción, entonces P k
es el valor
del dato en la B-ésima posición.
CUARTIL MEDIO.
Es el valor numérico entre el primer cuartil y el tercer cuartil.
Cuartil medio =
Q Q 1 3 .
2
RESUMEN DE CINCOPUNTOS
El resumen de cinco puntos está integrado por:
1. Mín, el mínimo valor en el conjunto de datos.
2. Q 1
, el primer cuartil (también denominado 25avo porcentil).
3. ~
x , la mediana.
4. Q 3
, el tercer cuartil (también denominado 75avo porcentil).
5. Máx, el máximo valor en el conjunto de datos.
REPRESENTACIÓN DE CAJA Y BIGOTES.

Es la representación gráfica del resumen de 5 puntos. Los cinco valores
numéricos (el mínimo, el primer cuartil, la mediana, el tercer cuartil y el
máximo) se localizan sobre una escala, ya sea vertical u horizontal. La
caja se usa para mostrar la mitad central de los datos que están entre
los dos cuartiles. Los bigotes son segmentos de recta que se usan para
representar la otra mitad de los datos: un segmento de recta representa
la cuarta parte de los datos que son más pequeños en valor que el
primer cuartil, y el segundo segmento de recta representa el cuarto de
datos que es de mayor valor que el tercer cuartil.
PUNTAJE Z.
Posición que tiene un valor particular de x con respecto a la media,
media en desviaciones estándar. El puntaje Z se calcula con la fórmula
xx
Z 
s
Ejemplo No. 5
Un estudio de investigación sobre destreza manual implicaba la
determinación del tiempo necesario para completar una tarea. A
continuación se muestra el tiempo necesario para cada una de las 40
personas con discapacidad.
7.1 7.2 7.6 8.1 8.1
7.2 7.6 7.9 8.1 8.3
8.3 8.4 9 9.1 9.1
8.4 8.9 9 9.1 9.1
9.4 9.9 10.110.2 10.5
9.6 10.1 10.110.3 10.7
11 11.2 11.213.6 14.9
11.
1 11.2 12 14.7 15.5
Encuentre: a. Q 1
b. Q 2
c. Q 3
d.
P 95
e. El resumen de 5 puntos f. Trace el diagrama de caja y
bigotes.
1. Ordenar los datos en forma creciente.
7.1 8.1 9.1 10.1 11.2

7.2 8.3 9.1 10.1 11.2
7.2 8.3 9.1 10.2 11.2
7.6 8.4 9.1 10.3 12
7.6 8.4 9.4 10.5 13.6
7.9 8.9 9.6 10.7 14.7
8.1 9 9.9 11 14.9
8.1 9 10.1 11.1 15.5
2. Calcular los cuartiles o lo que es igual los porcentiles:
nk 40 * 25
Q 1
 P 25

100

100
 10 , (recordar que este es un valor
posicional y no numérico), buscar el valor numérico ubicado en

la posición número 10, el cual corresponde a Q 1
 8.3 .
3. De la misma manera se encuentran Q 2
~
x P ,Q  P
50 3 75
...
4. Con los datos obtenidos se traza el diagrama de caja y
bigotes.
TEOREMA DE CHEBYSHEV.
La porción de cualquier distribución que esté a menos de k desviaciones
1
estándar de la media es por lo menos 1  2 , donde k es cualquier
k
número positivo mayor que 1. Este teorema es válido para todas las
distribuciones de datos.
DATOS DE DOS VARIABLES.

Estos datos constan de los valores de dos variables respuesta diferentes
que se obtienen del mismo elemento de la población.
Cada una de las dos variables puede ser de naturaleza cualitativa o
cuantitativa. Como resultado, los datos bivariados pueden formarse
mediante tres combinaciones de variable:
1. Ambas variables son cualitativas (Atributo).
2. Una variable cualitativa (Atributo) y otra es cuantitativa
(Numérica).
3. Ambas variables son cuantitativas (Numérica).
Cuando los datos bivariados resultan de dos variables cualitativas (de

atributo o categoría), a menudo los datos se disponen en una tabla
cruzada o de contingencia.
1. ILUSTRACIÓN. (Ambas variables cualitativas)
Treinta estudiantes de una Universidad fueron identificados y

clasificados aleatoriamente según dos variables: 1) Género (M/F) y 2)
Especialización (Filosofía y Letras, Administración de Empresas,
Tecnología), como se muestra en la siguiente tabla:
NOMBR GÉNER ESPECIALI NOMBRE GÉNER ESPECIALI

E O Z O Z
Adams M FyL Kee M AE
Argento F AE Kleeberg M FyL
Baker M FyL Light M FyL
Bennett F FyL Linton F FyL
Brock M AE Lopez M T
Brand M T McGowan M AE
Chun F FyL Mowers F AE
Crain M T Ornt M T
Cross F FyL Palmer F AE
Ellis F FyL Pullen M T
Feeney M T Rattan M AE
Flaniga M AE Sherman F AE
n
Hodge F AE Small F T
Holmes M T Tate M AE
Jopson F T Yamamoto M FyL
A. Tabla cruzada de género y especialización por conteo.
Especialización
Filosofía y Administración de
Letras Empresas Tecnología
Masculin
Género o
Femenino
B. Tabla cruzada de género y especialización por frecuencia.
Especialización
Totales
Filosofía y Administración de por
Letras Empresas Tecnología Renglón
Masculin
Género o
Femenino
Totales por
columnas
C. Tabla cruzada de género y especialización frecuencias

relativas; % del gran total.
Especialización Totales
Masculin
Género o
Femenino
Totales por
columnas
D. Tabla cruzada de género y especialización; % de los totales

por renglón.
Especialización Totales
Masculin
Género o
Femenino
Totales por
columnas
E. Tabla cruzada de género y especialización; % de los totales

por columna.
Especialización
Totales
Masculin
Género o
Femenino
Totales por
columnas
2. ILUSTRACIÓN (Una variable cualitativa y otra cuantitativa).
Para comparar la capacidad de frenado de tres diseños de bandas de

rodamiento, se midió la distancia necesaria para detener un automóvil
de 3000 libras que se desplazaba sobre pavimento húmedo. Los
neumáticos de cada diseño fueron probados en el mismo vehículo que
circulaba sobre un pavimento húmedo controlado:
Distancia
de frenado Diseño A (n=6 Diseño B (n=6) Diseño C (n=6)
para los 37 36 33 35 40 39
tres
34 40 34 42 41 41
diseños de
banda de 38 32 38 34 40 43
rodamient
o
El diseño de la banda de rodamiento es una variable cualitativa con tres

niveles de respuesta y la distancia de frenado es una variable
cuantitativa.
DOS VARIABLES CUANTITATIVAS
Cuando los datos bivariados son resultado de dos variables

cuantitativas, los datos matemáticos suelen expresarse como pares
ordenados (x,y), donde x es la variable de entrada (algunas veces
llamada variable independiente) y y es la variable de salida (algunas
veces llamada la variable dependiente). En los problemas en que
intervienen dos variables cuantitativas, los datos de la muestra se
representan gráficamente en un diagrama de dispersión.
DIAGRAMA DE DISPERSIÓN
Es la gráfica de todos los pares ordenados de datos de dos variables que

están en un sistema de ejes coordenados. La variable de entrada, x, se
gráfica en el eje horizontal y la variable de salida, y, se gráfica en el eje
vertical.
ILUSTRACIÓN.
En la clase de educación física del profesor Pretel, se tomaron varios

puntajes de condición física. La muestra siguiente es el número de
“lagartijas” y “sentadillas” realizadas por 10 estudiantes elegidos
aleatoriamente:
(27,30), (22,26), (15,25), (35,42), (30,38), (52,40), (35,32), (55,54),

(40,50), (40,43).

Estadistica 2

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica 2

Cargado por

Copyright:

Formatos disponibles

GIMNASIO FONTANA

ESTADÍSTICA DESCRIPTIVA NUMÉRICA.

DESVIACIÓN CON RESPECTO A LA MEDIA.

es menor en valor que Q 1

Datos clasificados en orden creciente

K% de los datos son más pequeños en valor que P k

Datos clasificados en orden creciente

2. La mediana, el segundo cuartil y el 50avoporcentil son iguales,

Procedimiento para determinar el valor de cualquier K-ésimo porcentil (o

REPRESENTACIÓN DE CAJA Y BIGOTES.

1. Ordenar los datos en forma creciente.

7.1 8.1 9.1 10.1 11.2

posicional y no numérico), buscar el valor numérico ubicado en

DATOS DE DOS VARIABLES.

Cuando los datos bivariados resultan de dos variables cualitativas (de

1. ILUSTRACIÓN. (Ambas variables cualitativas)

Treinta estudiantes de una Universidad fueron identificados y

NOMBR GÉNER ESPECIALI NOMBRE GÉNER ESPECIALI

Argento F AE Kleeberg M FyL

Baker M FyL Light M FyL

Bennett F FyL Linton F FyL

Chun F FyL Mowers F AE

Cross F FyL Palmer F AE

Ellis F FyL Pullen M T

Jopson F T Yamamoto M FyL

A. Tabla cruzada de género y especialización por conteo.

B. Tabla cruzada de género y especialización por frecuencia.

C. Tabla cruzada de género y especialización frecuencias

D. Tabla cruzada de género y especialización; % de los totales

E. Tabla cruzada de género y especialización; % de los totales

2. ILUSTRACIÓN (Una variable cualitativa y otra cuantitativa).

Para comparar la capacidad de frenado de tres diseños de bandas de

El diseño de la banda de rodamiento es una variable cualitativa con tres

DOS VARIABLES CUANTITATIVAS

Cuando los datos bivariados son resultado de dos variables

Es la gráfica de todos los pares ordenados de datos de dos variables que

En la clase de educación física del profesor Pretel, se tomaron varios

(27,30), (22,26), (15,25), (35,42), (30,38), (52,40), (35,32), (55,54),

También podría gustarte