Explora Libros electrónicos
Categorías
Explora Audiolibros
Categorías
Explora Revistas
Categorías
Explora Documentos
Categorías
TRABAJO ENCARGADO
MEDIDAS DE TENDENCIA CENTRAL, VARIABILIDAD, REGRESION LINEAL
ESTUDIANTE:
HENRY JHON CURASI MAMANI
SEMESTRE: IX GRUPO: U
CODIGO: 135113
DOCENTE:
Ing. GEORGES LLERENA P.
LA ESTADISTICA
Estadística Descriptiva
Aplicarás conceptos estadísticos: muestra, población y tipos de variables.
Ordenarás y organizarás la información.
Analizarás y construirás tablas y gráficos.
Determinarás medidas de tendencia central: media aritmética, moda y mediana.
Calcularás medidas de dispersión: rango, desviación estándar y varianza.
Conocerás e interpretarás las medidas de posición: cuartiles, quintiles, deciles y percentiles.
Estadística Inferencial
Determinarás la homogeneidad y heterogeneidad de una muestra.
Compararás distribuciones de distintas muestras de poblaciones dependiendo del tipo de muestreo
aplicado.
Determinarás y calcularás funciones de probabilidad y distribución de una variable aleatoria
discreta.
Estudiarás la correlación y regresión lineal de distribuciones bidimensionales.
Reconocerás distribuciones normales y binominales. Y calcularás probabilidades con ellas.
Introducción
Existen diferentes razones por las cuales los profesionales deben conocer los fundamentos de la estadística
como instrumento del trabajo cotidiano. En esta guía se pretende dar a conocer algunas nociones estadísticas
que nos ayudarán a explorar y describir, en un primer momento, nuestros datos.
Poblaciones y Muestras
La población representa el conjunto grande de individuos que deseamos estudiar y generalmente suele ser
inaccesible. Es, en definitiva, un colectivo homogéneo que reúne unas características determinadas.
Las razones para estudiar muestras en lugar de poblaciones son diversas y entre ellas podemos señalar:
a. Ahorrar tiempo. Estudiar a menos individuos es evidente que lleva menos tiempo.
b. Como consecuencia del punto anterior ahorraremos costes.
c. Estudiar la totalidad de los pacientes o personas con una característica determinada en muchas
ocasiones puede ser una tarea inaccesible o imposible de realizar.
d. Aumentar la calidad del estudio. Al disponer de más tiempo y recursos, las observaciones y
mediciones realizadas a un reducido número de individuos pueden ser más exactas y plurales que
si las tuviésemos que realizar a una población.
Tipos de datos
La naturaleza de las observaciones será de gran importancia a la hora de elegir el método estadístico más
apropiado para abordar su análisis. Con este fin, clasificaremos las variables, a grandes rasgos, en dos
tipos: variables cuantitativas o variables cualitativas.
a. Variables cuantitativas. Son las variables que pueden medirse, cuantificarse o expresarse
numéricamente. Las variables cuantitativas pueden ser de dos tipos:
o Variables cuantitativas continuas, si admiten tomar cualquier valor dentro de un rango
numérico determinado (edad, peso, talla).
b. Variables cualitativas. Este tipo de variables representan una cualidad o atributo que clasifica a
cada caso en una de varias categorías. La situación más sencilla es aquella en la que se clasifica
cada caso en uno de dos grupos (hombre/mujer, enfermo/sano, fumador/no fumador). Son datos
dicotómicos o binarios. Como resulta obvio, en muchas ocasiones este tipo de clasificación no es
suficiente y se requiere de un mayor número de categorías (color de los ojos, grupo sanguíneo,
profesión, etcétera).
o Escalas nominales: ésta es una forma de observar o medir en la que los datos se ajustan
por categorías que no mantienen una relación de orden entre sí (color de los ojos, sexo,
profesión, presencia o ausencia de un factor de riesgo o enfermedad, etcétera).
o Escalas ordinales: en las escalas utilizadas, existe un cierto orden o jerarquía entre las
categorías (grados de disnea, estadiaje de un tumor, etcétera).
Estadística descriptiva
Una vez que se han recogido los valores que toman las variables de nuestro estudio (datos), procederemos
al análisis descriptivo de los mismos. Para variables categóricas, como el sexo o la estatura, se quiere
conocer el número de casos en cada una de las categorías, reflejando habitualmente el porcentaje que
representan del total, y expresándolo en una tabla de frecuencias.
Para variables numéricas, en las que puede haber un gran número de valores observados distintos, se ha
de optar por un método de análisis distinto, respondiendo a las siguientes preguntas:
Las medidas de centralización vienen a responder a la primera pregunta. La medida más evidente que
podemos calcular para describir un conjunto de observaciones numéricas es su valor medio. La media no
es más que la suma de todos los valores de una variable dividida entre el número total de datos de los que
se dispone.
Como ejemplo, consideremos 10 pacientes de edades 21 años, 32, 15, 59, 60, 61, 64, 60, 71, y 80. La
media de edad de estos sujetos será de:
La mediana del ejemplo anterior sería el valor que deja a la mitad de los datos por encima de dicho valor y
a la otra mitad por debajo. Si ordenamos los datos de mayor a menor observamos la secuencia:
Como quiera que en este ejemplo el número de observaciones es par (10 individuos), los dos valores que
se encuentran en el medio son 60 y 60. Si realizamos el cálculo de la media de estos dos valores nos dará
a su vez 60, que es el valor de la mediana.
Si la media y la mediana son iguales, la distribución de la variable es simétrica. La media es muy sensible a
la variación de las puntuaciones. Sin embargo, la mediana es menos sensible a dichos cambios.
La m e d i a n a es i n d e p e n d i e n t e de las a m p l i t u d e s de los i nt e r v a l o s .
Por último, otra medida de tendencia central, no tan usual como las anteriores, es la moda, siendo éste el
valor de la variable que presenta una mayor frecuencia.
Tal y como se adelantaba antes, otro aspecto a tener en cuenta al describir datos continuos es la dispersión
de los mismos. Existen distintas formas de cuantificar esa variabilidad. De todas ellas, la varianza (S2) de
los datos es la más utilizada. Es la media de los cuadrados de las diferencias entre cada valor de la
variable y la media aritmética de la distribución.
Esta varianza muestral se obtiene como la suma de las de las diferencias de cuadrados y por tanto tiene
como unidades de medida el cuadrado de las unidades de medida en que se mide la variable estudiada.
Sx2=
Aunque esta fórmula de la desviación típica muestral es correcta, en la práctica, la estadística nos interesa
para realizar inferencias poblacionales, por lo que en el denominador se utiliza, en lugar de n, el valor n-1.
Aunque en muchos contextos se utiliza el término de desviación típica para referirse a ambas expresiones.
En los cálculos del ejercicio previo, la desviación típica muestral, que tiene como denominador n, el valor
sería 20.678. A efectos de cálculo lo haremos como n-1 y el resultado seria 21,79.
El haber cambiado el denominador de n por n-1 está en relación al hecho de que esta segunda fórmula es
una estimación más precisa de la desviación estándar verdadera de la población y posee las propiedades
que necesitamos para realizar inferencias a la población.
Cuando se quieren señalar valores extremos en una distribución de datos, se suele utilizar la amplitud
como medida de dispersión. La amplitud es la diferencia entre el valor mayor y el menor de la distribución.
Por ejemplo, utilizando los datos del ejemplo previo tendremos 80-15 =65.
Como medidas de variabilidad más importantes, conviene destacar algunas características de la varianza y
desviación típica:
Cuando todos los datos de la distribución son iguales, la varianza y la desviación típica son iguales
a 0.
Para su cálculo se utilizan todos los datos de la distribución; por tanto, cualquier cambio de valor
será detectado.
Otra medida que se suele utilizar es el coeficiente de variación (CV). Es una medida de dispersión
relativa de los datos y se calcula dividiendo la desviación típica muestral por la media y multiplicando el
cuociente por 100. Su utilidad estriba en que nos permite comparar la dispersión o variabilidad de dos o
más grupos. Así, por ejemplo, si tenemos el peso de 5 pacientes (70, 60, 56, 83 y 79 Kg) cuya media es de
69,6 kg. y su desviación típica (s) = 10,44 y la TAS de los mismos (150, 170, 135, 180 y 195 mmHg)
cuya media es de 166 mmHg y su desviación típica de 21,3. La pregunta sería: ¿qué distribución es más
dispersa, el peso o la tensión arterial? Si comparamos las desviaciones típicas observamos que la desviación
típica de la tensión arterial es mucho mayor; sin embargo, no podemos comparar dos variables que tienen
escalas de medidas diferentes, por lo que calculamos los coeficientes de variación:
CV de la variable peso =
CV de la variable TAS =
A la vista de los resultados, observamos que la variable peso tiene mayor dispersión.
Cuando los datos se distribuyen de forma simétrica (y ya hemos dicho que esto ocurre cuando los valores
de su media y mediana están próximos), se usan para describir esa variable su media y desviación típica.
En el caso de distribuciones asimétricas, la mediana y la amplitud son medidas más adecuadas. En este
caso, se suelen utilizar además los cuartiles y percentiles.
Los cuartiles y percentiles no son medidas de tendencia central sino medidas de posición. El percentil es
el valor de la variable que indica el porcentaje de una distribución que es igual o menor a esa cifra.
Así, por ejemplo, el percentil 80 es el valor de la variable que es igual o deja por debajo de sí al 80% del
total de las puntuaciones. Los cuartiles son los valores de la variable que dejan por debajo de sí el 25%,
50% y el 75% del total de las puntuaciones y así tenemos por tanto el primer cuartil (Q1), el segundo (Q2) y
el tercer cuartil (Q3).
1 O r d e n a m o s los d a t o s de m e n o r a m a y o r .
Consideremos dos grupos de personas extraídos como muestras respectivas de dos poblaciones distintas:
el primero está compuesto por 100 personas que asisten a la proyección de una película para niños, y el
segundo por 100 personas elegidas entre los asistentes a una discoteca juvenil. Pudiera ocurrir que, aun
siendo las distribuciones de las edades de ambos grupos muy distinta, la media y la mediana coincidieran
para ambas. (Da un ejemplo concreto en que esto ocurra).
Igualmente ocurre en este otro ejemplo. La caja de un kiosco registra las siguientes entradas en miles de
pesos, a lo largo de dos semanas correspondientes a épocas distintas del año
1ª semana 2ª semana
10 30
20 40
30 50
50 50
60 60
80 60
100 60
350 350
La media y la mediana de ambas distribuciones coinciden (el valor de ambas es 50 en los dos casos) y, sin
embargo, las consecuencias que se podrían derivar de una y otra tabla son bien distintas.
Comprendemos pues, a la vista de estos ejemplos, la necesidad de conocer otras medidas, aparte de los
valores de centralización, que nos indiquen la mayor o menor desviación de cada observación respecto de
aquellos valores.
Las medidas de desviación, variación o dispersión que estudiaremos a continuación son: Rango o amplitud,
desviación media y desviación típica.
El rango se suele definir como la diferencia entre los dos valores extremos que toma la variable. Es la
medida de dispersión más sencilla y también, por tanto, la que proporciona menos información. Además,
esta información puede ser errónea, pues el hecho de que no influyan más de dos valores del total de la
serie puede provocar una deformación de la realidad.
Comparemos, por ejemplo, estas dos series:
Serie 1: 1 5 7 7 8 9 9 10 17
Serie 2: 2 4 6 8 10 12 14 16 18
Ambas series tienen rango 16, pero están desigualmente agrupadas, pues mientras la primera tiene una
mayor concentración en el centro, la segunda se distribuye uniformemente a lo largo de todo el recorrido.
DESVIACIÓN MEDIA
En teoría, la desviación puede referirse a cada una de las medidas de tendencia central: media, mediana o
moda; pero el interés se suele centrar en la medida de la desviación con respecto a la media, que
llamaremos desviación media.
Puede definirse como la media aritmética de las desviaciones de cada uno de los valores con respecto a la
media aritmética de la distribución, y de indica así:
DM
xx
N
Ya se habrá advertido que esta expresión sirve para calcular la desviación media en el caso de datos sin
agrupar. Veamos un ejemplo:
x xx x
2 -3 3
2 3 3
4 -1 1
4 -1 1
4 -1 1
5 0 0
6 1 1
7 2 2
8 3 3
8 3 3
DM = 1,8
Veamos ahora cómo se calcula la desviación media en el caso de datos agrupados en intervalos.
DM
n i x
N
donde observamos que ahora las desviaciones van multiplicadas por las frecuencias de los intervalos
correspondientes.
Además, las desviaciones son de cada centro, o marca de clase, a la media aritmética. Es decir,
DM
n (x i m x)
N
Ejemplo: Para hallar la desviación media de la siguiente tabla referida a las edades de los 100 empleados
de una cierta empresa:
Clase ni
16-20 2
20-24 8
24-28 8
28-32 18
32-36 20
36-40 18
40-44 15
44-48 8
48-52 3
Clase ni xm ni xm x x
ni x x
16-20 2 18 36 16,72 33,44
20-24 8 22 176
24-28 8
28-32 18
32-36 20
36-40 18
40-44 18
44-48 8
48-52 3
DM = 6,09
La desviación media viene a indicar el grado de concentración o de dispersión de los valores de la variable.
Si es muy alta, indica gran dispersión; si es muy baja refleja un buen agrupamiento y que los valores son
parecidos entre sí.
La desviación media se puede utilizar como medida de dispersión en todas aquellas distribuciones en las
que la medida de tendencia central más significativas haya sido la media. Sin embargo, para las mismas
distribuciones es mucho más significativa la desviación típica, que estudiaremos a continuación, y eso hace
que el uso de la desviación media sea cada vez más restringido.
DESVIACIÓN TÍPICA
Es sin duda la medida de dispersión más importante, ya que además sirve como medida previa al cálculo
de otros valores estadísticos.
La desviación típica se define como la raíz cuadrada de la media de los cuadrados de las desviaciones con
respecto a la media de la distribución. Es decir,
S
x x 2
xx
2
S
N
x x x x x 2
5 -5,2 27,04
8 -2,2 4,84
10 -0,2 0,04
12 1,8 3,24
16 5,8 33,64
Cálculo de la desviación típica para datos agrupados en clases y agrupados por frecuencias
S
fx 2
N
fd fd
2 2
SI
N N
Clases f
150 – 155 3
155 – 160 6
160 – 165 12
165 – 170 18
170 – 175 25
175 – 180 17
180 – 185 10
185 – 190 7
190 – 195 4
195 – 200 1
103
Resp: S = 9,56
La Regresión lineal se refiere a la predicción del valor de una variable a partir de una o más variables. En
ocasiones se denomina a la variable dependiente (y) variable de respuesta y a la variable independiente (x)
variable de predicción.
En muchos problemas hay dos o más variables inherentemente relacionadas, y es necesario explorar la
naturaleza de esta relación. El análisis de regresión puede emplearse por ejemplo para construir un modelo
que exprese el rendimiento como una función de la temperatura. Este modelo puede utilizarse luego para
predecir el rendimiento en un nivel determinado de temperatura. También puede emplearse con propósitos
de optimización o control del proceso.
Comenzaremos con el caso más sencillo, la predicción de una variable (y) a partir de otra variable (x).
Para las situaciones siguientes establezca cual es la variable dependiente y cual es la independiente.
a) Un actuario quiere predecir el monto del seguro de vida alcanzado por los maestros a partir de sus
salarios mensuales.
Solución: la variable dependiente o de respuesta, es el monto del seguro de vida alcanzado por un
maestro, y la variable independiente o variable de predicción es el salario anual del docente.
b) El gerente de un restaurante quiere estimar el número de clientes que puede esperar cierta noche a
partir del número de reservaciones para cenar recibidas hasta las 5:00 PM
Solución: El número de clientes es la variable de respuesta, el número de reservaciones es la variable
independiente.
Ejemplo 1:
La revista Motor Trend presenta con frecuencia datos de rendimiento para automóviles, que compara el
tamaño del motor en pulgadas cúbicas de desplazamiento (pcd) y las millas por galón (mpg) estimadas
para ocho modelos representativos de automóviles subcompactos modelo 1984.
Graficando los datos de la tabla en el “diagrama de dispersión” podemos observar la colección de los ocho
pares de datos (x,y) como muestra de una población de pares, donde las medidas pulgadas cúbicas de
desplazamiento (pcd) “x” pueden tomar cualquier valor en el rango de valores que se extiende de 85 a 122.
Para cada pcd posible hay muchos millajes asociados con ella. Por ejemplo para un tamaño del motor de
97 hay un gran número de millajes asociados, uno por cada coche cuyo tamaño sea 97 pcd. Asumamos
que existe una relación lineal para la población de pares de datos de pcd y mpg. (Se entiende por relación
lineal cuando la variable y tiene una tendencia a crecer o decrecer, cuando la variable x aumenta).
Diagrama de dispersión
39
37
35
m 33
p 31
g 29
27
25
80 90 100 110 120 130
pcd
ddci
d
y 0 1 x
Donde
y = variable dependiente
0 ordenada al origen
1 = pendiente
x = variable independiente
= Error aleatorio
También es llamada ecuación de predicción de mínimos cuadrados. La ecuación de regresión estimada es:
yˆ b0 b1 x.
Donde:
ŷ Valor predicho de ŷ para un valor particular de x.
b =
0 Estimador puntual de 0 .(ordenada al origen)
b1= Estimador puntual de 1. (pendiente)
x 2
SS x x 2
y 2
SS y y 2
x y
SS xy xy
n
SS xy
b1
SS x
b0 y b1 x
Donde:
SS = suma de cuadrados
b1 = pendiente
b0 = ordenada al origen
n = número de pares de datos
En la tabla incluimos las sumatorias que utilizaremos para el cálculo de las fórmulas.
UNA PUNO Geoestadística Aplicada
Página 13
coches compactos tamaño del motor (pcd) x millas/galón (mpg), y x^2 y^2 xy
Chevrolet Cavalier 121 30 14641 900 3630
Datsun Nissan Stanza 120 31 14400 961 3720
Dodge Omni 97 34 9409 1156 3298
Ford Escort 98 27 9604 729 2646
Mazda 626 122 29 14884 841 3538
Plymouth Horizon 97 34 9409 1156 3298
Renault Alliance/Encore 85 38 7225 1444 3230
Toyota Corolla 122 32 14884 1024 3904
SUMAS 862 255 94456 8211 27264
Media 107.75 31.875
Calculando b0 y b1 tenemos:
SSx = 1575.50
SSy = 82.88
SSxy = -212.25
b1 = -0.13472
b0 = 46.39099
50 y =46.391 -0.1347x
40
30
Y
20
Y
10
Lineal (Y)
0
0 50 100 150
Variable X
Error
Los errores se denominan frecuentemente residuales. Podemos observar en la gráfica de regresión los
errores indicados por segmentos verticales.
Residual
Residual
0 10
0 X=0.000
-10 -10
-20
-20 -30
-40 -3.0SL=-43.26
-50
-2 -1 0 1 2 0 5 10
Marcador Normal Número de Observación
Histograma - Histograma de Residuales Residuales vs. Ajustes
¿curva de 3 20
10
Frecuencia
campana? 2
Residual
0
¿Aleatorio
1 -10
Ignórese 0
-20
para grupos
-25 -20 -15 -10 -5 0 5 10 15 450 500
Ajuste
550 alrededor de
pequeños de cero, sin
Buscar
Buscarlas
lasinconsistencias
inconsistencias tendencias?
información
mayores
mayores
(<30)
ANALISIS DE REGRESION
Al usar el criterio de mínimos cuadrados para obtener la recta que mejor se ajuste a nuestros datos,
podemos obtener el valor mínimo para la suma de cuadrados del error (SSE)
SSE SS y b1 SS xy
s e2 , se encuentra
A la varianza de los errores e se le llama varianza residual siendo denotada por
dividiendo SSE entre n-2
SSE
S e2
n2
La raíz cuadrada positiva de la varianza residual se llama error estándar de estimación y se denota por
Se.
Aplicando las fórmulas en obtenemos la suma de cuadrados del error, la varianza residual y el error
estándar de la estimación:
54.2849
S e2 9.0475
6
Se = 3.007
Ejemplo 2: Una firma de renta de coches recabó los datos adjuntos sobre los costos de mantenimiento y, y
las millas recorridas x para siete de sus automóviles.
d) Una estimación puntual para el costo promedio del mantenimiento de un coche con 36,000 millas
recorridas.
e) Prediga el costo para un coche con 29,000 millas recorridas.
SSx = 1154.86
SSy = 24207.71
SSxy = 5193.43
b1 = 4.4970
b0 =57.5567
SSE = 852.70
S e2 = 170.54
y = 57.5567 + 4.497x
a) b0 =57.5567
b) b1 = 4.4970
c)
S e2 = 170.54
d) 57.5567 + 4.497(36) = 219.44 usd
e) 57.5567 + 4.497(29) = 187.96 usd
Donde:
SSE = Suma de cuadrados del error
SSR = Suma de cuadrados de la regresión
SSE = SSy-b1SSxy
SSR = b1SSy
Prueba de hipótesis utilizando la distribución F
Si fuera cierta H 0 : 1 0 , el estadístico F serviría como estadístico de prueba: F está definido como:
SSR
F
S e2
Con gl = (1,n-2), se puede usar el estadístico F para determinar si 1 es diferente de cero. Si la pendiente
de la ecuación de regresión poblacional es diferente de cero, entonces la ecuación se puede usar con
propósitos de predicción.
Ejemplo 3: Para los datos del ejemplo 1 haga una prueba para determinar si 1 0 , usando 0.05
H 0 : 1 0
H 1 : 1 0
b1 = -0.13472
S e2 9.0475
SSR 28.5901
F 3.16
S e2 = 9.0475
b1
t
Se SSx , donde gl = n-2
Ejemplo 4: Usando los datos del ejemplo 1, haga una prueba para determinar si 1 0 usando la prueba
de t y 0.05 .
H 0 : 1 0
H 1 : 1 0
b1 0.1347
t 1.7775
Se SSx = 9.0475 1575.5
Análisis de correlación
Establece si existe una relación entre las variables y responde a la pregunta,”¿Qué tan evidente es esta
relación?".
La correlación es una prueba fácil y rápida para eliminar factores que no influyen en la predicción, para una
respuesta dada.
Coeficiente de Correlación de Pearson
SSxy
r
SSxSSy
Tabla de Correlación
Por su importancia, ¿cuál es el coeficiente mínimo de correlación?
Pago anual
Empleado (miles de dólares) Inasistencias
1 15.7 4
2 17.2 3
3 13.8 6
4 24.2 5
5 15 3
6 12.7 12
7 13.8 5
8 18.7 1
9 10.8 12
10 11.8 11
11 25.4 2
12 17.2 4
SSxy = -130.06667
SSx = 230.569167
SSy = 164.666667
SSxy
r
SSxSSy = -0.6675
Diagrama de dispersión
14
12
Inasistencias
10
8 Serie1
6 Lineal (Serie1)
4
2
0
0 5 10 15 20 25 30
Pago anual (miles usd)
BIBIOGRAFIA