Está en la página 1de 21

FACULTAD DE INGENIERIA GEOLÓGICA Y METALÚRGICA

ESUELA PROFESIONAL DE INGENIERIA GEOLÓGICA

TRABAJO ENCARGADO
MEDIDAS DE TENDENCIA CENTRAL, VARIABILIDAD, REGRESION LINEAL

CURSO: GEOESTADISTICA APLICADA

ESTUDIANTE:
 HENRY JHON CURASI MAMANI
SEMESTRE: IX GRUPO: U

CODIGO: 135113

DOCENTE:
 Ing. GEORGES LLERENA P.

UNA PUNO Geoestadística Aplicada


Página 1
C.U. mayo del 2018

LA ESTADISTICA

Estadística Descriptiva
 Aplicarás conceptos estadísticos: muestra, población y tipos de variables.
 Ordenarás y organizarás la información.
 Analizarás y construirás tablas y gráficos.
 Determinarás medidas de tendencia central: media aritmética, moda y mediana.
 Calcularás medidas de dispersión: rango, desviación estándar y varianza.
 Conocerás e interpretarás las medidas de posición: cuartiles, quintiles, deciles y percentiles.

Estadística Inferencial
 Determinarás la homogeneidad y heterogeneidad de una muestra.
 Compararás distribuciones de distintas muestras de poblaciones dependiendo del tipo de muestreo
aplicado.
 Determinarás y calcularás funciones de probabilidad y distribución de una variable aleatoria
discreta.
 Estudiarás la correlación y regresión lineal de distribuciones bidimensionales.
 Reconocerás distribuciones normales y binominales. Y calcularás probabilidades con ellas.

Introducción

Existen diferentes razones por las cuales los profesionales deben conocer los fundamentos de la estadística
como instrumento del trabajo cotidiano. En esta guía se pretende dar a conocer algunas nociones estadísticas
que nos ayudarán a explorar y describir, en un primer momento, nuestros datos.

Poblaciones y Muestras

Cuando se realiza un estudio de investigación, se pretende generalmente inferir o generalizar resultados de


una muestra a una población. Se estudia en particular a un reducido número de individuos a los que
tenemos acceso con la idea de poder generalizar los hallazgos a la población de la cual esa muestra
procede. Este proceso de inferencia se efectúa por medio de métodos estadísticos basados en la
probabilidad.

La población representa el conjunto grande de individuos que deseamos estudiar y generalmente suele ser
inaccesible. Es, en definitiva, un colectivo homogéneo que reúne unas características determinadas.

La muestra es el conjunto menor de individuos (subconjunto de la población accesible y limitado sobre el


que realizamos las mediciones o el experimento con la idea de obtener conclusiones generalizables a la
población). El individuo es cada uno de los componentes de la población y la muestra. La muestra debe ser
representativa de la población y con ello queremos decir que cualquier individuo de la población en estudio
debe haber tenido la misma probabilidad de ser elegido.

Las razones para estudiar muestras en lugar de poblaciones son diversas y entre ellas podemos señalar:

a. Ahorrar tiempo. Estudiar a menos individuos es evidente que lleva menos tiempo.
b. Como consecuencia del punto anterior ahorraremos costes.

c. Estudiar la totalidad de los pacientes o personas con una característica determinada en muchas
ocasiones puede ser una tarea inaccesible o imposible de realizar.

d. Aumentar la calidad del estudio. Al disponer de más tiempo y recursos, las observaciones y
mediciones realizadas a un reducido número de individuos pueden ser más exactas y plurales que
si las tuviésemos que realizar a una población.

e. La selección de muestras específicas nos permitirá reducir la heterogeneidad de una población al


indicar los criterios de inclusión y/o exclusión.

Tipos de datos

UNA PUNO Geoestadística Aplicada


Página 2
Lo que estudiamos en cada individuo de la muestra son las variables (edad, sexo, peso, talla, tensión
arterial sistólica, etcétera). Los datos son los valores que toma la variable en cada caso. Lo que vamos a
realizar es medir, es decir, asignar valores a las variables incluidas en el estudio. Deberemos además
concretar la escala de medida que aplicaremos a cada variable.

La naturaleza de las observaciones será de gran importancia a la hora de elegir el método estadístico más
apropiado para abordar su análisis. Con este fin, clasificaremos las variables, a grandes rasgos, en dos
tipos: variables cuantitativas o variables cualitativas.

a. Variables cuantitativas. Son las variables que pueden medirse, cuantificarse o expresarse
numéricamente. Las variables cuantitativas pueden ser de dos tipos:
o Variables cuantitativas continuas, si admiten tomar cualquier valor dentro de un rango
numérico determinado (edad, peso, talla).

o Variables cuantitativas discretas, si no admiten todos los valores intermedios en un rango.


Suelen tomar solamente valores enteros (número de hijos, número de partos, número de
hermanos, etc).

b. Variables cualitativas. Este tipo de variables representan una cualidad o atributo que clasifica a
cada caso en una de varias categorías. La situación más sencilla es aquella en la que se clasifica
cada caso en uno de dos grupos (hombre/mujer, enfermo/sano, fumador/no fumador). Son datos
dicotómicos o binarios. Como resulta obvio, en muchas ocasiones este tipo de clasificación no es
suficiente y se requiere de un mayor número de categorías (color de los ojos, grupo sanguíneo,
profesión, etcétera).

En el proceso de medición de estas variables, se pueden utilizar dos escalas:

o Escalas nominales: ésta es una forma de observar o medir en la que los datos se ajustan
por categorías que no mantienen una relación de orden entre sí (color de los ojos, sexo,
profesión, presencia o ausencia de un factor de riesgo o enfermedad, etcétera).
o Escalas ordinales: en las escalas utilizadas, existe un cierto orden o jerarquía entre las
categorías (grados de disnea, estadiaje de un tumor, etcétera).

Estadística descriptiva

Una vez que se han recogido los valores que toman las variables de nuestro estudio (datos), procederemos
al análisis descriptivo de los mismos. Para variables categóricas, como el sexo o la estatura, se quiere
conocer el número de casos en cada una de las categorías, reflejando habitualmente el porcentaje que
representan del total, y expresándolo en una tabla de frecuencias.

Para variables numéricas, en las que puede haber un gran número de valores observados distintos, se ha
de optar por un método de análisis distinto, respondiendo a las siguientes preguntas:

a. ¿Alrededor de qué valor se agrupan los datos?


b. Supuesto que se agrupan alrededor de un número, ¿cómo lo hacen? ¿muy concentrados? ¿muy
dispersos?

I. Medidas de tendencia central

Las medidas de centralización vienen a responder a la primera pregunta. La medida más evidente que
podemos calcular para describir un conjunto de observaciones numéricas es su valor medio. La media no
es más que la suma de todos los valores de una variable dividida entre el número total de datos de los que
se dispone.

Como ejemplo, consideremos 10 pacientes de edades 21 años, 32, 15, 59, 60, 61, 64, 60, 71, y 80. La
media de edad de estos sujetos será de:

UNA PUNO Geoestadística Aplicada


Página 3
Más formalmente, si denotamos por (X1, X2,...,Xn) los n datos que tenemos recogidos de la variable en
cuestión, el valor medio vendrá dado por:

Otra medida de tendencia central que se utiliza habitualmente es la mediana. Es la observación


equidistante de los extremos.

La mediana del ejemplo anterior sería el valor que deja a la mitad de los datos por encima de dicho valor y
a la otra mitad por debajo. Si ordenamos los datos de mayor a menor observamos la secuencia:

15, 21, 32, 59, 60, 60,61, 64, 71, 80.

Como quiera que en este ejemplo el número de observaciones es par (10 individuos), los dos valores que
se encuentran en el medio son 60 y 60. Si realizamos el cálculo de la media de estos dos valores nos dará
a su vez 60, que es el valor de la mediana.

Si la media y la mediana son iguales, la distribución de la variable es simétrica. La media es muy sensible a
la variación de las puntuaciones. Sin embargo, la mediana es menos sensible a dichos cambios.

Cálculo de la mediana para datos agrupados

La m e d i a n a se encuentra en el i nt e r v a l o donde la f r e c u e n c i a a c u m u l a d a llega hasta la m i t a d


de la suma de las frecuencias absolutas .

Es decir tenemos que buscar el intervalo en el que se encuentre .

L i es el límite inferior de la clase donde se encuentra la mediana.

es la semisuma de las frecuencias absolutas.


F i - 1 es la f r e c u e n c i a a c u m u l a d a anterior a la clase mediana.
a i es la amplitud de la clase.

La m e d i a n a es i n d e p e n d i e n t e de las a m p l i t u d e s de los i nt e r v a l o s .

Por último, otra medida de tendencia central, no tan usual como las anteriores, es la moda, siendo éste el
valor de la variable que presenta una mayor frecuencia.

En el ejemplo anterior el valor que más se repite es 60, que es la moda.

Cálculo de la moda para datos agrupados

L i es el límite inferior de la clase modal.


f i es la frecuencia absoluta de la clase modal.
f i - 1 es la frecuencia absoluta inmediatamente inferior a la clase modal.
f i + 1 es la frecuencia absoluta inmediatamente posterior a la clase modal.
a i es la amplitud de la clase.

UNA PUNO Geoestadística Aplicada


Página 4
b. Medidas de dispersión

Tal y como se adelantaba antes, otro aspecto a tener en cuenta al describir datos continuos es la dispersión
de los mismos. Existen distintas formas de cuantificar esa variabilidad. De todas ellas, la varianza (S2) de
los datos es la más utilizada. Es la media de los cuadrados de las diferencias entre cada valor de la
variable y la media aritmética de la distribución.

Esta varianza muestral se obtiene como la suma de las de las diferencias de cuadrados y por tanto tiene
como unidades de medida el cuadrado de las unidades de medida en que se mide la variable estudiada.

En el ejemplo anterior la varianza sería:

Sx2=

La desviación típica (S) es la raíz cuadrada de la varianza. Expresa la dispersión de la distribución y se


expresa en las mismas unidades de medida de la variable. La desviación típica es la medida de dispersión
más utilizada en estadística.

Aunque esta fórmula de la desviación típica muestral es correcta, en la práctica, la estadística nos interesa
para realizar inferencias poblacionales, por lo que en el denominador se utiliza, en lugar de n, el valor n-1.

Por tanto, la medida que se utiliza es la cuasidesviación típica, dada por:

Aunque en muchos contextos se utiliza el término de desviación típica para referirse a ambas expresiones.

En los cálculos del ejercicio previo, la desviación típica muestral, que tiene como denominador n, el valor
sería 20.678. A efectos de cálculo lo haremos como n-1 y el resultado seria 21,79.

El haber cambiado el denominador de n por n-1 está en relación al hecho de que esta segunda fórmula es
una estimación más precisa de la desviación estándar verdadera de la población y posee las propiedades
que necesitamos para realizar inferencias a la población.

Cuando se quieren señalar valores extremos en una distribución de datos, se suele utilizar la amplitud
como medida de dispersión. La amplitud es la diferencia entre el valor mayor y el menor de la distribución.

Por ejemplo, utilizando los datos del ejemplo previo tendremos 80-15 =65.

Como medidas de variabilidad más importantes, conviene destacar algunas características de la varianza y
desviación típica:

UNA PUNO Geoestadística Aplicada


Página 5
 Son índices que describen la variabilidad o dispersión y por tanto cuando los datos están muy
alejados de la media, el numerador de sus fórmulas será grande y la varianza y la desviación típica
lo serán.
 Al aumentar el tamaño de la muestra, disminuye la varianza y la desviación típica. Para reducir a la
mitad la desviación típica, la muestra se tiene que multiplicar por 4.

 Cuando todos los datos de la distribución son iguales, la varianza y la desviación típica son iguales
a 0.

 Para su cálculo se utilizan todos los datos de la distribución; por tanto, cualquier cambio de valor
será detectado.

Otra medida que se suele utilizar es el coeficiente de variación (CV). Es una medida de dispersión
relativa de los datos y se calcula dividiendo la desviación típica muestral por la media y multiplicando el
cuociente por 100. Su utilidad estriba en que nos permite comparar la dispersión o variabilidad de dos o
más grupos. Así, por ejemplo, si tenemos el peso de 5 pacientes (70, 60, 56, 83 y 79 Kg) cuya media es de
69,6 kg. y su desviación típica (s) = 10,44 y la TAS de los mismos (150, 170, 135, 180 y 195 mmHg)

cuya media es de 166 mmHg y su desviación típica de 21,3. La pregunta sería: ¿qué distribución es más
dispersa, el peso o la tensión arterial? Si comparamos las desviaciones típicas observamos que la desviación
típica de la tensión arterial es mucho mayor; sin embargo, no podemos comparar dos variables que tienen
escalas de medidas diferentes, por lo que calculamos los coeficientes de variación:

CV de la variable peso =

CV de la variable TAS =

A la vista de los resultados, observamos que la variable peso tiene mayor dispersión.

Cuando los datos se distribuyen de forma simétrica (y ya hemos dicho que esto ocurre cuando los valores
de su media y mediana están próximos), se usan para describir esa variable su media y desviación típica.
En el caso de distribuciones asimétricas, la mediana y la amplitud son medidas más adecuadas. En este
caso, se suelen utilizar además los cuartiles y percentiles.

Los cuartiles y percentiles no son medidas de tendencia central sino medidas de posición. El percentil es
el valor de la variable que indica el porcentaje de una distribución que es igual o menor a esa cifra.

Así, por ejemplo, el percentil 80 es el valor de la variable que es igual o deja por debajo de sí al 80% del
total de las puntuaciones. Los cuartiles son los valores de la variable que dejan por debajo de sí el 25%,
50% y el 75% del total de las puntuaciones y así tenemos por tanto el primer cuartil (Q1), el segundo (Q2) y
el tercer cuartil (Q3).

Cálculo de los cuartiles

1 O r d e n a m o s los d a t o s de m e n o r a m a y o r .

2 Buscamos el lugar que ocupa cada c u a r t i l mediante la expresión .

Número impar de datos


2, 5, 3, 6, 7, 4, 9

Número par de datos


UNA PUNO Geoestadística Aplicada
Página 6
2, 5, 3, 4, 6, 7, 1, 9

Cálculo de los cuartiles para datos agrupados

En primer lugar buscamos la c l a s e donde se encuentra , en la t a bl a d e l a s


frecuencias acumuladas .

L i es el límite inferior de la clase donde se encuentra el cuartil.


N es la suma de las frecuencias absolutas.
F i - 1 es la f r e c u e n c i a a c u m u l a d a anterior a la clase d e l c u a r t i l .
a i es la amplitud de la clase.

Los d e c i l e s son los n u e v e v a l o r e s que d i v i d e n la serie de d a t o s en d i e z p a r t e s i g u a l e s .


Los d e c i l e s dan los valores correspondientes al 10%, al 20%... y al 90% de los datos.
D5 coincide con la mediana.

Cálculo de los deciles

En primer lugar buscamos la clase donde se encuentra , en la tabla de las frecuencias


acumuladas.

L i es el límite inferior de la clase donde se encuentra el decil.


N es la suma de las frecuencias absolutas.
F i - 1 es la f r e c u e n c i a a c u m u l a d a anterior a la clase e l d e c i l .
a i es la amplitud de la clase.

Los p e r c e n t i l e s son los 9 9 v a l o r e s que d i vi d e n la serie de d a t o s en 1 0 0 p a r t e s i g u a l e s .


Los p e r c e n t i l e s dan los valores correspondientes al 1%, al 2%... y al 99% de los datos.
P50 coincide con la mediana.
Cálculo de los percentiles

En primer lugar buscamos la clase donde se encuentra , en la tabla de las


frecuencias acumuladas.

L i es el límite inferior de la clase donde se encuentra el percentil.


N es la suma de las frecuencias absolutas.
F i - 1 es la f r e c u e n c i a a c u m u l a d a anterior a la clase d e l p e r c e n t i l .
a i es la amplitud de la clase.

II. MEDIDAS DE DISPERSIÓN


UNA PUNO Geoestadística Aplicada
Página 7
A pesar de la gran importancia de las medidas de tendencia central y de la cantidad de información que
aportan individualmente, no hay que dejar de señalar que en muchas ocasiones esa información, no sólo
no es completa, sino que puede inducir a errores en su interpretación. Veamos algunos ejemplos.

Consideremos dos grupos de personas extraídos como muestras respectivas de dos poblaciones distintas:
el primero está compuesto por 100 personas que asisten a la proyección de una película para niños, y el
segundo por 100 personas elegidas entre los asistentes a una discoteca juvenil. Pudiera ocurrir que, aun
siendo las distribuciones de las edades de ambos grupos muy distinta, la media y la mediana coincidieran
para ambas. (Da un ejemplo concreto en que esto ocurra).

Igualmente ocurre en este otro ejemplo. La caja de un kiosco registra las siguientes entradas en miles de
pesos, a lo largo de dos semanas correspondientes a épocas distintas del año

1ª semana 2ª semana
10 30
20 40
30 50
50 50
60 60
80 60
100 60
350 350

La media y la mediana de ambas distribuciones coinciden (el valor de ambas es 50 en los dos casos) y, sin
embargo, las consecuencias que se podrían derivar de una y otra tabla son bien distintas.

Comprendemos pues, a la vista de estos ejemplos, la necesidad de conocer otras medidas, aparte de los
valores de centralización, que nos indiquen la mayor o menor desviación de cada observación respecto de
aquellos valores.

Las medidas de desviación, variación o dispersión que estudiaremos a continuación son: Rango o amplitud,
desviación media y desviación típica.

RANGO, AMPLITUD TOTAL O RECORRIDO

El rango se suele definir como la diferencia entre los dos valores extremos que toma la variable. Es la
medida de dispersión más sencilla y también, por tanto, la que proporciona menos información. Además,
esta información puede ser errónea, pues el hecho de que no influyan más de dos valores del total de la
serie puede provocar una deformación de la realidad.
Comparemos, por ejemplo, estas dos series:

Serie 1: 1 5 7 7 8 9 9 10 17
Serie 2: 2 4 6 8 10 12 14 16 18

Ambas series tienen rango 16, pero están desigualmente agrupadas, pues mientras la primera tiene una
mayor concentración en el centro, la segunda se distribuye uniformemente a lo largo de todo el recorrido.

El uso de esta medida de dispersión, será pues, bastante restringido.

DESVIACIÓN MEDIA

En teoría, la desviación puede referirse a cada una de las medidas de tendencia central: media, mediana o
moda; pero el interés se suele centrar en la medida de la desviación con respecto a la media, que
llamaremos desviación media.

Puede definirse como la media aritmética de las desviaciones de cada uno de los valores con respecto a la
media aritmética de la distribución, y de indica así:

DM 
 xx
N

UNA PUNO Geoestadística Aplicada


Página 8
Nótese que se toman las desviaciones en valor absoluto, es decir, que la fórmula no distingue si la
diferencia de cada valor de la variable con la media es en más o en menos.

Ya se habrá advertido que esta expresión sirve para calcular la desviación media en el caso de datos sin
agrupar. Veamos un ejemplo:

Se tiene los valores 2, 2, 4, 4, 5, 6, 7, 8, 8. Averiguar la desviación media de estos valores.

x xx x
2 -3 3
2 3 3
4 -1 1
4 -1 1
4 -1 1
5 0 0
6 1 1
7 2 2
8 3 3
8 3 3

DM = 1,8

Veamos ahora cómo se calcula la desviación media en el caso de datos agrupados en intervalos.

DM 
n i x
N

donde observamos que ahora las desviaciones van multiplicadas por las frecuencias de los intervalos
correspondientes.

Además, las desviaciones son de cada centro, o marca de clase, a la media aritmética. Es decir,

DM 
 n (x i m  x)
N

Ejemplo: Para hallar la desviación media de la siguiente tabla referida a las edades de los 100 empleados
de una cierta empresa:

Clase ni
16-20 2
20-24 8
24-28 8
28-32 18
32-36 20
36-40 18
40-44 15
44-48 8
48-52 3

veamos cómo se procede:

Clase ni xm ni  xm x x
ni  x  x
16-20 2 18 36 16,72 33,44
20-24 8 22 176
24-28 8
28-32 18
32-36 20
36-40 18
40-44 18
44-48 8
48-52 3

UNA PUNO Geoestadística Aplicada


Página 9
100

DM = 6,09

La desviación media viene a indicar el grado de concentración o de dispersión de los valores de la variable.
Si es muy alta, indica gran dispersión; si es muy baja refleja un buen agrupamiento y que los valores son
parecidos entre sí.

La desviación media se puede utilizar como medida de dispersión en todas aquellas distribuciones en las
que la medida de tendencia central más significativas haya sido la media. Sin embargo, para las mismas
distribuciones es mucho más significativa la desviación típica, que estudiaremos a continuación, y eso hace
que el uso de la desviación media sea cada vez más restringido.

DESVIACIÓN TÍPICA

Es sin duda la medida de dispersión más importante, ya que además sirve como medida previa al cálculo
de otros valores estadísticos.

La desviación típica se define como la raíz cuadrada de la media de los cuadrados de las desviaciones con
respecto a la media de la distribución. Es decir,

S
  x  x 2

para datos sin agrupar, o bien:

 xx
2

S 
N

Cálculo de la desviación típica para datos no agrupados en clases

Veamos la fórmula anterior aplicada a un caso concreto.

Hallar la desviación típica de la serie: 5, 8, 10, 12, 16.

x x x x x 2

5 -5,2 27,04
8 -2,2 4,84
10 -0,2 0,04
12 1,8 3,24
16 5,8 33,64

Primero hallamos x = 10,2

luego S = 13,76  3,71

Cálculo de la desviación típica para datos agrupados en clases y agrupados por frecuencias

Método largo: Se aplica la siguiente fórmula

S
 fx 2
N

donde x  x m  x y f es la frecuencia absoluta de cada intervalo.

Método abreviado o corto: La fórmula a utilizar es:

 fd   fd 
2 2

SI  
N  N 
 

UNA PUNO Geoestadística Aplicada


Página 10
donde:
I: amplitud de la clase
D: distancia en clases desde cada una en concreto a la clase que contiene a la media supuesta A.

Ejemplo: Las alturas en cm de un grupo de 103 personas se distribuyen así:

Clases f
150 – 155 3
155 – 160 6
160 – 165 12
165 – 170 18
170 – 175 25
175 – 180 17
180 – 185 10
185 – 190 7
190 – 195 4
195 – 200 1
103

Resp: S = 9,56

III. ANALISIS DE REGRESION LINEAL

La Regresión lineal se refiere a la predicción del valor de una variable a partir de una o más variables. En
ocasiones se denomina a la variable dependiente (y) variable de respuesta y a la variable independiente (x)
variable de predicción.
En muchos problemas hay dos o más variables inherentemente relacionadas, y es necesario explorar la
naturaleza de esta relación. El análisis de regresión puede emplearse por ejemplo para construir un modelo
que exprese el rendimiento como una función de la temperatura. Este modelo puede utilizarse luego para
predecir el rendimiento en un nivel determinado de temperatura. También puede emplearse con propósitos
de optimización o control del proceso.

Comenzaremos con el caso más sencillo, la predicción de una variable (y) a partir de otra variable (x).

REGRESIÓN LINEAL SIMPLE

Para las situaciones siguientes establezca cual es la variable dependiente y cual es la independiente.

a) Un actuario quiere predecir el monto del seguro de vida alcanzado por los maestros a partir de sus
salarios mensuales.
Solución: la variable dependiente o de respuesta, es el monto del seguro de vida alcanzado por un
maestro, y la variable independiente o variable de predicción es el salario anual del docente.

b) El gerente de un restaurante quiere estimar el número de clientes que puede esperar cierta noche a
partir del número de reservaciones para cenar recibidas hasta las 5:00 PM
Solución: El número de clientes es la variable de respuesta, el número de reservaciones es la variable
independiente.

Supuestos para el modelo de regresión lineal1


1. Para cada valor de x, la variable aleatoria  se distribuye normalmente.
E     0
2. Para cada valor de x, la media o valor esperado de  es 0; esto es, .
3. Para cada valor de x, la varianza de  es la constante  (llamada varianza del error).
2

4. Los valores del término de error  son independientes.


5. Para un valor fijo de x, la distribución muestral de y es normal, porque sus valores dependen de los de
.

UNA PUNO Geoestadística Aplicada


Página 11
6. Para un valor fijo x, es posible predecir el valor de y.
7. Para un valor fijo x, es posible estimar el valor promedio de y

Ejemplo 1:
La revista Motor Trend presenta con frecuencia datos de rendimiento para automóviles, que compara el
tamaño del motor en pulgadas cúbicas de desplazamiento (pcd) y las millas por galón (mpg) estimadas
para ocho modelos representativos de automóviles subcompactos modelo 1984.

coches compactos tamaño del motor (pcd) x millas/galón (mpg), y


Chevrolet Cavalier 121 30
Datsun Nissan Stanza 120 31
Dodge Omni 97 34
Ford Escort 98 27
Mazda 626 122 29
Plymouth Horizon 97 34
Renault Alliance/Encore 85 38
Toyota Corolla 122 32

Graficando los datos de la tabla en el “diagrama de dispersión” podemos observar la colección de los ocho
pares de datos (x,y) como muestra de una población de pares, donde las medidas pulgadas cúbicas de
desplazamiento (pcd) “x” pueden tomar cualquier valor en el rango de valores que se extiende de 85 a 122.
Para cada pcd posible hay muchos millajes asociados con ella. Por ejemplo para un tamaño del motor de
97 hay un gran número de millajes asociados, uno por cada coche cuyo tamaño sea 97 pcd. Asumamos
que existe una relación lineal para la población de pares de datos de pcd y mpg. (Se entiende por relación
lineal cuando la variable y tiene una tendencia a crecer o decrecer, cuando la variable x aumenta).

Diagrama de dispersión

39
37
35
m 33
p 31
g 29
27
25
80 90 100 110 120 130
pcd
ddci
d

UNA PUNO Geoestadística Aplicada


Página 12
Usamos el modelo probabilístico siguiente para explicar el comportamiento de los millajes para las ocho
medidas de tamaño de motor, este se llama modelo de regresión lineal, y expresa la relación lineal entre
tamaño de motor (x) y millas por galón (y).

Modelo de regresión lineal

y   0  1 x  

Donde
y = variable dependiente
 0  ordenada al origen
 1 = pendiente
x = variable independiente
 = Error aleatorio

La expresión  0   1 x se denomina componente determinística del modelo de regresión lineal. La


muestra de pares de datos se usará para estimar los parámetros  0 y 1 de la componente determinística.
La diferencia principal entre un modelo pobabilístico y uno determinístico es la inclusión de un término de
error aleatorio en el modelo probabilístico. En el ejemplo los diferentes rendimientos para un mismo
tamaño de motor se atribuyen al término de error en el modelo de regresión.

Cálculo de la ecuación de regresión

También es llamada ecuación de predicción de mínimos cuadrados. La ecuación de regresión estimada es:
yˆ  b0  b1 x.

Donde:
ŷ  Valor predicho de ŷ para un valor particular de x.

b =
0 Estimador puntual de  0 .(ordenada al origen)
b1= Estimador puntual de  1. (pendiente)

Para el cálculo de b0 y b1 se utilizamos las siguientes fórmulas:

 x 2

SS x   x  2

 y 2

SS y   y  2

  x   y 
SS xy   xy 
n

SS xy
b1 
SS x

b0  y  b1 x

Donde:
SS = suma de cuadrados
b1 = pendiente
b0 = ordenada al origen
n = número de pares de datos

En la tabla incluimos las sumatorias que utilizaremos para el cálculo de las fórmulas.
UNA PUNO Geoestadística Aplicada
Página 13
coches compactos tamaño del motor (pcd) x millas/galón (mpg), y x^2 y^2 xy
Chevrolet Cavalier 121 30 14641 900 3630
Datsun Nissan Stanza 120 31 14400 961 3720
Dodge Omni 97 34 9409 1156 3298
Ford Escort 98 27 9604 729 2646
Mazda 626 122 29 14884 841 3538
Plymouth Horizon 97 34 9409 1156 3298
Renault Alliance/Encore 85 38 7225 1444 3230
Toyota Corolla 122 32 14884 1024 3904
SUMAS 862 255 94456 8211 27264
Media 107.75 31.875

Calculando b0 y b1 tenemos:
SSx = 1575.50
SSy = 82.88
SSxy = -212.25
b1 = -0.13472
b0 = 46.39099

La ecuación de predicción de mínimos cuadrados es:


yˆ  b0  b1 x. => yˆ  46.39099  0.37472 x

Gráfica de la ecuación de regresión

50 y =46.391 -0.1347x
40
30
Y

20
Y
10
Lineal (Y)
0
0 50 100 150
Variable X

Error

Los errores se denominan frecuentemente residuales. Podemos observar en la gráfica de regresión los
errores indicados por segmentos verticales.

UNA PUNO Geoestadística Aplicada


Página 14
¿Qué tan normales ¿Residuales individuales -
son los residuales? tendencias; o separados?
Diagnóstico del Modelo de Residuales
Gráfica Normal de Residuales Tabla de Residuales
20 50 3.0SL=43.26
40
10 30
20

Residual

Residual
0 10
0 X=0.000

-10 -10
-20
-20 -30
-40 -3.0SL=-43.26
-50
-2 -1 0 1 2 0 5 10
Marcador Normal Número de Observación
Histograma - Histograma de Residuales Residuales vs. Ajustes

¿curva de 3 20
10
Frecuencia

campana? 2

Residual
0

¿Aleatorio
1 -10

Ignórese 0
-20

para grupos
-25 -20 -15 -10 -5 0 5 10 15 450 500
Ajuste
550 alrededor de
pequeños de cero, sin
Buscar
Buscarlas
lasinconsistencias
inconsistencias tendencias?
información
mayores
mayores
(<30)

 ANALISIS DE REGRESION

Al usar el criterio de mínimos cuadrados para obtener la recta que mejor se ajuste a nuestros datos,
podemos obtener el valor mínimo para la suma de cuadrados del error (SSE)

SSE  SS y  b1 SS xy

s e2 , se encuentra
A la varianza de los errores e se le llama varianza residual siendo denotada por
dividiendo SSE entre n-2

SSE
S e2 
n2

La raíz cuadrada positiva de la varianza residual se llama error estándar de estimación y se denota por
Se.

Aplicando las fórmulas en obtenemos la suma de cuadrados del error, la varianza residual y el error
estándar de la estimación:

SSE = 82.88-(-0.13472)(-212.25) =54.2849

54.2849
S e2   9.0475
6
Se = 3.007

Ejemplo 2: Una firma de renta de coches recabó los datos adjuntos sobre los costos de mantenimiento y, y
las millas recorridas x para siete de sus automóviles.

Automóvil Millas recorridas x Costos de manteni-


en miles miento y (dólares)
A 55 299
B 27 160
C 36 215
D 42 255
E 65 350
F 48 275
UNA PUNO G 29 Geoestadística Aplicada
Página 15 207
Encuentre:

a) Una estimación puntual para  0 .


b) Una estimación puntual para  1.
c) Una estimación puntual para la varianza del error  .
2

d) Una estimación puntual para el costo promedio del mantenimiento de un coche con 36,000 millas
recorridas.
e) Prediga el costo para un coche con 29,000 millas recorridas.

Automóvil x y x^2 y^2 xy


A 55 299 3025 89401 16445
B 27 160 729 25600 4320
C 36 215 1296 46225 7740
D 42 255 1764 65025 10710
E 65 350 4225 122500 22750
F 48 275 2304 75625 13200
G 29 207 841 42849 6003
Suma 302 1761 14184 467225 81168
Media 43.14 251.57

SSx = 1154.86
SSy = 24207.71
SSxy = 5193.43
b1 = 4.4970
b0 =57.5567
SSE = 852.70

S e2 = 170.54
y = 57.5567 + 4.497x

a) b0 =57.5567
b) b1 = 4.4970
c)
S e2 = 170.54
d) 57.5567 + 4.497(36) = 219.44 usd
e) 57.5567 + 4.497(29) = 187.96 usd

Inferencias sobre el modelo de regresión lineal.

Para usar la ecuación de regresión yˆ   0   1 x , con propósitos de predicción, queremos estar


 
razonablemente seguros de que la pendiente  1 de la ecuación de regresión E y x   0   1 x no es
cero. Ya que si  1  0 , entonces para cualquier valor de x, E  y x  sería idéntica a  0 , como se muestra
en la figura. Siendo este el caso el modelo no sería apropiado.

UNA PUNO Geoestadística Aplicada


Página 16
Con el propósito de determinar si la pendiente de la regresión poblacional es diferente de cero, separemos
SSy en dos componentes, SSE y SSR.
Tenemos la siguiente relación:
SSy = SSE + SSR

Donde:
SSE = Suma de cuadrados del error
SSR = Suma de cuadrados de la regresión

SSE = SSy-b1SSxy
SSR = b1SSy
Prueba de hipótesis utilizando la distribución F
Si fuera cierta H 0 :  1  0 , el estadístico F serviría como estadístico de prueba: F está definido como:
SSR
F
S e2
Con gl = (1,n-2), se puede usar el estadístico F para determinar si  1 es diferente de cero. Si la pendiente
de la ecuación de regresión poblacional es diferente de cero, entonces la ecuación se puede usar con
propósitos de predicción.
Ejemplo 3: Para los datos del ejemplo 1 haga una prueba para determinar si  1  0 , usando   0.05
H 0 : 1  0
H 1 : 1  0

En el ejemplo 1 y 2 obtuvimos los siguientes valores:


SSxy = -212.25

b1 = -0.13472
S e2  9.0475

La suma de cuadrados para la regresión SSR se calcula mediante:


SSR = b1SSxy = (-212.25)(-0.1347) =28.5901

Hallamos el estadístico de prueba F:

SSR 28.5901
F  3.16
S e2 = 9.0475

Se encuentra el valor crítico F (1, n  2)  F0.05(1,6) = 5.99. Como F = 3.16<5.99, no rechazamos


H 0 :  1  0 . Concluimos que la ecuación yˆ  46.3889  0.1347 x no debe usarse con propósitos de
predicción, y no tenemos evidencia que apoye que el modelo lineal es correcto para nuestros datos.

Prueba de hipótesis utilizando la distribución t

Otra manera de realizar la prueba de hipótesis H 0 :  1  0 es usando la distribución t.

El estadístico de prueba es:

b1
t
Se SSx , donde gl = n-2

Ejemplo 4: Usando los datos del ejemplo 1, haga una prueba para determinar si  1  0 usando la prueba
de t y   0.05 .

H 0 : 1  0
H 1 : 1  0

b1  0.1347
t  1.7775
Se SSx = 9.0475 1575.5

UNA PUNO Geoestadística Aplicada


Página 17
Los valores críticos  t .025 para gl = 6 son  2.447 . Como –t.025 < t no rechazamos H 0 :  1  0 . Por tanto
no tenemos evidencia que sugiera que el modelo lineal es apropiado para nuestros datos.

Análisis de correlación

Establece si existe una relación entre las variables y responde a la pregunta,”¿Qué tan evidente es esta
relación?".
La correlación es una prueba fácil y rápida para eliminar factores que no influyen en la predicción, para una
respuesta dada.
Coeficiente de Correlación de Pearson

 Es una medida de la fuerza de la relación lineal entre dos variables x y y.


 Es un número entre -1 y 1
 Un valor positivo indica que cuando una variable aumenta, la otra variable aumenta
 Un valor negativo indica que cuando una variable aumenta, la otra disminuye
 Si las dos variables no están relacionadas, el coeficiente de correlación se aproxima a 0.

El coeficiente de correlación r se calcula mediante la siguiente fórmula:

SSxy
r
SSxSSy

Tabla de Correlación
Por su importancia, ¿cuál es el coeficiente mínimo de correlación?

n 95% 99% n 95% 99%


de confianza de confianza de confianza de confianza
3 1.00 1.00 15 0.51 0.64
4 0.95 0.99 16 0.50 0.61
5 0.88 0.96 17 0.48 0.61
6 0.81 0.92 18 0.47 0.59
7 0.75 0.87 19 0.46 0.58
8 0.71 0.83 20 0.44 0.56
9 0.67 0.80 22 0.42 0.54
10 0.63 0.76 24 0.40 0.52
11 0.60 0.73 26 0.39 0.50
12 0.58 0.71 28 0.37 0.48
13 0.53 0.68 30 0.36 0.46
14 0.53 0.66

Para un 95% de confianza, con una muestra de 10,


el coeficiente (r) debe ser al menos .63

UNA PUNO Geoestadística Aplicada


Página 18
Ejemplo 5: En un esfuerzo por determinar la relación entre el pago anual de los empleados y el número de
faltas al trabajo por causa de enfermedad, una corporación grande estudió los registros personales de una
muestra de doce empleados. Los datos pareados aparecen en la siguiente tabla.

Pago anual
Empleado (miles de dólares) Inasistencias
1 15.7 4
2 17.2 3
3 13.8 6
4 24.2 5
5 15 3
6 12.7 12
7 13.8 5
8 18.7 1
9 10.8 12
10 11.8 11
11 25.4 2
12 17.2 4

UNA PUNO Geoestadística Aplicada


Página 19
Determine el coeficiente de correlación e interprete el resultado.

Empleado x y x^2 y^2 xy


1 15.7 4 246.49 16 62.8
2 17.2 3 295.84 9 51.6
3 13.8 6 190.44 36 82.8
4 24.2 5 585.64 25 121.0
5 15 3 225.00 9 45.0
6 12.7 12 161.29 144 152.4
7 13.8 5 190.44 25 69.0
8 18.7 1 349.69 1 18.7
9 10.8 12 116.64 144 129.6
10 11.8 11 139.24 121 129.8
11 25.4 2 645.16 4 50.8
12 17.2 4 295.84 16 68.8
SUMATORIA 196.3 68 3441.71 550 982.3

SSxy = -130.06667
SSx = 230.569167
SSy = 164.666667

SSxy
r
SSxSSy = -0.6675

Diagrama de dispersión

14
12
Inasistencias

10
8 Serie1
6 Lineal (Serie1)
4
2
0
0 5 10 15 20 25 30
Pago anual (miles usd)

En el diagrama de dispersión observamos que al aumentar x, y disminuye, por lo cual la correlación es


negativa. Comparando el coeficiente de correlación calculado, con la tabla de correlaciones observamos
que .66 > .58, por lo cual la correlación entre las variables es fuerte.

BIBIOGRAFIA

Información recopilada en:

 “Estadística Descriptiva” Vitutor 2010 España, 14 de marzo de 2010.


http://www.vitutor.com/estadistica.html

UNA PUNO Geoestadística Aplicada


Página 20
 “Estadística descriptiva de los datos“Pita Fernández S, Pértega Díaz, S. Unidad de Epidemiología
Clínica y Bioestadística. Complexo Hospitalario Universitario de A Coruña (España).
http://www.fisterra.com/mbe/investiga/10descriptiva/10descriptiva.asp

UNA PUNO Geoestadística Aplicada


Página 21

También podría gustarte