Está en la página 1de 38

Estadística

Introducción
¿Qué es?
Ciencia que explica y provee de herramientas para trabajar con datos, y que ha
experimentado un gran desarrollo a lo largo de los últimos años.

¿En qué áreas se aplica la estadística?


Actualmente se aplica en todas las áreas del saber, por ejemplo en Sociología,
Educación, Psicología, Administración, Economía, Medicina, Ciencias Políticas,
entre otras.

Ejemplos de su aplicación son:

1) En Investigación Educativa: la estadística se utiliza para soportar el análisis de


resultados obtenidos después de un proceso, e incluso en la parte relativa a la validación
de instrumentos empleados (sicometría).

2) En Pedagogía: para describir un colectivo o para inferir sobre posibles resultados en


muestras más grandes o equivalentes.

Tomado de internet, y ajustado por J. Casas 1


Estadística

Introducción
Ejemplos de su aplicación son:

3) En Ciencias Políticas: para conocer las preferencias de los electores antes de una
votación mediante sondeos y así orientar las estrategias de los candidatos.

4) En Sociología: para estudiar las opiniones de los colectivos sociales sobre temas de
actualidad.

5) En Psicología: para elaborar las escalas de los test y cuantificar aspectos del
comportamiento humano (por ejemplo los test que se aplican a los candidatos para un
cargo en una empresa).

6) En Medicina: uno entre muchos usos de la estadística, es para determinar el estado de


salud de la población.

En general en las Ciencias Sociales, la estadística se emplea para medir las relaciones
entre variables y hacer predicciones sobre ellas.

Tomado de internet, y ajustado por J. Casas 2


Estadística

Introducción
Etapas de un estudio estadístico
Un análisis estadístico se lleva a cabo siguiendo las etapas habituales en el llamado
método científico cuyas etapas son:
1) Planteamiento del problema: consiste en definir el objetivo de la investigación y
precisar el universo o población.

2) Recogida de la información: consiste en recolectar los datos necesarios


relacionados al problema de investigación.

3) Análisis descriptivo: consiste en resumir los datos disponibles para extraer la


información relevante en el estudio.

4) Inferencia estadística: consiste en suponer un modelo para toda la población


partiendo de los datos analizados, para obtener conclusiones generales.

5) Diagnóstico: consiste en verificar la validez de los supuestos del modelo que nos
han permitido interpretar los datos y llegar a conclusiones sobre la población

Tomado de internet, y ajustado por J. Casas 3


Estadística

Introducción
Esquema de las etapas de un estudio estadístico

AREA DE INTERES DATOS

ORGANIZAR Y RESUMIR

Tema de Investigación ESTADÍSTICA DESCRIPTIVA


(Tablas, Gráficos, Medidas
-Antecedentes Previos Descriptivas, etc.)
-Objetivos
INTERPRETACIÓN
-Preguntas de Investigación
-Posibles Hipótesis Muestra
¿Población o Muestra?
-Unidad de Análisis
INFERENCIA ESTADÍSTICA
-Población Población
-Variables CONCLUSIONES

Probabilidad
INFORMACIÓN

4
Tomado de internet, y ajustado por J. Casas
Estadística

Introducción
Ejemplos de algunos problemas a estudiar

1) Se quiere estudiar si en cierto colectivo existe discriminación salarial debida al sexo de


la persona empleada.

2) Se quiere determinar el perfil de los trabajadores en términos de condiciones


económicas y sociales en diferentes comunidades.

3) Se quiere estudiar el consumo de las personas de una zona determinada en cuanto a


vestuario, alimentación, ocio y vivienda.

4) Se quiere determinar las actitudes hacia la ciencia en un grupo objetivo.

5) Se quiere determinar el tiempo que dedican al trabajo y a la familia los trabajadores de


distintas empresas del país.

6) Se quiere determinar el perfil sociodemográfico de los estudiantes de una Universidad.

7) Se quiere estudiar el gasto en teléfono móvil mensual de los estudiantes de una


Universidad y si éste tiene alguna relación con su edad u otras características.

Tomado de internet, y ajustado por J. Casas 5


Estadística

Resumen de algunos conceptos planteados en la Introducción

• VARIABLE: es lo que se va a medir y representa una característica de la UNIDAD DE ANÁLISIS.


ANÁLISIS.
• ¿QUIÉNES VAN A SER MEDIDOS?: Los sujetos u objetos o Unidades de Análisis de una
Población o una Muestra
• POBLACIÓN : Es el total de unidades de análisis que son tema de estudio.

• MUESTRA: Es un conjunto de unidades de análisis provenientes de una población.

Población: Muestra

“Las personas que


Muestra: 60 trabajadores de empresas de comunicación
trabajan en empresas de
Unidad de análisis: Trabajador de empresa de comunicación
comunicación”
Variables: sexo, edad, salario, Nº de horas de trabajo, etc.

Tomado de internet, y ajustado por J. Casas 6


Estadística

Variable: corresponde a la característica de la Unidad de Análisis

TIPOS DE VARIABLES
Variables Cuantitativas Variables Cualitativas
CONTINUA DISCRETA NOMINAL ORDINAL
Intervalo

Toma valores enteros Característica o cualidad


cuyas categorías no tienen
Ejemplos: Número de Hijos,
Ejemplos: Hijos, Número de
un orden preestablecido.
empleados de una empresa,
empresa, Número de
asignaturas aprobadas en un semestre,
semestre, etc. Ejemplos: Sexo, Deporte
Ejemplos:
favorito,, etc.
favorito
Toma cualquier valor dentro de un intervalo
Característica o cualidad cuyas
Ejemplos:: Peso; Estatura; Temperatura, etc.
Ejemplos categorías tienen un orden
preestablecido.
Ejemplos: Calificación (B, M, A);
Ejemplos:
Grado de interés por un tema, etc.

Unidad de Medida:
Medida: Gramos o Kilos para la variable Peso; Grados C o F para Temperatura 7
Tomado de internet, y ajustado por J. Casas
Estadística

Frecuencia: desde un conjunto de unidades, corresponde al Número o Porcentaje de veces que se


presenta una característica.

Variable Variable
Cuantitativa Cualitativa

CONTINUA NOMINAL

DISCRETA ORDINAL

Frecuencia Absoluta (F)


o relativa (f)
Frecuencia Absoluta (FAA) o relativa
acumulada (fra
(fra))

Tomado de internet, y ajustado por J. Casas 8


Estadística

Problema de Investigación:
Investigación: Se quiere establecer el perfil de las
EJEMPLO universidades con más alto índice o puntaje en los ECAES en función de
algunas características.
Unidad de Análisis:
Análisis: Universidades con mayores puntajes en los ECAES.
Población:: Todas las universidades del país
Población

Variables
- Tipo de Universidad
Universidad:: se clasifica en pública o privada, laica o confesional, universidad tipo A, B, C o
D. (cualitativa nominal
nominal))
- Nº de estudiantes
estudiantes:: se refiere al número de estudiantes activos en las universidades seleccionadas
seleccionadas..
(cuantitativa discreta
discreta))
- Cobertura
Cobertura:: se refiere al número de estudiantes que posee (unidad de medidamedida)) y que son estudiantes
regulatres en las muestras seleccionadas(c
seleccionadas(cuantitativa,
uantitativa, discreta)
- Puntaje en ECAES
ECAES:: calificación realizada por el ICFES con base en una escala fijada por esta
institución (MUY BAJO, BAJO, MEDIO, ALTO, MUY ALTO) ALTO).. (cualitativa ordinal
ordinal))
- Años de funcionamiento
funcionamiento:: …

TABLAS DE
Datos FRECUENCIA
9
Tomado de internet, y ajustado por J. Casas
Estadística

Elementos de una tabla de frecuencia cuando la variable es continua (x)

Centro
Intervalo de clase Amplitud F f FAA fra
[LI1 ; LS1 [
I1 c1 a1
[LI2 ; LS2 [ I2 c2 a2
.
.
[LIk ; LSk] Ik ck ak n 1
Total n 1

cj = (LIj) + LSj )/2 aj = (LSj – LIj))

Tomado de internet, y ajustado por J. Casas 10


Estadística

Ejercicio: confección de una tabla de frecuencia para una variable continua

Los datos corresponden a la edad de los


hijos de los trabajadores de una empresa Realice la siguiente actividad
1) Construya un Diagrama de Tallo y Hoja
10,5 10,7 9,5 10,5 11,8 11,2
12,0 10,3 13,5 12,3 10,6 9,8 2) ¿Cuál es la variable?
variable?;; ¿Cuál es la Unidad de
10,7 11,5 11,1 10,6 9,3 12,9 análisis?;; ¿Cuánto vale n?
análisis? n?;; ¿Cuál es el rango
10,4 7,5 10,2 8,7 10,9 9,9 de la variable?
variable?..
11,7 10,3 10,6 10,5 11,9 11,0 3) Sobre una Tabla de frecuencia
frecuencia:: ¿Cuántos
13,9 10,6 10,0 10,8 10,6 - intervalos podría construir?
construir?;; ¿Cuál es la
7,3 8,0 8,5 12,5 9,7 - amplitud de cada intervalo?
intervalo?;; ¿Cuántas
medidas de frecuencia puede obtener para
Datos ordenados de menor a mayor cada intervalo?
intervalo?..
7,3 9,7 10,4 10,6 11,1 12,3 4) Construir tabla de frecuencia para la
7,5 9,8 10,5 10,6 11,2 12,5 variable:: Intervalos, centro de clase,
variable
8,0 9,9 10,5 10,7 11,5 12,9 amplitud, frecuencias
frecuencias..
8,5 10,0 10,5 10,7 11,7 13,5
8,7 10,2 10,6 10,8 11,8 13,9
9,3 10,3 10,6 10,9 11,9 - Diagrama de Tallo y Hoja: permite organizar los
9,5 10,3 10,6 11,0 12,0 - datos de una variable medida sobre un conjunto de
individuos. Su utilidad viene dada cuando no se
cuenta con herramientas automáticas para ordenar
los datos.
11
Tomado de internet, y ajustado por J. Casas
Estadística

TIPOS DE GRÁFICOS 1. Gráfico de Sectores Circulares (de Torta)

Distribución de las unidades de


análisis de acuerdo a variable 1
Distribución de las unidades de análisis de
acuerdo a variable 1 D
10% A
20%

C
D A 40% B
10% 20% 30%

Distribución de las unidades de


análisis de acuerdo a variable 1
C B
40% 30%
D A
10% 20%

C
B
40%
30%

12
Tomado de internet, y ajustado por J. Casas
Estadística

TIPOS DE GRÁFICOS 2. Gráfico de Barras

Numero de unidades de análisis Proporción de unidad de análisis de acuerdo a


variable 1
de acuerdo a variable 1

D
500

variable 1
400 C
300
B

200

100 A

0
0 0,2 0,4 0,6 0,8 1
A B C D
Proporción de unidad de análisis
variable 1
-Este tipo de gráfico se utiliza generalmente para
Porcentaje de unidad de análisis de acuerdo a representar la frecuencia de las categorías de una
variable 1
variable cualitativa
cualitativa..
D -Cuando una variable es cuantitativa se puede utilizar
este tipo de gráfico sólo si la variable se ha
variable 1

C
transformada en categorías
categorías..
B
-Hay distintas versiones de estos gráficos (por ejemplo
A
en Excel), y en algunos casos son muy útiles para
0 20 40 60 80 100 describir el comportamiento de una variable en distintos
% unidad de análisis grupos..
grupos 13
Tomado de internet, y ajustado por J. Casas
Estadística

TIPOS DE GRÁFICOS 3. Histograma


Histograma
Histograma
Distribución de los hijos de trabajadores
de la empresa de acuerdo a edad - Permite la representación de
15
la frecuencia de una variable
Cuantitativa..
Cuantitativa
Frecuencia

10

- El eje x se refiere a la

5
variable..
variable
- El eje y se refiere a la
0
frecuencia (Nº , %).
7 8 9 10 11 12 13 14

edad
edad
- Cada barra representa la
frecuencia de la variable en la
Ejemplo
población en estudio (o la
En el gráfico se puede observar el número de muestra)..
muestra)
hijos , de menor edad (7-
(7-8 años), las de mayor
edad (13-
(13-14 años); y además que la mayoría de -El histograma se puede
hijos de los trabajadores están entre los 10 y 12 construir desde los datos de la
años. tabla de frecuencia de la
variable en estudio
estudio..
14
Tomado de internet, y ajustado por J. Casas
Estadística

TIPOS DE GRÁFICOS 5. Polígono de Frecuencia

Distribución de los hijos de trabajadores


de la empresa de acuerdo a edad
15
-Esta representación se basa en
el Histograma
Histograma..
-Sólo es útil para variables
Frecuencia

10

edad cuantitativas..
cuantitativas

5
-El eje x se refiere a la
variable..
variable
0

7 8 9 10 11 12 13 14
- El eje y se refiere a la
edad frecuencia (Nº , %).
-Los puntos que permiten la
unión de las líneas representa
el centro de clase (o marca de
clase)..
clase)

15
Tomado de internet, y ajustado por J. Casas
Estadística

TIPOS DE GRÁFICOS 5. Diagrama de Caja

Edad de las personas que han sido profesores de un


programa de doctorado en el país entre 1990 y 2010
100
- Permite identificar gráficamente la
90
mediana, los cuartiles 1 y 3
80 (percentiles 25 y 75 75),
), mínimo y
70
máximo de una variable
variable..

60 - Sólo es útil para variables


cuantitativas..
cuantitativas
Edad

50
-El eje x permite identificar la
40
poblacion en estudio
estudio..
30
- El eje y representa los valores de la
20 variable en estudio
estudio..
10
0
N= 584 1473 16
Mujeres Hombres

Tomado de internet, y ajustado por J. Casas


Estadística

TIPOS DE GRÁFICOS 6. Otros

Número de alumnos matriculados en la Número de alumnos matriculados en la


Carrera A según año de ingreso Carrera B según año de ingreso

100 100
Nº de alumnos

Nº de alumnos
80 80
60 60
40 40
20 20
0 0
1998 1999 2000 2001 2002 2003 1998 1999 2000 2001 2002 2003
año de ingreso año de ingreso

Número de alumnos matriculados en las Carreras


según año de ingreso
Nº de alumnos
200
año de ingreso Carrera A Carrera B
Nº de alumnos

1998 60 80 150
1999 55 70
100
2000 80 50
2001 40 60 50
2002 68 50
0
2003 70 75
1998 1999 2000 2001 2002 2003

Carrera B año ingreso


Carrera A 17
Tomado de internet, y ajustado por J. Casas
Estadística

NOTACION
Variables Cuantitativas

x variable xi valorOBSERVACIONES
de la variable en el individuo i
y variable y valor de la variable en el individuo i i 1,..., n
* El Tipo de Gráficoi seleccionado va a depender de la variable en estudio
estudio..
* El Gráfico debe contener un a,Título
b, c : constantes
General y la identificación de cada
eje (variable en estudio y frecuencia)
frecuencia)..
n n n n
c nc resulta cx
c *c Enocasiones más
i cx  cxun
ilustrativo
1 xi2 tabla
c xi que una
n gráfico x12 de
 xn2
i 1 frecuencia..
frecuencia i 1 i 1 i 1

n n
* Al igual que las tablas, los gráficos deben ser auto
auto--explicativos
explicativos.
n .
2
(axi b) (ax1 b)  (axn b) a xi b ( xi ) ( x1  xn ) 2
i 1 i 1 i 1

n
( xi yi ) ( x1 y1 )  ( xn yn )
i 1

n
( xi y i ) ( x1 y1 )  ( xn y n )
i 1
18
Tomado de internet, y ajustado por J. Casas
Estadística

-Media Aritmética (Promedio)


MEDIDAS DE TENDENCIA CENTRAL -Mediana
-Moda

Datos Cuantitativos Datos Cuantitativos ordenados de menor a mayor


x x Mediana
x1 x(1)
Media Aritmética o Promedio ME x( k ) Si n es impar
x2 n x( 2 )
xi x( k ) x( k 1) Si n es par
 i 1  ME
x 2
xn n x(n )
x(k ) dato del centro

Datos Moda
Cualitativos y Cuantitativos M o " el dato que más se repite"

19
Tomado de internet, y ajustado por J. Casas
Estadística

-Percentil (ejemplo: 25, 50, 75)


Percentiles, Deciles o Cuartiles -Decil (ejemplo: 4, 5, 8)
-Cuartil (ejemplo: 1, 2, 3)

Percentil, Decil o Cuartil: corresponde al valor que toma la variable (cuantitativa), cuando los n
datos están ordenados de Menor a Mayor
El Percentil va de 1 a 100
El percentil 25 (25/100):
(25/100): es el valor de la variable que reúne al menos el 25% de los datos
Ejemplo: Si N=80, el 25% de 80 es 20; por lo tanto, se busca el dato que este en la posición 20.
Si N=85, el 25% de 85 es 21,25; por lo tanto se busca el dato que este en la posición 22.
El Decil va de 1 a 10
El Decil 4 (4/10):
(4/10): es el valor de la variable que reúne al menos el 40% de los datos
Ejemplo: Si N=80, el 40% de 80 es 32; por lo tanto, se busca el dato que este en la posición 32.
Si N=85, el 40% de 85 es 34; por lo tanto se busca el dato que este en la posición 34.
El Cuartil va de 1 a 4
El Cuartil 3 (3/4):
(3/4): es el valor de la variable que reúne al menos el 75% de los datos
Ejemplo: Si N=80, el 75% de 80 es 60; por lo tanto, se busca el dato que este en la posición 60.
Si N=85, el 75% de 85 es 63,75; por lo tanto se busca el dato que este en la posición 64. 20
Tomado de internet, y ajustado por J. Casas
Estadística

-Rango
MEDIDAS DE DISPERSIÓN -Varianza
-Desviación Estándar

Datos Cuantitativos Varianza


x Rango n n
1 n
2 2
x1 ( xi x) x i ( xi ) 2 n
R max( xi ) min( xi ) s 2 n i1 1
i 1 i 1
xi2 x2
x2 n n n i 1


Desviación Típica o Estándar
xn
s s2

Comparación entre Variables


Coeficiente de Variación
Se refiere al comportamiento de las variables cuantitativas en un
grupo. Por ejemplo: Si se tiene un conjunto de personas a las que s
cv
se les mide Estatura, Peso, Edad: Entre estas variables ¿cuál x
presenta mayor variación? 21
Tomado de internet, y ajustado por J. Casas
Estadística

-Asimetría
Otras medidas o Coeficientes
-Kurtosis o Apuntamiento

Además de la posición y la dispersión de los datos, otra medida de interés en una distribución de frecuencias
es la simetría y el apuntamiento o kurtosis.

Si CA=0 si la distribución es simétrica alrededor de la media.


n

i 1
( xi x)3 Si CA - si la distribución es asimétrica a la izquierda
Coeficiente de Asimetría CA
n s3 Si CA + si la distribución es asimétrica a la derecha

- Si CAp=0 la distribución se dice normal (similar a la


distribución normal de Gauss) y recibe el nombre de
n
mesocúrtica.

Coeficiente de Apuntamiento CAp i 1


( xi x)4
- Si CAp + 0, la distribución es más puntiaguda que
n s4 la anterior y se llama leptocúrtica, (mayor
concentración de los datos en torno a la media).

- Si CAp - la distribución es más plana y se llama


platicúrtica.
22
Tomado de internet, y ajustado por J. Casas
Estadística

-Asimetría
Otras medidas o Coeficientes
-Kurtosis o Apuntamiento

Ejemplos Histogramas con distinta asimetría y apuntamiento

14 30 6

12 5

10
20 4

8
3

10 2
4

1 Desv. típ. = 2,42


2 Desv. típ. = 1,67 Desv. típ. = ,64
Media = 3,9 Media = 0,0 Media = 5,2

N = 30,00 N = 30,00 0 N = 28,00


0 0
1,0 2,0 3,0 4,0 5,0 6,0 7,0 -1,0 0,0 1,0 2,0 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0

V2 V4 V5

23
Tomado de internet, y ajustado por J. Casas
Estadística

-Asimetría
Otras medidas o Coeficientes
-Kurtosis o Apuntamiento

Ejemplos

Datos Histograma Medidas descriptivas


16

1 4 4 Media 3,9
14
1 4 4 Mediana 4

1 4 5
12 Moda 4

2 4 5 10
Desviación estándar 1,67

2 4 6 Varianza de la muestra 2,78


8
2 4 6 kurtosis -0,43
6
2 4 6 Coeficiente de asimetría -0,02

3 4 6 4 Rango 6

3 4 7 Desv. típ. = 1,77 Mínimo 1


2
Media = 5,4
4 4 7 Máximo 7
0 N = 66,00
1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0 Cuenta 30

V1

Tomado de internet, y ajustado por J. Casas 24


Estadística

Media, Desviación típica, Coeficientes de Asimetría y Apuntamiento


para datos Agrupados (tabla de frecuencias)

Tabla de frecuencia (para variable cuantitativa) 2) La Desviación típica para datos


Centro agrupados esta dada por
por::
Intervalo de clase Amplitud F f FAA fra
k
I1 c1 a1 n1 f1
sc (c j xc ) 2 f j
I2 c2 a2 n2 f2 j 1
.
.    
Ik ck ak nk fk n 1 3) El Coeficiente de Asimetría para
Total n 1
datos agrupados esta dado por
por::
k

Sea cj la marca de clase (o centro de clase) y fj la (c j xc ) 3 f j


frecuencia relativa de la clase j, donde j=1, 2,…, k. CAc
j 1

s c3
1) La Media para datos agrupados es igual a la
suma de los productos de las marcas de clase 4) El Coeficiente de apuntamiento para
por sus frecuencias relativas, de la forma: datos agrupados esta dada por
por::
k
k
Media c xc cj f j (c j xc ) 4 f j
j 1
j 1 CApc
s c4
25
Tomado de internet, y ajustado por J. Casas
Estadística

Descripción de 2 variables cualitativas

Problema Distribución conjunta


Interesa estudiar cuál es el
Tabla 1 Actividad
principal medio de transporte
preferido por un grupo de Transporte estudiante esporádico trabajador
personas a la hora de dirigirse bus o buseta 5 7 0
a la universidad.
bicicleta o moto 3 3 2

Para esto se consultó a cada Caminar 2 5 2


persona sobre la situación automóvil 5 4 5
frente a la universidad y el transmilenio 6 7 4
medio de transporte preferido
preferido..

Transporte Nº %
bus o buseta 12 20,0 Actividad Nº %

bicicleta o moto 8 13,3


estudiante 21 35,0

caminar 9 15,0
esporádico 26 43,3

automóvil 14 23,3
trabajador 13 21,7

transmilenio 17 28,3
TOTAL 60 100

TOTAL 60 100

26
Tomado de internet, y ajustado por J. Casas
Estadística

Descripción de 2 variables cualitativas

Distribución conjunta
Nº de personas
Tabla 2 Actividad

Transporte estudiante esporádico trabajador TOTAL


bus o buseta 5 7 0 12
bicicleta o moto 3 3 2 8
caminar 2 5 2 9
automóvil 5 4 5 14
transmilenio 6 7 4 17
TOTAL 21 26 13 60

Actividad: elaborar tabla con porcentajes respecto del total de personas (n=60)

27
Tomado de internet, y ajustado por J. Casas
Estadística

Descripción de 2 variables cualitativas

Distribución conjunta
Nº de personas y % respecto de tipo de Transporte
Tabla 3 Actividad

Transporte estudiante esporádico trabajador TOTAL


bus o buseta 5 7 0 12
% 41,7 58,3 0 100
bicicleta o moto 3 3 2 8
% 37,5 37,5 25 100
caminar 2 5 2 9
% 22,2 55,6 22,2 100
automóvil 5 4 5 14
% 35,7 28,6 35,7 100
transmilenio 6 7 4 17
% 35,3 41,2 23,5 100
TOTAL 21 26 13 60
% 35 43,3 21,7 100

28
Tomado de internet, y ajustado por J. Casas
Estadística

Descripción de 2 variables cualitativas

Distribución conjunta
Nº de personas y % respecto de tipo de Actividad
Tabla 4 Actividad

Transporte estudiante esporádico trabajador TOTAL


Bus o buseta 5 7 0 12
% 23,8 26,9 0 20
bicicleta o moto 3 3 2 8
% 14,3 11,5 15,4 13,3
caminar 2 5 2 9
% 9,5 19,2 15,4 15
automóvil 5 4 5 14
% 23,8 15,4 38,5 23,3
transmilenio 6 7 4 17
% 28,6 26,9 30,8 28,3
TOTAL 21 26 13 60
% 100 100 100 100

29
Tomado de internet, y ajustado por J. Casas
Estadística

- Covarianza Datos
MEDIDAS DE ASOCIACIÓN LINEAL
- Correlación Cuantitativos

x
x1 Recordemos que
que:: Hasta ahora hemos estudiado las medidas tendencia
central (Media, Mediana, Moda) y dispersión
x2 (Varianza y Desviación Estándar) para una Variable
 Cuantitativa (x)
(x)..
xn

Covarianza: Es una medida de Variabilidad Conjunta entre dos variables (x1 , x2) o bien (x , y)
1 n
x y cov( x , y ) ( xi x )( yi y)
x(1) y( 1 )
ni 1
Si Cov(x,y) es positiva
positiva:: la asociación entre x e y es directamente proporcional,
x( 2 ) y( 2 )
es decir que cuando x aumenta y también aumenta
aumenta;; y viceversa
viceversa..
  Si Cov(x,y) es negativa
negativa:: la asociación entre x e y es inversamente proporcional,
x(n ) y( n ) es decir que cuando x aumenta y disminuye
disminuye;; y viceversa
viceversa..
Si Cov(x,y) es cero:
cero: no existe asociación entre x e y.
30
Tomado de internet, y ajustado por J. Casas
Estadística

- Covarianza Datos
MEDIDAS DE ASOCIACIÓN LINEAL
- Correlación Cuantitativos

Correlación:: Se refiere al grado de asociación entre dos variables (x1 , x2) o bien (x , y)
Correlación
Coeficiente de Correlación de Pearson (r): Mide el grado de Asociación Lineal
entre dos variables Cuantitativas
n
x y
cov( x , y ) xi yi nx y
x(1) y( 1 ) r i 1 1 r 1
sx s y r
x( 2 ) y( 2 ) ( n 1 )s x s y
  Si r es positivo
positivo:: la asociación entre x e y es directamente proporcional, es decir que
x(n ) y( n ) cuando x aumenta y también aumenta
aumenta;; y viceversa
viceversa.. Si r=1: la asociación lineal es
perfecta..
perfecta
Si r es negativo
negativo:: la asociación entre x e y es inversamente proporcional, es decir
que cuando x aumenta y disminuye
disminuye;; y viceversa
viceversa.. Si r=-1: la asociación lineal es
perfecta..
perfecta
Si r es cero
cero:: no existe asociación entre x e y.

31
Tomado de internet, y ajustado por J. Casas
Estadística

EJEMPLO : Representación gráfica de las variables x e y

r=1 r=-1

32
Tomado de internet, y ajustado por J. Casas
Estadística

Datos Cuantitativos

REGRESION LINEAL SIMPLE


Objetivo 1 Objetivo 2
Determinar si dos variables están x y Estudiar si los valores de una
asociadas y en qué sentido se da x(1) y( 1 ) variable pueden ser utilizados para
la asociación.
asociación. predecir el valor de la otra
x( 2 ) y( 2 )
 
x(n ) y( n )
Determinar si existe relación Estudiar la dependencia de una
entre las variables x e y: variable respecto de la otra:
Coeficiente de Correlación Modelo de Regresión
Términos
Variable Respuesta (=variable dependiente)
Variable Explicativa (=variable Independiente)
Relación Lineal (modelo lineal)
Parámetros (intercepto y pendiente)
Intercepto (respuesta media)
Pendiente (efecto de la variable explicativa sobre la respuesta)
Error (residuo)
33
Tomado de internet, y ajustado por J. Casas
Estadística

Datos Cuantitativos
REGRESION LINEAL SIMPLE
x y
x(1) y( 1 ) Notación
x( 2 ) y( 2 ) Variable Respuesta: y
Variable Explicativa: x
 
x(n ) y( n ) Modelo de Regresión Lineal Simple: yi= + xi+ei
Intercepto:
Pendiente:
Error: e
Modelo Estimado
(recta de regresión) Método de Estimación: Mínimos Cuadrados
a y bx
n n n Residuos o Errores
ŷ a bx n xy xi yi ei yi yˆ i
i 1 i 1 i 1
b 2
n n
2
n x xi
i 1 i 1
34
Tomado de internet, y ajustado por J. Casas
Estadística

REGRESION LINEAL SIMPLE

MODELO DE REGRESIÓN LINEAL SIMPLE


yi= + xi+ei

DATOS MODELO ESTIMADO


x y
x(1) y( 1 )
ŷ a bx
x( 2 ) y( 2 )
ESTIMADORES ERRORES
 
x(n ) y( n ) a y bx ei yi yˆ i
n n n
n xy xi yi
i 1 i 1 i 1
b 2
n n
n x2 xi
i 1 i 1
35
Tomado de internet, y ajustado por J. Casas
Estadística

REGRESION LINEAL SIMPLE

EJEMPLO: Aplicación del Modelo de Regresión Lineal Simple


Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14 niños, y estamos
interesados en determinar si existe algún tipo de relación entre la talla del niño y su edad.
niño edad (meses) talla (cm)
i xi yi
y=talla / x=edad / n=14
1 3 55
2 6 68
14
3 5 64
yi 956 y 68,3 s y 5,6
4 5 66
i 1
5 3 62 14
6 4 65 xi 84 x 6 sx 2
7 9 74 i 1
8 8 75
9 9 73
cov( x, y ) 9,07 rxy 0,88
10 7 69 14 14
11 6 73 xi y i 5863 xi2 556
12 5 68 i 1 i 1
13 8 73
14 6 71

36
Tomado de internet, y ajustado por J. Casas
Estadística

REGRESION LINEAL SIMPLE

EJEMPLO: Aplicación del Modelo de Regresión Lineal Simple


Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14 niños, y estamos
interesados en determinar si existe algún tipo de relación entre la talla del niño y su edad.

Modelo Estimado
ŷ a bx

b 2,44 a 53,64

yˆ 53,64 2,44 x

Interpretación de los resultados


- Existe asociación o dependencia entre la Talla del niño y la edad (r=0,88); a
medida que la edad aumenta la talla aumenta.
- Desde los resultados del modelo de regresión lineal simple, se tiene que la talla
media de un niño al nacer es de 53,64 cm. Cuando la edad del niño (meses)
aumenta en una unidad, la talla se incrementa en 2,44 cm.
37
Tomado de internet, y ajustado por J. Casas
Estadística

REGRESION LINEAL SIMPLE

EJEMPLO: Aplicación del Modelo de Regresión Lineal Simple


Problema 1: Se cuenta con las mediciones sobre la edad y la talla de 14 niños, y estamos
interesados en determinar si existe algún tipo de relación entre la talla del niño y su edad.

niño edad (meses) talla (cm) Talla estimada error


i xi yi ŷi ei 14

1 3 55 61,0 -6,0
( yi yi ) 2 402,86
i 1
2 6 68 68,3 -0,3 14 14
3 5 64 65,8 -1,8 ( yi yˆ i ) 2 ei2 92,7
4 5 66 65,8 0,2 i 1 i 1
5 3 62 61,0 1,0
6 4 65 63,4 1,6
7 9 74 75,6 -1,6 Bondad de Ajuste del Modelo
8 8 75 73,2 1,8 R2 = 0,77
9 9 73 75,6 -2,6
10 7 69 70,7 -1,7 De acuerdo al coeficiente de
11 6 73 68,3 4,7 determinación, el modelo ajustado
12 5 68 65,8 2,2 a los datos es adecuado (R2
13 8 73 73,2 -0,2 cercano a 1)
14 6 71 68,3 2,7

38
Tomado de internet, y ajustado por J. Casas

También podría gustarte