Está en la página 1de 27

Clase de repaso.

Estadística I
a.drodriguez@udc.es
Temario.
• TEMA 1: Introdución e conceptos básicos. Aplicación da estatística ás ciencias sociais. Conceptos básicos. Tipos de variables e
• niveis de medición.
• TEMA 2: Presentación e representación de distribucións. Presentación de distribucións univariables: frecuencias absolutas, frecuencias
• relativas e porcentaxes. Formas básicas de representación gráfica: gráfico de
• sectores, gráfico rectangular, diagrama de barras e histograma. Outras formas de
• representación gráfica.
• TEMA 3: Características dunha distribución univariable. Medidas de posición centrais: media, mediana e moda. Medidas de dispersión: rango,
• varianza e desviación típica. Medidas de forma: asimetría e curtose.
• TEMA 4: Estatística descritiva bivariable. Distribucións bivariables. Presentación e análise de táboas bivariables.
• Independencia e asociación. Características dunha asociación de dúas variables.
• Medidas de asociación para variables nominais e ordinais.
• TEMA 5: Regresión e correlación simple. Concepto de covarianza. Diagrama de dispersión e curva de axuste. Concepto e tipos
• de correlación. Coeficiente de correlación de Pearson. Matriz de correlacións. A
• ecuación de regresión e o seu axuste polo método de mínimos cadrados. Cálculo dos
• coeficientes de regresión. O coeficiente de determinación e a súa interpretación.
Tema 1. Introducción a los conceptos básicos
 Variables no métricas, cualitativas o categóricas:
 Nominales: Distinguen a los elementos en clases o categorías que no tienen orden
 Ordinales: Distinguen a los elementos en clases o categorías que pueden ser
ordenadas de mayor a menor

 Variables métricas, cuantitativas:


 Intervalo: Tienen unidad de medida
 Cociente o razón: Tienen unidad de medida y la puntuación cero significa “ninguno”
o “nada”
Las variables métricas (tanto las intervalo como las cociente) se subdividen en variables
continuas y discretas
Nivel de medición Ejemplos Cualidades Operaciones

Nominal Género, preferencia Clasificación en dos o Conteo de casos de


religiosa, estado civil más categorías cada categoría,
comparaciones
Ordinal Status social, Clasificación de Además de las
satisfacción, categorías; anteriores, juicios de
preguntas sobre ordenamiento de mayor que, menor
actitudes u opiniones rangos de categorías que, cálculos de
de bajo a alto o diferencias,
viceversa promedios de rangos

Intervalo Temperatura, índices Todo lo anterior más Lo anterior más


resumidos, escalas de distancias entre operaciones
opinión y actitudes puntuaciones tienen matemáticas como
una unidad fija de suma, resta,
medida multiplicación,
división o raíces
Razón Peso, ingresos, edad, Todo lo anterior y un Todo lo anterior y
escolaridad, tamaño punto cero real cálculo de razones
de la población significativas
Tema 2. Presentación y representación de
distribuciones. Ejercicio 1: transforma la tabla de
notas en una tabla de frecuencias.
1 4 7 8
1 4 7 9 xi fi Fi %
1 5 7 9
1 5 7 9
1 5 7 9
2 5 7 9
2 5 7 10
2 6 7 10
2 6 7 10
2 6 7 10
Tema 3. Características de una distribución
univariable
• ¿Qué nos dice la frecuencia?
• Datos agrupados: media frecuencia por xi X
 ( xi  f i )
n
• Datos desagrupados: media sumatorio
• La media es sobre la xi, la frecuencia solo nos da el
número de veces que se repite un valor.
• La frecuencia nos ayuda a conocer cual es la Moda y la
Mediana (su posición), pero los valores de la misma NO
son el valor de la frecuencia.
Tema 3. Características de una distribución
univariable_Mediana
 Medida de tendencia central para variables métricas u ordinales

 Centro de la distribución: la divide en 2 partes iguales

 Si los valores no están agrupados en intervalos puede calcularse como:

 Si n es par: la mediana es el punto medio entre los valores que ocupan


las posiciones n/2 y (n/2)+1

 Si n es impar: la mediana es el valor que ocupa la posición (n+1)/2


Tema 3. Características de una distribución
univariable_Mediana
 Si los valores están agrupados en intervalos la mediana puede calcularse con
la fórmula de aproximación:

 n  Fi 1 
M d  LRIi   2 a
 fi  i
 
 Donde:
 i= intervalo de la mediana, en el que Fi ≥ n/2
 LRIi=Límite real inferior del intervalo de la mediana
 Fi-1=frecuencia acumulada en el intervalo anterior a la mediana
 fi=frecuencia del intervalo de la mediana
 ai=amplitud del intervalo de la mediana
 n=número total de elementos de la distribución o suma de frecuencias
Tema 3. Características de una distribución
univariable_ Cuartiles

Q2=P50=Me
Tema 3. Características de una distribución
univariable_ Dispersión
Recorrido o rango R  xmax  xmin

Desviación típica s  s2

 x  x   fi 
2

s 2
 i

 x   f   x 
Varianza 2

 i i 2
s2
n

s
Coeficiente de variabilidad V  100
x
Tema 3. Características de una distribución
univariable_ Asimetría
 Asimetría: Se refiere a la forma de la distribución respecto a
la mediana. Es decir, se estudia como se distribuyen los
datos respecto a un eje de simetría.

 Distribución simétrica: las dos partes a ambos lados de la Mediana


son iguales
 Distribución asimétrica positiva: la cola de la derecha es más
alargada (se aleja más del resto de la distribución)
 Distribución asimétrica negativa: la cola de la izquierda es más
alargada (se aleja más del resto de la distribución)
Tema 3. Características de una distribución
univariable_ Asimetría
MEDIDA FÓRMULA

Índice de asimetría m3
m3 
 x  x   f 
i
3
i
MEDIDA FÓRMULA
n
Coeficiente de 𝑄1 +𝑄3 −2𝑄2
asimetría de Yule- AYB=
Coeficiente de asimetría B1 m3 𝑄3 −𝑄1
(o coeficiente de asimetría de Fisher) B1  Bowley (AYB)
s3

x  Mo
Sesgo
sesgo 
s
Tema 3. Características de una distribución
univariable_ Asimetría
RESULTADOS INTERPRETACIÓN
Índice de asimetría m3=0
Coeficiente de asimetría B1=0
Distribución Simétrica
Sesgo=0
AYB=0
Índice de asimetría m3<0
Coeficiente de asimetría B1<0 Distribución Asimétrica Negativa (a la
Sesgo<0 izquierda)

AYB <0
Índice de asimetría m3>0
Coeficiente de asimetría B1>0 Distribución Asimétrica Positiva (a la
Sesgo>0 derecha)

AYB>0
Tema 3. Características de una distribución
univariable_ Curtosis
 Curtosis: se refiere al grado de apuntamiento de una
distribución. Es decir, se analiza la concentración de las
frecuencias de los valores en la zona central de la distribución.

 Distribución mesocúrtica: igual apuntamiento que la distribución


normal
 Distribución platicúrtica: menor apuntamiento que la distribución
normal
 Distribución leptocúrtica: mayor apuntamiento que la distribución
normal
Tema 3. Características de una distribución
univariable_ Curtosis

MEDIDA FÓRMULA Donde:

Coeficiente de curtosis B2
m4
B2  4 m4 
 x  x   f 
i
4
i
s n

Coeficiente de curtosis γ2  2  B2  3
Tema 3. Características de una distribución
univariable_ Curtosis
RESULTADOS INTERPRETACIÓN
Distribución Mesocúrtica
Coeficiente de curtosis B2=3

Coeficiente de curtosis γ2=0

Distribución Platicúrtica
Coeficiente de curtosis B2<3

Coeficiente de curtosis γ2<0

Distribución Leptocúrtica
Coeficiente de curtosis B2>3

Coeficiente de curtosis γ2>0


Ejercicio 2. Con los datos del ejercicio anterior
(sobre las notas de un examen), calcula: media,
mediana, moda, cuartiles, varianza, desviación
típica, rango, CV, medidas de curtosis y de
asimetría
xi fi
1 5
2 5
4 2
5 5
6 3
7 10
8 1
9 5
10 4
(xi- ((xi- ((xi- (xi- ((xi-
(xi-
xi fi xi*fi xi-media media)^ media)^2)* media)^3)*f media)^ media)^4)*
media)^3
2 fi i 4 fi
1 5 5 -4.725 22.33 111.63 -105.49 -527.44 498.43 2492.17
2 5 10 -3.725 13.88 69.38 -51.69 -258.43 192.53 962.66
4 2 8 -1.725 2.98 5.95 -5.13 -10.27 8.85 17.71
5 5 25 -0.725 0.53 2.63 -0.38 -1.91 0.28 1.38
6 3 18 0.275 0.08 0.23 0.02 0.06 0.01 0.02
7 10 70 1.275 1.63 16.26 2.07 20.73 2.64 26.43
8 1 8 2.275 5.18 5.18 11.77 11.77 26.79 26.79
9 5 45 3.275 10.73 53.63 35.13 175.63 115.04 575.20
10 4 40 4.275 18.28 73.10 78.13 312.51 334.00 1335.99
suma 337.98 suma -277.34 suma 5438.34
Media 5.73
Mediana 6.50
Moda 7.00 m3 -6.93
m4 135.96
Varianza 8.45 B1 -0.28
B2 1.90
Desviación 2.91 Sesgo -0.44
AYB -0.52 Y2 -1.10
Rango 9.00
CV 50.77
Q1 2.5
Q3 7.5 Asimetría negativa y platicúrtica
nº de votos nº de votos
Edad PP PSdeG-PSOE
20 0 11 Calcula la media de edad de los
25 0 15 votantes del PP y del PSOE.
30 1 10
35 3 13 Calcula las medidas de
40 6 11 dispersión y determina si
45 9 12
50 8 10 existen diferencias entre sus
55 14 13
60 23 14
medias y cuál presenta una
65 25 11 mayor dispersión.
70 21 13
75 25 14
nº de votos
nº de votos ((Xi-
PSdeG- (Xi- ((Xi-
Edad PP xi*fi xi-media (Xi-media)^2 media)^2)*fi
Edad PSOE xi*fi xi-media media)^2 media)^2)*fi
20 0 0 -41.5 1720.7 0.0
20 11 220 -28.0 785.5 8640.8
25 0 0 -36.5 1330.9 0.0
25 15 375 -23.0 530.3 7953.8
30 1 30 -31.5 991.1 991.1
30 10 300 -18.0 325.0 3249.8
35 3 105 -26.5 701.3 2103.8
35 13 455 -13.0 169.7 2206.2
40 6 240 -21.5 461.5 2768.7
40 11 440 -8.0 64.4 708.8
45 9 405 -16.5 271.6 2444.8
45 12 540 -3.0 9.2 110.0
50 8 400 -11.5 131.8 1054.6
50 10 500 2.0 3.9 38.9
55 14 770 -6.5 42.0 588.1
55 13 715 7.0 48.6 632.1
60 23 1380 -1.5 2.2 50.5
60 14 840 12.0 143.3 2006.9
65 25 1625 3.5 12.4 309.5
65 11 715 17.0 288.1 3168.8
70 21 1470 8.5 72.6 1523.9
70 13 910 22.0 482.8 6276.4
75 25 1875 13.5 182.8 4568.8
75 14 1050 27.0 727.5 10185.4
135 8300 16403.7
147 7060 45177.9
La media de edad entre los votantes del PP es más alta
Media 48.03
Media 61.48 que entre los votantes del PSOE, con una desviación
Varianza 121.51 Varianza 307.33
típica más alta. Desviación 17.53
Desviación 11.02
Rango 55.00 Al analizar su dispersión comprobamos como, Rango 55.00
CV 17.93 efectivamente, la edad de los votantes del PSOE es más CV 36.50
dispersa que la de los votantes del PP. Los votantes del
PP se concentran en las edades más avanzadas,
mientras que los votantes del PSOE se reparten entre
todas las edades analizadas.
Tema 4. Estadística Descriptiva Bivariable

Lleva mascarilla de tela Ejercicio 3. Calcula las tablas de


porcentajes. Y define a través de
Contagiado si no la Q de Yule si existe asociación
entre contagiarse de coronavirus y
si 135 38 170 llevar mascarilla
No 25 2 30 ¿Es posible saber cual es la
160 40 200 dirección de la asociación?
Lleva mascarilla de tela
Contagiado si no
si 84.38 95.00 85.00
Q de Yule= -0.56
No 15.63 5.00 15.00
100.00 100.00 100.00
Como no son variables
Lleva mascarilla de tela
ordinales no podemos
Contagiado si no determinar la dirección
si 79.41 22.35 100.00
No 83.33 6.67 100.00
80.00 20.00 100.00

¡RECORDAD! Para poder interpretar los signos:


Lleva mascarilla de tela Las dos variables medidas al menos a nivel
Contagiado si no ordinal
si 67.50 19.00 85.00 Las categorías de la tabla están ordenadas
No 12.50 1.00 15.00
en la misma dirección
80.00 20.00 100.00
Tabla cruzada Intención de voto en las elecciones autonómicas de Galicia de julio de 2020*Sexo de la persona entrevistada

% dentro de Sexo de la persona entrevistada

Sexo de la persona entrevistada

Hombre Mujer Total


Intención de voto en las elecciones PP 32.8% 31.9% 32.3%
autonómicas de Galicia de julio de PSdeG-PSOE 13.7% 12.8% 13.2% De los hombres, ¿qué
2020 Ciudadanos

Marea Galeguista (En Marea-


0.2% 0.1%
porcentaje tiene la
Compromiso por Galicia-Partidos
0.4% 0.2%
intención de votar al PP?
Galeguista)

VOX 0.4% 0.2%


De las mujeres, ¿qué
Los Verdes 0.2% 0.1%

Unidas Podemos 0.2% 0.1% porcentaje tiene intención


BNG

Galicia en Común-ANOVA Mareas


8.7% 5.2% 6.8%
de votar al BNG?
(Podemos-EU-ANOVA) 2.8% 1.3% 2.0%

Voto nulo 0.4% 0.2% ¿Existen diferencias en la


Otro partido

Voto blanco
0.2%

0.9%
0.2%

0.6%
0.2%

0.7%
intención de voto entre
No votaría 5.0% 3.2% 4.1% hombres y mujeres?
No sabe todavía 23.2% 29.4% 26.5%

N.C. 12.6% 13.9% 13.3%

Total 100.0% 100.0% 100.0%


Tabla cruzada Intención de voto en las elecciones autonómicas de Galicia de julio de 2020*Sexo de la persona entrevistada

% dentro de Sexo de la persona entrevistada

Sexo de la persona entrevistada

Hombre Mujer Total


Intención de voto en las elecciones PP 32.8% 31.9% 32.3%
autonómicas de Galicia de julio de PSdeG-PSOE 13.7% 12.8% 13.2% De los hombres, ¿qué
2020 Ciudadanos

Marea Galeguista (En Marea-


0.2% 0.1%
porcentaje tiene la
Compromiso por Galicia-Partidos
0.4% 0.2%
intención de votar al PP?
Galeguista)

VOX 0.4% 0.2%


De las mujeres, ¿qué
Los Verdes 0.2% 0.1%

Unidas Podemos 0.2% 0.1% porcentaje tiene intención


BNG

Galicia en Común-ANOVA Mareas


8.7% 5.2% 6.8%
de votar al BNG?
(Podemos-EU-ANOVA) 2.8% 1.3% 2.0%

Voto nulo 0.4% 0.2% ¿Existen diferencias en la


Otro partido

Voto blanco
0.2%

0.9%
0.2%

0.6%
0.2%

0.7%
intención de voto entre
No votaría 5.0% 3.2% 4.1% hombres y mujeres?
No sabe todavía 23.2% 29.4% 26.5%

N.C. 12.6% 13.9% 13.3%

Total 100.0% 100.0% 100.0%


Tema 5. Regresión y correlación simple.

Observando la
gráfica, ¿Cuál creéis
que es la variable
dependiente y cuál
es la variable
independiente?
¿Existe asociación
entre la edad y los
votantes del PP?
Tema 5. Regresión y correlación simple.
• Determina si existe relación entre la valoración de la gestión en la
pandemia del Covid y la edad a través de la recta de regresión y la r de
Pearson.
y (valoración de la
x (edad) gestión del Covid
(1-100))
28 15
35 14
53 32
62 21
64 99
85 72
49 66
16 25
(xi-
y (valoración de (xi- (yi-
xi- yi- media(x))
x (edad) la gestión del media(x)) media(y))
media(x) media(y) *(yi-
Covid (1-100)) ^2 ^2
media(y))
28 15 -21 -28 441 784 588
35 14 -14 -29 196 841 406
53 32 4 -11 16 121 -44
62 21 13 -22 169 484 -286
64 99 15 56 225 3136 840
85 72 36 29 1296 841 1044
media x 49
49 66 0 23 0 529 0
media y 43
16 25 -33 -18 1089 324 594
Varianza x 429
Suma 3432 7060 3142
Varianza y 882.5
Desviación
20.71
típica x
Desviación
29.71
típica y
Covarianza 392.75
a -1.86
b 0.92
r 0.64

También podría gustarte