Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Apuntes Estadística
Apuntes Estadística
¿ cómo
pregunta desea
averiguar ? Tipo de
investigación
• →
se busca se lo se
o
que
¿ cómo datos ?
Metodología
.
los >
se
recogen
¿ Qué los datos ? Análisis datos
hago de
•
con >
¿ cuándo Informe
concluye la
investigación? > de
investigación
•
.
.
¿ cuánto tiempo y dinero a necesitar ? > Duración costa
voy y
.
1.1
Figura
-
> Interrogarse
preguntas
Hacer nuevas s
-
Identificar factores relevantes
Formular
Reconsiderar la teoría hipótesis
T <
Recogida de
información
Interpretar resultados
< <
Probar resultados
>
Teorías
>
Formulación de
conceptos
^
,
Deducción
ordenamiento
proposiciones y inferencia
de
proposiciones
lógica
lógica
a n
Decisiones
Generalizaciones Hipótesis
hipótesis
empíricas ↑ a
^
contraste
Instrumentación
T
hipótesis escalas ,
muestreo
Medición , retienen de s
a
muestras estimación
y s
de
parámetros Observaciones
q
El desarrollo de una
investigación requiere la
aplicación de un Método
científico , que incluya como
teorías observaciones
elementos centrales del
proceso de
investigación :
, ,
generalizaciones compilación ,
de
datos ,
entre otros El .
La deducción en el
proceso de
investigación permite derivar
hipótesis de
explicación
generalizada
una
o teoría .
se
apoya en la
formulación de hipótesis y la inducción permite obtener evidencias que respalden o no
a la
hipótesis mediante la observación El Modelo
lógico racional
representa a la
investigación como un
-
proceso cíclico en el
que
las diversas
fases son
interdependientes .
El modelo del
proceso de
investigación
científica de Wallace se ha utilizado
y adaptado para
describir el proceso de
investigación ( Fig .
1.21 .
generalizaciones
como
hipótesislos elementos básicos de la ciencia : observaciones , ,
teorías e .
La
h a s ta
de
En
tipos ,
el
la estudios todo
generalización tipo requiere desplazamiento por
,
mientras
que en otro de se un
el ciclo de
investigación ,
el Modelo de Wallace hace énfasis en la
prueba de
hipótesis , para
determinar si se
acepta o se rechaza .
también
Es
importante el hecho de
que
si una
hipótesis es
comprobable en
principio ,
es
comprobable en
factible
técnicas
obtención datos Métodos
práctica
la ,
es
y
decir ,
si es la de los entonces se conocen los
especifica que
investigación hipótesis colectar los la los resultados de
probar para y
.
El Modelo la
pueden estimular
planteamiento hipótesis el de nuevas o el desarrollo de nuevas teorías .
este
principal información
círculo Wallace inicia las observaciones
componente de la
obstante
En con como ,
no
pueden independientes ,
hipótesis y
las observaciones no se considerar de las ideas ,
las los
pensamiento establecidos
diagramas
de .
'
Orígenes :
:
,
Estadísticas -
Estado -
ciencias sociales .
y
: :
de la realidad social (
sociología demografía , ,
estadística .
.
.
Con
ring (1606-1681) : Anatomía sobre
España trabajo que , compara con el de
Petty
G. Achlnwall (1719-1772) la utilización del término statistilk :
atribuye
"
le
descripción
: A
quien se
por vez
primera
comprensiva país de las características sociales , políticas y económicas de un .
1.
Petty El primero en formular la teoría de el valor interno denominado el
"
valor natural " del
precio del
Mercado
:
que , por ,
y
de esta forma impulsar la demanda nacional
y por
lo tanto reducir los excedentes .
politices
ingle ses campos diversos estadistica
investiga
dora Precursora de la
demografa
-
Aritméticos
.
:
,
estadístico
J Grount (1620-16741: primer intento de
aplicar un razonamiente
propiarente a datos demo
.
gráficos Analisis de la nortalidad de Londrercia estimacion de la
población de Londres ibautizos
,
.
fallecidos y densidad de habitantess influencia de las estacioner del ato sobre mortalidad
" Política
Pethy L Precursor de los cen
y
Econónica Precursor del
Registro General
1623-16873:
8or.
.
".
Estadistica
-
aportaciones
Otras
:
Y Sinchair
" estadistica de Escosia 41781-1825).
"
:
.
Informe
habitantes Londres
C Booth Vida
trabajo de los de 11889-1891).
:"
"
y
.
Nightingaleu
8zo-19loy.
Elorence
Diagrama dearea polar
:
"
E Le
Play Obreros
europes (1877-18793.
"
.
:
sustentarroporcona
Paralelamente a las corrientes anterieres nace lend h u l va
discpling el
catallo de
,
probabilidades
que as pundamentos para
,
Genesis de la
probabilidad
:
conceptor
de
probabilidad juegos
-
de
r
s azar
.
z ade
sxv Cardano
a r
conceptode ley
.
:
:
Gahilei Casos al dados
G probables lanzar tres
.
:
.
M é t o d o
sxvil Necesidad de in
.
:
pr Epoca de oro de a teoria de
obabilidad
8. XIX
.
XVIll
:
estadistica
configuración de a coro ciencia
8. XIX : 1856 : de la .
1857 :
Incorporación de la Estadística en estudios universitarios .
ESTADÍSTICA
-
Colección de métodos
para obtener , resumir .
presentar interpretar
, ,
analizar
⊖ ⊖
características de un
conjunto de la
población a través de la
información
de datos muestra
que proporciona
.
una .
Tema 2, 3 y 4: Operacionalización y variables
¿ Qué es la
operacionalización ?
cuantitativa
La
operacionalización de
conceptos es un
proceso que forma parte de la
investigación social .
establecen características
Mediante ese
proceso se seleccionan
y
una serie de dimensiones
y ,
que representan
Más abstractos
conceptos o Menos .
su resultado
permite especificar un
conjunto de varoibles o indicadores a través de las cuales tratamos
voto ,
el
grado de
satisfacción con un servicio ,
etc .
cuantitativa
Fases en una
investigación social .
t
2
Operacionalización del
problema: Hipótesis de
partida Operacionalización
.
de
conceptos .
✓
3
Diseño de la
investigación Estrategia : a
seguir .
Diseño de la Muestra Técnicas de
.
datos
recogidas de .
J
t
Recursos : Humanos ,
Materiales ,
económicos .
Planificación de la
investigación . Etc .
La
operacionalización de
conceptos y la Medida en ciencias sociales .
privilegia :
observación razón
La la
y experimentación
la
-
La
referencia a hechos cuantificables y accesibles a la realidad .
de Métrico objeto
>
Idea positiva Medida
Registro externo
investigador
>
ciencias naturales de un al
y cifrable
medible
Medir
supone pasar
de un sistema
conceptual a un sistema
empírico ,
.
;w; Masa
Velocidad 20
t
÷Í
kilos
M /
seg
naturaleza
En el contexto de las ciencias existe una de de la
Pobreza
-
¿A
Solidaridad partir de
qué criterios ?
-
Poder ¿ con
qué unidad / es de Medida?
-
Desigualdad social
-
Anomia
Etc .
CONCEPTO
Variable 1 Variable 2
Valores /
categorías valores /
categorías
1 1
Indicadores Indicadores
Tipos de variables
: con un
,
De valor entero N° de
: cuando
puede un .
hijos .
r .
mismas la de la
:
que ,
con
que
cuentan con un cero absoluto = O
representa la ausencia total de
Medida Salario de
. una
persona .
nominal
de se
-
: usadas un un . con la
numéricos datos
cuantitativas
aquellas que requieren valores
definir los
emplean
-
se
:
para . con
personas
intervalo
Continua: dentro
puntos
•
un intervalo ,
la variable
siempre podrá tomar infinitos valores entre ambos puntos .
La
temperatura de una habitación
conjunto finito
•
Discreta : sólo
puede tomar valores sobre un de valores o un
conjunto
infinito pero numerable . Cantidad de años de vida de una
persona
según la
función que cumplen : -
Independientes
independiente cambia
función
variable
de la valor
Dependientes
-
: en ×
, ,
factor .
Único
Exhaustividad ,
Exclusividad
y Referencia
a un
principio clasificatorio .
OTROS CONCEPTOS :
( Universo )
Población :
estudiar
conjunto de elementos
propiedades y que ciertas entre los desea
que cumplen
se
fenómeno investigación
el
definir propia población
de interés .
Cada ha de su .
todos
Censo :
Registro de las características de los individuos de una
población .
Muestra:
subconjunto de elementos dentro de una
población .
Parámetro : datos
Medida
descriptiva ( Media ,
varianza . . .
\ de los
poblacionales .
Estimador : Estadístico
algún pronóstico
interés
de usamos dar sobre una característica
que para
.
operacionalización del
concepto vulnerabilidad social "
"
Ejemplo La
:
Vulnerabilidad
frontera social :
integración
constituye
la entre considerarse de
que puede
lo la zona
y familiar
por pilares
social caracterizada estables sólidos el contexto laboral
y en -
aislamiento
social ,
y
la zona de exclusión
que implica la carencia de
trabajo y / o
familiar social .
Investigación sobre el
concepto .
social
"
vulnerabilidad
"
:
VULNERABILIDAD SOCIAL
I
I I I I 1
ámbito
A su vez ,
cada contiene una serie de variables ,
y
cada variable está
configurada con un
número
determinado de valores o
categorías .
A continuación se
presentan algunas de ellas .
VULNERABILIDAD SOCIAL
I
I I I I I
Institucionalizado .
-
Menos de 446€ -
Trabaja
-
semi -
institucionalizado .
427€
De 600€
desempleo Vivienda propiedad
_
a En en
- -
todos ( sin
De 601€ 800€ Vive
hogar cedida
legalizar )
-
con
-
a
-
en .
De 801€ Vivienda
a 1000€ los Miembros
desempleados en
alquiler
-
-
en
-
-
Preguntas de un cuestionario .
Datos
recogidos en un censo .
Registros de una
ficha personal y social de un individuo al
que atiende una institución .
Etc .
representar y
resumir un
conjunto de observaciones Fase .
de análisis de datos .
proporciones .
Variables
discreta frecuencia
cuantitativa : distribuciones de (
-
de
dispersión y
medidas de
forma .
Útil
para facilitar análisis
organizarlos interpretación datos
una
recogidos vez
y
los ,
su su es
y frecuencias distribución
resumirlo frecuencias en tablas de . Llamaremos de
Frecuencia absoluta ( hi ) : número de veces se repite un valor de una variable una modalidad de atributo
que o un .
¿ Qué
Frecuencia relativa (
fi ) : cociente entre la
frecuencia absoluta
y el total de elementos ,
o tamaño .
mide?
Proporción valor Modalidad dentro del total ( se suele dar tontos ciento )
de un o .
. en
por .
fi =
*
Ni total .
-
"
i i
i
NNI
n
;
¡
;
F.
Í
=
fi
=p
= = =
N N
¡
,
PROPIEDADES FRECUENCIAS
•
DE LAS
.
n ,
+
nzt .
. .
+
nk = N .
NK = N -
O <= n
¡ { = N .
Ni =
Ni , +
ni
f fz +
fea 1 Fm 1 Oh
f; < 1
•
+
'
+ = = . =
,
. .
.
'
El %
correspondiente a un valor ✗¡ de la variable se obtiene Multiplicando la
frecuencia relativa por 100 .
clasificados según
fijado
•
TABLA DE presentarse
FRECUENCIAS : los resultados mímicos deben ordenados un criterio
y
disposición regular
,
denominada tabla estadística .
datos
Los
pueden haberse obtenido
largo del
tiempo para variación serie
cronológica
temporales
•
a lo observar su : o
,
Espaciales : Tratan de
comparar los valores de una variable en distintos espacios geográficos ( renta) .
Frecuencia : si estudian la
repetición de un determinado hecho o
fenómeno ,
Más utilizadas en los
procesos
estadísticos .
número
MEDIDAS DE TENDENCIA CENTRAL : Deséetln información obtenida
de la solo valor a un o a un
poblaciones .
K
,
' ✗ i.li
in
☒ =
✗ 14-1 Xznz -1 . . .
+
✗ una / N =
datos elemento
Mediana : de
conjunto de ( Mel el central en
conjunto de observaciones
ordenados
un es un
↓¡ +
A
% -
Fi -
1
= Fi > xi
2
fi
El dato + li Cli 1)
que <¡ + A
-
-
se
repita f; -
( fi -
1) + ( fi -
( fi -111
Medidas de
posición : cuantiles :
generalización de la Mediana .
Las Medidas Más usadas
cuarteles dealer
y percentil
son los , .
É
k n
K N
.
4/10/100 4. +
A
Fi -
Fi -
1)
Sin intervalos
con intervalos
Medidas de
dispersión : Indican la
Mayor o Menor
separación entre los valores de
la variable .
Varianza : l 2) :
diferencia promedio entre cada de los valores
hay
-
uno
que
respecto a su
punto central .
ik
Desviación típica (
-
) ✓=
2=Í
=
:
intercuartilico
Rango
-
Rango sereiintercuartílico -
Medidas de
forma : Valoración de
forma aproximada si ,
la vertical
correspondiente a la
1
ÉL cxi -
x-P ni
AF = =
91
=
,
N
coeficiente de
apuntamiento o autorice
"
: Hi -
F) n
¡
1- +
¡ =
,
ga Ap
= = =
N
FRECUENCIAS DISCRETA : elaboración frecuencias
•
TABLA VARIABLE
ordenando
tabla
consigue
DE EN UNA La de una de se
Mayor y frecuencias
los
fi distintos valores de la misma de Menor a anotando las distintas ni , , Ni ,
Fi . . .
Nos podemos encontrar diferentes situaciones :
→
Que hecho observaciones tanto variable estadística tome valores UI
se
hayan pocas y por
, ,
la pocos .
→
Que hecho observaciones variable estadística tome distintos ,
incidiendo
Muchas la valores
hayan se
y ,
pocos
valor ( II )
repeticiones en las de cada .
→
Que hecho observaciones variable estadística tome distintos
se
hayan Muchas
y ,
la Muchos valores
por
variabilidad
Muy grande
lo el de es UIIJ
que campo .
•
TABLA DE FRECUENCIAS DE UNA VARIABLE CONTINUA
TRATAMIENTO DE VARIABLES AGRUPADAS EN INTERVALOS DE CLASE : Si son Muchos los valores distintos tome la variable ,
que
los datos intervalos hacemos recuento de las observaciones dentro de cada
agrupamos en
y
un
que caen
intervalo (
simplificación de
trabajo / pérdida de
información I. ¿ Equilibrio ? n° de intervalos
y forma
de los datos .
: en .
constante
✗ Intervalo de
amplitud .
✗
Intervalo de
amplitud variable .
Elección de intervalos
-
los
amplitud tomarán
✗
Medio abiertos : determinada intervalo
Intervalos
Fijamos una
para cada
y
se
tantos intervalos
solapados como sean necesarios .
serán de la
forma [a ,
b) ,
siempre contendrá al
[2 ,
6) 3,5 ,
4.5 ,
Lo 4
[ 6,10 ) 8
[ 10,141 11
[14,16 ) 3
✓ Intervalos con límites reales de clase : Los intervalos vienen dados de una
forma que
no se
solapan 120 -
139 ,
de clase (
punto Medio entre el extremo
superior e
inferior de cada dos intervalos
contiguos ) .
✓ Marcas de clase :
punto medio de cada intervalo / valor
que representa la
información que contiene un intervalo
REPRESENTACIONES GRÁFICAS
•
.
Los
gráficos deben ser seleccionados según la naturaleza de la variable .
Deben
guardar una adecuada
proporción
No deben inducir a conclusiones
diferentes a las
que
los hechos muestran .
GRÁFICO
gráfico representación gráfica cartesiano
frecuencias
-
frecuencia
modalidades la variable cualitativa discreta de cereal) el otro el valor
o de o (
tipo y
o
de
categoría produccióncada en una determinada escala ( la en millones de toneladas
de )
granos .
evolución
se suelen utilizar para :
comparar magnitudes de varias
categorías o
para
ver la en
concreta
el
tiempo de una
magnitud .
HISTOGRAMA : se
representar las
frecuencias de variable cuantitativa continua En
-
usa
para una .
de variable
uno de los
ejes se
posicionan las clases la continua ( los intervalos o las Marcas
de clase
que son los
puntos Medios de cada intervalo )
y
en el otro
eje las
frecuencias .
No
existe
separación entre las barras .
DE un
que
-
la estructura
demográfica de una
población por , sexo
y
edad ,
en un Momento determinado .
En el
eje vertical se
posicionan los
rangos
de edades
y
en el horizontal los
porcentajes de
población .
distribución
En una de las direcciones se colocan las barras
que representan la ( % sobre el total de
gráficos
población ) por edad distribución por edad Estos
Mujeres de los varones
y en la otra la de las .
DE es una en un
eje
relación que existe entre dos variables reflejando con claridad los cambios producidos .
se suelen
variable variación
las unidades de
tiempo y en el vertical se introduce la escala de la
cuya
en el
Pueden variables
tiempo queremos ver .
aparecer varias
para compararlas .
DE PARETO : un de es un
eje
representan categorías
horizontal
queremos
se las de la variable estudiar (
diferentes
ca u s as
que
muestra
externas
eje de
porcentajes
Mortalidad ) .
En el vertical derecho se la escala de
y en el
eje vertical
izquierdo la escala de
frecuencias ( número de
defunciones ) .
Las barras
muestran las
frecuencias de las
categorías de la variable
y
la línea
representa el
porcentaje
acumulado de dichas
frecuencias respecto al total .
Este
gráfico muestra el Principio de Pareto ,
formulado por
el estadístico italiano
Vilfredo Pareto (1848-1923) : Pocos vitales ,
Muchos triviales .
GRÁFICO SECTORES Un
gráfico sectores
representación frecuencias
-
DE de las
relativas
: de es una circular
y rápida
permite
de una variable cualitativa o discreta
que ,
de una Manera sencilla ,
su
comparación .
El círculo
representa la totalidad
que se
quiere observar ( total de
viajeros hospedados
en hoteles)
y
cada porción ,
llamadas sectores ,
representan la
proporción de cada
categoría de la
variable (
tipo de hotel) . Suele expresarse en
porcentajes .
y
sería
incomprensible .
PICTOGRAMA : gráfico representa Mediante
figuras setebolos frecuencias
-
Un
pictograma es un
que o las de
concreta
el
tiempo de una
categoría .
DE en un cartesiano la
que
dos variables Este .
independiente
tra si el o de los valores de m de
,
variable
denominada variable
dependiente y que representa generalmente el
eje vertical .
consumo de
fertilizantes
nitrogenados de cada
país está
representado en el
eje horizontal
y
la
producción agrícola en el vertical ) .
El
tipo de correlación se
puede deducir de la forma de la nube de
puntos :
✓ ✓
CARTOGRAMA : un corto el
representan datos
regiones bien
poniendo el ni
-
grama es un
mapa en
que se
por o
Calculamos Me Q,
y Qz
2. la
,
3. Determinamos dos
puntos f ,
y fz ( separadores interiores )
=
Q1 -115 .
RI
fz Qz +115 RI
=
.
Los
puntos por debajo de
fe y por
encima de
fz se consideran
atípicos .
cercano a
fe superior o
igual a él . El
punto az es el dato Más cercano a
fz inferior o
él
igual a .
Determinamos denominados
5. dos
puntos F1
y Fz ,
separadores exteriores
F1 =
Q1 -
3 .
PTI
Fz =
Qz -
3 .
RI
6. Situar los
puntos sobre la escala horizontal o vertical .
I I I I I I I I
Fr
fe a1 Q1 Me Qz 93 fz 1=3
Construimos línea
y Qz
Qr interior Mediana
7. una
caja con extremos con una
dibujada en la .
Índice de Gini (
lql : Medida utilizada
para comparar el
reparto de los
ingresos o de la
riqueza .
Una vez
dispuestos los datos de la variable Xi en la tabla de frecuencias donde tenemos
,
ya
las frecuencias absolutas acumulador ni Ni
y y
.
=
columna acumulada xi / total columna acumulada xi ; la columna de
qi ni ni
y
.
.
las
diferencias pi y qi
1g
CP-i-q.fi
-
-
Curva de Lorenz :
representación gráfica de los datos calculados en el índice de Gini .
Pasos : 1.
Representamos los
ejes cartesianos .
3. En el
eje de abscisas
representamos p y
en el de ordenadas q
.
4.
Representamos los puntos ,
la línea
poligonal
será la
representación
de la curva de Lorenz
TEMA 7: Técnicas de análisis bivariable
La mediante tabla
descripción conjunta de dos variables se realiza lo
que se conoce como una
de doble entrada .
frecuencias
individual distribución distribución
frecuencias de
marginal cada variable ( ) o la de
( distribución condicionada )
✗
y
la
categoría Yj de la variable Y .
M+ '
!
¡ representa Q
número de individuos
que la muestra
que presentan la
categoría j
de la variable
y
se
M+ + número total
representa el de individuos .
distribución
Esta tabla
correspondería a la de la variable
condicionada a la
categoría Yj de la variable Y
Las tablas
frecuencias
aquí han
explicado vienen
expresadas términos
absolutas
de las
que se en
frecuencias
Si deseamos
que
la de las
de
que las variables ✗ e Y fueran independientes frecuencias esperadas : .
¡
-
, .
y categorías n° de .
Coeficiente 2×21 ✗ 4h
de phi ( tablas de =
Coeficiente \
de Yule Habla 2×2 ) Varía entre -1
y
1.
2
✗
coeficiente de
contingencia ; C de Pearson c =
n
2
✗
⊖ de Cramer ✓ =
n .
(k -
1)
RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS ORDINALES ( coeficientes de concordancia .
Coeficiente de
p
(Rho )
cálculo de concordantes
pares
Alto )
A (
Bajo Bajo ) , ; D ( Medio , .
variables es concordante
AF (
Bajo Bajo
, ) ( Alto
,
Alto ) ; CF ( Medio ,
Bajo I , ( Alto , Alto ) .
cálculo de discordantes :
pares
Individuos Alto ) C
de las casillas B LBajo ,
y
LMedio ,
Bajo ) .
Alto) Bajo )
pares discordantes? BE (
Bajo , ( Alto ,
y
DE ( Medio , Alto ) ( Alto ,
Bajo ) .
Pares empatados A (
Bajo Bajo )
, ,
B (
Bajo ,
Alto ! .
. .
'
2 No asociación
hay
=
'
2 =
Asociación débil
' '
2- 6 =
Asociación moderada
'
6-1 =
Asociación débil
TEMA 8: INTRODUCCIÓN A LA CORRELACIÓN Y REGRESIÓN
¿ cómo ?
coeficiente de Rho de
Spearman . . .
¿Y ahora hacemos ?
que
Estudiamos la relación entre dos variables cuantitativas ( intervalo -
razón) .
relación dos
conjuntos números visitas social
"
entre de "
( edad al museo , clase
y y
.
asistencia al teatro ,
inversión en sanidad pública y pólizas en sanidad
privada . .
.
I .
la
una
que hay
este
tipo , coeficiente de Pearson .
nos
que
un una
variables en
función de los valores de la otra
regresión lineal
,
.
representación gráfica) relación existente
•
La nube de
puntos ( nos indica el
tipo de
correlación lineal de
Trabajaremos con la correlación lineal
y
el coeficiente de
Pearson , r .
El
coeficiente de correlación de Pearson ,
r
,
es el coeficiente que determina
la
Magnitud supuestamente ,
lineal entre las variables cuantitativas .
La
regresión nos
permite pasar de la
dependencia estadística representada
en una nube de
puntos a la
dependencia funcional dada por la línea
de
regresión .
La estimación obtiene
de la covarianza es
Muy
sencilla .
Supongamos que se
muestra
los individuos de la se les
pregunta por cada una de las dos
variables en estudio .
El resultado es
conjunto de pares
un de valores
siguiente forma
la covarianza muestral de la :
( ✗ Y
✗y
rxy
=
_
hay patrón
Problemas de escala de Medida interpretación ya que
Depende la su
: no
y
.
con el
que
se
pueda comparar .
coeficiente
: correlación
el de de Pearson .
Coeficiente de correlación ,
r ,
de Pearson
longitud
coeficiente conceptualizado por Galton ( relación entre estatura del codo )
desarrollado
la
y y
antropólogo fémur puede excavación ¿
deducir por Pearson ( un .
, si en una se encuentra un ,
alguna
de sus dimensiones
que perteneció para
característica del individuo al ? También
individuo como
independientes .
.
.
) .
| /
S ✗Y -
✗
y
r =
r =
l ✗ 12 ( Y 12 5×54 - -
y )
✗
y 2 - y
n
Coeficiente de determinación ,
r2
variación
se interpreta como el
porcentaje de de la variable
dependiente explicado por la variable
independiente correlación
ajuste
"
el Modelo
planteado ) Mide bondad del recta
"
lo de .
la de la
de
regresión .
Toma valores entre
y
1 .
r2 variación de relación
dependiente
independiente
> la variable
que queda explicada por su con la
≥
variación
1- r > de la variable
queda sin explicar
que .
RYC RY
explicado que queda
1- sin
> lo / lo
explicar .
Modelo de
regresión lineal
simple .
Ahora
,
nuestro interés se centrará en buscar algún tipo de relación entre las dos variables
✗ e Y
, con el fin de
predecir los valores de una a
partir del conocimiento de la otra .
Este
objetivo se
consigue mediante la teoría de la
regresión .
regresión
más sencillo de los Modelos lineal Para estudio de este
modelo simple
Caso ,
el de .
el
estudio
parámetros cuyos número reducido
valores
de
y que dependa
en un de un ,
aproximar satisfaga
desconocidos deberemos de manera
que
la ecuación resultante
el
objetivo es intentar establecer un Modelo
que exprese una
dependencia funcional
entre las variables ,
es decir , un Modelo de la
forma
y =
f ( X)
encontrar recta
Lo
que pretendemos es la
que Mejor se
ajuste a los datos .
f✗
\
✗
El Modelo lineal recta de
regresión sería de la forma
+
=
o
mediante :
Los valores de los
parámetros ,
✗
y P .
se estiran
' lit b ( ✗ ¡ f ;)
( ✗ i. Yi ) ( ✗ i.li ) ( y ; f; ) Yi
-
-
- .
b. =
a=
2
fi)
2
(✗¡ ( ✗¡
f)
-
-
.
La recta
regresión será :
y
=
a + bx
alto ,
es
podemos realizar
predicciones de los valores de una variable con
respecto
a los valores de la otra variable ,
siempre que estos últimos se encuentren entre
condición la recta
Es decir una
indispensable para poder usar a + bx el
objetivo
=
con
,
y
de predecir el valor de '
cierto X esté entre los valores Mínimo
para un ,
es
que
Máximo de ×
y
.
PRÁCTICAS
ESTADÍSTICA
TEMARIO
COMPLETO
Tema 5: Práctica I
1.- A partir de los posibles estudios que se indican a continuación, indica la población que
debería considerarse y qué variables podrían estudiarse, identificando de qué tipo son:
2.- Clasifica las siguientes variables, indicando las posibles categorías si la variable es
cualitativa
3.- Dada la siguiente tabla, indicar de qué tipo son las variables recogidas. Construir la tabla de
frecuencias de la variable sexo, calificación, convocatoria y edad.
1 .
1,68 60
19 H 3,4 SUS 2 1,80 75
17 H 5,3 APROB 1
i 1,71 60
19 M 6,1 APROB -
2 \
1,56 50
22 M 5 APROB<
3~
1,70 57
21 H 5 APROB y 4-
1,79 75
22 H 9 SOB y
1 °
1,64 58
19 M 4,1 SUS 1 1,65 55
19 H 3 SUS 4 1,85 80
28 H 5 APROB 2 1,70 66
27 M 5 APROB 5 1,75 70
22 H 6,3 APROB 3 ' 1,86 58
23 M 5,3 APROB 1 1,80 78
18 H 5,5 APROB 2 1,62 62
18 M 9,5 SOB 1 1,60 64
i
37 M 7,8 NOT 1 a
1,72 65
56 H 8 NOT 11 1,78 80
I
19 H 3,6 SUS 4 -
1,67 70
20 H 4 SUS 1 1,87 90
:
19 H 5 APRO 2 1,55 58
PRÁCTICA 1 .
2. a) Cualitativa nominal
b) Cuantitativa discreta
c) Cualitativa ordinal
3.
EDAD
✗i fi Fi hi Hi ✗ i.fi ✗¡ 2.fi
17 1 1 005 005 17 289 F-
+29¥ -1245-5-1-
18 3 4 0115 02 54 972
µ9anos
N
19 6 10 013 015 144 2166 Me = / 2=20/2--10
23 1 16 005
'
080 23 529 Varianza -
⑤׿ -
52 =
122%7--241652 -151737g
27 1 17 ◦ 05 0185 27 729
2139M
-
+93 122oz
gn
=
AF =
↳ # =
5- 0073Er
92
-
Ap
=
¥39,7 =O
SEXO
✗¡ fi Fi hi Hi ✗ i.li ✗ ¡
2.fi I =
¥0 -_i3
1 13 13 065 065 13 169 Me = 20/2 =
10 ① → tt
2 7- 20 1 1165 14 91 MO = 1 →
tt
0=22670--11352 11h53mn
20
-27 267
Varianza
-
0=7/11,55--3 '
to
CN =
E- =
2151
gioz 0025
-
_
00073
Ji ' =
CALIFICACIÓN
suspenso -31 ✗¡
fi Fi hi Hi % ✗¡ .fi × ? .fi Moda -3 2. →
Aprobado
3 0115 15 9 27 >
-
¡
N
4 2 20 01 1 10 8 32 → 0179=0189
-
NZO '
89
42 104 CN >
= -
-
◦
=
01423
5 211
"
gí AF
=
-3--0%3=1142
I
GE Ap
=
1- ←
=
,
= " 59
oiga
CONVOCATORIA
'
12816 41
Xi fi Fi hi % Hi ✗ i.fi ✗ il f -
☒ _
2162=113124
N
4
-2
3 019 48 113124--10164
-
18 015 15 12 = =
10164
-
5 19 5 0195 ↳ 092
'
1 005 5 25 CN = = =
☒ 2,6
¥5,204
I
11 11
GÍAF
20 005 5 1 0000832
1 121
-
-
-
-
240 .gg
=
52 =
20
92=1-1 =L
=
' ◦
"
> = = 000078
,
12816141
TÉCNICAS DE ANÁLISIS ESTADÍSTICO UNIVARIADO
PRÁCTICA II
a) Cuadros Preferidos ni
Maja desnuda 18
Fusilamientos de Goya 13
Las Meninas 23
Jardín de las Delicias 10
Los chicos de la playa 8
¿Cómo organizaría y representaría la información obtenida en esta pregunta?
¿Qué medida de tendencia central sería más representativa?
b)
Nº de veces que
han ido al Museo 1 2 3 4 5 6 7 8
en el último año
ni 2 6 10 5 10 3 2 2
2. al cuadros preferidos X; fi Fi hi Hi % Xi li x, 2 fi
desnuda 023
maja 1 1 1818 0'25 25 18 18
Fusilamientos de
Goya 2 2 133101181 01131 181 26 52
de 5 72 40
Los chicos la
playa S 8 O'l l 11 200
=
637
72 =193
2 li
337
x; 2
21682 166 1 52893=
-2
3 meninas
-
Mo> -
Las 3
AF 01467
= =
X = - -
gr
=
3
N
Niz 42/2
ago
36 Las meninas 1662 1289 A= 11 ,2894
=
Me >
01362
= =
=
=
92
=
=
=
xi.fi 193
xx 268 son
=
=
N 72
2. b) NO
que han ido
de veces al museo en el ult. año
Xi fi Fi hi Hi x;. li x 2. fi Mo -3 5 veces
y
l 2 20105003 2 2 Me ->4/2 40,2 =
20
=
>3 5 recet
y
2 S 8 015 0120 12 2 xi.li
y
=
162 403
=
N 4
8
3 10 18 0'23 0'5 38 90
-2
7 x: 2 fi -
-
X
2 780
=
- 4052 31098 =
48
I S 23 01123 01325 20 00 -
fa,
- >
31098= 1176
0435
13 ,763 sixs
=
7 2 38 0105 019 1 98 A=
= = -
01183
91
=
16
92 Ap 1x=
8 2 * 0'03 0193 0627
qi595
0 128
=
= =
4 =162 788
0 =
U; Xi Ni fi i Hi. Xi
Wi2. Xi
2.c) [5 -
[15 -
[3 -
351 4
O 30 68013570607 1208 48.000
48
E
35 -
45 -
56 -
3640 103748
32'5
+ + + +
*
=
=
años
112
11212
~
nz -
Ni-1 56* -
28
Me=> ti-st ai 25 =
I x 10 32 =
años
Niti -
Ni
48
111017
=
130
-
32
M i it e
di 25 10
x 3018
=
años
23
=
+ = +
Withit 32
+
rn
-
Ni-e 1 -
28 ( =
E 10 =
135
=
Wi-s+4 ai 25 x 10 25 0 10
2
+
-
= = =
1 x
+
Nite -
Ni 40
a di 2 -
Ni
1ai
3x112
-
28
gi
A=
=
= E nx3 01800675
= =
23 4
-
1 x 10 39
= +
= =
-
+
4
0
Nit1 -
Ni
gr Ap=1+ ny 0000059
=
=
=
0 Q, 39 25 1X
=
=
-
-
75.112
-
28
475 25 100
x 10 23 114.10 39
= +
=
=
+
4
8
(x9:2 103748
-2= -
-2
x
=
-
3252 926125
=
1036125 =
- 130
N 112
Variable Altura
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válido 1,55 1 5,0 5,0 5,0
1,56 1 5,0 5,0 10,0
1,60 1 5,0 5,0 15,0
1,62 1 5,0 5,0 20,0
1,64 1 5,0 5,0 25,0
1,65 1 5,0 5,0 30,0
1,67 1 5,0 5,0 35,0
1,68 1 5,0 5,0 40,0
1,70 2 10,0 10,0 50,0
1,71 1 5,0 5,0 55,0
1,72 1 5,0 5,0 60,0
1,75 1 5,0 5,0 65,0
1,78 1 5,0 5,0 70,0
1,79 1 5,0 5,0 75,0
1,80 2 10,0 10,0 85,0
1,85 1 5,0 5,0 90,0
1,86 1 5,0 5,0 95,0
1,87 1 5,0 5,0 100,0
Total 20 100,0 100,0
,00 15 .
2,00 15 . 56
3,00 16 . 024
3,00 16 . 578
4,00 17 . 0012
3,00 17 . 589
2,00 18 . 00
3,00 18 . 567
Descriptivos
Estadístico Desv. Error
Altura Media 1,7150 ,02151
95% de intervalo de Límite inferior 1,6700
confianza para la media Límite superior 1,7600
Media recortada al 5% 1,7156
Mediana 1,7050
Varianza ,009
Desv. Desviación ,09622
Mínimo 1,55
Máximo 1,87
Rango ,32
Rango intercuartil ,16
Asimetría -,015 ,512
Curtosis -,895 ,992
Variable Peso
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válido 50,00 1 5,0 5,0 5,0
55,00 1 5,0 5,0 10,0
57,00 1 5,0 5,0 15,0
58,00 3 15,0 15,0 30,0
60,00 2 10,0 10,0 40,0
62,00 1 5,0 5,0 45,0
64,00 1 5,0 5,0 50,0
65,00 1 5,0 5,0 55,0
66,00 1 5,0 5,0 60,0
70,00 2 10,0 10,0 70,0
75,00 2 10,0 10,0 80,0
78,00 1 5,0 5,0 85,0
80,00 2 10,0 10,0 95,0
90,00 1 5,0 5,0 100,0
Total 20 100,0 100,0
Descriptivos
Estadístico Desv. Error
Peso Media 66,5500 2,31866
95% de intervalo de Límite inferior 61,6970
confianza para la media Límite superior 71,4030
Media recortada al 5% 66,1667
Mediana 64,5000
Varianza 107,524
Desv. Desviación 10,36936
Mínimo 50,00
Máximo 90,00
Rango 40,00
Rango intercuartil 17,00
Asimetría ,580 ,512
Curtosis -,310 ,992
Peso Gráfico de tallo y hojas
6,00 5 . 057888
6,00 6 . 002456
5,00 7 . 00558
2,00 8 . 00
1,00 9 . 0
A continuación se dan las edades de el/la mejor director/a de cine que obtuvieron un oscar, desde 1975 a
2022. A este listado hay que incluir a Jane Campion, 67 años, gracias a su trabajo “El poder del perro”,
2022. Calcule, para datos agregados, la media aritmética, moda, mediana, varianza, desviación típica,
percentil 58 y las medidas de apuntamiento y curtosis. Si el análisis lo hacemos por género, ¿existen
diferencias entre estas medidas?
Ejercicio noche de los Óscars .
1. D= ✗ Máx -
✗ Min
R= 74-84=40
2. ¿ N° de intervalos ? A- V49 -_ 7
R≥ K -
a-
% -407--517^-6
-
7×6>40 Sobrante =L
Sobrante
↳
I.
= 34 -
=
zz
2
II. ni Ni Fi
[ ×' 36-5+42.18+48.12 -152.7+60.4+66.3+72
[33-391
-
ni
36 5 5 01 01 10 Me = -
=
N 50
Li -
1-1
ni -11
✗ 9. =
39-1
12
•
6=43123
5+12
" i
+ " ↓
[63-691
" ^
66 49 004 096 t '
-
3
amplitud del intervalo
18-5-77 MO -39¥
£
MO-39-a.IS
-
•
An B AÁ_ = -
= > _
#
BB
'
QO 18-12*45 Mo 45 -
Mo
15
-
-
-
° "
'
°
◦
*
6. ( Mo 391=13.145 Mo) →
lo
- -
lo
-
_
ÁV
5- •
.
.
5- .
FÍE FÉE
a- Mo
Nk Ni ✗
45+245-23
-
=
-
✗
Mi 12
hi
n -
Ni -
r
Q1 A;
-
1-1 =
-
- .
ni
(X ,
-
E) 2h ; ( 36-4812×5+11<2-4812×18-1 . .
.
+ ( 72-4812×1
= = =
n
50
A- =
Ejemplo .
intervalos
Media entre ambos
anixi-mmbdapi-NNi-qipi-qi.to
salarios
-50
ni
15
✗¡
45
Ni
15
n¡
675
✗ ¡
377µm
50 0147
columna acumulada
Iq =
= 01132
3156
pi
1-
°
Óq -
•
018 - •
07 -
◦ ←
015 -
04 -
013 -
•
02o -
ÓI -
I I I I I I I I I I
O" 02 03 04 05 06 OH 08019 1 qi
TEMA VI: ESTADÍSTICA BIVARIABLE
EJERCICIOS
2.- Un/a estudiante de Antropología está interesado en conocer la relación entre las salidas
profesionales de los graduados en Antropología según los diferentes “ámbitos de estudio” y las
universidades donde han cursado los estudios. Los resultados obtenidos aparecen en la
siguiente tabla:
3.- Un antropólogo está interesado en conocer si existe relación entre la variable confianza en
la medicina natural y el nivel de estudios. Para ello realiza una encuesta y extrae, al azar, las
respuestas de 10 encuestados a dos preguntas: confianza en la medicina natural y nivel de
estudios, obteniéndose las siguientes respuestas:
:
E 5 3
F 9 8
G 4 6
H 3 7
I 7 5
J 10 10
Jóvenes 580
130167123 175208116 27520*6
¢90
E. Media 11014112a 150175186 230172185
3ª edad
230161,47 26020048 70197156 560
( Ei -
Eij / 2
Chi cuadrado = = 167152
Eij
Coeficiente de
contingencia Pearson
✗2
167152
asociación
167,52+1630=01093
⇐ =
> No
✗
↳
n hay
V de Cramer
2
✗ 167152
✓
0513=01226 asociación débil
= "
= =
◦ >
h.lk -
1) 1630-(3-1)
2.
/ / go.ae/z z
" ° """ " "" ° " " """°
"
74
Antropología física 120 100169 60159 15 47171 209
24 30 77
Arqueología 23 17157
'
37109 22o 32
antropología soaymt .
eso a. gg a. zg
Chi cuadrado .
X2
(Ei -
EIÍÍ
= =
317 + ↳ 62+16186+24108+2197 -101021+13160+19194+32142 -1818+3128+23155
'
Eij
✗2=143187 |
Coeficiente de
contingencia de Pearson .
Existe asociación
de manera madura
-
✗
2
143187 143187
[ =
= =
= ◦
"
4095 > Asociación Moderada da
✗↳ n
.
143187+714 857187
V de Cramer
2
✗ 143187 ^ "" "
Asociación
= =
✓ = =
01317 >
moderada
n.lk 1) -
71413-1 ) 1428
3.
s.tl#-.-y--.si-=:--sis
10 16
6 4 24 Media
1 3 4 2 ☒ = =
5¥55
8 17 64 81 72o
2 1 3 4 1 3
9 15
9 8 17 81 Varianza
t 6 10 16 36 24 _
✗
2=3%-5152
3 7
715+1%92=3%-332
10 21 = 8125
12 49 25
10
20 100
Covarianza Ty -
_
"
Yi
¡ - I -
Tg
-
¥7 _
3025=6145 7-
=
8125=2187
Coeficiente de correlación ,
r, de Pearson
Tj 2187
6145
⇐ asociación Moderada
y= 2187.2187=078
>
coeficiente de determinación
RÍO 782=01613
'
> asociación Moderada
Ejercicio repasando la correlación
La dirección de una determinada línea aérea supone que existe una relación directa
entre los gastos de publicidad y el número de pasajeros que eligen volar con la
compañía. Para determinar si existe esta relación, y si es así, cuál es su naturaleza
exacta, el empleado experto en estadística decide utilizar el modelo de regresión
simple. Obtenga todos los resultados.
Resultados: ¿r= 0,968, r2= 0,894, a= 3,88, b= 1,133??
Publicidad(X) Pasajeros
(Y) Pasajeros
10 15 Publicidad(X) (Y) XY X2 Y2
12 17 10 15 150 100 225
8 13 12 17 204 144 289
17 23 8 13 104 64 169
10 16 17 23 391 289 529
15 21 10 16 160 100 256
10 14 15 21 315 225 441
14 20 10 14 140 100 196
19 24 14 20 280 196 400
10 17 19 24 456 361 576
11 16 10 17 170 100 289
13 18 11 16 176 121 256
16 25 13 18 234 169 324
10 15 16 25 368 256 529
12 16 10 15 150 100 225
12 16 192 144 256
187 268 3490 2469 4960
4.- Una antropóloga está interesada en conocer si la comprensión del lenguaje jurídico está
relacionada con la utilización de viñetas y cómics. Para ello se pregunta a diferentes
estudiantes sobre estas cuestiones, presentando los siguientes resultados:
Uso de viñetas
Bajo Medio Alto
Alta 15 66 75
Comprensión Media 35 24 35
Baja 10 45 58
A- 16
{ }
1ˢᵗ
Media ¡ ☒ 2=2469 -111682--17189
-
☒ =
=
16=11168 varianza = -
16
4960
2¥ #
-2
y 1g
}
17189=4123
-
Desviación
=
típica
=
✗ Yi 349º
Covarianza Iy= ¿ -
I.
* 16
-
11.68.1675 =
Tg
=
-42 =
29144=5143
=
2248
22T
-
✗
Y
423.543=098
>
Coeficiente de correlación ,
r ,
de Pearson r= =
asociación
OI Oy fuerte
Recta de regresión y
-
_
atbx >
g.
= 2102+1%6 ✗
= ≥
/ " 26
Es
=
'
NI ✗2. lit -
lxi.li ) 1612469 ) -
( 18712
a-lyi.f-i-b.i.li =
268-1126.187
=
2102
N 16
Uso viñetas
t .
de
Coeficiente de
contingencia de Pearson
[
✗ 4002
Asociación Moderada
= "
4002+363=0
=
315 >
<
✗ + n
V de Cramer
2
✗ 40102
363-(3-1)=0%34
✓ =
=
n.lk -
1)
Total fila ✗ total columna
Presente Ausente E- ¡
¡
=
h
"
Grupo A
1o 80 90
20 70
Chi cuadrado
×?
( EI-EE.j-2-12.sc
B
Grupo
302o 607o 9o
40 140 N 180
5+5+1143+1143=12186
coeficiente de
contingencia de Pearson
C
¥ 12186 0100kt
=
=
=
,n
12186+180
V de Cramer
n.← ˢ
✓ =
= = 0127
, ,
Coeficiente de
phi
= 0127
=
N= 10
YI
2
Nivel educativo situación laboral Xi
Yi
✗
-
( Xi ) IY ;) Media
2 3 K 9 6 ☒ =
=
# =3's
3 1 9 1 3
j=Y #
2 1 4 2 Lit
1 = =
3 3 9 9 9
2 3 4 9 6 Varianza
Lo 3 4 9 6
1 3 1 9 is I
?
# -
2112--0149
1 3 1 9 3
?
# ZÉ
_
'
3 1 9 1 3 -
84
y
L 3 4 9 6
49 tt F- 049--017
21 24 66
-4--0184=092
✗ i. Yi ¥
E
Covarianza
j 2in 214=-064
-
>
nula
-
≥
Asociación
-
✗
- -
.
y
_
N 10
coeficiente de correlación .
r , Pearson
-0164
> Asociación nula
017.092=-099
f- =
-
✗
y
Recta de
regresión a bx 5115 1131a
-
y=
+
-
y
_
64
Nlxi Yi ) ( lit lyi.li )
=É
-
Xi
-
-
-
= = -131
↳
2.fi ) ( 12 #
N ( ✗ ✗ i.
f- 10 ta 12112
- - -
lyi.fi ) -
blxi.li ) 24-(-1131-21)
a =
=
= 5115
N
lo
18h0 Más 118M O Menos
✗ V5
aprueban 3125 100 90 125
50 150 200
Introducción a la correlación y regresión
longitud ✗
¡
+
Yi
×
y
Xi
Yi
N°10
(X; ) ( Yi )
Media
ijnur =%÷=
5169
/ '
68 613 7198 282o 39.69 10158
☒
2=3015 -117312 =
no
1o
¡ 01054=01232
-
-
= =
111101 ✗
17131 5619 8121 30105411133
-y= 81757=2196
✗ i. ^^ " "
Yi
Covarianza
Iy= E
if 11731.5169=1125
-
=
-
-
N 10
Coeficiente de correlación ,
r ,
de Pearson
Ty 1,25
01232.2196=1187
=
A -
Recta
regresión
a-ibxb-N-i-Y-i.li#i=
de
g-
10.111101-17131.5619=1110.1-984194
N
lx2.fi ) -
( ✗ i. f)
2
10-3015-171312 305-299164
=
'%% = -163121
( yi.li ) -
blxi.fi ) 5619
⇐ =
N
CHULETA DE
FÓRMULAS
ESTADÍSTICA
( ✗ i.li
Media > =
y
Moda >
fi que
+ se
repita
V2 >
L¡ A ti -
fi 1
Mediana Fi
-
> = > +
✗
¡
fi -
(
f; -
1) +
fi -
fi -11
"
2 Fi l
L¡
>
A
- -
fi
k .
N
A- lo
que
nos
piden
>
41101100
ks N
l
.
Fi
Li + A
-
-
> 4/10/100
Fi -
( Fi -
1)
→
.
ti ) 2
Varianza =
-
-2
Desviación típica
-
=
-
Coeficiente de variación CV =
intercuartílico
Rango
-
y y
1
sereiintercuartílico
' 3- '
Rango 2
M3
coeficiente de asimetría de Fisher
gí -
Frecuencia
n
≥
( Oi -
Ei ;)
chi -
cuadrado
Eij
2
✗
Coeficiente de phi =
2
✗
Coeficiente de
contingencia c. =
✗4- N
2
✗
Coeficiente de V de Cramer ✓=
n.lk -
1)