Está en la página 1de 50

TEMA 1: ESTADÍSTICA E INVESTIGACIÓN SOCIAL

¿ Qué Naturaleza del


? problema
'
hacer >
se
quiere
¿ Por dónde
empiezo? Definición del problema

>

¿ Para qué ¿ cuál nuestro objetivo ?


investigar ?
.
es
queremos
¿ Por dónde continúo ? Formulación
hipótesis
'
> de

¿ cómo
pregunta desea
averiguar ? Tipo de
investigación
• →
se busca se lo se
o
que

¿ A quienes investigamos ? ¿ A cuántos ? ¿ cómo Muestra


las
elige?
-
se >

¿ cómo datos ?
Metodología
.
los >
se
recogen
¿ Qué los datos ? Análisis datos
hago de

con >

. ¿ cómo saber si los datos


recogidos son buenos
y
Merecen ser creídos ? > Control de calidad -
Validez
y fiabilidad .

¿ cuándo Informe
concluye la
investigación? > de
investigación

.

.
¿ cuánto tiempo y dinero a necesitar ? > Duración costa
voy y
.

1.1
Figura
-

> Interrogarse
preguntas
Hacer nuevas s

-
Identificar factores relevantes

Formular
Reconsiderar la teoría hipótesis
T <

Recogida de
información
Interpretar resultados

< <
Probar resultados

Wallace 1971 1.2


Figura
'
, .
.

>
Teorías
>
Formulación de
conceptos
^
,

Deducción
ordenamiento
proposiciones y inferencia
de
proposiciones
lógica
lógica
a n

Decisiones

Generalizaciones Hipótesis
hipótesis
empíricas ↑ a
^
contraste
Instrumentación
T
hipótesis escalas ,
muestreo
Medición , retienen de s
a

muestras estimación
y s
de
parámetros Observaciones
q

El desarrollo de una
investigación requiere la
aplicación de un Método
científico , que incluya como

teorías observaciones
elementos centrales del
proceso de
investigación :
, ,
generalizaciones compilación ,
de

datos ,
entre otros El .

proceso científico usualmente


aplica tanto la inducción como la deducción .
La inducción es un
proceso lógico que significa desarrollar generalizaciones basadas en un limitado pero

importante conjunto de datos acerca de una clase de eventos


para desarrollar una
generalización .

La deducción en el
proceso de
investigación permite derivar
hipótesis de
explicación
generalizada
una

o teoría .

práctica Muy díficil separar perfecto de investigación la deducción


En la es ambos
procesos
en un
,

se
apoya en la
formulación de hipótesis y la inducción permite obtener evidencias que respalden o no

a la
hipótesis mediante la observación El Modelo
lógico racional
representa a la
investigación como un
-

proceso cíclico en el
que
las diversas
fases son
interdependientes .
El modelo del
proceso de
investigación
científica de Wallace se ha utilizado
y adaptado para
describir el proceso de
investigación ( Fig .
1.21 .

modelo identifican componentes información que


considerados
En este se los centrales de la ,
a su vez ,
son

generalizaciones
como
hipótesislos elementos básicos de la ciencia : observaciones , ,
teorías e .
La

resalta también métodos definen rutas


Figura 1.2 . los
que se como las
que sirven
para desplazarse
de una
etapa a otra durante el
proceso de
investigación científica .

algunos científicos investigador desplazarse estudios puede de la observación

h a s ta
de
En
tipos ,
el

la estudios todo
generalización tipo requiere desplazamiento por
,
mientras
que en otro de se un

el ciclo de
investigación ,
el Modelo de Wallace hace énfasis en la
prueba de
hipótesis , para
determinar si se
acepta o se rechaza .

también
Es
importante el hecho de
que
si una
hipótesis es
comprobable en
principio ,
es
comprobable en

factible
técnicas
obtención datos Métodos
práctica
la ,
es
y
decir ,
si es la de los entonces se conocen los

especifica que
investigación hipótesis colectar los la los resultados de
probar para y
.
El Modelo la

pueden estimular
planteamiento hipótesis el de nuevas o el desarrollo de nuevas teorías .

este
principal información
círculo Wallace inicia las observaciones
componente de la

obstante
En con como ,
no

pueden independientes ,
hipótesis y
las observaciones no se considerar de las ideas ,
las los

pensamiento establecidos
diagramas
de .

'

Orígenes :

Investigación social / Estadísticas / Estadísticas sociales presentación cuantificada de carácter económico


s ocial
-

:
,

político que afectao a la colectividad .

Estadísticas como colección de datos hasta el Sr XIX .


.

Estadísticas -

Estado -

ciencias sociales .

Economía Problemas económicos administrativos


y
- -

Censos Estadísticas oficiales instrumento necesario e


imprescindible para
el conocimiento
profundización
-

y
: :

de la realidad social (
sociología demografía , ,
estadística .

Universitaria :( Escuela estadística


sistemática información
Estadística
Descripción alemana) Necesidad de reunir
-

.
.

diferentes países sobre los .

Con
ring (1606-1681) : Anatomía sobre
España trabajo que , compara con el de
Petty
G. Achlnwall (1719-1772) la utilización del término statistilk :
atribuye
"
le

descripción
: A
quien se
por vez
primera
comprensiva país de las características sociales , políticas y económicas de un .

1.
Petty El primero en formular la teoría de el valor interno denominado el
"
valor natural " del
precio del

Mercado
:
que , por ,

según según Petty


"

terminología precio político intervención Estado


"
O , su ,
. La del : El Estado debe tomar

parte en la actividad económica con el


fin de
asegurar un nivel
digno de vida , una
seguridad social , etc .

y
de esta forma impulsar la demanda nacional
y por
lo tanto reducir los excedentes .
politices
ingle ses campos diversos estadistica
investiga
dora Precursora de la
demografa
-

Aritméticos
.
:
,
estadístico
J Grount (1620-16741: primer intento de
aplicar un razonamiente
propiarente a datos demo

.
gráficos Analisis de la nortalidad de Londrercia estimacion de la
población de Londres ibautizos

,
.
fallecidos y densidad de habitantess influencia de las estacioner del ato sobre mortalidad

" Política
Pethy L Precursor de los cen
y
Econónica Precursor del
Registro General

1623-16873:
8or.
.
".
Estadistica
-
aportaciones
Otras
:
Y Sinchair
" estadistica de Escosia 41781-1825).

"
:
.
Informe
habitantes Londres
C Booth Vida
trabajo de los de 11889-1891).
:"
"
y
.
Nightingaleu

8zo-19loy.
Elorence
Diagrama dearea polar
:
"

E Le
Play Obreros
europes (1877-18793.
"
.
:
sustentarroporcona
Paralelamente a las corrientes anterieres nace lend h u l va
discpling el
catallo de

,
probabilidades
que as pundamentos para
,
Genesis de la
probabilidad
:
conceptor
de
probabilidad juegos
-

de
r

s azar
.
z ade
sxv Cardano
a r
conceptode ley
.
:
:
Gahilei Casos al dados
G probables lanzar tres
.
:
.
M é t o d o

sxvil Necesidad de in
.
:
pr Epoca de oro de a teoria de
obabilidad
8. XIX
.
XVIll
:
estadistica
configuración de a coro ciencia

Darwin 41809-18823: Predicciones


.
contrastación estadística
.
Quetelat (1796-1874):
Impulsor de la estadistica al estudio de los
ferómenos sociales creación de

sociedades estadísticas '


fenómenos
teora
las Conocido por su de las
requarida der de or
.
r
sociates Desarrollaed
el del ''
concepte
'
hombre
".
Galton 11822-1911: Necesidad del rétodo estadistico
cregresion y correlacións
.
" tribuicion cateoria a evolución
on
K Pearson 41857-1936): ratemática a de
."
.
Aplicación de mitodos estadisticos en areas diversas biologa psicolargia
..
:economia,
,
El caso
español
:
-- anteriores al
s de 68
politicar españoles
"
.XVI1trabajo
Estadísticas
-
censos:
1494: habitada
14821 censor realizados
fuegos asa
:
por
s
8.XV.
por
.
re
164 6 de juro
c 1693 credutar o
dos sodados cada
s io
( forzoso
SXVI
1
por
reparto
),
XVIll 1768- da Aranda 1787- dablanca Mera induvideos
8.
conde
wez
por
.
:
.
Flor
,
z
niega el
papel del azar
yo
sustituia
por
la idea de
que
incluso os
fenómenos sociales
.Quetelet
resultador estadísticos
poseen causas
y que
las
regularidades que presentan os se
pueden emplear para
,
subyacen
desentraiar as al social
reglar
orden
que
.
3. Quatelet
fue considerade conoel
precursor de a bioestadística toda vez
que
demostro
que
lor
patrones de
,
comportamiente y biologia
numane
podian ser descritos all utilizar las
leyes da
probabilidad generande
,
Institucionalización estadística oficial

8. XIX : 1856 : de la .

1857 :
Incorporación de la Estadística en estudios universitarios .

ESTADÍSTICA
-

Colección de métodos
para obtener , resumir .
presentar interpretar
, ,
analizar

actuar sobre hechos numéricos relacionados con la actividad de interés


y

⊖ ⊖

ESTADÍSTICA DESCRIPTIVA ESTADÍSTICA INFERENCIAL

Dama de la estadística se rama de la estadística se


que que ocupa
características
ocupa
de describir determinadas de obtener
información de las

características de un
conjunto de la
población a través de la
información
de datos muestra
que proporciona
.
una .
Tema 2, 3 y 4: Operacionalización y variables

¿ Qué es la
operacionalización ?
cuantitativa
La
operacionalización de
conceptos es un
proceso que forma parte de la
investigación social .

establecen características
Mediante ese
proceso se seleccionan
y
una serie de dimensiones
y ,
que representan
Más abstractos
conceptos o Menos .

su resultado
permite especificar un
conjunto de varoibles o indicadores a través de las cuales tratamos

de contraste determinados realidades sociales


aproximarnos al
empírico de
problemas y .

variables la edad nivel actitud hacia aborto intención


Ejemplos de esas son :
,
el de
ingresos ,
la el ,
la de

voto ,
el
grado de
satisfacción con un servicio ,
etc .

cuantitativa
Fases en una
investigación social .

Formulación del problema ¿ Qué : se va a


investigar ? ¿ Qué
objetivos se
plantean?
¿A teórico
partir de
que Marco se
parte?

t
2

Operacionalización del
problema: Hipótesis de
partida Operacionalización
.
de
conceptos .

Delimitación de las unidades de análisis .


3

Diseño de la
investigación Estrategia : a
seguir .
Diseño de la Muestra Técnicas de
.

datos
recogidas de .

J
t

Recursos : Humanos ,
Materiales ,
económicos .

Planificación de la
investigación . Etc .

La
operacionalización de
conceptos y la Medida en ciencias sociales .

La está relacionada cuestión


operacionalización de
conceptos con la de la medida

La ciencia moderna es un Modo


específico de conocer la realidad basado en un
procedimiento que
-

privilegia :

observación razón
La la
y experimentación
la
-

La
referencia a hechos cuantificables y accesibles a la realidad .

de Métrico objeto
>
Idea positiva Medida
Registro externo
investigador
>
ciencias naturales de un al

y cifrable
medible
Medir
supone pasar
de un sistema
conceptual a un sistema
empírico ,
.

;w; Masa

Velocidad 20
t

÷Í
kilos

M /
seg

sociales dificultad especial Medir habida cuenta


naturaleza
En el contexto de las ciencias existe una de de la

objeto del de estudio .


Se puede apreciar la dificultad de Medir la realidad social si nos
fijamos en
conceptos como los
siguientes :

Pobreza
-

Vulnerabilidad social . ¿ COMO Medirlos ?

¿A
Solidaridad partir de
qué criterios ?
-

Poder ¿ con
qué unidad / es de Medida?
-

Desigualdad social
-

Anomia

Etc .

¿ Qué hace ciencias sociales medir la realidad social?


se en
para
En ciencias sociales ,
para medir la realidad social se recurre a la Operacionalización de
conceptos .
Lo
que
supone : 1.
Identificar el
concepto : 2.
Especificar las dimensiones propiedades
( )
que
lo
componen ; 3.
Transformar
cada dimensión en variables
empíricas ; 4.
Descomponer cada variable en
categorías .

CONCEPTO

Dimensión 1 Dimensión 2 Dimensión 3

Variable 1 Variable 2

Valores /
categorías valores /
categorías
1 1

Indicadores Indicadores

Tipos de variables

según el nivel / escala de medida : -


Nominal :
expresadas con un nombre ,
no llevan un orden .
Color de
ojos
Ordinal naturaleza Ordehable Nota
expresadas hombre de de un
-

: con un
,

exámen notable , sobresaliente matrícula de


suspenso aprovado
→ tono
,
y
,

intervalo sólo tomarse


-

De valor entero N° de
: cuando
puede un .

hijos .
r .

De razón características intervalo diferencia


-

mismas la de la
:
que ,
con
que
cuentan con un cero absoluto = O
representa la ausencia total de

Medida Salario de
. una
persona .

según la naturaleza de los


aspectos Medir a :

cualitativas emplean para identificar atributo elemento escala

nominal
de se
-

: usadas un un . con la

ordinal mímicos de los


y pueden
o la ,
ser o no .
El color coches .

numéricos datos
cuantitativas
aquellas que requieren valores
definir los
emplean
-

se
:
para . con

las escalas de Medición de intervalo de razón La altura de


o .

personas

intervalo
Continua: dentro
puntos

tomar valores de continuo dos


puede un dado de
=

un intervalo ,
la variable
siempre podrá tomar infinitos valores entre ambos puntos .

La
temperatura de una habitación

conjunto finito

Discreta : sólo
puede tomar valores sobre un de valores o un
conjunto
infinito pero numerable . Cantidad de años de vida de una
persona
según la
función que cumplen : -

Independientes
independiente cambia
función
variable
de la valor
Dependientes
-

: en ×
, ,

factor .

Para determinar las


categorías / valores de una variable se han de tener en cuenta 3 normas :

Único
Exhaustividad ,
Exclusividad
y Referencia
a un
principio clasificatorio .

OTROS CONCEPTOS :

( Universo )

Población :
estudiar
conjunto de elementos
propiedades y que ciertas entre los desea
que cumplen
se

fenómeno investigación
el
definir propia población
de interés .
Cada ha de su .

Variable / carácter características


cada
propiedades rasgos
elementos
de las los
que poseen
: una o
,

población y que objeto


de
categorías una son de estudio ( o valores !

Unidad : Persona característica


, empresa . . . con
alguna que se
puede Medir
categorizar
o .

todos
Censo :
Registro de las características de los individuos de una
población .

Muestra:
subconjunto de elementos dentro de una
población .

Muestreo : Técnica estadística


que nos dice como
elegir una Muestra de la población de la forma
más adecuada .

Estadístico : Medida Media , varianza datos


descriptiva ( .
. . ) de los Muestrales .

Parámetro : datos
Medida
descriptiva ( Media ,
varianza . . .
\ de los
poblacionales .

Estimador : Estadístico
algún pronóstico
interés
de usamos dar sobre una característica
que para
.

operacionalización del
concepto vulnerabilidad social "
"

Ejemplo La
:

Vulnerabilidad
frontera social :
integración
constituye
la entre considerarse de
que puede
lo la zona

y familiar
por pilares
social caracterizada estables sólidos el contexto laboral
y en -

aislamiento
social ,

y
la zona de exclusión
que implica la carencia de
trabajo y / o

familiar social .

Investigación sobre el
concepto .

Informe ámbitos / dimensiones


concepto
"

social 2014 dentro


sobre vulnerabilidad
distingue
"
El s del

social
"
vulnerabilidad
"
:

VULNERABILIDAD SOCIAL

I
I I I I 1

ECONÓMICO SOCIAL FAMILIAR PERSONAL AMBIENTAL O DE VIVIENDA

ámbito
A su vez ,
cada contiene una serie de variables ,

y
cada variable está
configurada con un

número
determinado de valores o
categorías .
A continuación se
presentan algunas de ellas .
VULNERABILIDAD SOCIAL

I
I I I I I

ECONÓMICO SOCIAL FAMILIAR PERSONAL AMBIENTAL O DE VIVIENDA


'
I I
sin
hogar
-

INGRESOS SITUACIÓN LABORAL

Institucionalizado .

-
Menos de 446€ -

Trabaja
-

semi -
institucionalizado .

427€
De 600€
desempleo Vivienda propiedad
_

a En en
- -

todos ( sin
De 601€ 800€ Vive
hogar cedida
legalizar )
-

con
-

a
-

en .

De 801€ Vivienda
a 1000€ los Miembros
desempleados en
alquiler
-
-

Más situaciones Habitación


de 1000€ Otras
alquiler
_

en
-
-

Las variables pueden plasmarse a través de diferentes formas de


recogida de
información :

Preguntas de un cuestionario .

Registro de conductas observadas .

Datos
recogidos en un censo .

Registros de una
ficha personal y social de un individuo al
que atiende una institución .

Etc .

TEMA 5: Técnicas de análisis estadístico univariado

ESTADÍSTICA DESCRIPTIVA : conjunto de


procedimientos necesarios
para recoger , clasificar ,

representar y
resumir un
conjunto de observaciones Fase .
de análisis de datos .

Análisis univariado Variables cualitativas : distribuciones de


frecuencias
-

proporciones .

Variables
discreta frecuencia
cuantitativa : distribuciones de (
-

tendencia continuar ) , medidas de central Medidas


y ,

de
dispersión y
medidas de
forma .

Distribución de frecuencias de una variable .

Útil
para facilitar análisis
organizarlos interpretación datos
una
recogidos vez
y
los ,
su su es

y frecuencias distribución
resumirlo frecuencias en tablas de . Llamaremos de

de una variable cualitativa a la clasificación y


tabulación de dicha variable

Frecuencia absoluta ( hi ) : número de veces se repite un valor de una variable una modalidad de atributo
que o un .

¿ Qué
Frecuencia relativa (
fi ) : cociente entre la
frecuencia absoluta
y el total de elementos ,
o tamaño .
mide?

Proporción valor Modalidad dentro del total ( se suele dar tontos ciento )
de un o .
. en
por .

fi =

*
Ni total .
-

Frecuencias acumuladas : sumas de


frecuencias hasta un determinado valor de la variable ( no se
puede hablar de

frecuencias acumuladas cuando se trata de un atributo ) .

Frecuencia absoluta acumulada (N ;) : suma de


frecuencias absolutas

Frecuencia relativa acumulada ( Fi ) : suma de


frecuencias relativas

"
i i
i

NNI
n
;
¡
;
F.
Í
=

fi
=p
= = =

N N
¡
,

PROPIEDADES FRECUENCIAS

DE LAS

.
n ,
+
nzt .
. .
+
nk = N .

NK = N -
O <= n
¡ { = N .
Ni =
Ni , +
ni

f fz +
fea 1 Fm 1 Oh
f; < 1

+
'

+ = = . =
,
. .
.

'

El %
correspondiente a un valor ✗¡ de la variable se obtiene Multiplicando la
frecuencia relativa por 100 .

clasificados según
fijado

TABLA DE presentarse
FRECUENCIAS : los resultados mímicos deben ordenados un criterio
y
disposición regular
,
denominada tabla estadística .

datos
Los
pueden haberse obtenido
largo del
tiempo para variación serie
cronológica
temporales

a lo observar su : o
,

si las observaciones han sido


efectuadas en un Momento
fijo ,
se denominan transversales .

Espaciales : Tratan de
comparar los valores de una variable en distintos espacios geográficos ( renta) .

Frecuencia : si estudian la
repetición de un determinado hecho o
fenómeno ,
Más utilizadas en los
procesos
estadísticos .

número
MEDIDAS DE TENDENCIA CENTRAL : Deséetln información obtenida
de la solo valor a un o a un

pequeño para de valores


facilitar la comparación entre diferentes muestras o

poblaciones .

Media : Cociente entre la suma de todos los datos el número de ellos


y
.

K
,

' ✗ i.li
in
☒ =
✗ 14-1 Xznz -1 . . .
+
✗ una / N =

datos elemento
Mediana : de
conjunto de ( Mel el central en
conjunto de observaciones

ordenados
un es un

forma número creciente mitad


inferiores y
de o decreciente ,
la son a dicho la otra

Mitad son superiores .

↓¡ +
A
% -

Fi -
1
= Fi > xi
2
fi

Sin intervalo Con intervalo


Moda ( Mo) : Valor de la variable al
que corresponde Mayor frecuencia .

El dato + li Cli 1)
que <¡ + A
-
-

se
repita f; -
( fi -
1) + ( fi -
( fi -111

Sin intervalos Con intervalos

Medidas de
posición : cuantiles :
generalización de la Mediana .
Las Medidas Más usadas

cuarteles dealer
y percentil
son los , .

É
k n
K N
.

4/10/100 4. +
A
Fi -

Fi -

1)
Sin intervalos

con intervalos

Medidas de
dispersión : Indican la
Mayor o Menor
separación entre los valores de

la variable .

Varianza : l 2) :
diferencia promedio entre cada de los valores
hay
-

uno
que
respecto a su
punto central .

ik
Desviación típica (
-

) ✓=
2=Í
=
:

intercuartilico
Rango
-

Rango sereiintercuartílico -

coeficiente de variación de Pearson : CV =

Medidas de
forma : Valoración de
forma aproximada si ,
la vertical
correspondiente a la

media aritmética áreas


separa o no
iguales si se
separan aglutinan
o

los valores : asimetría curtosis


y
.

coeficiente de asimetría de Fisher

1
ÉL cxi -
x-P ni
AF = =

91
=
,
N

coeficiente de
apuntamiento o autorice

"
: Hi -

F) n
¡

1- +
¡ =
,

ga Ap
= = =

N
FRECUENCIAS DISCRETA : elaboración frecuencias

TABLA VARIABLE

ordenando
tabla
consigue
DE EN UNA La de una de se

Mayor y frecuencias
los
fi distintos valores de la misma de Menor a anotando las distintas ni , , Ni ,

Fi . . .
Nos podemos encontrar diferentes situaciones :


Que hecho observaciones tanto variable estadística tome valores UI
se
hayan pocas y por
, ,
la pocos .


Que hecho observaciones variable estadística tome distintos ,

incidiendo
Muchas la valores
hayan se
y ,
pocos
valor ( II )
repeticiones en las de cada .


Que hecho observaciones variable estadística tome distintos
se
hayan Muchas
y ,
la Muchos valores
por
variabilidad
Muy grande
lo el de es UIIJ
que campo .


TABLA DE FRECUENCIAS DE UNA VARIABLE CONTINUA

TRATAMIENTO DE VARIABLES AGRUPADAS EN INTERVALOS DE CLASE : Si son Muchos los valores distintos tome la variable ,
que
los datos intervalos hacemos recuento de las observaciones dentro de cada
agrupamos en
y
un
que caen

intervalo (
simplificación de
trabajo / pérdida de
información I. ¿ Equilibrio ? n° de intervalos
y forma
de los datos .

Amplitud del intervalo diferencia entre el extremo


superior inferior de cada intervalo
-

: en .

constante
✗ Intervalo de
amplitud .


Intervalo de
amplitud variable .

Elección de intervalos
-

los

amplitud tomarán

Medio abiertos : determinada intervalo
Intervalos
Fijamos una
para cada
y
se

tantos intervalos
solapados como sean necesarios .
serán de la
forma [a ,
b) ,
siempre contendrá al

inferior de los valores , pero no al


superior .

Ejemplo : 3,7 10,10 6,5, , ,


4.5 , 12,11 ,
10,15 , 10.5 , 6 ,
2o ,
10,9 ,
10,8 ,
15 , 13,14 12,7 , ,
10 ,
6 ,
9 .

Intervalos Valores caen dentro ni


que

[2 ,
6) 3,5 ,
4.5 ,
Lo 4

[ 6,10 ) 8

[ 10,141 11

[14,16 ) 3

✓ Intervalos con límites reales de clase : Los intervalos vienen dados de una
forma que
no se
solapan 120 -

139 ,

140-149,150-159 . . . En estos casos es conveniente


elegir unos intervalos que contengan a éstos ,
sin modificar
las
frecuencias y cuyos
extremos si se
solapen .
Estos nuevos extremos reciben el nombre de límites reales

de clase (
punto Medio entre el extremo
superior e
inferior de cada dos intervalos
contiguos ) .

✓ Marcas de clase :
punto medio de cada intervalo / valor
que representa la
información que contiene un intervalo

( sólo cuenta distribución ) (


el n° de observaciones
que caen dentro del Mismo
y
no la valores
diferentes
caen dentro del Mismo intervalo
y
son tratados como
iguales ) .

✓ ¿ n° ¿? Cada distinto d ? Entre


y amplitud subjetividad investigador
de intervalos ? del caso es 5 20 a veces
y ,

se toma el n° de intervalos no exceda del 10% del número de datos


que .

REPRESENTACIONES GRÁFICAS

.

Los
gráficos deben ser seleccionados según la naturaleza de la variable .

Deben
guardar una adecuada
proporción
No deben inducir a conclusiones
diferentes a las
que
los hechos muestran .
GRÁFICO
gráfico representación gráfica cartesiano
frecuencias
-

DE BARRAS : un de barras es una en un


eje de las

discreta posicionan distintas


de una variable cualitativa o .
En uno de los
ejes se las
categorías

frecuencia
modalidades la variable cualitativa discreta de cereal) el otro el valor
o de o (
tipo y
o

de
categoría produccióncada en una determinada escala ( la en millones de toneladas

de )
granos .

evolución
se suelen utilizar para :
comparar magnitudes de varias
categorías o
para
ver la en

concreta
el
tiempo de una
magnitud .

HISTOGRAMA : se
representar las
frecuencias de variable cuantitativa continua En
-

usa
para una .

de variable
uno de los
ejes se
posicionan las clases la continua ( los intervalos o las Marcas

de clase
que son los
puntos Medios de cada intervalo )
y
en el otro
eje las
frecuencias .
No

existe
separación entre las barras .

PIRÁMIDE POBLACIÓN : Una


pirámide de
población es
histograma bi direccional Muestra la
-

DE un
que
-

la estructura
demográfica de una
población por , sexo
y
edad ,
en un Momento determinado .

En el
eje vertical se
posicionan los
rangos
de edades
y
en el horizontal los
porcentajes de
población .

distribución
En una de las direcciones se colocan las barras
que representan la ( % sobre el total de

gráficos
población ) por edad distribución por edad Estos
Mujeres de los varones
y en la otra la de las .

vejez población visión por tanto desarrollo


juventud
nos dan una
y
de la
,
Madurez o de una , ,
su .
GRÁFICO LINEAS : Un
gráfico de líneas representación gráfica cartesiano de la
-

DE es una en un
eje
relación que existe entre dos variables reflejando con claridad los cambios producidos .
se suelen

usar para presentar tendencias temporales .


En el eje horizontal se ha de posicionar la variable
que indica

variable variación
las unidades de
tiempo y en el vertical se introduce la escala de la
cuya
en el

Pueden variables
tiempo queremos ver .

aparecer varias
para compararlas .

GRÁFICO gráfico gráfico


frecuencias
Pareto ordenado por
tipo de de barras vertical
-

DE PARETO : un de es un

forma que identifica y


de
prioridad
descendente da un orden de a los datos .
En el

eje
representan categorías
horizontal
queremos
se las de la variable estudiar (
diferentes
ca u s as
que
muestra
externas
eje de
porcentajes
Mortalidad ) .
En el vertical derecho se la escala de

y en el
eje vertical
izquierdo la escala de
frecuencias ( número de
defunciones ) .
Las barras

muestran las
frecuencias de las
categorías de la variable
y
la línea
representa el
porcentaje
acumulado de dichas
frecuencias respecto al total .
Este
gráfico muestra el Principio de Pareto ,

formulado por
el estadístico italiano
Vilfredo Pareto (1848-1923) : Pocos vitales ,
Muchos triviales .

GRÁFICO SECTORES Un
gráfico sectores
representación frecuencias
-

DE de las

relativas
: de es una circular

y rápida
permite
de una variable cualitativa o discreta
que ,
de una Manera sencilla ,
su

comparación .
El círculo
representa la totalidad
que se
quiere observar ( total de
viajeros hospedados
en hoteles)
y
cada porción ,
llamadas sectores ,
representan la
proporción de cada
categoría de la
variable (
tipo de hotel) . Suele expresarse en
porcentajes .

Son útiles cuando las categorías son


pocas ,
si no ,
no
aportaría casi
inf .

y
sería
incomprensible .
PICTOGRAMA : gráfico representa Mediante
figuras setebolos frecuencias
-

Un
pictograma es un
que o las de

una variable cualitativa o discreta .


Suelen usarse
para comparar Magnitudes o ver la evolución en

concreta
el
tiempo de una
categoría .

GRÁFICO DISPERSIÓN : Un gráfico dispersión Muestra relación existe entre


de
eje
-

DE en un cartesiano la
que
dos variables Este .

gráfico nos informa del


grado de correlación entre las dos variables ,
es decir ,
nos Muéir -

incremento disminución las variables denominada

independiente
tra si el o de los valores de m de
,
variable

horizontal altera valores otra,


y que representar eje alguna
se suele en el ,
de manera los de la

denominada variable
dependiente y que representa generalmente el
eje vertical .
consumo de
fertilizantes
nitrogenados de cada
país está
representado en el
eje horizontal
y
la
producción agrícola en el vertical ) .

El
tipo de correlación se
puede deducir de la forma de la nube de
puntos :

✓ ✓

Correlación nula correlación lineal correlación no lineal

CARTOGRAMA : un corto el
representan datos
regiones bien
poniendo el ni
-

grama es un
mapa en
que se
por o

coloreando las distintas zonas en


función del dato
que representan
TEMA 6: EL ANÁLISIS DESCRIPTIVO DE UNA VARIABLE

Gráfico caja y bigotes : pasos en su construcción .

1. Ordenamos los datos

Calculamos Me Q,
y Qz
2. la
,

3. Determinamos dos
puntos f ,
y fz ( separadores interiores )

=
Q1 -115 .
RI

fz Qz +115 RI
=
.

Los
puntos por debajo de
fe y por
encima de
fz se consideran
atípicos .

4. Determinamos puntos dato Más


dos a
,
y az ,
denominamos valores
adyacentes .
El
punto a
,
es el

cercano a
fe superior o
igual a él . El
punto az es el dato Más cercano a
fz inferior o

él
igual a .

Determinamos denominados
5. dos
puntos F1
y Fz ,
separadores exteriores

F1 =
Q1 -
3 .
PTI

Fz =
Qz -

3 .
RI

6. Situar los
puntos sobre la escala horizontal o vertical .

I I I I I I I I

Fr
fe a1 Q1 Me Qz 93 fz 1=3

Construimos línea
y Qz
Qr interior Mediana
7. una
caja con extremos con una
dibujada en la .

Medidas de concentración Acumulación determinada


: de una
Magnitud económica en determinados

individuos concentración término


opuesto a
reparto equitativo) Especial aplicación . en variables

económicas ( rentas salarios) ,


.

Índice de Gini (
lql : Medida utilizada
para comparar el
reparto de los
ingresos o de la
riqueza .

Una vez
dispuestos los datos de la variable Xi en la tabla de frecuencias donde tenemos
,
ya
las frecuencias absolutas acumulador ni Ni
y y
.

Calculamos de los acumulada


la columna
productos ✗
¡ ni ; columna ✗¡ ni i

=
Ni / N ;
.

=
columna acumulada xi / total columna acumulada xi ; la columna de
qi ni ni
y
.
.

las
diferencias pi y qi

1g
CP-i-q.fi
-
-

reparto equitativo concentración Único individuo


si
1g O si
1g 1
=
,
=
en un .

Curva de Lorenz :
representación gráfica de los datos calculados en el índice de Gini .

Pasos : 1.
Representamos los
ejes cartesianos .

2. Incluimos un cuadrado lados están divididos en


cuyos
la 1 , vértice
una escala de en el
inferior izquierdo
está el de coordenadas
origen
.

3. En el
eje de abscisas
representamos p y
en el de ordenadas q
.

4.
Representamos los puntos ,
la línea
poligonal
será la
representación
de la curva de Lorenz
TEMA 7: Técnicas de análisis bivariable

La mediante tabla
descripción conjunta de dos variables se realiza lo
que se conoce como una

de doble entrada .

Las tablas de doble entrada


permiten describir de forma conjunta cualquier par de variables ,
ya
sean cualitativas ,
discretas o continuas
y
además nos
permitirá obtener información sobre

distribución las variables forma conjunta distribución


la de
frecuencias de dos de ,
la de

frecuencias
individual distribución distribución
frecuencias de
marginal cada variable ( ) o la de

fijado categoría de una variable una ,


valor o intervalo de la otra variable

( distribución condicionada )

Para construir una tabla de doble entrada cada individuo de la


población debe pertenecer a una

sólo una de las clases de cada una de las dos variables


y
.

Mij representa el número de individuos de la Muestra


que presentan la
categoría Xi de la variable


y
la
categoría Yj de la variable Y .

Mi + representa el número de individuos de la Muestra


que presentan la
categoría ¡ de la variable
y
se

calcula como la suma de los individuos a la


fila correspondiente .

M+ '
!
¡ representa Q
número de individuos
que la muestra
que presentan la
categoría j
de la variable
y
se

calcula COMO la suma de los individuos de la columna


correspondiente .

M+ + número total
representa el de individuos .

La última columna representa la distribución Marginal o individual de la variable .


La última
fila representa la distribución Marginal o individual de la variable Y .

útil distribución condicionada


En ocasiones es conocer la de
frecuencias de una variable a uno

o varios niveles de la otra variable con el


fin de
poder comparar la distribución de

misma distintos otra


frecuencias de la variable condicionada a niveles de la .
A esto se le llama

distribuciones de frecuencia condicionadas


y
serían :

distribución
Esta tabla
correspondería a la de la variable

condicionada a la
categoría Yj de la variable Y

La distribución de la variable Y condicionada a la


categoría ✗¡ de la variable X .

Las tablas
frecuencias
aquí han
explicado vienen
expresadas términos
absolutas
de las
que se en

información tenemos relativas sólo


.

frecuencias
Si deseamos
que
la de las

dividir las frecuencias absolutas entre los


correspondientes totales de
filas o columnas .

RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS NOMINAL (


coeficientes de asociación ) .

Construir una tabla


que contiene las frecuencias que deberíamos haber obtenido en el caso

de
que las variables ✗ e Y fueran independientes frecuencias esperadas : .

¿ cómo calculamos frecuencias esperadas ? Eij nj


las = ✗
Njln
'
( ) /
relación coeficiente Eij Eij
'
Para evaluar la calculamos chi cuadrado ✗ =
-

¡
-

, .

Cuanto Más este valor relación entre existirá


pequeño variables
obser vaciones
sea ,
menor las > n° de

y categorías n° de .

Coeficiente 2×21 ✗ 4h
de phi ( tablas de =

Coeficiente \
de Yule Habla 2×2 ) Varía entre -1
y
1.

2

coeficiente de
contingencia ; C de Pearson c =

n
2

⊖ de Cramer ✓ =

n .
(k -

1)
RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS ORDINALES ( coeficientes de concordancia .

Coeficiente de
p
(Rho )

coeficiente de Goodman Kruskal (V )


y

cálculo de concordantes
pares

Alto )
A (
Bajo Bajo ) , ; D ( Medio , .

Los 10 individuos de D están encima de los 15 individuos


por
de A ambas variables tanto su orden ambas
en ,
por en

variables es concordante

También son concordantes todas las


parejas de las casillas AF
y
CF ,
es decir ,

AF (
Bajo Bajo
, ) ( Alto
,
Alto ) ; CF ( Medio ,
Bajo I , ( Alto , Alto ) .

Pares concordantes : 15 (10+14) →


5×14

cálculo de discordantes :
pares

Individuos Alto ) C
de las casillas B LBajo ,
y
LMedio ,
Bajo ) .

Los individuos C (5) están de los individuos variable LYI ,


de
por encima en B en una

otra variable LXI discordancia estas variables ¿ Más


Hay
la
Hay
en
pero no en .

Alto) Bajo )
pares discordantes? BE (
Bajo , ( Alto ,
y
DE ( Medio , Alto ) ( Alto ,
Bajo ) .

Pares empatados A (
Bajo Bajo )
, ,
B (
Bajo ,
Alto ! .
. .

'
2 No asociación
hay
=

'
2 =
Asociación débil

' '

2- 6 =
Asociación moderada

'

6-1 =
Asociación débil
TEMA 8: INTRODUCCIÓN A LA CORRELACIÓN Y REGRESIÓN

¿ Qué hemos visto anteriormente?

Antropología interesantes cualitativas


nacionalidad
Muchas variables ( sexo
que pueden ser en son ,

profesiones religiosidad formas


, , ,
de ocio )

Análisis de la asociación entre variables cualitativas / nominales .

Análisis de la concordancia entre variables cualitativas / ordinales .

¿ cómo ?

Representación Mediante las tablas de


contingencia y
examinando su
dependencia ( existencia
según Coeficiente ✗ coeficiente V
2
de la misma dirección el tipo de variables 1.
,
grado y > , ,

coeficiente de Rho de
Spearman . . .

¿Y ahora hacemos ?
que
Estudiamos la relación entre dos variables cuantitativas ( intervalo -

razón) .

También la relación entre variables traducidas numéricas


que pueden ser a
magnitudes
otra forma tanto dirección
hay que analizarla de .
Nos interesa la fuerza COMO la de la

relación dos
conjuntos números visitas social
"
entre de "
( edad al museo , clase
y y
.

asistencia al teatro ,
inversión en sanidad pública y pólizas en sanidad
privada . .
.
I .

Lo haremos desde 3 puntos de vista:

Representar diagrama dispersión


las dos variables ,


de .

Establecer Medida de relación entre dos


posible variables de

la
una
que hay
este
tipo , coeficiente de Pearson .

Obtener modelo Matemático


permita predecir valores de de las

nos
que
un una

variables en
función de los valores de la otra
regresión lineal
,
.
representación gráfica) relación existente

La nube de
puntos ( nos indica el
tipo de

entre las dos variables .

correlación lineal de
Trabajaremos con la correlación lineal
y
el coeficiente de

Pearson , r .

El
coeficiente de correlación de Pearson ,
r
,
es el coeficiente que determina

la
Magnitud supuestamente ,
lineal entre las variables cuantitativas .

Fácilmente interpretable : oscila desde +1.0 ( asociación lineal perfecta positiva


( asociación
a -1.0 lineal
perfecta negativa )
pasando por 0.0 ( ausencia
de asociación lineal .

La
regresión nos
permite pasar de la
dependencia estadística representada
en una nube de
puntos a la
dependencia funcional dada por la línea
de
regresión .

La estimación obtiene
de la covarianza es
Muy
sencilla .

Supongamos que se

una Muestra aleatoria de tamaño n de una


población y
a cada uno de

muestra
los individuos de la se les
pregunta por cada una de las dos

variables en estudio .
El resultado es
conjunto de pares
un de valores

estos datos estimar


(✗ i
podemos poblacional covarianza
Mediante
la
yil , ,
con

siguiente forma
la covarianza muestral de la :

( ✗ Y
✗y
rxy
=
_

Cuanto esta medida la variación conjunta y por tanto


mayor sea
Mayor
es

la relación entre las variables .

hay patrón
Problemas de escala de Medida interpretación ya que
Depende la su
: no
y
.

con el
que
se
pueda comparar .

Estos resuelven definición otra Medida relación entre


variables
de
problemas se con la de

coeficiente
: correlación
el de de Pearson .

Coeficiente de correlación ,
r ,
de Pearson

longitud
coeficiente conceptualizado por Galton ( relación entre estatura del codo )
desarrollado
la
y y
antropólogo fémur puede excavación ¿
deducir por Pearson ( un .

, si en una se encuentra un ,

alguna
de sus dimensiones
que perteneció para
característica del individuo al ? También

identificar criminales , datos antropométricas tratar


bases de ,
no se
pueden las variables de un Mismo

individuo como
independientes .
.
.
) .

Coeficiente que mide de variación entre distintas variables relacionadas linealmente


el
grado • .

existe relación diferente ≠ 01


Nos
permite ver si o no una lineal entre las variables vida de cero , .

La dirección esta relación existe


de .
si es
que
(
por su
signo positivo o
negativo I. El
grado o

intensidad de esta relación (


por el valor absoluto del coeficiente) .
Toma valores entre -1
y
+1 .

| /
S ✗Y -


y
r =
r =

l ✗ 12 ( Y 12 5×54 - -

y )

y 2 - y
n
Coeficiente de determinación ,
r2

variación
se interpreta como el
porcentaje de de la variable
dependiente explicado por la variable

independiente correlación
ajuste
"
el Modelo
planteado ) Mide bondad del recta
"
lo de .
la de la

de
regresión .
Toma valores entre
y
1 .

r2 variación de relación
dependiente
independiente
> la variable
que queda explicada por su con la


variación
1- r > de la variable
queda sin explicar
que .

RYC RY
explicado que queda
1- sin
> lo / lo
explicar .

Modelo de
regresión lineal
simple .

Ahora
,
nuestro interés se centrará en buscar algún tipo de relación entre las dos variables

✗ e Y
, con el fin de
predecir los valores de una a
partir del conocimiento de la otra .

Este
objetivo se
consigue mediante la teoría de la
regresión .

regresión
más sencillo de los Modelos lineal Para estudio de este

modelo simple
Caso ,
el de .
el

forma funcional que


necesitamos asumir la relación entre
variables
una describa dos

estudio
parámetros cuyos número reducido
valores
de
y que dependa
en un de un ,

aproximar satisfaga
desconocidos deberemos de manera
que
la ecuación resultante

algún criterio de optimalidad conveniente


elegido .

Supongamos que tenemos dos variables X ( variable independiente ) e Y ( variable


dependiente ,

el
objetivo es intentar establecer un Modelo
que exprese una
dependencia funcional
entre las variables ,
es decir , un Modelo de la
forma

y =
f ( X)

encontrar recta
Lo
que pretendemos es la
que Mejor se
ajuste a los datos .

f✗
\

El Modelo lineal recta de
regresión sería de la forma
+
=
o

mediante :
Los valores de los
parámetros ,

y P .
se estiran

' lit b ( ✗ ¡ f ;)
( ✗ i. Yi ) ( ✗ i.li ) ( y ; f; ) Yi
-
-
- .

b. =
a=
2
fi)
2
(✗¡ ( ✗¡
f)
-
-
.

La recta
regresión será :
y
=
a + bx

buena recta el coeficiente correlación


observado
que tenemos de
Una vez una ,
es decir ,

alto ,
es
podemos realizar
predicciones de los valores de una variable con
respecto
a los valores de la otra variable ,
siempre que estos últimos se encuentren entre

Mínimo Máximo de los datos del variable)


el valor
y
L dentro
rango de la .

condición la recta
Es decir una
indispensable para poder usar a + bx el
objetivo
=
con
,

y
de predecir el valor de '
cierto X esté entre los valores Mínimo
para un ,
es
que
Máximo de ×
y
.
PRÁCTICAS
ESTADÍSTICA
TEMARIO
COMPLETO
Tema 5: Práctica I

1.- A partir de los posibles estudios que se indican a continuación, indica la población que
debería considerarse y qué variables podrían estudiarse, identificando de qué tipo son:

a) Características generales de los alumnos matriculados en la Universidad Complutense de


Madrid.

b) Resultados de las últimas Elecciones Generales en la Universidad.

2.- Clasifica las siguientes variables, indicando las posibles categorías si la variable es
cualitativa

a) Intención de voto de los alumnos en las próximas elecciones a Junta de Facultad.

b) Salario de los alumnos trabajadores de la Facultad de Ciencias Políticas y Sociología.

c) Gravedad de los accidentes laborales ocurridos en una determinada empresa.

3.- Dada la siguiente tabla, indicar de qué tipo son las variables recogidas. Construir la tabla de
frecuencias de la variable sexo, calificación, convocatoria y edad.

EDAD SEXO NOTA CALIFICAC. CONVOC. ALTURA PESO


18 H 7 NOT. .

1 .

1,68 60
19 H 3,4 SUS 2 1,80 75
17 H 5,3 APROB 1
i 1,71 60
19 M 6,1 APROB -

2 \

1,56 50
22 M 5 APROB<
3~

1,70 57
21 H 5 APROB y 4-
1,79 75
22 H 9 SOB y

1 °

1,64 58
19 M 4,1 SUS 1 1,65 55
19 H 3 SUS 4 1,85 80
28 H 5 APROB 2 1,70 66
27 M 5 APROB 5 1,75 70
22 H 6,3 APROB 3 ' 1,86 58
23 M 5,3 APROB 1 1,80 78
18 H 5,5 APROB 2 1,62 62
18 M 9,5 SOB 1 1,60 64
i
37 M 7,8 NOT 1 a
1,72 65
56 H 8 NOT 11 1,78 80
I

19 H 3,6 SUS 4 -

1,67 70
20 H 4 SUS 1 1,87 90
:
19 H 5 APRO 2 1,55 58
PRÁCTICA 1 .

1. a) Sexo : Cualitativa nominal bi Sexo : cualitativa nominal .

Edad : Cuantitativa discreta Edad : cuantitativa discreta

Nota: cuantitativa continua curso : cuantitativa discreta

calificación : cuantitativa continua carrera / Grado : cualitativa nominal

Altura : Cuantitativa continua

Peso : Cuantitativa discreta

convocatoria : cuantitativa discreta

2. a) Cualitativa nominal

b) Cuantitativa discreta

c) Cualitativa ordinal

3.
EDAD

✗i fi Fi hi Hi ✗ i.fi ✗¡ 2.fi
17 1 1 005 005 17 289 F-
+29¥ -1245-5-1-

18 3 4 0115 02 54 972

µ9anos
N
19 6 10 013 015 144 2166 Me = / 2=20/2--10

20 1 11 0105 0155 20 400

21 1 12 0105 060 21 441 MÓ 19 áhocr

22 3 15 0115 0175 66 1452

23 1 16 005

'
080 23 529 Varianza -

⑤׿ -
52 =
122%7--241652 -151737g
27 1 17 ◦ 05 0185 27 729

28 1 18 005 090 28 784 0=7/517-5 __

2139M
-

37 1 19 005 095 37 1369


23-9
005 ÁOO
1
24,65=01097
=
56 20 56 3136 CN =

+93 122oz

gn
=
AF =

↳ # =

5- 0073Er

92
-

Ap
=

¥39,7 =O
SEXO

✗¡ fi Fi hi Hi ✗ i.li ✗ ¡
2.fi I =
¥0 -_i3
1 13 13 065 065 13 169 Me = 20/2 =
10 ① → tt

2 7- 20 1 1165 14 91 MO = 1 →
tt

0=22670--11352 11h53mn
20
-27 267
Varianza
-

0=7/11,55--3 '
to

CN =
E- =
2151

gioz 0025
-
_

00073
Ji ' =
CALIFICACIÓN

suspenso -31 ✗¡
fi Fi hi Hi % ✗¡ .fi × ? .fi Moda -3 2. →
Aprobado

Aprobado → 2 1 5 5 025 075 25 5 5 Me -3^12=20/2--10 → 2->


aprobado
✗ i.li "
Notable -33 2 10 15 015 075 50 LO to I > = 2/20-3211 →
aprobado
N
? ti
Sobresaliente -34 02
2=12%-242--0179
×
3 18 09
-

3 0115 15 9 27 >
-
¡
N

4 2 20 01 1 10 8 32 → 0179=0189
-

NZO '
89
42 104 CN >
= -

-

=
01423
5 211
"

gí AF
=

-3--0%3=1142
I

GE Ap
=

1- ←
=

,
= " 59
oiga

CONVOCATORIA
'

12816 41

Xi fi Fi hi % Hi ✗ i.fi ✗ il f -

Mo > 1 > 1era convocatoria

1 8 8 Olt 40 04 8 8 Me -3^12--292=10 >


1-> 1era convocatoria
✗ i.li
2 5 13 0125 25 065 10 20 y > =
52/20=26
N
"
" li
2=2420
"
3 2 15 011 lo 0175 6 18 = -

☒ _

2162=113124
N

4
-2

3 019 48 113124--10164
-

18 015 15 12 = =

10164
-

5 19 5 0195 ↳ 092
'

1 005 5 25 CN = = =

☒ 2,6

¥5,204
I
11 11
GÍAF
20 005 5 1 0000832
1 121
-
-
-
-

240 .gg
=
52 =

20
92=1-1 =L
=
' ◦
"

> = = 000078
,
12816141
TÉCNICAS DE ANÁLISIS ESTADÍSTICO UNIVARIADO

PRÁCTICA II

Los alumnos de 1º curso de Estadística aplicada a las ciencias sociales, Grado


de Antropología, quieren conocer el lugar que ocupa el Museo del Prado entre
las referencias de los españoles. Para ello diseñan un cuestionario y analizan
las respuestas dadas a las tres preguntas que se presentan a continuación:

a) Cuadros Preferidos ni

Maja desnuda 18
Fusilamientos de Goya 13
Las Meninas 23
Jardín de las Delicias 10
Los chicos de la playa 8
¿Cómo organizaría y representaría la información obtenida en esta pregunta?
¿Qué medida de tendencia central sería más representativa?
b)

Nº de veces que
han ido al Museo 1 2 3 4 5 6 7 8
en el último año
ni 2 6 10 5 10 3 2 2

Se pide: Tabla de distribución de frecuencias. Diagrama de barras para


frecuencias absolutas. Media aritmética, moda, mediana y cuartiles. Recorrido
intercuartílico.

c) Edad de los visitantes 5-15 15-25 25-35 35-45 45-55 55-65


ni 5 23 40 32 7 5

Construir la tabla de distribución de frecuencias. Represente la gráfica más


adecuada al tipo de datos.
Calcule la media aritmética, moda y mediana. Primer cuartil, tercer decil,
percentil 75.
Varianza, desviación típica y coeficiente de variación.
Medidas de forma: asimetría y curtosis.
PRACTICA R.

2. al cuadros preferidos X; fi Fi hi Hi % Xi li x, 2 fi

desnuda 023
maja 1 1 1818 0'25 25 18 18

Fusilamientos de
Goya 2 2 133101181 01131 181 26 52

Las meninas 3 3 233401320175132 69 207

Jardín de las delicias -

1 * 1064 01390189 139 O 160

de 5 72 40
Los chicos la
playa S 8 O'l l 11 200

=
637
72 =193

2 li
337
x; 2
21682 166 1 52893=
-2
3 meninas
-

Mo> -
Las 3
AF 01467
= =

X = - -

gr
=

3
N

Niz 42/2
ago
36 Las meninas 1662 1289 A= 11 ,2894
=

Me >
01362
= =
=
=

92
=
=
=

xi.fi 193
xx 268 son
=
=

N 72

2. b) NO
que han ido
de veces al museo en el ult. año

Xi fi Fi hi Hi x;. li x 2. fi Mo -3 5 veces
y
l 2 20105003 2 2 Me ->4/2 40,2 =

20
=

>3 5 recet
y
2 S 8 015 0120 12 2 xi.li
y
=
162 403
=

N 4
8

3 10 18 0'23 0'5 38 90
-2
7 x: 2 fi -
-

X
2 780
=

- 4052 31098 =

48
I S 23 01123 01325 20 00 -

fa,
- >
31098= 1176

I 10 33 0'23 8'775 50 250 CN -


I 18 = =

0435

6 3 36 8'075 0185 18 108

13 ,763 sixs
=

7 2 38 0105 019 1 98 A=
= = -

01183
91
=

16
92 Ap 1x=
8 2 * 0'03 0193 0627
qi595
0 128
=

= =

4 =162 788
0 =

U; Xi Ni fi i Hi. Xi
Wi2. Xi

2.c) [5 -

15) 5 10 5 00440104X 50 250

[15 -

25) 23 20 28 012830125 460 10588

[3 -

351 4
O 30 68013570607 1208 48.000

48

E
35 -

45) 32 10001003 01892 1280


40.960

45 -

53) 7 50 107 0'062 01935 350 2458

56 -

651 5 60 11281043 l 300 1508

3640 103748

(10x5) (20x231 (30x10) (40x32) (50x7) (60x5)


+

32'5
+ + + +

*
=
=

años
112
11212

~
nz -

Ni-1 56* -
28
Me=> ti-st ai 25 =

I x 10 32 =

años
Niti -

Ni
48

111017
=

130
-

32
M i it e
di 25 10
x 3018
=

años
23
=
+ = +

Withit 32
+

rn
-

Ni-e 1 -

28 ( =

E 10 =

135
=

Wi-s+4 ai 25 x 10 25 0 10
2
+
-
= = =

1 x
+

Nite -

Ni 40

a di 2 -

Ni
1ai
3x112
-
28
gi
A=
=

= E nx3 01800675
= =

23 4
-

1 x 10 39
= +
= =
-
+

4
0
Nit1 -

Ni

gr Ap=1+ ny 0000059
=

=
=

0 Q, 39 25 1X
=
=
-
-

75.112
-
28

475 25 100
x 10 23 114.10 39
= +
=
=
+

4
8

(x9:2 103748
-2= -
-2
x
=
-

3252 926125
=

1036125 =

- 130
N 112
Variable Altura
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válido 1,55 1 5,0 5,0 5,0
1,56 1 5,0 5,0 10,0
1,60 1 5,0 5,0 15,0
1,62 1 5,0 5,0 20,0
1,64 1 5,0 5,0 25,0
1,65 1 5,0 5,0 30,0
1,67 1 5,0 5,0 35,0
1,68 1 5,0 5,0 40,0
1,70 2 10,0 10,0 50,0
1,71 1 5,0 5,0 55,0
1,72 1 5,0 5,0 60,0
1,75 1 5,0 5,0 65,0
1,78 1 5,0 5,0 70,0
1,79 1 5,0 5,0 75,0
1,80 2 10,0 10,0 85,0
1,85 1 5,0 5,0 90,0
1,86 1 5,0 5,0 95,0
1,87 1 5,0 5,0 100,0
Total 20 100,0 100,0

Altura Gráfico de tallo y hojas

Frecuencia Stem & Hoja

,00 15 .
2,00 15 . 56
3,00 16 . 024
3,00 16 . 578
4,00 17 . 0012
3,00 17 . 589
2,00 18 . 00
3,00 18 . 567

Ancho del tallo: ,10


Cada hoja: 1 caso(s)
Resumen de procesamiento de casos
Casos
Válido Perdidos Total
N Porcentaje N Porcentaje N Porcentaje
Altura 20 100,0% 0 0,0% 20 100,0%

Descriptivos
Estadístico Desv. Error
Altura Media 1,7150 ,02151
95% de intervalo de Límite inferior 1,6700
confianza para la media Límite superior 1,7600
Media recortada al 5% 1,7156
Mediana 1,7050
Varianza ,009
Desv. Desviación ,09622
Mínimo 1,55
Máximo 1,87
Rango ,32
Rango intercuartil ,16
Asimetría -,015 ,512
Curtosis -,895 ,992
Variable Peso
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válido 50,00 1 5,0 5,0 5,0
55,00 1 5,0 5,0 10,0
57,00 1 5,0 5,0 15,0
58,00 3 15,0 15,0 30,0
60,00 2 10,0 10,0 40,0
62,00 1 5,0 5,0 45,0
64,00 1 5,0 5,0 50,0
65,00 1 5,0 5,0 55,0
66,00 1 5,0 5,0 60,0
70,00 2 10,0 10,0 70,0
75,00 2 10,0 10,0 80,0
78,00 1 5,0 5,0 85,0
80,00 2 10,0 10,0 95,0
90,00 1 5,0 5,0 100,0
Total 20 100,0 100,0
Descriptivos
Estadístico Desv. Error
Peso Media 66,5500 2,31866
95% de intervalo de Límite inferior 61,6970
confianza para la media Límite superior 71,4030
Media recortada al 5% 66,1667
Mediana 64,5000
Varianza 107,524
Desv. Desviación 10,36936
Mínimo 50,00
Máximo 90,00
Rango 40,00
Rango intercuartil 17,00
Asimetría ,580 ,512
Curtosis -,310 ,992
Peso Gráfico de tallo y hojas

Frecuencia Stem & Hoja

6,00 5 . 057888
6,00 6 . 002456
5,00 7 . 00558
2,00 8 . 00
1,00 9 . 0

Ancho del tallo: 10,00


Cada hoja: 1 caso(s)
Ejercicio: Noche de Oscars

A continuación se dan las edades de el/la mejor director/a de cine que obtuvieron un oscar, desde 1975 a
2022. A este listado hay que incluir a Jane Campion, 67 años, gracias a su trabajo “El poder del perro”,
2022. Calcule, para datos agregados, la media aritmética, moda, mediana, varianza, desviación típica,
percentil 58 y las medidas de apuntamiento y curtosis. Si el análisis lo hacemos por género, ¿existen
diferencias entre estas medidas?
Ejercicio noche de los Óscars .

1. D= ✗ Máx -

✗ Min

R= 74-84=40

2. ¿ N° de intervalos ? A- V49 -_ 7

R≥ K -

a-
% -407--517^-6
-

7×6>40 Sobrante =L

Sobrante

I.
= 34 -
=
zz
2

II. ni Ni Fi
[ ×' 36-5+42.18+48.12 -152.7+60.4+66.3+72
[33-391
-
ni
36 5 5 01 01 10 Me = -
=

N 50

[39-451 42o 18 33 036 046 36


= 48

[45-511 48 -12 35 0124 0170 24

[51-571 52 7 42 014 084 14 Mose coge el intervalo Menor del límite


.

[ 57-63 ) 60 t 46 0108 0192 8 Mo -

Li -

1-1
ni -11
✗ 9. =
39-1
12

6=43123
5+12
" i
+ " ↓
[63-691
" ^
66 49 004 096 t '
-

3
amplitud del intervalo

[69-75 ) 72o 1 50 002 0198 2

Histograma Diagrama polígonos


20 20 -

18-5-77 MO -39¥
£
MO-39-a.IS
-


An B AÁ_ = -

= > _

#
BB
'

QO 18-12*45 Mo 45 -

Mo
15
-

-
-

° "

'
°

*
6. ( Mo 391=13.145 Mo) →
lo
- -

lo
-
_

ÁV
5- •
.
.
5- .

FÍE FÉE
a- Mo

Nk Ni ✗
45+245-23
-

Mei Li 1-1 6=45175



-

=
-

Mi 12

hi
n -

Ni -

r
Q1 A;
-

1-1 =
-
- .

ni

(X ,
-
E) 2h ; ( 36-4812×5+11<2-4812×18-1 . .
.
+ ( 72-4812×1
= = =

n
50

A- =
Ejemplo .

intervalos
Media entre ambos

anixi-mmbdapi-NNi-qipi-qi.to
salarios

-50
ni

15
✗¡

45
Ni

15

675
✗ ¡

675 013 021 0109

50-60 15 55 30 825 1500 016 046 014

60-80 10 70 40 700 2200 018 064 0112

80-100 5 90 45 450 2650 019 0181 0108

100-120 3 110 48 330 2980 0196 0192 0104

120-150 2- 135 50 270 3250 1 1 O

377µm
50 0147

columna acumulada

Iq =
= 01132
3156

pi

1-
°

Óq -

018 - •

07 -

◦ ←

015 -

04 -

013 -

02o -

ÓI -

I I I I I I I I I I
O" 02 03 04 05 06 OH 08019 1 qi
TEMA VI: ESTADÍSTICA BIVARIABLE

EJERCICIOS

1.- Se pregunta a 1630 personas su edad y su mayor preocupación en la actualidad en relación


al estado del país, obteniéndose que la mayor preocupación de 130 jóvenes es la corrupción,
para 175, la economía, y para 275, el paro; que la corrupción es la mayor preocupación para
110 personas de mediana edad; para 150, la economía, y para 230, el paro; y que la corrupción
es la mayor preocupación para 230 personas de la tercera edad; para 260, la economía y para
70 personas el paro. Construya la tabla de doble entrada (tabla de contingencia), calcule los
porcentajes e interprete los resultados.

2.- Un/a estudiante de Antropología está interesado en conocer la relación entre las salidas
profesionales de los graduados en Antropología según los diferentes “ámbitos de estudio” y las
universidades donde han cursado los estudios. Los resultados obtenidos aparecen en la
siguiente tabla:

U. Complutense U. Autónoma U.Barcelona


Antropología física 120 74 15
Arqueología 24 23 30
Antropología social y
cultural 150 35 38
Antropología lingüística 50 75 80

Analizar si existe relación entre las variables estudiadas.

3.- Un antropólogo está interesado en conocer si existe relación entre la variable confianza en
la medicina natural y el nivel de estudios. Para ello realiza una encuesta y extrae, al azar, las
respuestas de 10 encuestados a dos preguntas: confianza en la medicina natural y nivel de
estudios, obteniéndose las siguientes respuestas:

Confianza medicina Nivel


Encuestado natural estudios
A 6 4
B 1 2
C 8 9
D 2 1

:
E 5 3
F 9 8
G 4 6
H 3 7
I 7 5
J 10 10

¿Existe relación entre las dos variables analizadas?


1.

Corrupción Economía Para

Jóvenes 580
130167123 175208116 27520*6

¢90
E. Media 11014112a 150175186 230172185

3ª edad
230161,47 26020048 70197156 560

470 585 575 1630 = N

( Ei -

Eij / 2
Chi cuadrado = = 167152
Eij

Coeficiente de
contingencia Pearson

✗2
167152
asociación
167,52+1630=01093
⇐ =
> No


n hay

V de Cramer

2
✗ 167152

0513=01226 asociación débil
= "
= =
◦ >
h.lk -

1) 1630-(3-1)

2.

/ / go.ae/z z
" ° """ " "" ° " " """°
"
74
Antropología física 120 100169 60159 15 47171 209
24 30 77
Arqueología 23 17157
'
37109 22o 32

antropología soaymt .
eso a. gg a. zg

Antropología lingüística . 5098177 25


sacos 804618o 205

344 207 163 N -714


-

Chi cuadrado .

X2
(Ei -

EIÍÍ
= =
317 + ↳ 62+16186+24108+2197 -101021+13160+19194+32142 -1818+3128+23155
'

Eij

✗2=143187 |

Coeficiente de
contingencia de Pearson .

Existe asociación
de manera madura
-


2
143187 143187
[ =
= =
= ◦
"
4095 > Asociación Moderada da
✗↳ n
.

143187+714 857187

V de Cramer

2
✗ 143187 ^ "" "
Asociación
= =
✓ = =
01317 >
moderada
n.lk 1) -
71413-1 ) 1428
3.

Confianza Medicina Nivel Estudios ✗¡ +


Yi
X
Yt ✗ i.
Yi N= 10
natural ( Xi ) ( Yi )

s.tl#-.-y--.si-=:--sis
10 16
6 4 24 Media

1 3 4 2 ☒ = =

5¥55
8 17 64 81 72o

2 1 3 4 1 3

9 15

9 8 17 81 Varianza
t 6 10 16 36 24 _


2=3%-5152
3 7

715+1%92=3%-332
10 21 = 8125

12 49 25

10
20 100

55 55 113 385 385 367


=
8125

Covarianza Ty -

_
"
Yi
¡ - I -

Tg
-

¥7 _

3025=6145 7-
=
8125=2187

Coeficiente de correlación ,
r, de Pearson
Tj 2187

6145
⇐ asociación Moderada
y= 2187.2187=078
>

coeficiente de determinación

RÍO 782=01613
'
> asociación Moderada
Ejercicio repasando la correlación

La dirección de una determinada línea aérea supone que existe una relación directa
entre los gastos de publicidad y el número de pasajeros que eligen volar con la
compañía. Para determinar si existe esta relación, y si es así, cuál es su naturaleza
exacta, el empleado experto en estadística decide utilizar el modelo de regresión
simple. Obtenga todos los resultados.
Resultados: ¿r= 0,968, r2= 0,894, a= 3,88, b= 1,133??

Publicidad(X) Pasajeros
(Y) Pasajeros
10 15 Publicidad(X) (Y) XY X2 Y2
12 17 10 15 150 100 225
8 13 12 17 204 144 289
17 23 8 13 104 64 169
10 16 17 23 391 289 529
15 21 10 16 160 100 256
10 14 15 21 315 225 441
14 20 10 14 140 100 196
19 24 14 20 280 196 400
10 17 19 24 456 361 576
11 16 10 17 170 100 289
13 18 11 16 176 121 256
16 25 13 18 234 169 324
10 15 16 25 368 256 529
12 16 10 15 150 100 225
12 16 192 144 256
187 268 3490 2469 4960
4.- Una antropóloga está interesada en conocer si la comprensión del lenguaje jurídico está
relacionada con la utilización de viñetas y cómics. Para ello se pregunta a diferentes
estudiantes sobre estas cuestiones, presentando los siguientes resultados:

Uso de viñetas
Bajo Medio Alto
Alta 15 66 75
Comprensión Media 35 24 35
Baja 10 45 58

En vista de los datos, ¿qué podemos decir?


1.

A- 16

{ }
1ˢᵗ
Media ¡ ☒ 2=2469 -111682--17189
-

☒ =
=

16=11168 varianza = -

16

4960
2¥ #
-2

íj 16175 -y2= -161752=29144


=
= = _

y 1g

}
17189=4123
-

Desviación
=

típica
=

✗ Yi 349º
Covarianza Iy= ¿ -

I.
* 16
-

11.68.1675 =

Tg
=

-42 =
29144=5143

=
2248

22T
-


Y
423.543=098
>
Coeficiente de correlación ,
r ,
de Pearson r= =
asociación
OI Oy fuerte

correlación determinación rt 0982=096


de >
asociación fuerte

Recta de regresión y
-

_
atbx >
g.
= 2102+1%6 ✗

16.3490 (187-268) 51724


b-NCxi-i-iiyi.li
-

= ≥
/ " 26
Es
=

'
NI ✗2. lit -

lxi.li ) 1612469 ) -

( 18712

a-lyi.f-i-b.i.li =
268-1126.187
=
2102
N 16

Uso viñetas
t .
de

Bajo Medio Alto


Chi cuadrado
Alta 15 25179 6658102 757212 156
aó ( Ei - E +
y ✗
2
= =
4151+111+0111+2437
& Media 3515154 2434196 35431g 94 EII
¥
9
+
31kt -11166+4+021+062=40102
Baja 1018168 4542103 58523 113

60 135 168 363

Coeficiente de
contingencia de Pearson

[
✗ 4002
Asociación Moderada
= "

4002+363=0
=
315 >
<
✗ + n

V de Cramer

2
✗ 40102

363-(3-1)=0%34
✓ =
=

n.lk -

1)
Total fila ✗ total columna
Presente Ausente E- ¡
¡
=

h
"
Grupo A
1o 80 90
20 70
Chi cuadrado

×?
( EI-EE.j-2-12.sc
B
Grupo
302o 607o 9o

40 140 N 180
5+5+1143+1143=12186

coeficiente de
contingencia de Pearson

C
¥ 12186 0100kt
=
=
=
,n
12186+180

V de Cramer

n.← ˢ
✓ =
= = 0127
, ,

Coeficiente de
phi
= 0127
=
N= 10

YI
2
Nivel educativo situación laboral Xi
Yi

-

( Xi ) IY ;) Media

2 3 K 9 6 ☒ =
=

# =3's
3 1 9 1 3

j=Y #
2 1 4 2 Lit
1 = =

3 3 9 9 9

2 3 4 9 6 Varianza
Lo 3 4 9 6
1 3 1 9 is I
?
# -

2112--0149
1 3 1 9 3
?
# ZÉ
_

'
3 1 9 1 3 -

84
y
L 3 4 9 6
49 tt F- 049--017
21 24 66

-4--0184=092
✗ i. Yi ¥
E
Covarianza
j 2in 214=-064
-

>
nula
-


Asociación
-


- -
.

y
_

N 10

coeficiente de correlación .
r , Pearson

-0164
> Asociación nula
017.092=-099
f- =
-


y

coeficiente de determinación F- -0992=0198 > Asociación


fuerte

Recta de
regresión a bx 5115 1131a
-

y=
+
-

y
_

64
Nlxi Yi ) ( lit lyi.li )

-

Xi
-

-
-

= = -131

2.fi ) ( 12 #
N ( ✗ ✗ i.
f- 10 ta 12112
- - -

lyi.fi ) -

blxi.li ) 24-(-1131-21)
a =
=
= 5115
N
lo
18h0 Más 118M O Menos

Aprueban 251817s 5056125 75

✗ V5
aprueban 3125 100 90 125

50 150 200
Introducción a la correlación y regresión

Se pregunta a 8 alumnos, que practican deporte en la UCM, su altura y


la longitud del último salto en las competiciones deportivas. ¿Podemos
decir que existe relación entre las dos variables?

Altura Salto longitud


1,6 5,6
1,63 5,7
1,68 6,3
1,7 7,1
1,72 5,9
1,88 7,2
1,77 6,4
1,69 6,1
1,74 6,6
1,9 7
Introducción a la correlación y regresión
Dados los siguientes datos, calcular: el coeficiente de correlación, coeficiente de
determinación y la recta de regresión

Altura Salto longitud XY X2 Y2


1,6 5,6 8,96 2,56 31,36
1,63 5,7 9,29 2,66 32,49
1,68 6,3 10,58 2,82 39,69
1,7 7,1 12,07 2,89 50,41
1,72 5,9 10,15 2,96 34,81
1,88 7,2 13,54 3,53 51,84
1,77 6,4 11,33 3,13 40,96
1,69 6,1 10,31 2,86 37,21
1,74 6,6 11,48 3,03 43,56
1,9 7 13,3 3,61 49
17,31 63,9 111,01 30,05 411,33
'
Altura salto de
'

longitud ✗
¡
+
Yi
×
y
Xi
Yi
N°10

(X; ) ( Yi )

Media

116 516 712 256 31136 896 ☒ = =


171%1--11731
1163 57 7133 2166 32149 9129

ijnur =%÷=
5169
/ '
68 613 7198 282o 39.69 10158

117 711 818 289 50141 12107

1172o 519 7162 2196 34181 10115 Varianza

1188 72 908 353 51184 13154 I


? -


2=3015 -117312 =

no

1177 614 847 313 4096 1133 = 01054

1169 61 779 2186 37%1 10131


411133
4356 ? 51692=81757
1174 616 8134 3103 11148
Tg
-

1o

119 7 819 3161 49 1313

¡ 01054=01232
-
-

= =
111101 ✗
17131 5619 8121 30105411133

-y= 81757=2196

✗ i. ^^ " "
Yi
Covarianza
Iy= E
if 11731.5169=1125
-
=
-
-

N 10

Coeficiente de correlación ,
r ,
de Pearson

Ty 1,25

01232.2196=1187
=
A -

Correlación de determinación RK 11872--3149

Recta
regresión
a-ibxb-N-i-Y-i.li#i=
de
g-

10.111101-17131.5619=1110.1-984194
N
lx2.fi ) -
( ✗ i. f)
2
10-3015-171312 305-299164
=

'%% = -163121

( yi.li ) -

blxi.fi ) 5619
⇐ =

N
CHULETA DE
FÓRMULAS
ESTADÍSTICA
( ✗ i.li
Media > =
y
Moda >
fi que
+ se
repita
V2 >
L¡ A ti -

fi 1
Mediana Fi
-

> = > +

¡
fi -
(
f; -
1) +
fi -

fi -11
"
2 Fi l

>
A
- -

fi

cuartil / De .nl/ Percentil

k .
N
A- lo
que
nos
piden
>

41101100

ks N
l
.

Fi
Li + A
-
-

> 4/10/100

Fi -

( Fi -
1)


.

ti ) 2
Varianza =
-

-2
Desviación típica
-

=
-

Coeficiente de variación CV =

intercuartílico
Rango
-

y y

1
sereiintercuartílico
' 3- '

Rango 2
M3
coeficiente de asimetría de Fisher
gí -

+◦ t.lila ✗ tot columna


esperada
.

Frecuencia
n

( Oi -
Ei ;)
chi -

cuadrado
Eij
2

Coeficiente de phi =

2

Coeficiente de
contingencia c. =

✗4- N

2

Coeficiente de V de Cramer ✓=
n.lk -
1)

También podría gustarte