Está en la página 1de 39

Análisis estadístico básico (I)

Magdalena Cladera Munar


mcladera@uib.es
Departament d’Economia Aplicada
Universitat de les Illes Balears
CONTENIDOS
ƒ Introducción a la inferencia estadística.
ƒ Muestreo.
ƒ Estimación de parámetros.
ƒ Contrastación de hipótesis.

ƒ Asociación de variables categóricas.


ƒ Tablas de contingencia.
ƒ Medidas de asociación.
REFERENCIAS
ƒ Alegre, J. y Cladera, M. (2003). Introducción a la Estadística
Descriptiva para Economistas. Materials Didàctics UIB, 101.
Palma de Mallorca.
ƒ Newbold, P. (1997). Estadística para los Negocios y la
Economía. Prentice-Hall. Madrid.
ƒ Peña, D. y Romo, D. (1997). Introducción a la Estadística
para las Ciencias Sociales. McGrawHill. Madrid.
ƒ Pardo, A. y Ruíz, M. A. (2001). SPSS 10.0. Guía para el
análisis de datos. Accesible en:
http://www.uca.es/serv/ai/formacion/spss/Inicio.pdf.
ƒ Pérez, C. (2001). Técnicas Estadísticas con SPSS, Prentice
Hall, Madrid.
Inferencia estadística

Contenidos:

ƒ Muestreo.
ƒ Estimación de parámetros.
ƒ Contrastación de hipótesis.
Inferencia estadística

Objetivo: extraer conclusiones sobre una población a partir


de la información contenida en un subconjunto de elementos
extraídos de la misma, es decir, una muestra.

En el contexto de la inferencia estadística se supone que en


la población se estudia una variable aleatoria, X, con una
determinada función de probabilidad, caracterizada por un/os
parámetro/s. Mediante el análisis de las observaciones
contenidas en una muestra extraída de esta población, se
querrán obtener aproximaciones de las características de la
distribución poblacional de X, y utilizar esta información para
contrastar hipótesis sobre la misma.
Inferencia estadística

Ejemplo. Coste en farmacia por habitante de los EAP.


Inferencia estadística

Conceptos:
ƒPoblación. Conjunto de todos los elementos que se quieren analizar.
ƒMuestra. Subconjunto de la población seleccionado para el análisis,
cuando no es posible estudiar toda la población.
ƒParámetro. Medida estadística de una variable en la población.
ƒEstimación. Valor obtenido a partir de la muestra, que se utiliza como
aproximación al valor de un parámetro.
ƒEstimador. Función matemática que se aplica a las observaciones
muestrales para obtener estimaciones. Es una variable aleatoria.
Inferencia estadística

Procedimientos:
ƒEstimación de parámetros. Obtención de aproximaciones
al valor de parámetros poblacionales a partir de una muestra.
ƒ Puntual. Se obtiene un único valor como aproximación
al valor del parámetro poblacional.
ƒ Por intervalos. Se obtiene un rango de valores como
aproximación al valor del parámetro.
ƒContraste de hipótesis. Utilización de la información
muestral para comprobar la validez de una afirmación sobre
una característica de la población.
Inferencia estadística

Etapas de un estudio de muestreo:

1) ¿Qué infomación se
necesita?

6) ¿Qué conclusiones pueden


2) ¿Cuál es la población
extraerse sobre la población?
relevante? ¿Es posible
analizarla?

Métodos de muestreo
Estimación 5) ¿Cómo se utilizará la
información de la muestra para 3) ¿Cómo se seleccionan los
realizar inferencias sobre la elementos de la muestra?
población? ¿Cuántos?
Determinación del tamaño
Contrastación muestral

4) ¿Cómo se obtiene la
información de los elementos de
la muestra?
Inferencia estadística

Estimación puntual:
POBLACIÓN
MUESTRA

Observaciones
X muestrales
(x1, x2, x3,..., xn)

ación Estimación
Aproxim
Parámetro

Estimador
Inferencia estadística

Estimación puntual:
Estimadores más utilizados.
Parámetro Estimador
n

Media (µ) Media muestral ∑x i


x= i =1

n
n

∑ (x − x)
2

Varianza (σ )
2
Varianza muestral i
Sˆ 2 = i =1

n −1
n1
Proporción (p) Proporción muestral pˆ =
n
Inferencia estadística

Estimación por intervalos:


Un intervalo de confianza consiste en dos valores entre los
que se espera que esté contenido el verdadero valor del
parámetro con una determinada probabilidad.
Nivel de confianza: probabilidad de que el intervalo contenga
el verdadero valor del parámetro. 90%, 95% y 99% son los
más habituales.
Hay una relación positiva entre el nivel de confianza y la
amplitud del intervalo.
Hay una relación inversa entre el tamaño de la muestra y la
amplitud del intervalo.
Inferencia estadística

Ejemplo. Coste en farmacia por habitante de los EAP.

Descriptivos

Estadí st ico
Costes totales por Media 136,7028
habitante (población Interv alo de conf ianza Límite inf erior 134,5845
total) en euros para la media al 95% Límite superior
138,8210

Varianza 1353,248
Desv . tí p. 36,78652
Inferencia estadística

Contraste de hipótesis:
Objetivo: comprobar la certeza de una afirmación sobre
alguna característica de la población, utilizando la información
contenida en una muestra extraída de dicha población.
Definiciones:
ƒHipótesis estadística. Afirmación sobre alguna característica de la
población.
ƒContraste de hipótesis. Comparación de la hipótesis con la realidad
observada (muestra), para decidir, con un margen de error
admisible, si esta realidad contradice o no la hipótesis.
ƒHipótesis nula (H0). Afirmación sobre una característica de la
población, de la que se quiere contrastar su validez.
ƒHipótesis alternativa (HA). Hipótesis por la que será substituida la
hipótesis nula, en caso de que la evidencia muestral la contradiga.
Inferencia estadística

Contraste de hipótesis:
Metodología. Para realizar un contraste de hipótesis se
necesita:
ƒ Un estadístico de contraste
ƒ Una regla de decisión. Para aplicar esta regla será
necesario fijar el nivel de significación del contraste (α).
Inferencia estadística

Contraste de hipótesis:
Ejemplo. Contraste sobre la igualdad de medias del gasto en
farmacia de la C.A. de Madrid y de las Illes Balears.
Estadísticos de grupo

Nombre de la Desv iación Error típ. de


Comunidad autónoma N Media típ. la media
Costes totales por Illes Balears 41 119,8415 26,98319 4,21407
habitante (población
total) en euros Madrid 289 102,2012 28,72670 1,68981

Prueba de muestras independientes

Prueba de Lev ene


para la igualdad de
v arianzas Prueba T para la igualdad de medias
95% Interv alo de
conf ianza para la
Dif erencia Error típ. de dif erencia
F Sig. t gl Sig. (bilateral) de medias la dif erencia Inf erior Superior
Costes totales por Se han asumido
,395 ,530 3,706 328 ,000 17,64028 4,75951 8,27726 27,00330
habitante (población v arianzas iguales
total) en euros No se han asumido
3,885 53,705 ,000 17,64028 4,54024 8,53650 26,74406
v arianzas iguales
Asociación de variables categóricas

Instrumentos estadísticos:

ƒTablas de frecuencias conjuntas. Tablas de contingencia.


ƒEstadísticos de asociación.
Asociación de variables categóricas

Ejemplo. Relación entre la edad y la impresión sobre la


prestación de un servicio recibido.

Tabla de contingencia IMPRESIÓN * EDAD


Asociación de variables categóricas

Distribuciones marginales. Son las frecuencias (absolutas y


relativas) de cada una de las variables. Para ello es suficiente
con sumar todas las celdas correspondientes a cada una de
las filas o de las columnas.
Asociación de variables categóricas

Distribución de frecuencias relativas. Son las frecuencias


relativas de cada una de las celdas respecto al total de
observaciones
Asociación de variables categóricas

Perfiles fila (porcentajes fila). Recogen las frecuencias


relativas de cada una de las celdas con respecto al total de
las filas
Asociación de variables categóricas

Perfiles columna (porcentajes columna). Son las


frecuencias relativas de cada una de las celdas con respecto
al total de las columnas
Asociación de variables categóricas

Distribución de frecuencias conjuntas


Asociación de variables categóricas

Distribución de frecuencias marginales


Asociación de variables categóricas

Distribución conjunta de frecuencias relativas


Asociación de variables categóricas

Perfiles fila
Asociación de variables categóricas

Perfiles columna
Asociación de variables categóricas

Estadísticos de asociación:

Para variables nominales u ordinales:


chi-cuadrado
C de contingencia
lambda

Para variables ordinales


Gamma
Asociación de variables categóricas

Chi-Cuadrado y C de contingencia

Ejemplo. Relación entre la edad y la impresión sobre un


servicio.
Tabla de porcentajes columna (observada)
Asociación de variables categóricas

Chi-Cuadrado y C de contingencia

Ejemplo. Relación entre la edad y la impresión sobre un


servicio.
Tabla de porcentajes columna (esperada)
EDAD
MENOS MÁS DE
DE 30 ENTRE ENTRE 60
AÑOS 30 Y 45 45 Y 60 AÑOS Total
IMPRESIÓN MUY
42,1% 42,1% 42,1% 42,1% 42,1%
BUENA
BUENA 44,3% 44,3% 44,3% 44,3% 44,3%
NORMAL 12,3% 12,3% 12,3% 12,3% 12,3%
MALA 1,4% 1,4% 1,4% 1,4% 1,4%
Total 100 100 100 100 100
Asociación de variables categóricas

Chi-Cuadrado y C de contingencia
Ejemplo. Relación entre la edad y la impresión sobre un
servicio.
Tabla de frecuencias observadas

Tabla de frecuencias esperadas


EDAD Total
MENOS DE ENTRE 30 Y ENTRE 45 MÁS DE
30 AÑOS 45 Y 60 60 AÑOS
IMPRESIÓN MUY
42,1%*2229 42,1%*1657 42,1%*755 42,1%*211
BUENA
BUENA 44,3%*2229 44,3%*1657 44,3%*755 44,3%*211
NORMAL 12,3%*2229 12,3%*1657 12,3%*755 12,3%*211
MALA 1,4%*2229 1,4%*1657 1,4%*755 1,4%*211
Total 2229 1657 755 211
Asociación de variables categóricas

Chi-Cuadrado y C de contingencia

Ejemplo. Relación entre la edad y la impresión sobre un


servicio.
Tabla de frecuencias esperadas
EDAD Total
MENOS DE ENTRE 30 Y ENTRE 45 MÁS DE
30 AÑOS 45 Y 60 60 AÑOS
IMPRESIÓN MUY
938,1 697,4 317,7 88,8 2042
BUENA
BUENA 987,2 733,9 334,4 93,5 2149
NORMAL 273,3 203,2 92,6 25,9 595
MALA 30,3 22,5 10,3 2,9 66
Total 2229 1657 755 211 4852
Asociación de variables categóricas

Estadístico Chi-Cuadrado

EDAD Total
MENOS DE ENTRE 30 Y ENTRE 45 MÁS DE
30 AÑOS 45 Y 60 60 AÑOS
IMPRESIÓN MUY
938,1 697,4 317,7 88,8 2042
BUENA
BUENA 987,2 733,9 334,4 93,5 2149
NORMAL 273,3 203,2 92,6 25,9 595
MALA 30,3 22,5 10,3 2,9 66
Total 2229 1657 755 211 4852
Asociación de variables categóricas

Estadístico Chi-Cuadrado

(n )
2
I J − eij
χ =∑∑
2 ij
= 7,035
i =1 j =1 eij

EDAD
MENOS DE 30 ENTRE 30 Y ENTRE 45 Y MÁS DE 60
AÑOS 45 60 AÑOS
IMPRESIÓN MUY
BUENA 1,46723164 0,49607112 0,21683979 1,17162162
BUENA 0,89955429 0,38916746 0,00586124 1,4144385
NORMAL 0,08082693 0,00019685 0,33866091 0,04671815
MALA 0,24059406 0,1 0,16407767 0,00344828
Asociación de variables categóricas

Estadístico C de contingencia

χ2
C=
n +χ 2
Límite máximo:

mín (I, J ) ≥ 2
1
1− ,
mín ( I, J )
Asociación de variables categóricas

Estadístico C de contingencia

Ejemplo. Impresión sobre un servicio y edad

7 ,035
C= = 0,038
4852+ 7 ,035

1
Límite máximo = 1− = 0 ,866
4
Asociación de variables categóricas

Estadístico Lambda

Lambda toma valores entre cero y uno: 0 ≤ λ ≤ 1:


λ =0 ⇒ La predicción condicionada no reduce el error original.
λ =1 ⇒ La predicción condicionada reduce el error original en un 100%.
0<λ < 1 ⇒ El error de predicción se reduciría en un 100 ⋅ λ %

Estadístico Gamma (sólo para variables ordinales)

El estadístico gamma proporciona valores entre -1 y 1.


El grado más alto de asociación positiva entre dos variables se da cuando γ =1 .
El grado más alto de asociación negativa se da cuando γ = −1.
Un valor de γ =0 se interpreta como la ausencia de asociación.
Asociación de variables categóricas

Asociación de variables categóricas. Ejemplo.

% de médicos con formación MIR y dispersión de la zona.


abla de contingencia Formación de médicos y pediatras. % de médicos y pediatras con formación MIR * Dispersión
ZBS (geográfi ca)

Recuent o
Dispersión ZBS (geográf ica)
ZBS poco ZBS bastante ZBS muy
dispersa ZBS dispersa dispersa dispersa Total
Formación de médicos 0 0 0 2 21 23
y pediatras. % de inf erior al 34% 99 84 158 308 649
médicos y pediatras entre el 34% y el 66% 113 61 34 22 230
con f ormación MIR
superior al 66% 92 25 9 2 128
Total 304 170 203 353 1030

abla de contingencia Formación de médicos y pediatras. % de médicos y pediatras con formación MIR * Dispersión
ZBS (geográfi ca)

% de Dispersión ZBS (geográf ica)


Dispersión ZBS (geográf ica)
ZBS poco ZBS bastante ZBS muy
dispersa ZBS dispersa dispersa dispersa Total
Formación de médicos 0 1,0% 5,9% 2,2%
y pediatras. % de inf erior al 34% 32,6% 49,4% 77,8% 87,3% 63,0%
médicos y pediatras entre el 34% y el 66% 37,2% 35,9% 16,7% 6,2% 22,3%
con f ormación MIR
superior al 66% 30,3% 14,7% 4,4% ,6% 12,4%
Total 100,0% 100,0% 100,0% 100,0% 100,0%
Asociación de variables categóricas

Asociación de variables categóricas. Ejemplo.

Proporción de médicos con formación MIR y dispersión de la


zona.
Pruebas de chi-cuadrado

Sig. asintótica
Valor gl (bilateral)
Chi-cuadrado de Pearson 340,230a 9 ,000
N de casos v álidos 1030
a. 2 casillas (12, 5%) tienen una f recuencia esperada inf erior a 5.
La f recuencia mí nima esperada es 3,80.

Medidas direcci onales

Error típ. Sig.


a b
Valor asint. T aproximada aproximada
Nominal Lambda Simétrica ,184 ,022 7,768 ,000
por nominal c

a. Asumiendo la hipót esis alternativ a.


b. Empleando el error t ípico asintótico basado en la hipót esis nula.
c. Basado en la aproximación chi-cuadrado.

Medidas simétricas

Error típ. Sig.


a b
Valor asint. T aproximada aproximada
Nominal por Coef iciente de
,498 ,000
nominal contingencia
Ordinal por ordinal Gamma -,731 ,024 -22,392 ,000
N de casos v álidos 1030
a. Asumiendo la hipótesis alt ernativ a.
b. Empleando el error típico asint ótico basado en la hipótesis nula.

También podría gustarte