Está en la página 1de 88

FUNDAMENTOS DE ESTADÍSTICA

SEMESTRE 2013.1
CURRICULUM RESUMIDO

• Lic. ESTADÍSTICA EAPE- UNMSM


• Mag. ESTADÍSTICA UNICAMP Campinas Brasil
• Dra. ESTADÍSTICA U. SAO PAULO S.Paulo Brasil
• Estudios completos de Maestría en Métodos Cuantitativos de la
Economía(UNMSM).
• Especialista en Planificación Global y consultora en análisis de
datos.
• Experiencia en gestión pública y en docencia universitaria a nivel
de posgrado y pregrado.
• Profesora Principal e Investigadora, DAE- Facultad de Ciencias.

2
3
4
6
7
8
9
10
11
12
13
14
16
COMPETENTES EN EL
ANÁLISIS DE
DATOS MULTIVARIANTES

17
DATOS
ESTADISTICA:
METODOLOGIA para ANALIZAR DATOS,
CAPACIDAD DE COMPRENDER LA ABSTRACCIÓN
LÓGICA
que hace posible el ESTUDIO DE FENOMENOS
ALEATORIOS.

Problema de Investigación
Conjuntos de datos: ??
• Antecedentes Previos
a) La descripción de las variables
• Formula Problema b) Los valores de las variables, que es
• Objetivo ( nsfácil) el cuerpo principal de los datos
c) Los resúmenes estadísticos de cada
• Posibles Hipótesis
variable Respuesta al
• Unidad de investigación
Métodos problema de
• Población Muestra Estadísticos investigación
18

Variables
Razonamiento crítico, basado en Estadística, rama de
evidencia objetiva. SOPORTE la matemática,
INVESTIGACIONES CUANTITATIVAS atención

DATOS Rol primordial en los avances y desarrollo de


la ciencia- y tecnología. Proporciona
herramientas metodológicas:
buena calidad
Analizar la variabilidad de los
datos, describir, comparar,
encontrar relaciones entre variables
Mejorar las predicciones
Tomar decisiones en incertidumbre.
INFORMACION
II

UTIL RESPUESTA AL
TOMA DECISIÓN PROBLEMA 19
El Análisis Multivariante es un área de la Estadística
que estudia fenómenos aleatorios observando y
analizando variables en varias dimensiones
simultáneamente.

La descripción, el análisis y las inferencias se realizan


simultáneamente con todas las respuestas, basados en las
estructuras de correlaciones entre las variables.

Subyace la búsqueda de la simplificación.

20
Permite entender fenómenos objeto de estudio,
con información que los métodos estadísticos
univariantes y bivariantes no pueden
conseguir. Hair et al. (1999).

21
Análisis de Regresión
Dependiente Análisis de Supervivencia
Métrica MANOVA
Correlación Canónica
Métodos de
Dependencia Análisis Discriminante
Dependiente Regresión Logística
No Métrica Análisis Conjoint

A. Comp. Principales
Técnicas Análisis Factorial
Datos Métricos
Multivariantes Escalas Multidimensionales
Métodos de Análisis Cluster
Interdependencia
Análisis de Correspondencias
Datos No Modelos log-lineales
Métricos Escalas Multidimensionales
Análisis Cluster

Modelos estructurales

22
CLCLASIFICACIASIFICACION DE LOS METODOS MULTIVARIANTES
MÉTODOS DE DEPENDENCIA
Su objetivo es determinar si el conjunto de variables independientes afecta al
conjunto de variables dependientes y de qué forma.

MÉTODOS DE INTERDEPENDENCIA
Estos métodos no distinguen entre variables dependientes e independientes y
su objetivo consiste en identificar las relaciones entre las variables.

MÉTODOS ESTRUCTURALES
Las variables están divididas en dos grupos:
Variables dependientes e independientes. El objetivo de estos métodos es
analizar, no sólo como las variables independientes afectan a las variables
dependientes, sino también cómo están relacionadas las variables de los
dos grupos entre sí.

23
• Análisis de Regresión
Una o varias variables dependientes métricas cuyo valor depende
de una o varias variables independientes métricas.
• Análisis de Supervivencia
Es similar al análisis de regresión pero con la diferencia de que la variable
independiente es el tiempo de supervivencia de un individuo u objeto.

• Análisis de la varianza
las variables dependientes analizadas son métricas, la muestra total está dividida
en varios grupos basados
Su objetivo es averiguar si hay diferencias significativas entre dichos grupos en
cuanto a las variables dependientes.

• Correlación Canónica
Relacionar simultáneamente varias variables métricas dependientes e independientes
calculando combinaciones lineales de cada conjunto de variables que maximicen la
correlación existente entre los dos conjuntos de variables.

24
25
MÉTODOS MULTIVARIANTES

DISTRIBUCIONES:
A. MUESTRA
B. POBLACIÓN
C. MUESTRAL
DISTRIBUCIONES MUESTRALES
Todo lo que estudiaremos a continuación está pensado para poblaciones grandes. El
MAS garantiza una
muestra representativa y la obtención de observaciones independientes desde la
población.

27
1. DISTRIBUCIÓN MUESTRAL DE MEDIAS

Cada muestra de tamaño n que puede ser seleccionada de una


población proporciona una media. Si consideramos cada una de
estas medias como valores de una variable aleatoria podemos
estudiar su distribución que se denomina distribución muestral
de medias.

Si se tiene una población normal con media μ y varianza σ²,


N(μ, σ²), y se seleccionan de ella muestras de tamaño n,
la distribución muestral de medias sigue también una
distribución normal.

Si la población no sigue una distribución normal pero n>30, se


aplica el Teorema central del límite la distribución muestral de
medias se aproxima también a la distribución normal.

FUNDAMENTOS DE ESTADÍSTICA 2013.1 28


DISTRIBUCIÓN DE LA MEDIA MUESTRAL

La distribución de la media muestral es


una de las distribuciones más importantes,
esta permite realizar inferencias
relacionadas a las medias poblacionales, a
través de una estimación puntual,
estimación por intervalo o prueba de
hipótesis.

FUNDAMENTOS DE ESTADÍSTICA 2013.1 29


X 1 , X 2 ,..., X n X

30
EJEMPLO

31
32
33
34
35
II. DISTRIBUCIÓN MUESTRAL

FUNDAMENTOS DE ESTADÍSTICA 2013.1 36


37
III. DISTRIBUCIÓN DE LA MUESTRA

38
DISTRIBUCIÓN MUESTRAL DE LA MEDIA
MUESTRAL

R1: Caso I: σ2 conocida

R2: Caso II: Teorema del Límite


Central (TLC)

R3: Caso III : σ2 desconocida

FUNDAMENTOS DE ESTADÍSTICA 2013.1 39


Distribución de la media muestral
Caso I: σ2 conocida
Si la población desde la cual se selecciona la
m.a. X1, X2,…,Xn, tiene distribución N(µ, 2),
entonces:

 σ  2
X~N  μ, 
 n 
FUNDAMENTOS DE ESTADÍSTICA 2013.1 40
FUNDAMENTOS DE ESTADÍSTICA
SEMESTRE 2013.1

Esta foto de Autor desconocido está bajo licencia CC BY-ND


PRUEBAS DE HIPOTESIS
MULTIVARIANTE
• TEST DE ESFERECIDAD BARTLETT
DESCRIPTIVA ESTIMACIÓN
• VECTORES DE MEDIAS • TEST M_BOX
• MATRICES DE COVARIANZAS
• MATRICES DE CORRELACIONES • TEST SOBRE NUMERO FACTORES
• AUTOVALORES Y AUTOVECTORES MATRICES
• VARIABLES LATENTES • TEST MULTINORMALIDAD
• TIPOS DE DISTANCIAS:MAHALANOBIS
• Etc. • TEST COMPARACION DE VECTORES DE
MEDIAS 42

• Etc.
UNIDAD 1
Distribución de la
muestra observada

UNIDAD I
Análisis exploratorio datos
multivariantes.
Descripción y organización
de datos multivariantes.

Distribución de la muestra
observada 43
DISTRIBUCIÓN DE LA MUESTRA

44
UNIDAD 1
Distribución de la
TEMAS(semanasn1-3) muestra observada
• Matriz de datos
• Vector de medias muestral
• Matriz de covarianzas muestral
• Matriz de correlaciones
• Varianza total. Varianza generalizada
• Distancia de Mahalanobis
• Medidas multivariantes de asimetría
y curtosis.
• Introducción al software R – multivariante

Valores perdidos. Casos atípicos. Supuestos básicos


del análisis multivariante: mutinormalidad, 45

homocedasticidad.
VARIABLES ALEATORIAS MULTIDIMENSIONALES

Los resultados de la investigación científica son mediciones en las unidades


muestrales o experimentales, que necesariamente involucra asociaciones entre
las variables.
Al realizar el experimento u observar una muestra tendremos p medidas para
cana uno de los n indiuviduos. Esas medidas son tomadas
independientemente.
La independencia estadística es garantizada, por la aleatorización de las
unidades experiementales que puede conducirse por el sorteo de las unidades
provenientes de la población.

Si el número de variables p  1, la muestra aleatoria de tamaño n

correspondiente a la variable X es : x1 ,...., xn .

46
UNIDAD 1
Distribución de la
muestra observada

Filas individuos

47
UNIDAD 1
Distribución de la
muestra observada

48
UNIDAD 1
Distribución de la
muestra observada

49
49
UNIDAD 1
Distribución de la
muestra observada

50
UNIDAD 1
Distribución de la
muestra observada

51
UNIDAD 1
Distribución de la
muestra observada

52
53
UNIDAD 1
Distribución de la
muestra observada

BARRAS
SECTORES
HISTOGRAMAS
CAJAS

DIAGRAMAS DE DISPERSIÓN (bidimensional).


Este tipo de diagrama consiste en graficar simultáneamente en dos
dimensiones diagramas de dispersión entre todas las posibles parejas de
variables.

Chernoff, H. (1973): The use of faces to represent statistiscal assoziation,


JASA, 68, pp 361–368.

54
UNIDAD 1
Distribución de la
muestra observada

CARAS DE CHERNOFF
Un conjunto multivariado de
variables en forma de caras, asociando características faciales diferentes a
variables diferentes. Por ejemplo, una variable asociarse con el
ancho vertical del ojo, la segunda con el ancho horizontal, la tercera con el
tamaño del iris, y las otras se podrían asociar con el espaciamiento de los
ojos, la altura de los ojos, la longitud de la nariz, en ancho de la nariz, la
longitud de las cejas, el ancho de las cejas. La inclinación de las cejas, el
ancho de las orejas, la longitud de las orejas, la abertura de la boca, la
sonrisa, etc.
 (outliers)

Chernoff, H. (1973): The use of faces to represent statistiscal assoziation,


JASA, 68, pp 361–368.

55
56
57
58
UNIDAD 1
Distribución de la muestra
observada

59
UNIDAD 1
Distribución de la
muestra observada

60
UNIDAD 1
Distribución de la
muestra observada

61
62
UNIDAD 1
Distribución de la muestra
observada

63
64
65
66
67
>sapply(gorriones1[1:5],mean)
> sapply(gorriones1[1:5],mean)
> covara<-cov(gorriones1[1:5])
> covara
> cora<-cor(gorriones1[1:5])
> cora
>covaA<-cov(subset(gorriones1, sobrevi == "sobrevivió")[1:5

>covaB<-cov(subset(gorriones1, sobrevi == "murió")[1:5])

>coraA<-cor(subset(gorrion1, sobrevi=="sobrevivió")[1:5])

>coraB<-cor(subset(gorriones1, sobrevi == "murió")[1:5])

68
>covara: Matriz de covarianzas para todos los gorriones
x1 x2 x3 x4 x5
x1 13.3537 13.6109 1.9221 1.3306 2.1922
x2 13.6109 25.6828 2.7136 2.1977 2.6578
x3 1.9221 2.7136 0.6316 0.3423 0.4146
x4 1.3306 2.1977 0.3423 0.3184 0.3394
x5 2.1922 2.6578 0.4146 0.3394 0.9828

69
> escala<-scale(gorrion1[1:5])
 estanda<-as.data.frame(escala)

70
71
72
UNIDAD 1
Distribución de la
>table(iris$Species) muestra observada

setosa versicolor virginica 50 50 50

73
UNIDAD 1
Distribución de la muestra
observada

74
>boxplot(iris[,1:4],main="Boxplots Iris")

75
pairs(iris[,1:2])

76
>pairs(iris[,1:4],col=iris$Species)

77
78
> colMeans(iris[1:4])
Sepal.Length 5.843333
Sepal.Width 3.057333
 Petal.Length 3.758000
Petal.Width 1.199333

79
>TRAZA<-sum(diag(cov(iris[1:4]))
>TRAZA
[1] 4.5729

81
> DETERMI<-det(cov(iris[1:4]))
> DETERMI [1] 0.00191273

82
>escala1<-scale(iris[1:4])

83
DISTANCIA DE MAHALANOBIS AL
CUADRADO

84
s

sqrt(mahala1)

85
86
87
La complejidad de los
sistemas biológicos
Búsqueda
,sociales, económicos, bibliográfica
asociados a la variabilidad, Evaluar
resultados
requiere la aplicación de investigación
matemáticas y estadísticas
para entender los sistemas y
analizar datos .
El conocimiento estadístico es importante para
entender los conceptos asociados con la
construcción de modelos y las
bases de las pruebas de
hipótesis estadísticas. 88

También podría gustarte