Está en la página 1de 19

ANÁLISIS DE DATOS

Clase 2

Franco A. Mansilla Ibañez

Universidad Andrés Bello


Facultad de Ingenierı́a

Franco A. Mansilla Ibañez 1 / 19


Tabla de Contenidos

1. Tabla de Contenidos

2. Estadı́stica Descriptiva
Medidas de Tendencia Central
Medidas de Variabilidad
Medidas de Localización
Medidas de Tabulación
Medidas de Tabulación
Medidas de Correlación
Gráficos

3. Distribuciones de Probabilidad
Concepto
Tercer Momento
Cuarto Momento

4. Lecturas

Franco A. Mansilla Ibañez 2 / 19


Estadı́stica Descriptiva
Medidas Tendencia Central

Las medidas de tendencia central permiten resumir información de un vector de


datos (variable), el cual, cada estadı́grafo: media, mediana y moda se interpreta de
diferente forma pero su utilidad es la misma (resumir la información de la variable).

Promedio: Es una de las técnicas mas usada, permite saber el valor central de
la variable, siendo esta sensible a datos extremos.
Pn
x1 + x2 + x3 + ... + xn xi
x̄ = = i (1)
n n
Mediana: Esta medida permite saber el valor de en-medio de los datos, orde-
nados de forma ascendente. Donde la diferencia con el promedio es que no es
sensible a los datos extremos y es análoga al percentil 50 en una medida de
localización.

Franco A. Mansilla Ibañez 3 / 19


Estadı́stica Descriptiva
Medidas de Variabilidad

Esta medida nos permite saber la variación que tienen los datos de una variable con
respecto su media. En ciertas materias, como finanzas, esta medida es sinónimo de
riesgo. Estas medidas tienen su ”apellido” dependiendo de la variable que se esta
midiendo.
Desviación Estándar (σ): Es un estadı́grafo de dispersión, el cual dice que
tan disperso son los datos con respecto a su media, el cual tiene unidades de
medidas. √
σ = σ2 (2)
Varianza (σ 2 ): Es un estadı́grafo adimensional, no representa ninguna inter-
pretación, el cual es usado como estadı́grafo de calculo, por ejemplo, riesgo de
portafolios.
(xi − x̄)2
P
2
σ = (3)
n−1

Franco A. Mansilla Ibañez 4 / 19


Estadı́stica Descriptiva
Medidas de Variabilidad (cont.)

Coeficiente de Variación (CV): Cuando se necesita comparar dos variables


descriptiva, no se puede comparar por desviación esándar dado la escala de
cada variable, por lo que se ajusta por media o en relación a la media.
σ
CV (%) = ∗ 100 (4)

Franco A. Mansilla Ibañez 5 / 19


Estadı́stica Descriptiva
Medidas de Localización

En algunas literaturas definen de forma semejante medidas de tendencia central


y localización. Se define como localización las medidas de cuantiles.
Se define como una medida de localización dentro del vector de datos, donde
quiere definir la ubicación de un dato xi dentro de la variable, por ejemplo, no
dice nada que un estudiante tuvo 62 punto de 120 en el examen de estadı́stica
en comparación de otros estudiantes, pero si dice que ese puntaje se ubico en
el percentil 82%, es decir, el 82% de los estudiantes tuvieron un puntaje menor
a 62 puntos y 18% de los estudiantes tuvieron un puntaje mayor al 62 puntos.
Por otra parte, el percentil 50% es igual a la mediana.
En Excel se puede trabajar con rango.percentil (devuelve la ubicación en %) y
el percentil (devuelve el valor dado ese %)

Franco A. Mansilla Ibañez 6 / 19


Estadı́stica Descriptiva
Medidas de Tabulación

Las medidas de tabulación es una medida descriptiva de la variable. Esta


medida distribuye la variable entre un mı́nimo y un máximo.
Esta medida no es muy utilizada pero al momento de hacer gráficos de his-
togramas, ojivas, tortas, entre otros, necesitan de medidas de tabulación de la
variable para graficar.
En resumen, me permite describir la variable en rangos para si encontrar difer-
entes tipos de frecuencias: Frecuencia Absoluta, Frecuencia Absoluta Acumu-
lada, Frecuencia Relativa y Frecuencia Relativa Acumulada.

Franco A. Mansilla Ibañez 7 / 19


Estadı́stica Descriptiva
Medidas Tabulación (cont.)

Que necesitamos:
1. Numero de Clases o Numero de Intervalos: Criterio de Sturges.
2. Ancho de la Clase o Rango de Clase en (1).
3. Limites de Clases.

Frecuencia Absoluta: Frecuencia Relativa:


fi = NumeroTotali hi = Nfif ∗ 100

Frecuencia Absoluta Acum: Frecuencia Relativa Acum:


Fi = fint + fint−1 Hi = hint + hint−1

Franco A. Mansilla Ibañez 8 / 19


Estadı́stica Descriptiva
Medidas de Correlación

Covarianza:
A. Sensible a la magnitud de los datos.
B. Medida de asociación
P entre dos variables.
i (xi − x¯i )(yi − y¯i )
Sxy = → COV (x, y ) = ρx y σx σy (5)
n−1
Correlación de Pearson
A. Acotada entre un rango de [-1,1].
B. No es sensible a la magnitud de los datos.
P P P
n xi yi − xi yi σx y
rx y = p P 2 P 2 p P 2 → ρx y = (6)
σx σy
P
n xi − ( xi ) · n yi − ( yi )2

Franco A. Mansilla Ibañez 9 / 19


Estadı́stica Descriptiva
Medidas de Correlación (cont.)

Figure: Formas de correlaciones lineales de Pearson.

Franco A. Mansilla Ibañez 10 / 19


Gráficos
Gráficos Descriptivos

Linea

Torta

Franco A. Mansilla Ibañez 11 / 19


Gráficos
Gráficos Descriptivos (cont.)

Histograma

Ojiva

Franco A. Mansilla Ibañez 12 / 19


Distribuciones de Probabilidad
Conceptos

Cuando existe una variable bajo estudio; variable aleatoria (v.a), esta presenta
un comportamiento que se puede representar por una distribución de probabil-
idad, donde el eje de la abscisa presenta los valores v.a y el eje de la ordenada
la probabilidad.
Cuando se calcula la probabilidad este puede ser tomando un valor fijo de la
distribución (función de densidad) o la probabilidad acumulada hasta el valor
a considerar (función de distribución acumulada).
Por otro lado, las distribuciones tienen caracterı́sticas que las diferencian de
otras distribuciones y esto se denominan: momentos de la distribución, lo mas
conocidos son:
1. Primer Momento: Esperanza.
2. Segundo Momento: Varianza.
3. Tercer Momento: Asimetrı́a (Skewness).
4. Cuarto Momento: Kurtosis (Apuntalamiento).
5. Función Generadora de Momentos:

Mx (T ) = E (e tx ) (7)

Franco A. Mansilla Ibañez 13 / 19


Distribuciones de Probabilidad
Tercer Momento: Asimetrı́a (Skewness).

Las comparaciones de los momen- en el lado (+).


tos se hacen en base al a función de
distribución normal, donde el ter-
cero momento de una distribución
normal es cero (skew = 0).
Lo que dice el tercer momento, hace
relación, a que lugar esta la concen-
tración datos que tiene la v.a; donde
puede ser positiva (skew > 0) o
negativa (skew < 0).
Ex. Si se esta analizando la v.a
de ventas, se espera que esta pre-
sente una simetrı́a negativa, dado
que la concentración se encuentra

Franco A. Mansilla Ibañez 14 / 19


Distribuciones de Probabilidad
Cuarto Momento: Apuntalamiento (Curtosis).

gunos programas presenta exceso


de Curtosis (Cur = 0). La Curtosis
se presenta en tres formas:
I Leptocurtica (Cur > 0): Pre-
senta colas gruesas, quiere decir
que ocurren con mayor probabili-
dad datos extremos.
I Platicurtica (Cur < 0): Presenta
una estructura mas achatada
(plana), donde la concentración
La Curtosis representa el nivel de de datos se ve mas distribuida.
apuntalamiento. En comparación I Mesocurtica (Cur = 0): Repre-
con la distribución normal, esta senta a una distribución normal
debe presentar Cur = 3, o en al- tradicional.

Franco A. Mansilla Ibañez 15 / 19


Distribuciones de Probabilidad
Cuarto Momento: Apuntalamiento (Curtosis).

Ex. 1:
→ Si interpretamos en forma conjunta la Asimetrı́a y la Curtosis, en base al ejemplo
de ventas, esperamos que la distribución de la venta presente asimetrı́a negativa
y un nivel de apuntalamiento Leptocurtico; mas probabilidad que ocurran ventas
monetariamente mas grandes.

Franco A. Mansilla Ibañez 16 / 19


Resumen

Franco A. Mansilla Ibañez 17 / 19


Lecturas

Lecturas:
1. p. 3; 17-21; 39-40 → 55 Respuestas a dudas tı́picas de Estadı́stica.

Franco A. Mansilla Ibañez 18 / 19


ANÁLISIS DE DATOS
Clase 2

Franco A. Mansilla Ibañez

Universidad Andrés Bello


Facultad de Ingenierı́a

Franco A. Mansilla Ibañez 19 / 19

También podría gustarte