Está en la página 1de 39

Resúmen analítica de negocios y Big Data

En general se observa que los modelos mas complejos tienden a predecir


mejor VERDADERO

1 - Introducción a la Analítica de Negocios

El término Big Data refiere al almacenamiento digital de información en grandes volúmenes,


velocidad, variedad y veracidad.
Big Data Analytics es una combinación de sistemas de alta tecnología y de matemáticas
que juntos analizan toda esa información para descubrir tendencias, patrones,
correlaciones u otras ideas útiles que le dan un significado muy valioso para las empresas
o los gobiernos.

4 Tipos de Big Data Analytics:


• Descriptivo
• Diagnóstico
• Predictivo
• Prescriptivo

Pilares de un proyecto analítico:

Aprendizaje Supervisado o Análisis Aprendizaje no Supervisado


Predictivo

● Serie de inputs (variables ● No hay una “tarea” predictiva


independientes) que tienen Se trata de analizar múltiples
relación sobre un output (variable

variables, encontrar relaciones


dependiente). El objetivo es usar entre ellas y eventualmente
los inputs (Xs) para predecir los potenciales grupos (clusters) entre
outputs (Y). los casos analizados.
● Se trata de aproximar una función
y -K-Means
=f(x1…xk). ●
- Regresion lineal
- Reg logística
- Arboles
Fases de un proyecto Analítico: Metodología CRISP – DM:

1. Definición del problema de negocios.


2. Análisis y preparación de los datos disponibles.
3. Selección de las técnicas de análisis adecuada.
4. Desarrollo y validación de la “solución”.
5. Implementación.
6. Seguimiento y ajuste (de ser necesario).

2 - Inferencia Estadística

Es el área de la Estadística que provee y desarrolla métodos que, en base a una lógica
inductiva, permiten extraer conclusiones sobre el comportamiento de una población
(conjunto de todos los elementos de interés) en base a la observación de una muestra
(subconjunto de los elementos de interés).

Ejemplo Indicador Parámetro Estadístico

Media μ X ̅ (X barra)

Desviación Estándar σ S

Varianza
σ2 S2

Coef. de correlación ρ r
lineal

Proporción p P
Estimación de parámetros:

● Estimación Puntual:
Para estimar puntualmente el valor de un parámetro poblacional en base a
observaciones muestrales se propone calcular la característica correspondiente en
base a los datos relevados.

● Estimación por Intervalos:

Para esto debemos conocer la distribución muestral del estimador.

Cada muestra produce un valor distinto para el mismo estimador puntual. Es decir,
no hay una única estimación puntual posible del parámetro sino tantas como valores
distintos asuma el estimador del parámetro a través de las posibles muestras. Así,
bajo muestreo aleatorio resulta que los estimadores puntuales son variables
aleatorias.

La distribución de probabilidad de un estimador es lo que se conoce como


distribución muestral del estimador. Conocer esta distribución y sus propiedades
permitirá hacer declaraciones de probabilidad acerca de qué tan cerca se encuentra
la media muestral x ̅ de la media poblacional μ.

Distribución muestral de un estimador:


Cada muestra produce un valor distinto para el mismo estimador puntual. Es decir, no hay
una única estimación puntual posible del parámetro sino tantas como valores distintos
asuma el estimador del parámetro a través de las posibles muestras. Así, bajo muestreo
aleatorio resulta que los estimadores puntuales son variables aleatorias.

Por lo tanto los estimadores puntuales (por ejemplo y )̅ tienen una media, una desviación
estándar y una distribución de probabilidad.

La distribución de probabilidad de un estimador es lo que se conoce como distribución


muestral del estimador. Conocer esta distribución y sus propiedades permitirá hacer
declaraciones de probabilidad acerca de qué tan cerca se encuentra la media muestral x ̅
de la media poblacional μ.
Distribución muestral de X :

La distribución muestral de X es la distribución de probabilidad de todos los posibles


valores de la media muestral X .
Asuma que se selecciona una muestra aleatoria de tamaño n de una población X cuya
media es µ y su varianza es σ2. Cualquiera sea el tamaño de muestra, n, se cumple que:
● El valor esperado de la media muestral es µ, es decir E(x )̅ =μ
● La varianza de la media muestral es σ^2/n, es decir V(x ̅)=σ^2/n
● La desviación estándar de la media muestral es σ/√n.

Población tiene distribución normal: la distribución de muestreo de X está distribuida


normalmente cualquiera que sea el tamaño de la muestra.
Población no tiene distribución normal: El Teorema Central del Límite establece que la
distribución de muestreo de la media muestral X puede aproximarse mediante una
distribución normal a medida que el tamaño de la muestra se hace grande.

*En la práctica, la distribución de muestreo de X se puede aproximar mediante una distribución


normal siempre que la muestra sea de tamaño 30 o mayor. En los casos en
que la población es muy sesgada o existen observaciones atípicas, pueden requerirse muestras de
tamaño 50.

Distribución muestral de p:
La proporción muestral p es el estimador puntual de la proporción poblacional P.
La fórmula para calcular la proporción muestral es:
p=x/n
Donde:
x= número de elementos de la muestra que poseen la característica de interés
n= tamaño de la muestra
Pensar en una proporción es equivalente a pensar en la media de una variable que puede
tomar únicamente 2 valores: 1 si el elemento presenta la característica deseada y 0 si no la
presenta.
Al igual que en la media, la distribución muestral de p es la distribución de probabilidad de
todos los posibles valores de la proporción muestral p.
Propiedades de la distribución de muestreo de p:
● El valor esperado de la proporción muestral es P: E(p)=P
● La varianza de la media muestral es (P(1-P))/n: V(p)=(P(1-P))/n
● La desviación estándar de la media muestral es √((P(1-P))/n)

Como ya mencionamos, el valor de x es una variable aleatoria binomial, lo que implica que
la distribución de muestreo de 𝑝 sigue una distribución binomial.
Siempre que el tamaño de muestra sea lo suficientemente grande, la distribución binomial
se puede aproximar mediante una distribución normal. Condiciones:
np ≥5 y n(1-p) ≥5
Estas condiciones no son muy exigentes y en general se cumplen.

Propiedades estimadoras puntuales:

Definiremos:
● θ: parámetro poblacional de interés
● θ :̂ estadístico muestral o estimador puntual de θ
Insesgadez:
El estadístico muestral θ ̂ es un estimador insesgado del parámetro poblacional θ si
E(θ ̂ )=θ
donde E(θ ̂ ) es el valor esperado del estadístico muestral θ ̂.
Vimos que E( X ) )=μ y que E(p)=P . Por lo tanto, X y p son estimadores insesgados
de sus correspondientes parámetros poblacionales μ y P.

Eficiencia:
Suponga que se usa una muestra aleatoria simple de n elementos para obtener dos
estimadores puntuales insesgados de un mismo parámetro poblacional. En estas
circunstancias, se preferirá usar el estimador puntual con el menor error estándar, ya que
tenderá a proporcionar estimaciones más cercanas al parámetro poblacional. Se dice que el
estimador puntual con menor error estándar tiene mayor eficiencia relativa que los otros.
Consistencia:
Un estimador puntual es consistente si su valor tiende a estar más cerca del
parámetro poblacional a medida que aumenta el tamaño de la muestra.
σ
En el caso de la media muestral, el error estándar de X está dado por σ X = por lo
√n
que muestras mayores dan valores menores de σ X , entonces las de tamaño
grande tienden a proporcionar estimadores puntuales más cercanos a la media
de la población μ. En este sentido, podemos decir que la media muestral es un
estimador consistente de la media poblacional μ. Mediante un razonamiento
similar, también se puede concluir que la proporción muestral p es un estimador
consistente de la proporción poblacional P.

Estimación por intervalos:

Como no se puede esperar que el estadístico muestral suministre el valor exacto del
parámetro poblacional, suele calcularse una estimación por intervalo sumando y restando a
la estimación puntual una cantidad llamada margen de error.
El objetivo de la estimación por intervalo es aportar información sobre qué tan cerca se
encuentra la estimación puntual obtenida de la muestra del valor del parámetro poblacional.
La forma general de una estimación por intervalo es:
Estimación puntual ± Margen de error

Resumen Estimación por intervalos – Media poblacional


La forma de cálculo dependerá si se conoce o no el desvío estándar poblacional σ
σ conocida:
Sabemos que la distribución de muestreo de X ̅ sigue una distribución normal con media
σ
igual a μ y un error estándar de σ X = .
√n
En la tabla de probabilidad normal estándar se encuentra que 95% de los valores de
cualquier variable aleatoria distribuida normalmente aparecen dentro de ± 1.96
desviaciones estándar de la media. Por lo tanto, si la distribución de muestreo de X ̅ está
distribuida normalmente, 95% de los valores de x deben estar dentro de ± 1.96 σ X de la
media

Cuando se selecciona una muestra aleatoria de tamaño n ≥ 30 de una población X con media µ y
varianza conocida σ2 (desviación estándar σ), la fórmula para obtener una estimación por
intervalo para µ es:

x± zα σ
2 √n

Donde:
• (1-α) es el coeficiente de confianza


z α es el valor de z que proporciona un área de α en la cola superior de la distribución de
2 2
probabilidad normal estándar.

σ desconocida
Cuando se calcula una estimación por intervalo para la media poblacional, suele no
contarse con una buena estimación de la desviación estándar poblacional.
En tales casos se usa la misma muestra para calcular μ y σ. Se utiliza S para estimar σ.
El margen de error y la estimación por intervalo de la media poblacional se basan en una
distribución de probabilidad conocida como distribución t.
Distribución t:

 La distribución t es una familia de distribuciones de probabilidad similares, donde cada una


depende de un parámetro conocido como grados de libertad. La distribución t para un grado
de libertad es única, como lo es para dos o tres grados de libertad, etc. A medida que
aumenta este número, se reduce la diferencia entre la distribución t y la distribución normal
estándar.
 Los grados de libertad hacen referencia al número de datos independientes disponibles
después de realizar un cálculo numérico. La distribución t tiene n-1 grados de libertad, ya que
se utiliza s para estimar la desviación estándar poblacional. Los grados de libertad se refieren
al número de valores independientes en el cálculo de s, hay n-1 valores libres dado que
∑ ( xi −x ) =0.
Tamaño de muestra:
A veces se puede estar interesado en saber cuál es el tamaño de muestra necesario para
realizar una estimación con determinado margen de error, que llamaremos “E”
Para resolver este problema se puede despejar “n” de la fórmula del margen de error.

( )
2

n=
E
Podemos observar que a igual z y σ, cuanto menor sea el margen de error, mayor deberá
ser el tamaño de la muestra.

Estimación por intervalos – Proporción poblacional:

Ya vimos que la forma genérica será:


P ± margen de error

La distribución de
muestreo de P se
aproxima mediante
una distribución
normal cuando n es
grande.
La media de la
distribución es P y la
desviación estándar
es:
√ P(1−P)
n

Dado que no se conoce P, se sustituye por la estimación puntual en la muestra (p).


La fórmula para obtener una estimación por intervalo para P es:

p± zα
2 √ p(1− p)
n
Donde:
• (1-α) es el coeficiente de confianza


z α Es el valor de z que proporciona un área de α/2 en la cola superior de la distribución
2
de probabilidad normal estándar.
Pruebas de hipótesis:

Las pruebas de hipótesis son un procedimiento para poner a prueba (y rechazar o no)
hipótesis sobre parámetros u otras características de una población.
Otros ejemplos de preguntas que permiten contestar:
¿Son los desempleados más reticentes a aceptar la inmigración que los empleados?
¿Difiere el gasto promedio en tecnología entre personas de diferente nivel educativo?
¿Son las empresas familiares menos proclives a invertir que las empresas no familiares?

Elementos de una Prueba de Hipótesis:

Hipótesis:

En las pruebas de hipótesis se empieza por formular un supuesto tentativo acerca del pará-metro
poblacional. A este supuesto tentativo se le llama hipótesis nula, y se denota con H 0. Después se
define otra hipótesis, llamada hipótesis alternativa, que contradice lo que establece la hipótesis nula
y se denota con H a o H 1.

Formas para las hipótesis nula y alternativa

Nos centraremos en la última prueba dado que es la más utilizada en nuestro contexto, ésta
se denomina prueba de dos colas. De todas formas, para todas se utiliza el mismo
estadístico, el cambio se origina en la zona de rechazo.
 Para el ejemplo de las lamparitas:
H 0 : μ=1000
H 0 : μ≠ 1000
Nivel de significancia:
Es la probabilidad de rechazar la hipótesis nula cuando es verdadera.
Se denota con la letra griega α (alfa), y los valores que suelen utilizarse para son α 0.05 y
0.01.
Por ejemplo, un nivel de significación de 0.05 indica un riesgo del 5% de concluir que H_0 es
falsa cuando no lo es.
En la práctica, lo que en analista hará será concluir si 970 está lo suficientemente lejos de
1000 controlando por la probabilidad de rechazar la hipótesis nula cuando es verdadera.
Error tipo I y Error tipo II:

El nivel de significancia lo definimos como la probabilidad de cometer el Error de Tipo I.

En la mayoría de las pruebas no se controla por el error de tipo II. Por lo tanto, si se decide aceptar
H 0, no es posible establecer el nivel de confianza en esa decisión. Debido a la incertidumbre
asociada con el hecho de cometer un error tipo II al realizar una prueba de significancia, los expertos
en estadística suelen recomendar que se diga “ H 0 no se rechaza” en lugar de “ H 0 se acepta”.

Error tipo I y Error tipo II

Utilizando el ejemplo de las bombillas


H 0 : μ=1000
H a : μ≠ 1000

El error tipo I de rechazar H 0 cuando es verdadera implica afirmar que la vida media de las
lamparitas es distinta de 1000 cuando no lo es. Por cuestiones del azar las lamparitas de la muestra
tenían una vida muy baja. La empresa intentará mejorar un proceso cuando no hacía falta hacerlo,
gasto innecesario.

El error tipo II de aceptar H 0 cuando es falsa corresponde a concluir que la vida media de las
lamparitas es igual a 1000 cuando en realidad no lo es. Por causas del azar en la muestra las
lamparitas tienen una vida media alta. La empresa no tomará medidas y tendrá clientes insatisfechos.

Test hipótesis – Media poblacional 𝝈 conocida:

• Estadístico de prueba:
x−μ0
z=
• σ
√n

σ
• Dado que X se distribuye normal, con media μ y desvío , bajo H 0 cierta, z sigue una distribución
√n
normal estándar.

• Utilizaremos como estadístico de prueba la variable aleatoria normal estándar z para determinar si x
se desvía lo suficiente del valor hipotético de μ como para justificar rechazar la hipótesis nula.
Distribución normal estándar:

Si 𝑧=-1, esto significa que el valor de 𝑥 ̅ es un error estándar menor que el valor hipotético de la
media; si el valor de 𝑧=-2, esto significa que el valor de 𝑥 ̅ es dos errores estándar menor que el
valor hipotético de la media.

Regla de decisión
Una vez que contemos con el estadístico de prueba debemos definer una
regla de decisión para rechazar o no la hipótesis nula. En otras palabras:
¿qué tan pequeño o grande debe ser el estadístico de prueba z para que se
decida rechazar la hipótesis nula?
Dos métodos:

• Valor-p

• Valor crítico

Método del valor-p:


• En este método se usa el valor del estadístico de prueba z para calcular una
probabilidad llamada valor-p.
• Esta probabilidad aporta una medida de la evidencia suministrada por la muestra contra la
hipótesis nula.
• Valores-p pequeños indican una evidencia mayor contra H_0 ya que el valor del
estadístico de prueba es inusualmente bajo o alto bajo el supuesto de que H_0 es
verdadera.
● La regla de decisión es que se rechaza H_0 si el valor-p es menor que el nivel de significancia
Método del valor crítico:

 En este método primero se determina un valor para el estadístico de prueba llamado valor
crítico. Éste sirve como punto de referencia para determinar si el valor del estadístico de
prueba es lo suficientemente pequeño o grande para rechazar la hipótesis nula.
 Los valores críticos en esta prueba se encuentran tanto en la cola superior como en la inferior
de la distribución normal estándar. Si el nivel de significancia es α =0,05 , en cada cola el área
α 0,05
más allá del valor crítico es = =0,025 .
2 2
 En la tabla de probabilidad normal estándar se encuentra que los valores críticos para el
estadístico de prueba son
−z 0,025=−1,96 y z 0,025=1,96
 Entonces, al utilizar el método del valor crítico, la regla de rechazo para dos colas es:
Rechazar H 0 si z ≤−1,96 o si z ≥ 1,96

Racional de las Pruebas de Hipótesis:


1.Tengo una HIPÓTESIS respecto al comportamiento de una variable en la población.
2.Selecciono una muestra de la población.
3. Calculo el valor del estadístico de interés en la muestra.

4. Me fijo un nivel de tolerancia a “fallar” en la conclusión (nivel de significación.

5. Fijo una regla de decisión: Comparo el valor del estadístico calculado en la muestra con el
valor “teórico” de acuerdo al nivel de significación del punto (4) o utilizo el valor-p.
6. Concluyo: rechazo o no rechazo mi hipótesis (para el nivel de significación definido).

Relación Prueba de hipótesis con IC:


En clases anteriores mostramos que el calculo de IC para la media poblacional cuando σ es
conocida, con un nivel de confianza de (1-α)% dado por :

x± zα σ
2 √n

Suponga que construimos un IC al 95% de confianza (α=0,05) para la media poblacional.


Sabemos que el 95% de los IC generados contendrán a la media poblacional y 5% no lo
contendrán.
Si planteamos la prueba de hipótesis:
H 0 : μ=μ0

H 0 : μ≠ μ0
El nivel de significancia es la probabilidad de rechazar la hipótesis nula cuando es
verdadera. Entonces, construir un intervalo de 95% de confianza y rechazar H0 cuando el
intervalo no contenga μ_0 es equivalente a realizar una prueba de hipótesis de dos colas
con α=0,05 como nivel de significancia.
Test de Hipótesis: Media poblacional 𝝈 desconocida:

Para realizar una prueba sobre la media poblacional en el caso que no se conoce σ, la
media muestral x se utiliza como estimación de μ y la desviación estándar muestral s como
estimación de σ.
Los pasos a seguir para las pruebas de hipótesis en el caso en que σ no se conoce son los
mismos que cuando se conoce σ, pero los cálculos del estadístico de prueba y del valor-p
son un tanto distintos.
La distribución de muestreo del estadístico de prueba sigue la distribución t; tiene
ligeramente mayor variabilidad, debido a que la muestra se usa para obtener estimaciones
tanto de μ como de σ.

Estadístico de prueba:
x−μ0
t=
s
√n

El estadístico de prueba tiene distribución t con n-1 grados de libertad. Recuerde que
cuando el número de observaciones es suficientemente grande, la distribución t tiende a
una normal

2 - Regresión Lineal:

Regresión lineal simple:


La regresión lineal es una aproximación simple al análisis supervisado. Donde se asume
que la dependencia de Y en las X_1, X_2, …, X_p es lineal.

Las verdaderas funciones de regresión nunca son lineales!


Aunque parezca demasiado simplista, la regresión lineal es extremadamente útil tanto
conceptual como prácticamente.
Ejemplo de regresión lineal simple

Supongamos que somos contratados por un cliente para brindar asesoramiento sobre cómo mejorar las ventas
de un producto en particular.
La base de datos Advertising consiste en las ventas de ese producto en 200 mercados diferentes, junto con
presupuestos publicitarios para el producto en cada uno de esos mercados para tres medios diferentes: TV,
radio y periódico.

Regresión Lineal Simple:


Se asume el modelo:

Donde son dos constantes desconocidas que representan la ordenada en el origen


y la pendiente de la recta. Se conocen como coeficientes o parámetros. ϵ es el término de
error, que capta todo lo que estamos omitiendo en este modelo.

Dadas ciertas estimaciones para los coeficientes del modelo, se pueden


predecir las ventas usando: , donde y ̂ representa una predicción de Y
cuando X = x.

El símbolo indica un valor estimado.

Estimación de los parámetros por MCO:

Sea la predicción para Y basada en el iseimo valor de X. Luego


representa el residuo de la iesima observación.

Para que la recta estimada proporcione un buen ajuste de los datos, las diferencias entre
los valores observados y predichos para cada y_i (residuos o errores) deben ser pequeñas.

Metodo de estimacion de las regresiones lineales: El método de Mínimos Cuadrados


Ordinarios propone determinar para que la suma de cuadrados de los residuos o suma
de cuadrados debida al error, que se denota SCE (en inglés RSS), sea mínima.

2 2 2
Se define la suma de los residuos al cuadrado como: SCE=e 1+ e2 +…+ e n

O de forma equivalente SCE=( y 1−( ^β 0 + ^β 1 x 1) ) + ( y 2−( ^β0 + β^ 1 x2 ) ) +…+ ( y n−( ^β 0+ ^β1 x n) )


2 2 2

El problema que se resuelve es



min ∑ ❑( y i −^
y i)2=SCE

Se puede demostrar que los estimadores son:


n

∑ ❑( xi −x )( yi − y )
^β = i=1 β^ 0= y−x β^ 1
1 n

∑ ❑( x i−x )
2

i =1

Donde x y y son las medias muestrales.

Estos estimadores son insesgados, se cumple que: E( β^ ¿ ¿ j)=β j ¿ ..

Intuición: Si estimamos β 0 y β 1 en un conjunto de datos particular, entonces nuestras


estimaciones no serán exactamente iguales a β 0 y β 1. Pero si pudiéramos promediar las
estimaciones obtenidas en un gran número de conjuntos de datos, entonces el promedio de
estas estimaciones coincidiría con β 0 y β 1.
Entrenamiento y evaluación:
No perder de vista que nuestro principal objetivo es predecir fuera de la muestra, es decir
utilizar información de nuevas “x” para poder hacer una predicción sobre la “y”.

Overfiting: El modelo se entrenó demasiado sobre la base de datos de training, por lo tanto,
cuando lo pruebe en la base de testing no va a funcionar muy bien.

Para evitar problemas como el overfitting una buena práctica es separar la muestra:
● Datos de entrenamiento (train): los usados para “aprender” (estimar).
● Datos de evaluación (test): usados para evaluar las predicciones.
● Existen diversas formas para separar la muestra.

Precisión de los estimadores - IC:

El error estándar de un estimador refleja cuánto varía cuando se repite la estimación en


diferentes muestras.

[ ]
σ2 2 1 x2
SE ( ^β 1) =
2
SE ( ^β 0 ) =σ 2 +
n
n n
2
∑ ❑ ( xi −x )
2

i=1
∑ ❑ ( xi −x )
i=1

Donde σ 2=Var (ϵ ).

Los errores estándar pueden utilizarse para calcular intervalos de confianza. Un intervalo de
confianza al 95% se define como el rango de valores dentro de los cuales, con un 95% de
probabilidad, se encuentra el verdadero valor del parámetro. Tienen la forma:

^β 1 ± 1.96 SE ( ^β 1)

Por lo tanto, hay un 95% de probabilidad de que el intervalo:


[ β^ −1.96 SE ( ^β ) , ^β +1.96 SE ( ^β ) ]
1 1 1 1

Contenga el verdadero valor de β 1 (bajo el escenario de que tenemos muestras repetidas.

Test de Hipótesis:
Los errores estándar se pueden utilizar para plantear pruebas de hipótesis sobre los
coeficientes.
La prueba de hipótesis más común es:
H 0 : No hay relación entre X y Y
H 0 : Hay relación entre X y Y

Matemáticamente esto corresponde a testear:


H 0 : β 1=0
H 0 : β1≠ 0

Dado que si β 1=0 , el modelo se reduce a Y = β0 + ϵ y por lo tanto X no está asociada con Y
.
Para testear la hipótesis se calcula el estadístico t:

^β −0
1
t=
SE ( ^β1 )
Asumiendo que β 1=0 , el estadístico tiene una distribución t con n-2 grados de libertad.

Luego de calcular el estadístico, es posible obtener el p-valor y dada una regla de decisión
concluir si se rechaza o no la hipótesis nula.
Bondad de ajuste del modelo:

Error cuadrático medio Sirve para saber que tan alejados están los puntos de la recta. Para evitar
que los errores negativos se compensen con los positivos
n
1 1
ECM = SCE = ∑ ❑ ( y i−^
y i )2
n n i=1

Donde SCE es la suma de los residuos al cuadrado discutida anteriormente.


Error estándar residual

√ √
n
1 1
n−2 ∑
2
RSE= SCE= ❑ ( y i− ^
yi )
n−2 i=1

Donde SCE es la suma de los residuos al cuadrado discutida anteriormente.

R cuadrado o fracción de la varianza explicada


2 STC−SCE SCE
R= =1−
STC STC
n
Donde STC =∑ ❑( y i− y ) es la suma total de cuadrados
2

i=1

Es la proporción de la variabilidad de la variable explicada (STC) que el modelo logra


explicar (SCR).
De su definición, se puede demostrar que está acotado entre 0 y 1.
2
r =0↔ SCE=STC , ocurre cuando el modelo no tiene poder explicativo
para la y.

2
r =1 ↔ SCE=0, ocurre cuando los datos muestrales están perfectamente
alineados sobre la recta de regresión estimada.

Si un modelo da mal en train no esta aprendiendo lo suficiente. Se deben


poner nuevas variables explicativas.
Regresión lineal múltiple:

Se asume el modelo:
Y = β0 + β 1 X 1 + β 2 X 2 + β 3 X 3 +…+ ϵ

Donde β_j se interpreta como el efecto promedio en Y de una unidad adicional de X_j
manteniendo todos los otros predictores constantes.

En el ejemplo de advertising el modelo sería:

 Y = β0 + β 1 TV + β2 radio+ β 3 newspaper + …+ ϵ

Interpretación coeficientes:
El escenario ideal es cuando los predictores no están correlacionados entre sí.
Diseño ideal:
● Cada coeficiente puede ser estimado y testeado por separado
● Interpretaciones del tipo “una unidad adicional de X j es asociada con un
cambio de β j en Y, manteniendo todo lo demás constante”, son posibles.

La correlación entre predictores causa problemas.

● La varianza de todos los coeficientes tiende a incrementarse, a


veces dramáticamente.
● La interpretación de los coeficientes es difícil, dado que cuando X j cambia, todo
cambia.
Estimación Modelo Regresión Múltiple:
 Sea ^ y i= β^ 0 + ^β 1 x i la predicción para Y basada en el iésimo valor de X . Luego, e i= y i− ^
yi
representa el residuo de la iésima observación.

 Se estiman β 0 , β 1 , … , β p de tal forma que se minimice la suma de los residuos al cuadrado:


n n
RSS=∑ ( y ¿ ¿ i− ^
y i )2=∑ ( y1 − ^β 0− ^β 1 x i 1− ^β 2 x i 2−…− ^β p x ip ) ¿
2

i=1 i=1

 Los valores de ^β 0 , β^ 1 , … , β^ p que minimizan el RSS son los estimadores de mínimos


cuadrados múltiples.

¿Es al menos un predictor útil?:


En el caso del modelo de regresión simple, nos preguntábamos si la variable explicativa era
relevante, y para eso testeamos H 0 : β 1=0 .

En el caso de la regresión múltiple con p predictores, la pregunta es si todos los coeficientes


de la regresión son cero, es decir: β 1=β 2=…=β p=0 .

La hipótesis que se plantea es:


H 0 : β 1=β 2=…=β p =0
H 1 : almenos un β j ≠ 0

Para este test se utiliza el estadístico F

(STC −SCE)/ p
F= F
SCE/( n− p−1) p ,n− p−1

Cuando no hay una relación entre la respuesta y los predictores, uno esperaría que el
estadístico F tome un valor cercano a 1. Por otro lado, si Ha es verdadero, esperamos que
F sea mayor que 1

Model Selection – Predictores útiles:

Si concluimos que al menos uno de los predictores está relacionado con la respuesta,
entonces la siguiente pregunta que surge es cuáles son.

Una opción es mirar en los p-values individuales de cada variable, pero esto puede tener
problemas cuando la cantidad de predictores p es muy grande.

La tarea de determinar qué predictores están asociados con la respuesta para ajustar un
solo modelo que involucra solo estos predictores, se conoce como selección de variables.

Idealmente, nos gustaría realizar una selección de variables probando muchos modelos
diferentes, cada uno con un subconjunto diferente de predictores.

Por ejemplo, si p = 2, entonces podemos considerar cuatro modelos: un modelo que no


contiene variables, un modelo que contiene solo X1, un modelo que contiene solo X2 y un
modelo que contiene ambos X1 y X2.

Luego podemos seleccionar el mejor modelo de todos los que hemos


considerado. Diferentes criterios se pueden utilizar para decidir cuál es el mejor
-Mallow’s Cp
-Akaike information criterion (AIC),
-Bayesian information criterion (BIC),
-Adjusted R2

 Para un modelo con p predictores, tenemos 2 p combinaciones de modelos diferentes.


 Combinaciones de modelos diferenetes es dos elevado a la cantidad de variables

 Si p=2, tenemos 22=4


 Si p=30 tenemos 230=1,073,741,824

Selección de variables:

Tres aproximaciones:

Forward selection:
Se comienza con un modelo con una constante, se estiman p regresiones simples y
se agrega al modelo inicial la variable que resulta del modelo con menor RSS. Luego se
estiman los modelos con 2 variables (dejando la que ya se incorporó) y se agrega la
variable del modelo con menor RSS. Este proceso continúa hasta que se cumpla cierta
regla de finalización.

Backward selection:
Se comienza con todas las variables en el modelo y se elimina la variable con mayor
p-value (la que es menos significativa). Luego se estima el modelo con (p-1) variables y se
vuelve a eliminar la variable con mayor p-value. Esto continúa hasta que se alcanza una
regla de detención. Por ejemplo, podemos detenernos cuando todas las variables restantes
tienen un valor p por debajo de algún umbral.

Mixed selection:
Se comienza con un modelo sin variables. Se agrega la variable que ajusta mejor.
Continuamos agregando variables una por una. Si en algún momento el p-value para
alguna de las variables en el modelo se eleva por encima de un cierto umbral, entonces
eliminamos esa variable. Continuamos realizando estos pasos hacia adelante y hacia atrás
hasta que todas las variables en el modelo tengan un p-value suficientemente bajo, y todas
las variables fuera del modelo tendrían un valor p grande si se agregan al modelo.

Ajuste del modelo:

ECM y R2 se interpretan de la misma forma que el modelo simple.

El R2 siempre aumentará cuando se agreguen más variables al modelo en la base de train,


incluso si esas variables sólo están débilmente asociadas con la respuesta o no son
significativas. Ejemplo: haremos una regresión que incluya solamente TV y radio.
Vemos que el modelo con las 3 variables tenía
un R2 de 0,8995, mientras que el 2 las 2
variables 0.8993.

Esto se debe al hecho de que agregar otra


variable a las ecuaciones de mínimos
cuadrados debe permitirnos ajustar los datos
de entrenamiento (aunque no necesariamente
los datos de prueba) con mayor precisión.
Multicolinealidad:

Se refiere a la situación en la que dos o más variables predictoras están estrechamente


relacionadas entre sí.

Puede plantear problemas en el contexto de regresión, ya que puede ser difícil separar los
efectos individuales de las variables colineales en la respuesta.

Reduce la precisión de las estimaciones de los coeficientes ya que hace que crezca el error
estándar para ^β j . El estadístico t para cada predictor se calcula dividiendo ^β 2 por su error
estándar. En consecuencia, la colinealidad produce una disminución en el estadístico t.
Como resultado, en presencia de colinealidad, es posible que no podamos rechazar H 0 :
β j =0. Esto significa que el poder de la prueba de hipótesis (la probabilidad de detectar
correctamente un coeficiente distinto de cero) se reduce.

Una forma sencilla de detectar colinealidad es observar la matriz de correlación de los


predictores. No todos los problemas de colinealidad pueden detectarse mediante la
inspección de la matriz de correlación: es posible que exista colinealidad entre tres o más
variables, incluso si ningún par de variables tiene una correlación particularmente alta.
Llamamos a esta situación multicolinealidad.
Para analizar la presencia de multicolinealidad se calcula el Factor de Inflación de la
Varianza (VIF).

Predictores cualitativos:

Algunos predictores no son cuantitativos, sino que son variables cualitativas o categóricas.
Si la variable puede tomar únicamente 2 categorías se denomina variable dicotómica o
dummy.
Ejemplo:
Se investiga la diferencia en el balance de la tarjeta de crédito entre hombres y
mujeres. Para ello se crea una variable dummy que toma valor 1 si la persona es
mujer o 0 si es hombre.

X mujer = 1 si la personaes mujer


0 si la persona es hombre

y esa variable se incluye como predictora con el resto de las variables de la


regresión.

Y = β0 + β 1 X 1 + β 2 X 2 + β 3 X 3 +…+ X mujer + ϵ
Términos No Lineales en un Modelo: ajustar una Curva a los datos:

● Correlación no es Causalidad.
● Cuidado al extrapolar: los Modelos Lineales deben aplicarse dentro del rango de
los datos analizados.
● Principio de parsimonia: modelos sencillos pueden explicar relativamente bien
la realidad.
● La evidencia demuestra que los Expertos NUNCA predicen mejor que los modelos.

3 - Dataset desbalanceados

Qué es un dataset desbalanceado:

Cuando hablamos de desbalance de daros nos referimos a una categoría que hay que
predecir que es mas pequeña que el resto.

Corresponde a una situación en la que la cantidad de observaciones no es similar para


todas las clases en un dataset usado para clasificación.
En algunas áreas los problemas con datos desbalanceados son muy comunes. Por ejemplo,
en detección de fraude o diagnóstico de enfermedades raras.
La mayoría de los casos pertenecen a la clase “No-Fraude” o “No-Enfermo” y solo una muy
pequeña minoría pertenece a la clase “Fraude” o “Enfermo”.
A la clase que se quiere detectar (en gral. la clase minoritaria) se le denomina Target y a la
clase mayoritaria No-Target.
Consecuencias del desbalance:

Todos los algoritmos en diferentes formas estiman sus parámetros minimizando una función
de pérdida.
Por ejemplo, la regresión lineal minimiza la Suma del Cuadrado de los Errores.
Si tenemos una clase mayoritaria, los algoritmos priorizarán clasificar esos casos
correctamente para minimizar la pérdida total, sesgando los resultados en dirección
contraria a la clase minoritaria que queremos detectar.
Adicionalmente, algunas medidas de error de los modelos, como, por ejemplo, una tabla de
Confusión, presentarán métricas no útiles.

Por Qué no usar Tablas de Confusión:

Métrica de performance para datasets desbalanceados:

En situaciones de desbalance generalmente se utiliza como medida de performance de los


modelos de clasificación el ÁREA BAJO LA CURVA ROC (AUROC).
Definición de AUROC: es un número entre 0.5 y 1 que mide la probabilidad de clasificar
correctamente un caso Target por encima de un caso No-Target.
Si el AUROC que genera nuestro modelo es 0.5 entonces ambos casos tienen la misma
probabilidad de ser clasificados como Target y por ende es un escenario randómico (como
tirar una moneda).
Si el AUROC es 1 entonces nuestro modelo clasifica perfectamente a ambos grupos.
Cómo solucionar los problemas de desbalance:
Existen básicamente dos tipos de métodos para solucionar el problema del
desbalance. Método 1: rebalanceo de la muestra.
Se puede realizar de dos formas:
Sub-muestreo: quitar casos de la clase mayoritaria para que por ej. la relación pueda ser
50/50.
Sobre-muestreo: aumentar la cantidad de casos minoritarios, replicando los casos (a veces
con cierto ruido para que no sean copias idénticas a los casos iniciales) hasta alcanzar el
balance deseado, ej. 50/50.
Método 2: asignar pesos o costos a las observaciones. Podemos determinar que los casos
minoritarios valgan (pesen) x-veces los casos mayoritarios de tal forma que al computar la
función de pérdida, estos casos reciban una mayor ponderación/Importancia.
El balance natural implica que cada observación recibe un peso = 1. Se puede asignar por
ejemplo un peso = 15 para las observaciones minoritarias y un peso = 1 a las
observaciones mayoritarias.
La mayoría de los algoritmos permiten hacer este tipo de asignación de pesos a los casos.

4 - Regresión logística:

Problema de ejemplo:

Suponga que usted trabaja en el Área de Riesgos de un Banco que otorga tarjetas de crédito a sus
clientes.
Su tarea es predecir la probabilidad de que los clientes no paguen su tarjeta, a esto le llamamos que
el cliente entre en “default”.
Para ello cuanta con una base de datos con información sobre sus clientes:
Balance: El saldo promedio que el cliente tiene restante en su tarjeta de crédito después de hacer su
pago mensual.
Student: Si el cliente es estudiante. (“Yes”, “No”)
Income: Ingreso del cliente.
Default: Si el cliente no pagó su tarjeta. (“Yes”, “No”)

Nuestra variable dependiente Y es “default”, que si la definimos como una dummy, toma los
siguientes valores:
1 – Si el cliente está en default. “Yes”
0 – Si el cliente no está en default “No”

Si predecimos utilizando regresión lineal puede darnos un numero negativo:

Lo cual no puede ocurrir ya que estamos prediciendo una probabilidad que sabemos debe
encontrarse entre 0 y 1

*dummy es un valor entre 0 y 1*

Solución: Utilizar una función de probabilidad no lineal en los parámetros


Las características de la curva de la figura anterior resuelven nuestros problemas ya que
empieza en cero y termina en uno. Esto es, solo adopta valores en el intervalo [0, 1] para
cualquier valor de la x.

Técnica de análisis estadístico utilizada para predecir la probabilidad de tener el valor 1 en


una variable dummy (dependiente) a partir de otras variables (independientes).
Pasos para hacer un modelo:

● Especificar el modelo
● Dividir la base: test/train
● Estimar el modelo
● Verificar significancia parámetros
● Interpretar los resultados
● Verificar la capacidad explicativa del modelo

Modelo Logit – Aplicado al ejemplo:

Interpretación coeficientes:
• En el modelo de regresión lineal, β 1se interpreta como el cambio promedio en Y asociado
con un aumento de una unidad en X 1 dejando todo lo demás constante.
• En el modelo de regresión logística, los efectos de las variables explicativas sobre la
variable dependiente no son lineales.
• Dado que β 1 X 1está en el exponente del numerador y en el denominador, no es claro cuál
es el efecto sobre la probabilidad de Y de ante un cambio X 1 manteniendo todo lo demás
constante.
• Dado que la relación entre p(X) y X 1 en no es una línea recta, β 1 no corresponde al
cambio en p(X) asociado con una unidad aumento en X 1 . La cantidad que p(X) cambia
debido a un cambio de una unidad en X 1 dependerá del valor actual de X 1 . Pero
independientemente del valor de X 1 , si β 1 es positivo, el aumento de X 1 se asociará con un
aumento de p(X), y si β 1 es negativo, entonces aumentar X 1 se asociará con disminución
p(X).
Lo importante es el signo del coeficiente, para ver el sentido de la relación. La interpretación
de las magnitudes es compleja.
Estimación:

Significancia de los parámetros:

Test de hipótesis para la significación de los parámetros


H 0: No hay relación entre X 1 y Y
H 0: Hay relación entre X 1 y Y
Matemáticamente esto corresponde a testear:
H 0: β 1=0
H 0: β 1≠0
Estadístico de prueba
^β1
z=
SE ( ^β 1)

Si p valor menor que 0.05, rechazo Ho, rechazo β1=0 y por ende los coeficientes son
significativos considerados individualmente.
Predicciones:
Luego de estimados los parámetros es relevante predecir el default de un individuo con un
balance de 1500, un Income de 40000 y que sea estudiante:

^ ^ X +^ ^
e β +β
0 1 1 β 2 X2 + β p X p

^p ( X )= β^0+ ^
β 1 X1 + ^
β 2 X 2+ ^
βpX p
1+e

e−10,65+0,00567∗1500−0,0000139∗40000−0,728∗1
¿
1+ e−10,65+0,00567∗1500−0,0000139∗40000−0,728∗1

¿ 0,031

Si quisiera predecir el default de un individuo con un balance de 1500, un Income de 40000


y que sea no estudiante:

Predicción en R:
Evaluación Modelo Logit:

• Un modelo de clasificación binario puede producir dos tipos de errores:

● Puede asignar incorrectamente un individuo que defaultea en una categoría de no


incumplimiento. CLASE A
● Puede asignar incorrectamente un individuo que no defaultea a una categoría de
default. CLASE B
Para mostrar esto se utiliza la matriz de confusión en la muestra de TEST!!

Los elementos de la diagonal principal son los individuos correctamente pronosticados.


Cuanto más alto ese valor mejor es el modelo.
El modelo hizo predicciones incorrectas: 84 Clase B y 33 Clase A.

Para ver qué tan bien funciona la clasificación, primero calculamos la matriz de confusión.
Esta resume los valores predichos versus los verdaderos valores de la variable
dependiente.
Dicho de otra forma, la sensitividad es la probabilidad de predecir un “éxito” entre los
“éxitos”:
• Pr ⁡( ^
yi=1∨ yi=1)

• La especificidad es la probabilidad de predecir un “fracaso” entre los


“fracasos”:

• Pr ⁡( ^
yi=0∨ yi=0)

• La probabilidad de predecir un “éxito falso” ó “falso positivo” es uno menos la


especificidad:

• Pr ⁡( ^
yi=1∨ yi=0)=1−Pr ⁡( ^
yi=0∨ yi=0)

• Los falsos positivos corresponden a lo que llamamos error de tipo I.

• Es claro que una mejor bondad de ajuste se obtiene con una alta sensitividad y
especificidad.

Curva ROC:

Una forma de resumir la bondad del ajuste del modelo es la curva ROC (Relative Reciever
Operating Characteristic).
La curva ROC es una representación gráfica de la sensibilidad frente a (1 − especificidad) para un
sistema clasificador binario según varía el umbral de clasificación.
• Una forma de resumir la curva ROC es calcular el área bajo la curva (AUC)

• Cuando el modelo predice correctamente la totalidad de los casos, el área por debajo de la
curva es igual a 1. En otras palabras, esto significa que el porcentaje de morosos (utilizando
el ejemplo de default) bien clasificados es 100% y el porcentaje de no morosos mal
clasificados es 0%.

• Un área de 0,5, es igual al resultado de un modelo que clasifica aleatoriamente los casos.

• Cuanto mayor AUC mejor el modelo.


Multicolinealidad: cuando las x están muy relacionadas

FIV > 3 hay multicolinealidad FACTOR DE INFLACION DE LA VARIABLE

• En estos modelos también es necesario chequear la ausencia de multicolinealidad entre


las variables explicativas de la regresión. Es decir, es necesario verificar que las variables
predictoras sean independientes entre sí.

• Consecuencia del no cumplimiento del supuesto: errores estándares grandes (intervalos


de confianza) y problemas de identificación.

• Diagnóstico del cumplimiento del supuesto: correlaciones entre variables y VIF.

• Solución: Elegir una alguna de esas variables o construir índices.

Árboles

Los árboles de decisión se pueden aplicar tanto a la regresión como a los problemas de clasificación.

Primero consideramos los problemas de regresión, y luego pasamos a clasificación.

Estas herramientas implican segmentar el espacio predictivo en una serie de regiones simples.

Para hacer una predicción para una determinada observación, generalmente se utiliza la media o la
moda de las observaciones de entrenamiento de la región a la que pertenece.

Árbol de regresión

Los arboles de regresión son utilizados para predecir una respuesta cuantitativa.

La respuesta predicha para una observación esta dada por la media de las respuestas de las
observaciones de entrenamiento que pertenecen al mismo nodo terminal.

Ejemplo Basket

Base de datos: Hitters

Objetivo: predecir el salario de un jugador de béisbol basado en Años (la cantidad de años que ha
jugado en las ligas mayores) y Hits (la cantidad de Hits que realizó el año anterior).
Interpretación:

Los años son el factor más importante para determinar el salario y los jugadores con menos
experiencia ganan salarios más bajos que los jugadores más experimentados.

Dado que un jugador tiene menos experiencia, la cantidad de Hits que hizo el año anterior parece
jugar un pequeño papel en su salario.

Pero entre jugadores que han estado en las ligas mayores durante 5 años o más, el número de Hits
en el año anterior afecta el salario, y los jugadores que hicieron más, tienden a tener salarios más
altos.

También podría gustarte