Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Anlitica Ultima Version 16:5
Anlitica Ultima Version 16:5
2 - Inferencia Estadística
Es el área de la Estadística que provee y desarrolla métodos que, en base a una lógica
inductiva, permiten extraer conclusiones sobre el comportamiento de una población
(conjunto de todos los elementos de interés) en base a la observación de una muestra
(subconjunto de los elementos de interés).
Media μ X ̅ (X barra)
Desviación Estándar σ S
Varianza
σ2 S2
Coef. de correlación ρ r
lineal
Proporción p P
Estimación de parámetros:
● Estimación Puntual:
Para estimar puntualmente el valor de un parámetro poblacional en base a
observaciones muestrales se propone calcular la característica correspondiente en
base a los datos relevados.
Cada muestra produce un valor distinto para el mismo estimador puntual. Es decir,
no hay una única estimación puntual posible del parámetro sino tantas como valores
distintos asuma el estimador del parámetro a través de las posibles muestras. Así,
bajo muestreo aleatorio resulta que los estimadores puntuales son variables
aleatorias.
Por lo tanto los estimadores puntuales (por ejemplo y )̅ tienen una media, una desviación
estándar y una distribución de probabilidad.
Distribución muestral de p:
La proporción muestral p es el estimador puntual de la proporción poblacional P.
La fórmula para calcular la proporción muestral es:
p=x/n
Donde:
x= número de elementos de la muestra que poseen la característica de interés
n= tamaño de la muestra
Pensar en una proporción es equivalente a pensar en la media de una variable que puede
tomar únicamente 2 valores: 1 si el elemento presenta la característica deseada y 0 si no la
presenta.
Al igual que en la media, la distribución muestral de p es la distribución de probabilidad de
todos los posibles valores de la proporción muestral p.
Propiedades de la distribución de muestreo de p:
● El valor esperado de la proporción muestral es P: E(p)=P
● La varianza de la media muestral es (P(1-P))/n: V(p)=(P(1-P))/n
● La desviación estándar de la media muestral es √((P(1-P))/n)
Como ya mencionamos, el valor de x es una variable aleatoria binomial, lo que implica que
la distribución de muestreo de 𝑝 sigue una distribución binomial.
Siempre que el tamaño de muestra sea lo suficientemente grande, la distribución binomial
se puede aproximar mediante una distribución normal. Condiciones:
np ≥5 y n(1-p) ≥5
Estas condiciones no son muy exigentes y en general se cumplen.
Definiremos:
● θ: parámetro poblacional de interés
● θ :̂ estadístico muestral o estimador puntual de θ
Insesgadez:
El estadístico muestral θ ̂ es un estimador insesgado del parámetro poblacional θ si
E(θ ̂ )=θ
donde E(θ ̂ ) es el valor esperado del estadístico muestral θ ̂.
Vimos que E( X ) )=μ y que E(p)=P . Por lo tanto, X y p son estimadores insesgados
de sus correspondientes parámetros poblacionales μ y P.
Eficiencia:
Suponga que se usa una muestra aleatoria simple de n elementos para obtener dos
estimadores puntuales insesgados de un mismo parámetro poblacional. En estas
circunstancias, se preferirá usar el estimador puntual con el menor error estándar, ya que
tenderá a proporcionar estimaciones más cercanas al parámetro poblacional. Se dice que el
estimador puntual con menor error estándar tiene mayor eficiencia relativa que los otros.
Consistencia:
Un estimador puntual es consistente si su valor tiende a estar más cerca del
parámetro poblacional a medida que aumenta el tamaño de la muestra.
σ
En el caso de la media muestral, el error estándar de X está dado por σ X = por lo
√n
que muestras mayores dan valores menores de σ X , entonces las de tamaño
grande tienden a proporcionar estimadores puntuales más cercanos a la media
de la población μ. En este sentido, podemos decir que la media muestral es un
estimador consistente de la media poblacional μ. Mediante un razonamiento
similar, también se puede concluir que la proporción muestral p es un estimador
consistente de la proporción poblacional P.
Como no se puede esperar que el estadístico muestral suministre el valor exacto del
parámetro poblacional, suele calcularse una estimación por intervalo sumando y restando a
la estimación puntual una cantidad llamada margen de error.
El objetivo de la estimación por intervalo es aportar información sobre qué tan cerca se
encuentra la estimación puntual obtenida de la muestra del valor del parámetro poblacional.
La forma general de una estimación por intervalo es:
Estimación puntual ± Margen de error
Cuando se selecciona una muestra aleatoria de tamaño n ≥ 30 de una población X con media µ y
varianza conocida σ2 (desviación estándar σ), la fórmula para obtener una estimación por
intervalo para µ es:
x± zα σ
2 √n
Donde:
• (1-α) es el coeficiente de confianza
•
z α es el valor de z que proporciona un área de α en la cola superior de la distribución de
2 2
probabilidad normal estándar.
σ desconocida
Cuando se calcula una estimación por intervalo para la media poblacional, suele no
contarse con una buena estimación de la desviación estándar poblacional.
En tales casos se usa la misma muestra para calcular μ y σ. Se utiliza S para estimar σ.
El margen de error y la estimación por intervalo de la media poblacional se basan en una
distribución de probabilidad conocida como distribución t.
Distribución t:
( )
2
zσ
n=
E
Podemos observar que a igual z y σ, cuanto menor sea el margen de error, mayor deberá
ser el tamaño de la muestra.
La distribución de
muestreo de P se
aproxima mediante
una distribución
normal cuando n es
grande.
La media de la
distribución es P y la
desviación estándar
es:
√ P(1−P)
n
p± zα
2 √ p(1− p)
n
Donde:
• (1-α) es el coeficiente de confianza
•
z α Es el valor de z que proporciona un área de α/2 en la cola superior de la distribución
2
de probabilidad normal estándar.
Pruebas de hipótesis:
Las pruebas de hipótesis son un procedimiento para poner a prueba (y rechazar o no)
hipótesis sobre parámetros u otras características de una población.
Otros ejemplos de preguntas que permiten contestar:
¿Son los desempleados más reticentes a aceptar la inmigración que los empleados?
¿Difiere el gasto promedio en tecnología entre personas de diferente nivel educativo?
¿Son las empresas familiares menos proclives a invertir que las empresas no familiares?
Hipótesis:
En las pruebas de hipótesis se empieza por formular un supuesto tentativo acerca del pará-metro
poblacional. A este supuesto tentativo se le llama hipótesis nula, y se denota con H 0. Después se
define otra hipótesis, llamada hipótesis alternativa, que contradice lo que establece la hipótesis nula
y se denota con H a o H 1.
Nos centraremos en la última prueba dado que es la más utilizada en nuestro contexto, ésta
se denomina prueba de dos colas. De todas formas, para todas se utiliza el mismo
estadístico, el cambio se origina en la zona de rechazo.
Para el ejemplo de las lamparitas:
H 0 : μ=1000
H 0 : μ≠ 1000
Nivel de significancia:
Es la probabilidad de rechazar la hipótesis nula cuando es verdadera.
Se denota con la letra griega α (alfa), y los valores que suelen utilizarse para son α 0.05 y
0.01.
Por ejemplo, un nivel de significación de 0.05 indica un riesgo del 5% de concluir que H_0 es
falsa cuando no lo es.
En la práctica, lo que en analista hará será concluir si 970 está lo suficientemente lejos de
1000 controlando por la probabilidad de rechazar la hipótesis nula cuando es verdadera.
Error tipo I y Error tipo II:
En la mayoría de las pruebas no se controla por el error de tipo II. Por lo tanto, si se decide aceptar
H 0, no es posible establecer el nivel de confianza en esa decisión. Debido a la incertidumbre
asociada con el hecho de cometer un error tipo II al realizar una prueba de significancia, los expertos
en estadística suelen recomendar que se diga “ H 0 no se rechaza” en lugar de “ H 0 se acepta”.
El error tipo I de rechazar H 0 cuando es verdadera implica afirmar que la vida media de las
lamparitas es distinta de 1000 cuando no lo es. Por cuestiones del azar las lamparitas de la muestra
tenían una vida muy baja. La empresa intentará mejorar un proceso cuando no hacía falta hacerlo,
gasto innecesario.
El error tipo II de aceptar H 0 cuando es falsa corresponde a concluir que la vida media de las
lamparitas es igual a 1000 cuando en realidad no lo es. Por causas del azar en la muestra las
lamparitas tienen una vida media alta. La empresa no tomará medidas y tendrá clientes insatisfechos.
• Estadístico de prueba:
x−μ0
z=
• σ
√n
σ
• Dado que X se distribuye normal, con media μ y desvío , bajo H 0 cierta, z sigue una distribución
√n
normal estándar.
• Utilizaremos como estadístico de prueba la variable aleatoria normal estándar z para determinar si x
se desvía lo suficiente del valor hipotético de μ como para justificar rechazar la hipótesis nula.
Distribución normal estándar:
Si 𝑧=-1, esto significa que el valor de 𝑥 ̅ es un error estándar menor que el valor hipotético de la
media; si el valor de 𝑧=-2, esto significa que el valor de 𝑥 ̅ es dos errores estándar menor que el
valor hipotético de la media.
Regla de decisión
Una vez que contemos con el estadístico de prueba debemos definer una
regla de decisión para rechazar o no la hipótesis nula. En otras palabras:
¿qué tan pequeño o grande debe ser el estadístico de prueba z para que se
decida rechazar la hipótesis nula?
Dos métodos:
• Valor-p
• Valor crítico
En este método primero se determina un valor para el estadístico de prueba llamado valor
crítico. Éste sirve como punto de referencia para determinar si el valor del estadístico de
prueba es lo suficientemente pequeño o grande para rechazar la hipótesis nula.
Los valores críticos en esta prueba se encuentran tanto en la cola superior como en la inferior
de la distribución normal estándar. Si el nivel de significancia es α =0,05 , en cada cola el área
α 0,05
más allá del valor crítico es = =0,025 .
2 2
En la tabla de probabilidad normal estándar se encuentra que los valores críticos para el
estadístico de prueba son
−z 0,025=−1,96 y z 0,025=1,96
Entonces, al utilizar el método del valor crítico, la regla de rechazo para dos colas es:
Rechazar H 0 si z ≤−1,96 o si z ≥ 1,96
5. Fijo una regla de decisión: Comparo el valor del estadístico calculado en la muestra con el
valor “teórico” de acuerdo al nivel de significación del punto (4) o utilizo el valor-p.
6. Concluyo: rechazo o no rechazo mi hipótesis (para el nivel de significación definido).
x± zα σ
2 √n
H 0 : μ≠ μ0
El nivel de significancia es la probabilidad de rechazar la hipótesis nula cuando es
verdadera. Entonces, construir un intervalo de 95% de confianza y rechazar H0 cuando el
intervalo no contenga μ_0 es equivalente a realizar una prueba de hipótesis de dos colas
con α=0,05 como nivel de significancia.
Test de Hipótesis: Media poblacional 𝝈 desconocida:
Para realizar una prueba sobre la media poblacional en el caso que no se conoce σ, la
media muestral x se utiliza como estimación de μ y la desviación estándar muestral s como
estimación de σ.
Los pasos a seguir para las pruebas de hipótesis en el caso en que σ no se conoce son los
mismos que cuando se conoce σ, pero los cálculos del estadístico de prueba y del valor-p
son un tanto distintos.
La distribución de muestreo del estadístico de prueba sigue la distribución t; tiene
ligeramente mayor variabilidad, debido a que la muestra se usa para obtener estimaciones
tanto de μ como de σ.
Estadístico de prueba:
x−μ0
t=
s
√n
El estadístico de prueba tiene distribución t con n-1 grados de libertad. Recuerde que
cuando el número de observaciones es suficientemente grande, la distribución t tiende a
una normal
2 - Regresión Lineal:
Supongamos que somos contratados por un cliente para brindar asesoramiento sobre cómo mejorar las ventas
de un producto en particular.
La base de datos Advertising consiste en las ventas de ese producto en 200 mercados diferentes, junto con
presupuestos publicitarios para el producto en cada uno de esos mercados para tres medios diferentes: TV,
radio y periódico.
Para que la recta estimada proporcione un buen ajuste de los datos, las diferencias entre
los valores observados y predichos para cada y_i (residuos o errores) deben ser pequeñas.
2 2 2
Se define la suma de los residuos al cuadrado como: SCE=e 1+ e2 +…+ e n
∑ ❑( xi −x )( yi − y )
^β = i=1 β^ 0= y−x β^ 1
1 n
∑ ❑( x i−x )
2
i =1
Overfiting: El modelo se entrenó demasiado sobre la base de datos de training, por lo tanto,
cuando lo pruebe en la base de testing no va a funcionar muy bien.
Para evitar problemas como el overfitting una buena práctica es separar la muestra:
● Datos de entrenamiento (train): los usados para “aprender” (estimar).
● Datos de evaluación (test): usados para evaluar las predicciones.
● Existen diversas formas para separar la muestra.
[ ]
σ2 2 1 x2
SE ( ^β 1) =
2
SE ( ^β 0 ) =σ 2 +
n
n n
2
∑ ❑ ( xi −x )
2
i=1
∑ ❑ ( xi −x )
i=1
Donde σ 2=Var (ϵ ).
Los errores estándar pueden utilizarse para calcular intervalos de confianza. Un intervalo de
confianza al 95% se define como el rango de valores dentro de los cuales, con un 95% de
probabilidad, se encuentra el verdadero valor del parámetro. Tienen la forma:
^β 1 ± 1.96 SE ( ^β 1)
Test de Hipótesis:
Los errores estándar se pueden utilizar para plantear pruebas de hipótesis sobre los
coeficientes.
La prueba de hipótesis más común es:
H 0 : No hay relación entre X y Y
H 0 : Hay relación entre X y Y
Dado que si β 1=0 , el modelo se reduce a Y = β0 + ϵ y por lo tanto X no está asociada con Y
.
Para testear la hipótesis se calcula el estadístico t:
^β −0
1
t=
SE ( ^β1 )
Asumiendo que β 1=0 , el estadístico tiene una distribución t con n-2 grados de libertad.
Luego de calcular el estadístico, es posible obtener el p-valor y dada una regla de decisión
concluir si se rechaza o no la hipótesis nula.
Bondad de ajuste del modelo:
Error cuadrático medio Sirve para saber que tan alejados están los puntos de la recta. Para evitar
que los errores negativos se compensen con los positivos
n
1 1
ECM = SCE = ∑ ❑ ( y i−^
y i )2
n n i=1
√ √
n
1 1
n−2 ∑
2
RSE= SCE= ❑ ( y i− ^
yi )
n−2 i=1
i=1
2
r =1 ↔ SCE=0, ocurre cuando los datos muestrales están perfectamente
alineados sobre la recta de regresión estimada.
Se asume el modelo:
Y = β0 + β 1 X 1 + β 2 X 2 + β 3 X 3 +…+ ϵ
Donde β_j se interpreta como el efecto promedio en Y de una unidad adicional de X_j
manteniendo todos los otros predictores constantes.
Y = β0 + β 1 TV + β2 radio+ β 3 newspaper + …+ ϵ
Interpretación coeficientes:
El escenario ideal es cuando los predictores no están correlacionados entre sí.
Diseño ideal:
● Cada coeficiente puede ser estimado y testeado por separado
● Interpretaciones del tipo “una unidad adicional de X j es asociada con un
cambio de β j en Y, manteniendo todo lo demás constante”, son posibles.
i=1 i=1
(STC −SCE)/ p
F= F
SCE/( n− p−1) p ,n− p−1
Cuando no hay una relación entre la respuesta y los predictores, uno esperaría que el
estadístico F tome un valor cercano a 1. Por otro lado, si Ha es verdadero, esperamos que
F sea mayor que 1
Si concluimos que al menos uno de los predictores está relacionado con la respuesta,
entonces la siguiente pregunta que surge es cuáles son.
Una opción es mirar en los p-values individuales de cada variable, pero esto puede tener
problemas cuando la cantidad de predictores p es muy grande.
La tarea de determinar qué predictores están asociados con la respuesta para ajustar un
solo modelo que involucra solo estos predictores, se conoce como selección de variables.
Idealmente, nos gustaría realizar una selección de variables probando muchos modelos
diferentes, cada uno con un subconjunto diferente de predictores.
Selección de variables:
Tres aproximaciones:
Forward selection:
Se comienza con un modelo con una constante, se estiman p regresiones simples y
se agrega al modelo inicial la variable que resulta del modelo con menor RSS. Luego se
estiman los modelos con 2 variables (dejando la que ya se incorporó) y se agrega la
variable del modelo con menor RSS. Este proceso continúa hasta que se cumpla cierta
regla de finalización.
Backward selection:
Se comienza con todas las variables en el modelo y se elimina la variable con mayor
p-value (la que es menos significativa). Luego se estima el modelo con (p-1) variables y se
vuelve a eliminar la variable con mayor p-value. Esto continúa hasta que se alcanza una
regla de detención. Por ejemplo, podemos detenernos cuando todas las variables restantes
tienen un valor p por debajo de algún umbral.
Mixed selection:
Se comienza con un modelo sin variables. Se agrega la variable que ajusta mejor.
Continuamos agregando variables una por una. Si en algún momento el p-value para
alguna de las variables en el modelo se eleva por encima de un cierto umbral, entonces
eliminamos esa variable. Continuamos realizando estos pasos hacia adelante y hacia atrás
hasta que todas las variables en el modelo tengan un p-value suficientemente bajo, y todas
las variables fuera del modelo tendrían un valor p grande si se agregan al modelo.
Puede plantear problemas en el contexto de regresión, ya que puede ser difícil separar los
efectos individuales de las variables colineales en la respuesta.
Reduce la precisión de las estimaciones de los coeficientes ya que hace que crezca el error
estándar para ^β j . El estadístico t para cada predictor se calcula dividiendo ^β 2 por su error
estándar. En consecuencia, la colinealidad produce una disminución en el estadístico t.
Como resultado, en presencia de colinealidad, es posible que no podamos rechazar H 0 :
β j =0. Esto significa que el poder de la prueba de hipótesis (la probabilidad de detectar
correctamente un coeficiente distinto de cero) se reduce.
Predictores cualitativos:
Algunos predictores no son cuantitativos, sino que son variables cualitativas o categóricas.
Si la variable puede tomar únicamente 2 categorías se denomina variable dicotómica o
dummy.
Ejemplo:
Se investiga la diferencia en el balance de la tarjeta de crédito entre hombres y
mujeres. Para ello se crea una variable dummy que toma valor 1 si la persona es
mujer o 0 si es hombre.
Y = β0 + β 1 X 1 + β 2 X 2 + β 3 X 3 +…+ X mujer + ϵ
Términos No Lineales en un Modelo: ajustar una Curva a los datos:
● Correlación no es Causalidad.
● Cuidado al extrapolar: los Modelos Lineales deben aplicarse dentro del rango de
los datos analizados.
● Principio de parsimonia: modelos sencillos pueden explicar relativamente bien
la realidad.
● La evidencia demuestra que los Expertos NUNCA predicen mejor que los modelos.
3 - Dataset desbalanceados
Cuando hablamos de desbalance de daros nos referimos a una categoría que hay que
predecir que es mas pequeña que el resto.
Todos los algoritmos en diferentes formas estiman sus parámetros minimizando una función
de pérdida.
Por ejemplo, la regresión lineal minimiza la Suma del Cuadrado de los Errores.
Si tenemos una clase mayoritaria, los algoritmos priorizarán clasificar esos casos
correctamente para minimizar la pérdida total, sesgando los resultados en dirección
contraria a la clase minoritaria que queremos detectar.
Adicionalmente, algunas medidas de error de los modelos, como, por ejemplo, una tabla de
Confusión, presentarán métricas no útiles.
4 - Regresión logística:
Problema de ejemplo:
Suponga que usted trabaja en el Área de Riesgos de un Banco que otorga tarjetas de crédito a sus
clientes.
Su tarea es predecir la probabilidad de que los clientes no paguen su tarjeta, a esto le llamamos que
el cliente entre en “default”.
Para ello cuanta con una base de datos con información sobre sus clientes:
Balance: El saldo promedio que el cliente tiene restante en su tarjeta de crédito después de hacer su
pago mensual.
Student: Si el cliente es estudiante. (“Yes”, “No”)
Income: Ingreso del cliente.
Default: Si el cliente no pagó su tarjeta. (“Yes”, “No”)
Nuestra variable dependiente Y es “default”, que si la definimos como una dummy, toma los
siguientes valores:
1 – Si el cliente está en default. “Yes”
0 – Si el cliente no está en default “No”
Lo cual no puede ocurrir ya que estamos prediciendo una probabilidad que sabemos debe
encontrarse entre 0 y 1
● Especificar el modelo
● Dividir la base: test/train
● Estimar el modelo
● Verificar significancia parámetros
● Interpretar los resultados
● Verificar la capacidad explicativa del modelo
Interpretación coeficientes:
• En el modelo de regresión lineal, β 1se interpreta como el cambio promedio en Y asociado
con un aumento de una unidad en X 1 dejando todo lo demás constante.
• En el modelo de regresión logística, los efectos de las variables explicativas sobre la
variable dependiente no son lineales.
• Dado que β 1 X 1está en el exponente del numerador y en el denominador, no es claro cuál
es el efecto sobre la probabilidad de Y de ante un cambio X 1 manteniendo todo lo demás
constante.
• Dado que la relación entre p(X) y X 1 en no es una línea recta, β 1 no corresponde al
cambio en p(X) asociado con una unidad aumento en X 1 . La cantidad que p(X) cambia
debido a un cambio de una unidad en X 1 dependerá del valor actual de X 1 . Pero
independientemente del valor de X 1 , si β 1 es positivo, el aumento de X 1 se asociará con un
aumento de p(X), y si β 1 es negativo, entonces aumentar X 1 se asociará con disminución
p(X).
Lo importante es el signo del coeficiente, para ver el sentido de la relación. La interpretación
de las magnitudes es compleja.
Estimación:
Si p valor menor que 0.05, rechazo Ho, rechazo β1=0 y por ende los coeficientes son
significativos considerados individualmente.
Predicciones:
Luego de estimados los parámetros es relevante predecir el default de un individuo con un
balance de 1500, un Income de 40000 y que sea estudiante:
^ ^ X +^ ^
e β +β
0 1 1 β 2 X2 + β p X p
^p ( X )= β^0+ ^
β 1 X1 + ^
β 2 X 2+ ^
βpX p
1+e
e−10,65+0,00567∗1500−0,0000139∗40000−0,728∗1
¿
1+ e−10,65+0,00567∗1500−0,0000139∗40000−0,728∗1
¿ 0,031
Predicción en R:
Evaluación Modelo Logit:
Para ver qué tan bien funciona la clasificación, primero calculamos la matriz de confusión.
Esta resume los valores predichos versus los verdaderos valores de la variable
dependiente.
Dicho de otra forma, la sensitividad es la probabilidad de predecir un “éxito” entre los
“éxitos”:
• Pr ( ^
yi=1∨ yi=1)
• Pr ( ^
yi=0∨ yi=0)
• Es claro que una mejor bondad de ajuste se obtiene con una alta sensitividad y
especificidad.
Curva ROC:
Una forma de resumir la bondad del ajuste del modelo es la curva ROC (Relative Reciever
Operating Characteristic).
La curva ROC es una representación gráfica de la sensibilidad frente a (1 − especificidad) para un
sistema clasificador binario según varía el umbral de clasificación.
• Una forma de resumir la curva ROC es calcular el área bajo la curva (AUC)
• Cuando el modelo predice correctamente la totalidad de los casos, el área por debajo de la
curva es igual a 1. En otras palabras, esto significa que el porcentaje de morosos (utilizando
el ejemplo de default) bien clasificados es 100% y el porcentaje de no morosos mal
clasificados es 0%.
• Un área de 0,5, es igual al resultado de un modelo que clasifica aleatoriamente los casos.
Árboles
Los árboles de decisión se pueden aplicar tanto a la regresión como a los problemas de clasificación.
Estas herramientas implican segmentar el espacio predictivo en una serie de regiones simples.
Para hacer una predicción para una determinada observación, generalmente se utiliza la media o la
moda de las observaciones de entrenamiento de la región a la que pertenece.
Árbol de regresión
Los arboles de regresión son utilizados para predecir una respuesta cuantitativa.
La respuesta predicha para una observación esta dada por la media de las respuestas de las
observaciones de entrenamiento que pertenecen al mismo nodo terminal.
Ejemplo Basket
Objetivo: predecir el salario de un jugador de béisbol basado en Años (la cantidad de años que ha
jugado en las ligas mayores) y Hits (la cantidad de Hits que realizó el año anterior).
Interpretación:
Los años son el factor más importante para determinar el salario y los jugadores con menos
experiencia ganan salarios más bajos que los jugadores más experimentados.
Dado que un jugador tiene menos experiencia, la cantidad de Hits que hizo el año anterior parece
jugar un pequeño papel en su salario.
Pero entre jugadores que han estado en las ligas mayores durante 5 años o más, el número de Hits
en el año anterior afecta el salario, y los jugadores que hicieron más, tienden a tener salarios más
altos.