Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESTADÍSTICA DESCRIPTIVA
CONCEPTOS BÁ SICOS
La estadística es la ciencia de los datos. La estadística descriptiva, el cálculo de probabilidades y la inferencia
estadística constituyen las partes fundamentales de la ciencia estadística. Se comenzará con el estudio de la
estadística descriptiva, que comprende el conjunto de técnicas numéricas y grá ficas con las que se pretende
descubrir la estructura de un conjunto de datos.
Los gobiernos acumulan y analizan una cantidad sorprendente de datos estadísticos. La palabra misma
procede del latín statisticus, que significa «del Estado».
El estudio de la estadística se divide en dos á reas principales. La estadística descriptiva tiene que ver con la
recolecció n, organizació n, resumen y presentació n de los datos (informació n). La estadística inferencial tiene
que ver con la obtenció n de inferencias o conclusiones (por medio de conjeturas) acerca de las poblaciones, con
base en la informació n de las muestras.
Resumiendo, si sabemos có mo es una població n, la teoría de probabilidad nos ayuda a predecir lo que
probablemente sucede en una muestra (razonamiento deductivo). Si sabemos có mo es una muestra, entonces la
estadística inferencial nos permite inferir estimaciones acerca de la població n (razonamiento inductivo).
CLASIFICACIÓ N DE VARIABLES
La informació n que se ha reunido, pero que aú n no está organizada o procesada se conoce como datos en
bruto. A continuació n se realiza una clasificació n de las variables estadísticas atendiendo a tres criterios
diferentes: tipo de datos, tipo de escala y referencia temporal.
Dos variables, X e Y, son estadísticamente independientes cuando la variació n de una de ellas no influye sobre la
variació n de la otra. La condició n de independencia estadística entre X e Y se define como:
ni n j donde:
nij i, j nij frecuencia absoluta conjunta de la pareja xi , yi
N
ni frecuencia marginal del valor xi
n j frecuencia marginal del valor y j
A continuació n se presentan dos medidas que proporcionan informació n sobre la relació n lineal entre las
variables X e Y: la covarianza y el coeficiente de correlació n lineal.
COVARIANZA
La covarianza proporciona una medida sobre el grado de relació n lineal existente entre las variables X e Y.
Probabilidad y estadística – 2do parcial Medidas de correlació n
k h
Se puede expresar como: 1
S XY
N
xi y j nij x y
i 1 j 1
S
La magnitud de XY (si es grande o pequeñ a) no proporciona informació n, pero su signo nos permite realizar la
siguiente interpretació n:
Si
S XY 0 , no existe relació n lineal entre las variables
S 0 , existe relació n lineal positiva entre las variables, esto es, las variables se mueven en el
Si XY
mismo sentido
Si XY
S 0
, existe relació n lineal negativa entre las variables, esto es, las variables se mueven en el
mismo sentido
A tener en cuenta…
Si a partir de las variables X e Y se definen las variables X e Y del siguiente modo:
X a1 b1 X donde:
a1 , a2 , b1 , b2 representan los cambios de origen y de escala, respectivamente
Y a2 b2Y
Entonces S XY b1 b2 S XY
donde:
SY la desviación típica de Y
El coeficiente de correlació n lineal entre las variables X e Y está acotado entre -1 y 1, y su interpretació n es la
siguiente:
Si
rXY 0 , no existe relació n lineal entre las variables
r 1 , existe relació n lineal perfecta positiva entre las variables
Si XY
r 1 , existe relació n lineal perfecta negativa entre las variables
Si XY
Si
0 rXY 1 , existe relació n lineal positiva entre las variables
Si
1 rXY 0 , existe relació n lineal negativa entre las variables
A tener en cuenta…
Es importante considerar los siguientes aspectos relativos al coeficiente de correlació n lineal:
1. Es una medida adimensional (no tiene unidades de medida)
2. Si a partir de las variables X e Y se definen las variables X e Y del modo:
X a1 b1 X donde:
Probabilidad y estadística – 2do parcial Medidas de correlació n
3. La forma de la nube de puntos permite detectar la existencia de la relació n lineal entre las variables X
e Y , al mismo tiempo de conocer el signo de la covarianza y el del coeficiente de correlació n lineal:
Los grá ficos a) y b) ponen de manifiesto la existencia de una relació n lineal positiva y negativa entre las
variables X e Y , respectivamente. El signo de la covarianza y el del coeficiente de correlació n lineal
será positivo en el primer caso y negativo en el segundo. Por el contrario, en la nube de puntos de los
grá ficos c) y d) no se observa ningú n tipo de relació n lineal.
4. Si dos variables son independientes, el coeficiente de correlació n lineal es siempre cero.
Es muy comú n inferir de una relació n de correlació n, una relació n de causalidad. Veamos, a través de ejemplos,
lo que significa un coeficiente de correlació n lineal, que no necesariamente implica que una variable es “causa”
de la otra.
Hay una correlació n lineal alta positiva entre el nú meros de horas de sueñ o y el tiempo que vive una
persona, por lo tanto, las personas que duermen solamente 5 o 6 horas por noche, viven má s tiempo
que las personas que duermen má s. ¿Esto significa que tiene que dormir menos para vivir má s?, ¿no
será que un tercer elemento, el modo de vida de la persona, explica esta correlació n? En efecto, las
personas activas duermen menos y viven má s tiempo. Podría ser que el modo de vida de la persona es
causa del tiempo de sueñ o y del tiempo de vida.
¿Han aumentado los ingresos de los habitantes de Zedlandia en las ú ltimas décadas o han disminuido?
La media de ingresos monetarios por hogar ha descendido: en 1970 ascendía a 34,200 zeds, en 1980 era
de 30,500 zeds y en 1990 de 31,200 zeds. No obstante, los ingresos por persona aumentaron: en 1970
ascendieron a 13,500 zeds, en 1980 fueron de 13,850 zeds y en 1990 de 15.777 zeds. Un hogar está
formado por todas las personas que viven juntas en una misma vivienda. Explica có mo es posible que en
Zedlandia desciendan los ingresos por hogar a la vez que aumentan los ingresos por persona.
El polígrafo es conocido como detector de mentiras. Tiene una correlació n del orden del 88% en la
detecció n de mentiras. En realidad, lo que detecta el polígrafo son alteraciones fisioló gicas generadas
por la activació n emocional del individuo cuando hay una divergencia entre lo que dice y lo que siente.
Hay una gran correlació n entre detectar mentiras y la casualidad de detectar alteraciones en el cuerpo
humano; pero, aunque el porcentaje de aciertos es muy elevado, carece de rigor científico.
Se encontró una correlació n positiva entre el consumo de helado y los ahogos en el mar. No será que en
verano uno se bañ a en el mar y se consume má s helados que en invierno.
La mayoría de los accidentes automovilísticos ocurre con vehículos en velocidad moderada y hay muy
pocos accidentes con vehículos que transitan a alta velocidad, ¿esto indicaría un coeficiente de
correlació n lineal entre la velocidad del vehículo y el nú mero de accidentes negativo?, ¿esto significa
que es má s seguro andar a alta velocidad? Aquí se debe considerar la tasa de accidente para cada nivel
de velocidad. Se encontraría lo que uno espera: a mayor velocidad, mayor probabilidad de tener un
accidente. En este caso es bastante razonable hablar de causalidad: la alta velocidad es posiblemente
una causa de accidente. Pero, seguramente hay otras causas.
En resumen, dos fenó menos correlacionados, no implica que uno es la causa del otro. Las causas requieren má s
informació n que un coeficiente de correlació n; se busca con un trabajo científico má s profundo.
Probabilidad y estadística – 2do parcial Medidas de correlació n
TEORÍA DE REGRESIÓ N
Conceptos bá sicos de regresió n
En algunos casos, dos variables está n relacionadas de una forma determinista, es decir, dado un valor de una
variable, el valor de la otra variable se determina automá ticamente sin error. Por ejemplo, el costo total y de un
artículo con un precio de lista x y un impuesto de venta del 5% se calcula utilizando la ecuació n determinista
Y 1.05 X . Si un artículo tiene un precio de $50, su costo total será de $52.50. Este tipo de funciones se
estudian ampliamente en los cursos de á lgebra. En este texto estamos má s interesados en los modelos
probabilísticos, en los que una variable no está determinada por completo por la otra variable. Por ejemplo, la
estatura de un niñ o no está completamente determinada por la estatura del padre (o de la madre). Sir Francis
Galton (1822-1911) estudió el fenó meno de la herencia y demostró que cuando parejas altas o bajas tienen
hijos, las estaturas de éstos tienden a regresar o a revertirse a la estatura media má s comú n de las personas del
mismo género. Continuaremos utilizando la terminología de «regresió n» de Galton, aun cuando nuestros datos
no incluyen el mismo fenó meno de estatura estudiado por Galton.
determinació n de las constantes, está en los errores de mediciones. Lo que lleva a tomar muchas má s
mediciones que el nú mero de constantes a estimar.
En otros problemas las relaciones no son conocidas y hay que determinar completamente el modelo. En
ciencias sociales o en economía, por ejemplo, los modelos no son deterministas y contienen una componente
aleatoria, lo que dificulta la bú squeda de las relaciones. En este caso se quiere descubrir como un conjunto de
variables influye sobre otra variable. Segú n el contexto, las variables se llaman de diferentes maneras.
Consideramos solamente el modelo con dos variables, con el cual se quiere determinar los valores de la variable
Y , a partir de los valores de la variable X:
Y aX b
Este modelo se llama «modelo de regresió n simple». La idea central de este modelo es que la respuesta
media de la variable Y cambia con los valores de X y esto de manera proporcional al valor de X.
Segú n el contexto de los datos, se designa las variables de diferentes maneras. La variable Y se llama variable
a explicar, variable respuesta, variable endó gena o variable dependiente y X se llama variable explicativa,
variable exó gena o variable independiente. Se dice que el modelo es de regresió n “simple” cuando tiene una
sola variable explicativa.
Los coeficientes a y b del modelo son desconocidos y se obtienen (estiman) a partir de los datos empíricos.
Por una razó n histó rica, este modelo se llama regresión lineal. Los mayores descubrimientos de Sir Francis
Galton fueron sus formulaciones sobre la regresió n. En particular, realizó un estudio que mostró que la estatura
de los hijos nacidos de padres altos tiende a retroceder o ”regresar” hacia la estatura promedio de la població n,
a pesar de mostrar una tendencia lineal para las alturas medianas. Por lo que utilizó , entonces, la palabra
«regresió n lineal» para referirse a un modelo del tipo Y = aX + b, donde Y es una variable a explicar y X una
variable explicativa. La ecuació n de regresió n expresa una relació n entre x (llamada variable explicativa,
variable de predicción o variable independiente) y ŷ (llamada variable de respuesta o variable
dependiente).
de la ecuació n
Ci a b Ri error.
Regresió n lineal
La regresió n lineal tiene por objeto determinar la estructura de dependencia lineal que mejor recoja la
relació n entre las variables X e Y. En particular podemos estudiar:
Recta de regresió n de Y sobre X: Funció n que explica la variable Y a partir de la variable X. y a bx
Recta de regresió n de X sobre Y: Funció n que explica la variable X a partir de la variable Y. x a b y
el modelo
yˆi de la variable Y . La diferencia entre ambos es
e
el error cometido al realizar el ajuste i , también llamado
residuo.
S XY
b
Tenemos las expresiones de a y de b: a y bx
S x2
De la sustitució n de estos valores en la recta, y ax b , obtenemos la recta de regresió n de Y sobre X:
S XY
y y (x x )
S x2
S XY
b
donde el término
S x2 se denomina coeficiente de regresió n de la recta de Y sobre X.
La diferencia entre la variable explicada y la variable ajustada por el modelo es el error o residuo:
e Y Yˆ Y a bX
e yi yˆi yi a bxi i 1, 2,..., N .
cuyos valores son
La varianza del error e se denomina varianza residual, la cual se expresa como:
N N
ei2 y yˆ
2
i i
Se2 i 1
i 1
N N
Propiedades del ajuste
1. La media de los residuos es cero: e 0
2. La media de los valores ajustados coincide con la media de los valores observados: ŷ y
3. La covarianza entre la variable dependiente y el error es cero:
SYe 0
S 0
4. La covarianza entre la variable ajustada y el error es cero: Yeˆ
5. La varianza de la variable dependiente se puede descomponer en la suma de la varianza del error má s la
SY2 Se2 SY2ˆ
varianza de la variable ajustada, de manera que
al cuadrado:
SY S X S X SY
R2
Si XY está cercano a uno, la recta de regresió n lineal se ajusta de manera satisfactoria a la nube de
puntos, de forma que cuanto mayor es el coeficiente, mejor es el ajuste.
2
Si
RXY está cercano a cero, la recta de regresió n no se ajusta de manera adecuada a la nube de puntos.
Ajustes no lineales
En ocasiones, el modelo de regresió n lineal no es vá lido para describir el comportamiento de la nube de
puntos y tendremos que recurrir a modelos no lineales. Para ajustar estos modelos es necesario aplicar una
transformació n que los convierta en lineales en los pará metros. A continuació n se muestran algunos ejemplos
de estos modelos no lineales con las correspondientes transformaciones que los convierten en lineales:
Modelo no lineal Transformación
Modelo lineal
y b0 bi x
y aebx y log y; x x b0 log a; b1 b
y ax b
y log y; x log x b0 log a; b1 b
1 1
y y ; x x b0 a; b1 b
a bx y