Está en la página 1de 6

Representación estadística y análisis de datos con dos variables numéricas

conjuntas.
Vimos yoa cómo hacer el análisis estadístico para cuando tenemos una sola
variable. Más allá de ello, podemos tener observaciones de las cuales hayamos
levantado 2, 3 o más variables. En el caso de Godzilla por ejemplo, tomamos tres
variables de tipo numérico, altura, peso y longitud, aunque haya dos versiones
para las cuales nos faltó justamente la longitud.
Trabajaremos particularmente con dos variables de tipo numérico tomadas de
nuestra muestra de Godzilla. Trabajaremos específicamente con la altura y con el
peso. Empezaremos por tratar de representar de manera conjunta estas dos
variables. Para ello, lo que vamos a hacer es de cada versión de Godzilla,
tomaremos las parejas de observaciones altura y peso y las graficaremos en el
plano cartesiano como puntos, dado que tenemos pares ordenados.
El gráfico que obtengamos se llama diagrama de dispersión. Y en él tendremos
representadas las 18 versiones de Godzilla de manera simultánea en término de
su altura y de su peso.
Ahora, cuando trabajamos con dos variables simultáneamente, podríamos pensar
que tal vez exista una relación entre ambas variables. Por ejemplo, podemos
pensar que para mayor altura vamos a tener mayor peso en cada una de las
versiones de Godzilla. El que dos variables puedan estar relacionadas es una idea
que podemos sostener o descartar a través del diagrama de dispersión. Para ello,
lo que trataremos de hacer primeramente por observación es ver si el conjunto de
puntos que tenemos en el diagrama de dispersión se asemeja a alguna función
conocida. Podríamos pensar en primera instancia hacia una línea recta you que es
una función bastante simple de analizar. En principio, podemos tomar nuestro
diagrama de dispersión y proponer una serie de rectas a las cuales nuestra
distribución de puntos pudiera asemejarse. La cuestión aquí es que podemos
proponer una infinidad de líneas. Algunos de estos modelos podrían representar
de buena manera el comportamiento de las dos variables y algunos no tantos. La
cuestión será cuál de todos los posibles modelos es el mejor posible.
Sin importar qué recta tracemos, claramente tendremos puntos que queden fuera
de dicha recta, que tengan alguna distancia desde el punto a la recta, entonces, si
sumamos todas las distancias que guardan los puntos con respecto a la recta que
pretende modelar el comportamiento de las dos variables, y encontramos una
recta para la cual la suma de todas estas distancia sea la menor suma posible,
entonces esa recta será el mejor modelo que podramos proponer para el
comportamiento de nuestras dos variables tomadas de manera conjunta. Si
medimos la distancia de los puntos a la recta que proponemos como modelo a la
manera que sabemos hacerlo desde los cursos de geometría, es decir, trazando la
distancia desde el punto de manera perpendicular a la recta, estaremos midiendo
esas distancias en términos de dos variables.
Para facilitar el problema, lo que haremos es medir las distancias de manera
vertical, es decir qué distancia guarda cada punto con respecto a la recta en
término solamente de la ordenada que en este caso es el peso de Godzilla. De
esta manera lo que estaremos calculando es el tamaño del error que guarda cada
peso observado con respecto a la recta propuesta como modelo de ajuste.
Sabemos desde que calculamos la desviación estándar en la unidad anterior, que
al hacer esto podríamos tener errores tanto positivos como negativos ya que hay
puntos por debajo y por encima de la recta. Y sabemos también que una manera
de evitar tener signos negativos es elevar estos errores al cuadrado, eliminando
así la posibilidad de que su suma sea cero.
De este modo, podemos proponer una serie de rectas calcular los errores al
cuadrado de los puntos con respecto a la recta tomados de manera vertical, y
después buscar cuál es el más pequeño de ellos o cuál es la suma de los errores
al cuadrado más pequeña. El problema es que, al poder proponer una cantidad
infinita de rectas, este proceso no parece ser del todo operativo. Afortunadamente
hay una vía que tiene sus fundamentos en el cálculo diferencial y que no
abordaremos aquí que nos permite resolver el problema. En este curso veremos
únicamente la parte operativa.

Construcción de la recta de ajuste.


Estamos buscando la recta que mejor se ajuste a nuestras observaciones.
Sabemos que algebraicamente, podemos escribir una recta de la forma "Y=a+bx",
en donde "a" es la ordenada al origen y "b" es la pendiente de la recta. En nuestro
ejemplo "x" y "y" vienen a ser las alturas y los pesos de Godzilla. De este modo, si
nosotros queremos obtener una recta en la que se relacionen los pesos y las
alturas de Godzilla basta con que encontremos los valores de "a" y "b", y esta
recta quedará definida de manera única. Una vía sencilla es el sistema de
ecuaciones que aquí se presenta y que analizaremos a continuación. El sistema
está conformado, entre otras cosas, por elementos que podemos obtener a partir
de los datos que ya tenemos en nuestras observaciones. Ya hemos dicho que en
este caso "x" corresponde a las alturas de Godzilla y "y" a los pesos. Podemos
observar que nos piden la suma de estas variables, la suma del producto de estas
dos variables y la suma de la variable "x" elevada al cuadrado. Podríamos obtener
estos resultados a partir de construir una tabla como la que aquí se muestra. Si
bien el sistema no nos pide la suma de los cuadrados de los pesos, es decir, la
suma de los cuadrados de la variable "y", la calcularemos también, ya que más
adelante nos va a ser de utilidad. Otros elementos involucrados son "n", que es el
tamaño de nuestra muestra y en este caso de valor 18, y los valores "a" y "b" que
son justamente aquellos que estamos buscando para la construcción de la recta
de mejor ajuste. Las sumas de cada una de las columnas son: para los valores "x",
1534.5; para los valores "y", 712.500; para el producto de "x" por Y 84.222.000,
para los cuadrados de"y", 197880.25 y para los cuadrados de "y", 40.964.250.000.
Con esto, nuestro sistema de ecuaciones es como aquí se muestra. Este sistema
puede ser resuelto por cualquiera de los métodos que ya conoces, aunque la
sugerencia es evitar hacerlo por el método gráfico, dado que no es muy preciso.
También puede usarse una calculadora o algún programa computacional
estadístico. Siguiendo cualquiera de estos procesos tenemos que "a" es igual a
9.734 y "b" es igual a 350. Por lo tanto, la forma algebraica de la recta que mejor
modela las variables altura y peso tomadas en conjunto, es "y= 9.734+350x". La
ventaja de esta representación es que nos permite hacer predicciones, es decir,
podríamos tratar de predecir el peso de una versión de Godzilla a partir de
conocer su altura. Por ejemplo, podríamos tener la pregunta de ¿qué peso se
esperaría observar en una versión de Godzilla en la que la altura fuera 75 metros?
Para resolverlo basta con sustituir los 75 metros en la variable "x" en nuestro
modelo algebraico, dado que la variable "x" corresponde justamente a la altura. Al
hacer esto, nuestro modelo quedaría como se muestra aquí en pantalla. Lo que
podemos concluir es que una versión de Godzilla que tuviera 75 metros de altura
estaría arrojando un peso esperado de aproximadamente 36.000 toneladas. Cabe
aclarar que hay ciertas limitaciones a las que debemos de ceñirnos al momento de
realizar predicciones, utilizando este modelo algebraico.

Coeficiente de correlación
La recta que acabamos de obtener por este método se conoce como recta de
mínimos cuadrados. ¿Qué tan bien nuestros datos pueden ajustarse a la recta de
mínimos cuadrados? O dicho de otro modo, ¿qué tan buen modelo de nuestros
datos es la recta de mínimos cuadrados?
Para responder esta pregunta, afortunadamente, se cuenta con una medida
estadística llamada Coeficiente de correlación.
El coeficiente de correlación lo simbolizaremos con la letra r minúscula, y al
calcularlos, siempre nos arrojará un valor que se encuentra entre menos 1, y 1
positivo. La información que nos da el coeficiente de correlación es la siguiente.
Mientras más cercano esté a menos 1, nuestros datos se ajustan de cada vez
mejor manera a una recta de pendiente negativa. Si nuestros datos se ajustan de
buena manera a una recta de pendiente positiva, entonces el coeficiente de
correlación lo indicará con un valor cercano a 1. En ambos casos, si tenemos un
coeficiente de correlación cercano a menos 1 o cercano a 1, la recta de ajuste por
mínimos cuadrados nos podrá permitir una buena predicción de una variable en
términos de la otra. Por otro lado, cuando nuestro coeficiente de correlación sea
cercano a cero, se nos estaría indicando que los datos no se ajustan a una recta y
consecuentemente la recta que podamos construir a partir de nuestras
observaciones no nos dará una buena predicción o no nos podrá ayudar a hacer
buenas predicciones de una variable en función de la otra. Para calcular el
coeficiente de correlación tenemos la fórmula que aquí se presenta.
La fórmula pareciera complicada, pero en realidad, solo necesitamos de n, de las
mismas sumas de nuestro sistema de ecuaciones para hallar la recta de ajuste por
mínimos cuadrados, y de la suma de los cuadrados de y, los pesos en nuestro
ejemplo. Todos estos datos se tienen you. n es igual a 18, la suma de x es 1534.5,
la suma de y es 712500, la suma de los productos x
por y es 84222000, la suma de los cuadrados de x es 197880.25, y la suma de los
cuadrados de y son 40964 millones 250000. Con esto, podemos sustituir en la
expresión para r tal y como aquí se muestra.
Al realizar los cálculos, encontraremos que el valor de r es igual a 0.802
aproximadamente.
Podemos observar que nuestro valor de r es cercano a 1. Eso quiere decir que
nuestros datos efectivamente se ajustan de buena manera a la recta de mínimos
cuadrados. Adicionalmente, nos indica que las predicciones que podamos hacer
utilizando el modelo algebraico de la recta de mínimos cuadrados, podrán ser
aceptablemente buenas dentro de algunas consideraciones y restricciones que
veremos más adelante.
Cabe decir que el coeficiente de correlación puede ser calculado por medio de
paquetes estadísticos en la computadora, o incluso, por medio de una calculadora
estadística para que el cálculo no sea tan tedioso.

Limitaciones
Se mencionó que el hacer estimaciones con la recta de mínimos cuadrados puede
tener algunas limitantes, vamos a ver cuáles son. Tenemos un total de 18
observaciones de Godzilla en términos de altura, peso y longitudes, mismas que
se muestran en la tabla. Y sabemos también que hay dos versiones para las
cuales desconocemos la longitud. Una de ellas tiene 50 metros de altura y pesa
10.000 toneladas y la otra tiene 318 metros de altura y pesa 100.000 toneladas.
Podríamos tratar de averiguar cuánto vale la longitud para cada una de estas dos
versiones a partir de que conocemos las alturas. En primera instancia, lo que
haremos es trazar el gráfico de dispersión para las 16 versiones en las cuales
tenemos altura y longitud y posteriormente, hacer el análisis de estas dos
variables tomadas de manera conjunta. Observando nuestro diagrama de
dispersión, podemos ver que nuestros datos parecen ajustarse a una recta.
Podemos entonces aventurarnos a calcular el valor del coeficiente de correlación
para tratar de corroborar esto. Al hacer los cálculos, sea de manera manual o
utilizando la calculadora de la computadora, encontramos que su valor es 0.9487
que es bastante cercano a uno. Consecuentemente, vale la pena encontrar la
recta de mínimos cuadrados para poder hacer la predicción de cuál será la
longitud de una versión de Godzilla con 50 metros de altura. Al obtener la recta de
ajuste lo que tenemos es la expresión algebraica, que aquí se muestra. En ella
podemos sustituir en lugar de la variable "x" los 50 metros para la altura que
tenemos justamente para hacer la predicción y obtenemos que la longitud de una
versión de Godzilla con 50 metros de altura sería de 102 metros. Por un lado, está
longitud parece ser congruente con las otras versiones de Godzilla con 50 metros
de altura y que arrojan longitudes de 100 metros. Adicionalmente, también parece
ser un valor congruente con la idea que tenemos en la tabla de que todas las
longitudes parecieran ser más o menos el doble de lo que es la altura.
Consecuentemente y adicionalmente con el valor del coeficiente de correlación,
nuestra predicción parece ser aceptable. Vamos ahora a hacer la estimación de la
longitud para la versión de Godzilla de 318 metros de altura. De nueva cuenta
podemos sustituir en nuestro modelo algebraico, que calculamos previamente, y
nos encontramos con que, en este caso, la longitud de Godzilla sería ligeramente
superior a 809 metros. Podemos observar aquí que, en este caso, la longitud es
más o menos el triple de lo que es la altura de la versión de Godzilla, lo cual nos
hace desconfiar del resultado, muy a pesar de lo que tenemos como valor de "r" y
muy a pesar de que, en la predicción previa, efectivamente había congruencia con
los datos observados. ¿Por qué ocurre esto? Las alturas con las que trabajamos
para construir la recta por mínimos cuadrados varían entre los 50 y los 118 metros
y medio, y en este caso nosotros estamos tratando de hacer una predicción para
un valor muy distinto a aquellos que se utilizaron, en este caso 318 metros. No
podemos garantizar que el comportamiento que se tiene para alturas entre 50 y
118 metros y medio sea el mismo cuando se trabaje con alturas de 318 metros o
más. En este caso tenemos la limitante de que, si queremos utilizar la recta de
ajuste para hacer predicciones, tengamos que utilizar valores de "x" cercanos a
aquellos que se usaron para la construcción del modelo.

Estimaciones
Hemos visto que dos variables pueden comportarse de manera conjunta como
una línea y hemos hecho el análisis estadístico correspondiente, pero no
perdamos de vista que podrían ajustarse a cualquier otro tipo de función. Por
ejemplo, dos variables podrían comportarse de manera conjunta como una función
cuadrática, como una logarítmica o como una función exponencial. Es importante
resaltar que correlación no quiere decir ni causalidad ni dependencia. Que haya
correlación entre dos variables, únicamente significa que ambas varían más o
menos de la misma forma. No significa que la variación en una de estas variables,
provoque la variación en la otra y tampoco significa que los valores de una de
estas variables, dependan de los valores que tome la otra.
Tablas de contingencia
Hemos visto hasta aquí cómo trabajar con dos variables numéricas de manera
conjunta. ¿Qué ocurre cuando tenemos dos variables de tipo cualitativo y
queremos analizarlas en conjunto?
Vamos a revisar esto a partir del acertijo de Lewis Carroll. El acertijo dice, Lewis
Dodgson tenía 18 amigas, nueve eran rubias y nueve eran morenas; once tenían
los ojos oscuros y siete tenían los ojos azules; y seis eran rubias de ojos oscuros.
¿Cómo eran todas las amigas de Lewis Dodgson?
En el acertijo, tenemos involucradas dos variables, el color de ojos y el color de
cabello. Ambas variables se presentan además de manera simultánea en cada
una de las observaciones, siendo las observaciones las amigas de Dodgson, dado
que cada una de ellas tiene simultáneamente un determinado color de ojos y un
determinado color de cabello. Vamos a construir una representación que se
conoce como tabla de doble entrada, tabla de contingencia o tabla cruzada. En
esta tabla, colocaremos en las columnas los valores para el color del cabello, y en
los renglones los valores para el color de ojos.
Esta representación nos va a permitir analizar a las dos variables tanto por
separado como de manera conjunta. Al final de cada columna y de cada renglón,
tendremos los totales para cada color de cabello y para cada color de ojos.
Mientras que en los cruces, vamos a tener el total de observaciones para las dos
variables tomadas de manera conjunta en cada una de las posibles cuatro
combinaciones. ¿Cómo eran las amigas del señor Dodgson? Tenemos que tres de
ellas eran rubias de ojos azules, que cuatro de ellas eran morenas de ojos azules,
que cinco de ellas eran morenas de ojos oscuros, y que seis de ellas eran rubias
de ojos oscuros.

Representaciones para datos con dos variables conjuntas.


En esta tabla hemos presentado el total de observaciones para cada variable o
para cada combinación de variable, es decir, tenemos una presentación en
términos de frecuencias absolutas. Es claro que podemos calcular, también, las
frecuencias relativas, del mismo modo en que se hizo cuando se trabajó con una
sola variable. Esto nos llevaría a que podríamos tener, también, una
representación en términos de porcentajes en la tabla de doble entrada. Cabe
señalar que no importa mucho el orden en que coloquemos las columnas o los
renglones, solamente es necesario que el conteo se haga de manera correcta.

También podría gustarte