Está en la página 1de 16

Análisis de datos Bivariados

Introducción

En la unidad anterior constantemente estuvimos revisando las


características que cumplían una población o una muestra de datos y
revisamos el comportamiento de sus datos con respecto a distintas
medidas tanto de posición como de tendencia central.
Pero, ¿Qué sucedería si estuviésemos revisando 2 características
distintas de un mismo individuo? Y peor aun, ¿Como sacar
información cuando lo único que me entregan es la información de
los dos individuos?
Cuando se miden dos variables en una sola unidad experimental;
los datos resultantes se llaman datos bivariados. los métodos para
graficar datos bivariados, si las variables son cualitativas o
cuantitativas, permiten estudiar las dos variables.
Datos Bivariados
• Corresponden a la medición de dos variables en una sola unidad
de observación
• Por lo general, nos interesa establecer la relación entre las dos
variables.
• Al igual que los datos univariados, se utilizan las diferentes
herramientas gráficas, dependiendo del tipo de variables que se
están midiendo.
• Cuando trabajamos una variable sobre dos individuos
simultáneamente o dos variables sobre un mismo individuo
estamos hablando de los datos bivariados.
• Los datos bivariados se expresan a través de pares de valores, es
decir pares ordenados tipo (x,y), cuando se obtienen estos tipos
de valores nos referimos a una distribución bidimensional de la
información que estamos analizando.
Tabulación y trabajo de los datos

Los pares de valores se pueden contemplar en tablas de datos, estas


tablas de datos permiten condensar la información que se necesita para
un análisis que de origen a la relación entre ambos elementos, sean X y
Y con una variable única o sean X y Y variables con un mismo individuo
Características principales de los datos bivariados:
• A una de las variables se la llama variable independiente y se
representa por X. A la otra se la denomina variable dependiente y su
símbolo es Y. (también se usan las minúsculas: x e y).
• Los datos deben de ir siempre apareados.
• Para cada individuo se dan su X y su Y.
• Ambas variables pueden ser cuantitativas (CT) o cualitativas (CL).
Tablas Cualitativas

Cuando los datos bivariados provienen de dos variables cualitativas,


resulta conveniente organizarlos en una Tabla de Contingencia. Las
columnas de esta tabla representan a las categorías de la variable 1 y
las filas representan a las categorías de la variable 2; la frecuencia
aparecerá en las celdas centrales de la tabla
Ejemplo
Se tiene la siguiente información sobre los tipos de profesionales que
buscan las empresas mineras presentes en el país. Los resultados
fueron los siguientes:
    Empresas Mineras
Lomas
    Escondida Centinela Spence Bayas Peñon
Ingeniero Civil Minas 2 4 1 1 5
Ingeniero Civil Quimico 4 1 2 3 1
Ingeniero Civil
Metalurgico 1 3 1 2 4
Psicologo 1 2 1 1 2
Geologo 1 1 2 1 2
Tipo de Profesionales
Ingeniero Civil
industrial 2 3 1 0 1
Analista quimico 3 1 2 3 1
Ingeniero civil
ambiental 0 1 0 1 1
Ingeniero Electronico 2 1 2 2 3
Geomensor 4 2 1 3 2
Tablas de Correlación

Cuando los datos bivariados provienen de dos variables cuantitativas


resulta de interés estudiar la relación que guarda una con la otra.
La relación puede ser de muy distinta naturaleza: lineal, cuadrática,
exponencial, logarítmica, trigonométrica, etc. En estadística la
relación que nos interesa es la Relación Lineal, por lo que se llevan a
cabo Análisis de Correlación Lineal y de Regresión Lineal
El análisis de correlación, se usa para medir la fuerza de asociación
entre las variables. El objetivo medir la covarianza que existe entre
esas dos variables numéricas.
El análisis de regresión se usa con propósitos de predicción. Se
busca desarrollar un modelo estadístico útil para predecir los
valores de una variable dependiente o de respuesta basados en los
valores de al menos una variable independiente o explicativa.
Exploración de los datos
Antes de trabajar con los métodos más formales de cálculo de esta
sección, primero debemos explorar el conjunto de datos para ver qué
es posible aprender. Con frecuencia encontraremos una relación
entre dos variables al construir una gráfica que se denomina
diagrama de dispersión.
FRECUENCIAS MARGINALES Y
DISTRIBUCIÓN MARGINAL
En la tabla de las frecuencias absolutas dobles anterior, que eran los datos
insertos en la tabla de distribución, añadimos una columna a la derecha y una
fila debajo, que llamaremos “TOTAL”, en ambos casos.
• La columna del TOTAL la llamaremos distribución marginal de X. Cada valor
inserto en esta columna lo llamaremos frecuencia marginal de X .
• La fila del TOTAL llamaremos distribución marginal de Y. Cada valor inserto en
esta fila lo llamaremos frecuencia marginal de Y
¿Cómo se obtienen cada uno de estos datos?
Sumando la fila para la distribución marginal de X Sumando la columna para la
distribución marginal de Y
Ejemplo
Se tiene la siguiente información sobre los tipos de profesionales que buscan las
empresas mineras presentes en el país. Los resultados fueron los siguientes:
    Empresas Mineras
Lomas
    Escondida Centinela Spence Bayas Peñon Totales
Ingeniero Civil Minas 2 4 1 1 5 13
Ingeniero Civil Quimico 4 1 2 3 1 11
Ingeniero Civil
Metalurgico 1 3 1 2 4 11
Psicologo 1 2 1 1 2 7
Tipo de Profesionales Geologo 1 1 2 1 2 7
Ingeniero Civil industrial 2 3 1 0 1 7
Analista quimico 3 1 2 3 1 10
Ingeniero civil ambiental 0 1 0 1 1 3
Ingeniero Electronico 2 1 2 2 3 10
Geomensor 4 2 1 3 2 12
Totales 20 19 13 17 22 91
Preguntas:
1. ¿Cuánto es el total de profesionales que buscan las empresas mineras en el país?
2. ¿Cuántos Geólogos hay en la muestra total?
3. ¿ Cuantos profesionales busco la Minera Lomas Bayas?
4. ¿Cuántos Ingenieros Civil en minas busco Minera Escondida?
5. ¿Cuál es el porcentaje de Ingenieros civil industrial que busco Minera El Peñón?
6. ¿Cuál es el porcentaje de profesionales que busco minera Centinela?
Determinación de relación entre variables

• Uno de los objetivos del análisis de distribuciones bidimensionales


es estudiar si son independientes o por el contrario, existe
asociación o relación entre las variables X e Y.
• Las variables X e Y se dicen que son independientes si los valores de
una de ellas no afecta a la distribución de la otra.
• Si las variables no son independientes se dice que están
relacionadas o asociadas.
Covarianza y correlación

Puesto que el examen visual de los diagramas de dispersión es muy


subjetivo, necesitamos medidas más precisas y objetivas. El coeficiente
de correlación lineal r sirve para detectar patrones lineales.
Coeficiente de correlación lineal r: mide la fuerza de la relación lineal
entre los valores cuantitativos apareados x y y en una muestra. El
coeficiente de correlación lineal también se conoce como coeficiente
de correlación producto momento de Pearson, en honor de Karl
Pearson (1857-1936), quien lo desarrolló originalmente.
El coeficiente toma valores en el intervalo [-1, 1].
Ejercicio: Encontrar el coeficiente de correlación de Pearson para las variables
peso /Presión.
Ahora, este ejercicio lo podemos resolver utilizando la calculadora científica,
siguiendo las siguientes instrucciones:

También podría gustarte