Está en la página 1de 8

MARCO TEORICO

MARCO REFERENCIAL
Diagrama de dispersin y correlacin
Los diagramas de dispersin son una forma fenomenal de expresar datos de
dos variables, y hacer predicciones basadas en los datos. Al contrario de los
histogramas y los diagramas de caja, los de dispersin muestran valores de
datos individuales.
Este es el diagrama de dispersin que expresa la cantidad de dinero que se
gan Mateo cada semana trabajando en la tienda de su padre.

Las semanas estn diagramadas en el eje X, y la cantidad de dinero que se


gan en esa semana en el eje Y. En general, la variable independiente (la
variable que no est influenciada por nada) est en el eje X y la variable
dependiente (la que es modificada por la variable independiente) est en el
eje Y.
En este diagrama podemos ver que en la semana 2 Mateo se gan alrededor
de $125, y en la semana 18 estuvo cerca de los $165. Pero ms importante
an es la tendencia. Por ejemplo, con estos datos podemos ver que Mateo
gana cada vez ms segn pasan las semanas. Quiz su padre le da ms horas
a la semana o ms responsabilidades.

Correlacin
Con los diagramas de dispersin podemos ver cmo se relacionan ambas
variables entre s. Esto es lo que se conoce como correlacin. Hay tres tipos
de correlacin: positiva, negativa y nula (sin correlacin).

Correlacin positiva: ocurre cuando una variable aumenta y la otra


tambin. Por ejemplo, la altura de una persona y el tamao de su pie;
mientras aumenta la altura, el pie tambin.

Correlacin negativa: es cuando una variable aumenta y la otra


disminuye. El tiempo de estudio y el tiempo que pasas jugando
videojuegos, tienen una correlacin negativa, ya que cuando tu tiempo
de estudio aumenta, no te queda tanto tiempo para jugar videojuegos.

Sin correlacin: no hay una relacin aparente entre las variables. Los
puntos en tus videojuegos y tu talla de zapato no parece tener ninguna
correlacin; mientras una aumenta, la otra no tiene ningn efecto.

El diagrama de dispersin que analizamos tiene una fuerte correlacin positiva:


a medida que las semanas aumentan, su pago tambin.

Lnea de ajuste
Usamos la "lnea de ajuste" para hacer predicciones basndonos en datos
pasados. Hay muchas y muy complicadas frmulas para encontrar esta recta,
pero por ahora solo la dibujaremos a travs de los puntos en la grfica para
que se ajuste a la tendencia que nos marcan los datos. Cuando se dibuje la
recta, es necesario asegurarse de que encaje con la mayor parte de los datos.
Si hay un punto que est muy por encima o muy por debajo con respecto al
resto (los atpicos) es recomendable colocarlos fuera de la recta.

Anlisis
Regresin

de

El anlisis de regresin involucra el estudio la relacin entre dos variables


CUANTITATIVAS. En general interesa:
-

Investigar si existe una asociacin entre las dos variables testeando la


hiptesis de independencia estadstica.
Estudiar la fuerza de la asociacin, a travs de una medida de
asociacin denominada coeficiente de correlacin.
Estudiar la forma de la relacin. Usando los datos propondremos un
modelo para la relacin y a partir de ella ser posible predecir el valor de
una variable a partir de la otra.

Para ello se propone un MODELO que relaciona una variable dependiente (Y)
con una variable independiente (X).

Modelo
Llamaremos MODELO MATEMTICO a la funcin matemtica que
proponemos como forma de relacin entre la variable dependiente (Y) y la o las
variables independientes.
La funcin ms simple para la relacin entre dos variables es la FUNCIN
LINEAL
Y =a+b X
Esta expresin es una aproximacin de la verdadera relacin entre X e
Y.
Para un dado valor de X el modelo predice un cierto valor para Y.
Mientras mejor sea la prediccin, mejor es el modelo para explicar el
fenmeno.

Un MODELO ESTADSTICO permite la incorporacin de un COMPONENTE


ALEATORIO en la relacin. En consecuencia, las predicciones obtenidas a
travs de modelos estadsticos tendrn asociado un error de prediccin.
Ejemplo: Relacin de la altura con la edad en nios.
Nios de la misma edad seguramente no tendrn la misma altura. Sin
embargo, a travs de un modelo estadstico es posible concluir que la altura
aumenta con la edad. Es ms, podramos predecir la altura de un nio de cierta
edad y asociarle un ERROR DE PREDICCIN que tiene en cuenta: ERRORES
DE MEDICIN y VARIABILIDAD ENTRE INDIVIDUOS.
En problemas biolgicos, trabajando en condiciones ideales es posible evitar
los errores de medicin, pero no la variabilidad individual, por eso es
indispensable incluir el componente aleatorio en los modelos estadsticos.
Los estadsticos han desarrollado dos ecuaciones que podemos utilizar para
encontrar la pendiente y la ordenada Y de la recta de regresin de mejor ajuste.
La primera frmula calcula la pendiente:

Donde:
b=
X =
-

pendiente de la lnea de estimacin de mejor ajuste


valores de la variable independiente

Y =

valores de la variable dependiente

X =

media de los valores de la variable independiente

Y =

media de los valores de la variable dependiente

n=

nmero de puntos (es decir, el nmero de pares de valores de


las variables independiente y dependiente)

La segunda frmula calcula la ordenada Y de la recta.

Donde:
a=
b=
-

ordenada Y
pendiente de la ecuacin (hallada anteriormente)

X =

media de los valores de la variable independiente

Y =

media de los valores de la variable dependiente

El coeficiente de determinacin
El coeficiente de determinacin es la principal forma en que podemos medir el
grado, o fuerza, de la asociacin que existe entre dos variables, X e Y. Debido a
que usamos una muestra de puntos para desarrollar rectas de regresin, nos
referimos a esta medida como el coeficiente de determinacin muestral.
El coeficiente de determinacin muestral se deriva de la relacin entre dos tipos
de variacin: la variacin de los valores Y en un conjunto de datos alrededor de
1. la recta de regresin ajustada;
2. su propia media.

Donde:
2

r =

coeficiente de determinacin de la muestra

a=

ordenada Y

b=

pendiente de la lnea de estimacin de mejor ajuste

n=

nmero de puntos de datos

X =

valores de la variable independiente

Y =

valores de la variable dependiente

Y =

media de los valores de la variable dependiente

El coeficiente de correlacin lineal


Mide el grado de intensidad de esta posible relacin entre las variables. Este
coeficiente se aplica cuando la relacin que puede existir entre las variables es
lineal (es decir, si representramos en un grfico los pares de valores de las
dos variables la nube de puntos se aproximara a una recta).
No obstante, puede que exista una relacin que no sea lineal, sino exponencial,
parablica, etc. En estos casos, el coeficiente de correlacin lineal medira mal
la intensidad de la relacin las variables, por lo que convendra utilizar otro tipo
de coeficiente ms apropiado.
Para ver, por tanto, si se puede utilizar el coeficiente de correlacin lineal, lo
mejor es representar los pares de valores en un grfico y ver qu forma
describe.
El coeficiente de correlacin lineal se calcula aplicando la siguiente frmula:

Los valores que puede tomar el coeficiente de correlacin "r" son: -1 < r < 1
Si "r" > 0, la correlacin lineal es positiva (si sube el valor de una variable sube
el de la otra). La correlacin es tanto ms fuerte cuanto ms se aproxime a 1.
Por ejemplo: altura y peso: los alumnos ms altos suelen pesar ms.
Si "r" < 0, la correlacin lineal es negativa (si sube el valor de una variable
disminuye el de la otra). La correlacin negativa es tanto ms fuerte cuanto
ms se aproxime a -1.
Por ejemplo: peso y velocidad: los alumnos ms gordos suelen correr menos.
Si "r" = 0, no existe correlacin lineal entre las variables. Aunque podra existir
otro tipo de correlacin (parablica, exponencial, etc.)
De todos modos, aunque el valor de "r" fuera prximo a 1 o -1, tampoco esto
quiere decir obligatoriamente que existe una relacin de causa-efecto entre las
dos variables, ya que este resultado podra haberse debido al puro azar.

MARCO CONCEPTUAL
1. Estimacin. Conjunto de tcnicas que permiten dar un valor aproximado
de un parmetro de una poblacin a partir de los datos proporcionados
por una muestra. Por ejemplo, una estimacin de la media de una
determinada caracterstica de una poblacin de tamao N podra ser la
media de esa misma caracterstica para una muestra de tamao n.

2. Muestra. Es un subconjunto de casos o individuos de una poblacin


estadstica. En diversas aplicaciones interesa que una muestra sea una
muestra representativa y para ello debe escogerse una tcnica de
muestreo adecuada que produzca una muestra aleatoria adecuada
(contrariamente se obtiene una muestra sesgada cuyo inters y utilidad
es ms limitado dependiendo del grado de sesgo que presente).
3. Pendiente. La pendiente de una recta en un sistema de representacin
rectangular (de un plano cartesiano), suele estar representada por la
letra m, y est definida como la diferencia en el eje Y dividido por la
diferencia en el eje X para dos puntos distintos en una recta.
4. Variable dependiente. Una variable dependiente es aquella cuyos
valores dependen de los que tomen otra variable. La variable
dependiente en una funcin se suele representar por Y. La variable
dependiente se representa en el eje de las ordenadas. Son las variables
de respuesta que se observan en el estudio, y que podran estar
influenciadas por los valores de las variables independientes.
5. Variable independiente. Una variable independiente es aquella cuyo
valor no depende de otra variable. Es aquella caracterstica o propiedad
que se supone es la causa del fenmeno estudiado. En investigacin
experimental se llama as a la variable que el investigador manipula. Las
variables independientes son las que el investigador escoge para
establecer agrupaciones en el estudio, clasificando intrnsecamente a los
casos del mismo. La variable independiente se suele representar en el
eje de abscisas.
6. Regresin. La regresin estadstica o regresin a la media es la
tendencia de una medicin extrema a presentarse ms cercana a la
media en una segunda medicin.
7. Diagrama de dispersin. Es un tipo de diagrama matemtico que utiliza
las coordenadas cartesianas para mostrar los valores de dos variables
para un conjunto de datos. Los datos se muestran como un conjunto de
puntos, cada uno con el valor de una variable que determina la posicin
en el eje horizontal (X) y el valor de la otra variable determinado por la
posicin en el eje vertical (Y).
8. Modelo estadstico. Es la forma que pueden tomar un conjunto de
datos obtenidos de muestreos de datos con comportamiento que se
supone aleatorio. Un modelo estadstico es un tipo de modelo
matemtico que usa la probabilidad, y que incluye un conjunto de
asunciones sobre la generacin de algunos datos muestrales, de tal
manera que asemejen a los datos de una poblacin mayor.
9. Correlacin. Indica la fuerza y la direccin de una relacin lineal y
proporcionalidad entre dos variables estadsticas.

10. Error estndar de la regresin. Es el valor que muestra la diferencia


entre los valores reales y los estimados de una regresin. Es utilizado
para valorar si existe una correlacin entre la regresin y los valores
medidos. Muchos autores prefieren este dato a otros como el coeficiente
de correlacin lineal, ya que el error estndar se mide en las mismas
unidades que los valores que se estudian.
11. Coeficiente de determinacin. Denominado R, es un estadstico
usado en el contexto de un modelo estadstico cuyo principal propsito
es predecir futuros resultados o probar una hiptesis. El coeficiente
determina la calidad del modelo para replicar los resultados, y la
proporcin de variacin de los resultados que puede explicarse por el
modelo.
12. Coeficiente de correlacin de Pearson. Es una medida de la relacin
lineal entre dos variables aleatorias cuantitativas. A diferencia de la
covarianza, la correlacin de Pearson es independiente de la escala de
medida de las variables. De manera menos formal, podemos definir el
coeficiente de correlacin de Pearson como un ndice que puede
utilizarse para medir el grado de relacin de dos variables siempre y
cuando ambas sean cuantitativas.
13. Pronstico. Es el proceso de estimacin en situaciones de
incertidumbre. El pronstico ha evolucionado hacia la prctica en el
pronstico diario de los negocios. Entonces, tenemos que los
pronsticos son procesos crticos y continuos que se necesitan para
obtener buenos resultados durante la planificacin de un proyecto.