Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Consiste en el anlisis de cada una de las variables estudiadas por separado, es decir, el anlisis esta basado en una sola variable. Las tcnicas ms frecuentes de anlisis univariado son la distribucin de frecuencias para una tabla univariada y el anlisis de las medidas de tendencia central de la variable. Se utiliza nicamente en aquellas variables que se midieron a nivel de intervalo o de razn (ver Therese L. Baker, 1997). La distribucin de frecuencias de la variable requiere de ver como estn distribuidas las categoras de la variable, pudiendo presentarse en funcin del nmero de casos o en trminos porcentuales.
El anlisis multivariante es un mtodo estadstico utilizado para determinar la contribucin de varios factores en un simple evento o resultado.
Los factores de estudio son los llamados factores de riesgo (bioestadstica), variables independientes o variables explicativas. El resultado estudiado es el evento, la variable dependiente o la variable respuesta.
El anlisis multivariante mediante tcnicas de proyeccin sobre variables latentes tiene muchas ventajas sobre los mtodos de regresin tradicionales:
se puede utilizar la informacin de mltiples variables de entrada, aunque stas no sean linealmente independientes puede trabajar con matrices que contengan ms variables que observaciones puede trabajar con matrices incompletas, siempre que los valores faltantes estn aleatoriamente distribuidos y no superen un 10% puesto que se basan en la extraccin secuencial de los factores, que extraen la mayor variabilidad posible de la matriz de las X (variables explicativas, tienen que ser dependientes) pueden separar la informacin del ruido. Se asume que las X se miden con ruido.
MARCO TEORICO REGRESIN.Se define como un procedimiento mediante el cual se trata de determinar si existe o no relacin de dependencia entre dos o ms variables. Es decir, conociendo los valores de una variable independiente, se trata de estimar los valores, de una o ms variables dependientes. La regresin en forma grafica, trata de lograr que una dispersin de las frecuencias sea ajustada a una lnea recta o curva. Clases de Regresin La regresin puede ser Lineal y Curvilnea o no lineal, ambos tipos de regresin pueden ser a su vez: a. Esta regresin se utiliza con mayor frecuencia en las ciencias econmicas, y sus disciplinas tecnolgicas. Cualquier funcin no lineal, es linealizada para su estudio y efectos prcticos en las ciencias econmicas, modelos no lineales y lineales multiecuacionales. Objetivo: Se utiliza la regresin lineal simple para: 1.- Determinar la relacin de dependencia que tiene una variable respecto a otra. 2.- Ajustar la distribucin de frecuencias de una lnea, es decir, determinar la forma de la lnea de regresin. 3.- Predecir un dato desconocido de una variable partiendo de los datos conocidos de otra variable. Por ejemplo: Podra ser una regresin de tipo lineal:
En una empresa de servicio de Internet busca relacionar las ganancias que obtiene cada computadora con el numero de usuarios que ingresan a dicha cabina diariamente. En la tabla representa Y (Ganancias S/.) e X (Numero de usuarios) Y 100 98 99 102 102 111 97 104 102 96 X 116 96 110 105 99 106 100 109 98 108 Coeficiente de Regresin Indica el nmero de unidades en que se modifica la variable dependiente "Y" por efecto del cambio de la variable independiente "X" o viceversa en una unidad de medida. Clases de coeficiente de Regresin: El coeficiente de regresin puede ser: Positivo, Negativo y Nulo. Es positivo cuando las variaciones de la variable independiente X son directamente proporcionales a las variaciones de la variable dependiente "Y" Es negativo, cuando las variaciones de la variable independiente "X" son inversamente proporcionales a las variaciones de las variables dependientes "Y" Es nulo o cero, cuando entre las variables dependientes "Y" e independientes "X" no existen relacin alguna.
Procedimiento para hallar el Coeficiente de Regresin Para determinar el valor del coeficiente de regresin de una manera fcil y exacta es utilizando el mtodo de los Mnimos Cuadrados de dos maneras: 1.- Forma Directa
De la ecuacin de la recta:
Si
El Coeficiente de Regresin es
De la misma manera la recta de regresin de "X" sobre "Y" ser dada de la siguiente manera:
Donde:
2.- Forma Indirecta del Mtodo de los Mnimos Cuadrados. El fundamento de este mtodo es de las desviaciones de X respecto a su media aritmtica. X
Donde:
b. c.
x, y = desviaciones X = media aritmtica Y = media aritmtica Regresin Simple: Este tipo se presenta cuando una variable independiente ejerce influencia sobre otra variable dependiente. Ejemplo: Y = f(x) Regresin Mltiple: Este tipo se presenta cuando dos o ms variables independientes influyen sobre una variable dependiente. Ejemplo: Y = f(x, w, z).
Por ejemplo: Podra ser una regresin de tipo mltiple: Una Empresa de desarrollo de software establece relacionar sus Ventas en funcin del numero de pedidos de los tipos de software que desarrolla (Sistemas, Educativos y Automatizaciones Empresariales), para atender 10 proyectos en el presente ao. En la Tabla representa Y (Ventas miles de S/.) e X (N pedidos de sistemas), W (N de pedidos de Aplicaciones Educativas) y Z (N de pedidos de Automatizaciones empresariales). Y 440 455 470 510 506 480 460 500 490 450 X 50 40 35 45 51 55 53 48 38 44
Objetivo: Se presentara primero el anlisis de regresin mltiple al desarrollar y explicar el uso de la ecuacin de regresin mltiple, as como el error estndar mltiple de estimacin. Despus se medir la fuerza de la relacin entre las variables independientes, utilizando los coeficientes mltiples de determinacin. Anlisis de Regresin Mltiple Dispone de una ecuacin con dos variables independientes adicionales:
Para poder resolver y obtener y en una ecuacin de regresin mltiple el clculo se presenta muy tediosa porque se tiene atender 3 ecuaciones que se generan por el mtodo de mnimo de cuadrados:
Para poder resolver se puede utilizar programas informticos como AD+, SPSS y Minitab y Excel.
El error estndar de la regresin mltiple Es una medida de dispersin la estimacin se hace ms precisa conforme el grado de dispersin alrededor del plano de regresin se hace mas pequeo. Para medirla se utiliza la formula:
Y : Valores observados en la muestra : Valores estimados a partir a partir de la ecuacin de regresin n : Nmero de datos m : Nmero de variables independientes El coeficiente de determinacin mltiple Mide la tasa porcentual de los cambios de Y que pueden ser explicados por , y simultneamente.
III.- APLICACION DE REGRESION MULTIPLE Mediante el siguiente problema podremos ilustrar la aplicacin de Regresin Multiple: En la Facultad de Ingeniera de Sistemas y Computo de la Universidad "Inca Garcilaso de la Vega" se quiere entender los factores de aprendizaje de los alumnos que cursan la asignatura de PHP, para lo cual se escoge al azar una muestra de 15 alumnos y ellos registran notas promedios en las asignaturas de Algoritmos, Base de Datos y Programacin como se muestran en el siguiente cuadro. Alumno 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 PHP 13 13 13 15 16 15 12 13 13 13 11 14 15 15 15 Algoritmos 15 14 16 20 18 16 13 16 15 14 12 16 17 19 13 Base de Datos 15 13 13 14 18 17 15 14 14 13 12 11 16 14 15 Programacin 13 12 14 16 17 15 11 15 13 10 10 14 15 16 10
Lo que buscamos es construir un modelo para determinar la dependencia que exista de aprendizaje reflejada en las notas de la asignatura de PHP, conociendo las notas de las asignaturas Algoritmos, Base de Datos y Programacin. Se presentara la siguiente ecuacin a resolver:
Utilizando las formulas de las ecuaciones normales a los datos obtendremos los coeficientes de regresin o utilizando Regresin de Anlisis de datos, en la Hoja de Calculo de Excel podemos calcular tambin los coeficientes de regresin:
El Error Estndar de Regresin Mltiple Mediante esta medida de dispersin se hace ms preciso el grado de dispersin alrededor del plano de regresin, se hace ms pequeo. Para calcularla se utiliza la formula siguiente:
En los resultados de Excel se llama error tpico y para explicar la relacin del aprendizaje de PHP que se viene desarrollando es de 0.861 El coeficiente de determinacin mltiple (r2) Utilizaremos para determinar la tasa porcentual de Y para ser explicados las variables mltiples, utilizando la si siguiente formula:
IV.- CONCLUSIONES El 69.70% del aprendizaje del Curso de PHP puede ser explicado mediante las notas obtenidas por las asignaturas de Algoritmos, Base de Datos y Programacin.
L a med id as
de
c en traliz ac i n nos
indica n
en
torno
qu
va l or
Moda
L a mo d a es el valo r qu e tiene m ayo r f rec u en c ia ab so lu ta .
S e representa po r M o .
Se
puede
ha lla r
la mo d a pa ra variab les
Hall ar la mo d a de la di stribuci n:
2, 3, 3, 4, 4, 4, 5, 5 M o = 4
Si
en
un
grupo esa
ha y d o s
varias
p u n tu ac io n es con es la
la mism a m xima ,
frec u en c ia y
frecuencia
1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9 M o = 1, 5, 9
C ua ndo
toda s
la s pun tu ac io n es de
un
grupo
tienen
la mism a
frec u en c ia , n o ha y mod a .
2, 2, 3, 3, 6, 6, 9, 9
Si dos
p un tu ac io n es
l a frec u en c ia
mxima ,
0, 1, 3, 3, 5, 5, 7, 8 Mo = 4
T a mbin
se
util iza
otra f rmu la de
la m o d a que
da
un valo r
ap ro ximad o de sta :
E j emp lo
Calc u lar la mo d a de una distribuc in esta ds tica que viene da da po r la sigui ente ta bla :
fi [ 60, 63) [ 63, 66) [ 66, 69) [ 69, 72) [ 72, 75) 5 18 42 27 8 100
la mo d a
exist en
dist inta s
E j emp lo
En a proba do,
la
ta bl a
se
muestra
la s
(suspens o, de 50
sobresa lient e)
obten ida s
grupo
fi [ 0, 5) [ 5, 7) [ 7, 9) [ 9, 10) 15 20 12 3 50
hi 3 10 6 3
Mediana
Es
el valo r que
ocupa
el lu g ar
c en tral d e
todos
Clculo de la mediana
1 O rd en amo s los d ato s de men o r a m ayo r . 2 S i la ser ie tien e u n n mero imp ar d e med id as la med ian a e s
la p u n tu ac in c en tral de la misma .
2, 3, 4, 4, 5, 5, 5, 6, 6 Me= 5
E j emp lo
Calc u lar la med ian a d e una distribuc in est a dstica que vi ene da d a por la sigu iente ta b la :
fi [ 60, 63) [ 63, 66) [ 66, 69) [ 69, 72) [ 72, 75) 5 18 42 27 8 100
Fi 5 23 65 92 100
100 / 2 = 50
Media aritmtica
L a med ia aritmti c a es e l valo r obte nido a l su ma r todo s
es el s mbolo de la me d ia ar itmt ic a .
E j emp lo
L os pesos de seis a migos son: 84, 91, 72, 68, 87 y 78 kg. Ha lla r el peso med io.
En un test rea liza do a un grupo de 42 persona s se ha n obtenido la s puntua ciones que mues tra la ta bla . Calc u la la p u n tu ac in med ia .
fi 1 8 10 9
55 65 75
8 4 2 42
L a s suma de la s desvi a ciones de los nmero s 8, 3, 5, 12, 10 de su media a ritmt ica 7. 6 es igua l a 0:
= 0. 4 4. 6 2. 6 + 4. 4 + 2. 4 = 0
4 Si
todos
los
va lo res
de
la
va ria bl e
un
muy
sensibl e
la s p u n tuac io n es
extrem as .
Si
L a med ia es
igua l
74
kg,
que
es
una med id a
de
4 L a med ia no
se
p uede
ca lcula r
si
ha y
un
interva lo
co n
xi [ 60, 63) [ 63, 66) [ 66, 69) [ 69, 72) [ 72, ) 61. 5 64. 5 67. 5 70. 5
fi 5 18 42 27 8 100
En este ca so no es posible ha lla r la med ia por que no podemos ca lcula r la marc a d e c l ase d e ltimo interva lo.
MEDIDAS DE DISPERSION
1- PLANTEAMIENTO TORICO-CONCEPTUAL:
El conocimiento de la forma de la distribucin y del respectivo promedio de una coleccin de valores de una variable, puede servir para tener una idea bastante clara de la conformacin, pero no de de la homogeneidad de cada una de los valores con respecto a la medida de tendencia central aplicada. En el caso de las variables con valores que pueden definirse en trminos de alguna escala de medida de igual intervalo, puede usarse un tipo de indicador que permite apreciar el grado de dispersin o variabilidad existente en el grupo de variantes en estudio. A estos indicadores les llamamos medidas de dispersin, por cuanto que estn referidos a la variabilidad que exhiben los valores de las observaciones, ya que si no hubiere variabilidad o dispersin en los datos inters, entonces no habra necesidad de la gran mayora de las medidas de la estadstica descriptiva. Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor representativo, las medidas de dispersin nos dicen hasta que punto estas medidas de tendencia central son representativas como sntesis de la informacin. Las medidas de dispersin cuantifican la separacin, la dispersin, la variabilidad de los valores de la distribucin respecto al valor central. Distinguimos entre medidas de dispersin absolutas, que no son comparables entre diferentes muestras y las relativas que nos permitirn comparar varias muestras.
LA DISPERSIN. Al igual que sucede con cualquier conjunto de datos, la media, la mediana y la moda slo nos revelan una parte de la informacin que necesitamos acerca de las caractersticas de los datos. Para aumentar nuestro entendimiento del patrn de los datos, debemos medir tambin su dispersin, extensin o variabilidad. La dispersin es importante porque: Proporciona informacin adicional que permite juzgar la confiabilidad de la medida de tendencia central. Si los datos se encuentran ampliamente dispersos, la posicin central es menos representativa de los datos. Ya que existen problemas caractersticos para datos ampliamente dispersos, debemos ser capaces de distinguir que presentan esa dispersin antes de abordar esos problemas. Quiz se desee comparar las dispersiones de diferentes muestras. Si no se desea tener una amplia dispersin de valores con respecto al centro de distribucin o esto presenta riesgos inaceptables, necesitamos tener habilidad de reconocerlo y evitar escoger distribuciones que tengan las dispersiones ms grandes. Pero si hay dispersin en la mayora de los datos, y debemos estar en capacidad de describirla. Ya que la dispersin ocurre frecuentemente y su grado de variabilidad es importante, cmo medimos la variabilidad de una distribucin emprica?. Vamos a considerar slo algunas medidas de dispersin absolutas: el rango, la varianza, la desviacin estndar y el coeficiente de variacin.
0.33 1.00 0.46 0.67 0.63 0.54 0.73 0.37 0.83 0.27 1.00 0.17
21.835 36.250 29.043 4 36.250 50.665 43.458 5 50.665 65.080 57.873 3 65.080 79.495 72.288 3 79.495 93.910 86.703 5 Total XXX
Leer ms: http://www.monografias.com/trabajos43/medidas-dispersion/medidasdispersion.shtml#ixzz2yahtmkNn El rango de la distribucin de frecuencias se calcula as: R= (lim. Sup. de la clase n lim. Inf. De la clase 1) = (93.910 7.420) = 86.49 Propiedades del Rango o Recorrido: El recorrido es la medida de dispersin ms sencilla de calcular e interpretar puesto que simplemente es la distancia entre los valores extremos (mximo y mnimo) en una distribucin Puesto que el recorrido se basa en los valores extremos ste tiende s ser errtico. No es extrao que en una distribucin de datos econmicos o comerciales incluya a unos pocos valores en extremo pequeos o grandes. Cuando tal cosa sucede, entonces el recorrido solamente mide la dispersin con respecto a esos valores anormales, ignorando a los dems valores de la variable. La principal desventaja del recorrido es que slo esta influenciado por los valores extremos,, puesto que no cuenta con los dems valores de la variable. Por tal razn, siempre existe el peligro de que el recorrido ofrezca una descripcin distorsionada de la dispersin. En el control de la calidad se hace un uso extenso del recorrido cuando la distribucin a utilizarse no la distorsionan y cuando el ahorro del tiempo al hacer los clculos es un factor de importancia.
o que tan lejos estn los diferentes valores de su propia media aritmtica. Cuando ms lejos estn las Xi de su propia media aritmtica, mayor es la varianza; cuando ms cerca estn las Xi a su media menos es la varianza. Y se define y expresa matemticamente de la siguiente manera:
La varianza para datos no agrupados Dado un conjunto de observaciones, tales como X1, X2, , Xn, la varianza denotada usualmente por la letra minscula griega (sigma) elevada al cuadrado (2)y en otros casos S2 segn otros analistas, se define como: el cuadrado medio de las desviaciones con respecto a su media aritmtica" Matemticamente, se expresa como:
Ejemplo: Se tienen las edades de cinco estudiantes universitarios de Ier ao, a saber: 18,23, 25, 27, y 34. Al calcular la media aritmtica (promedio de las edades, se obtuvo 25.4 aos, encontrar la varianza de las edades de estos estudiantes: Para calcular se utiliza una tabla estadstica de trabajo de la siguiente manera: ( Xi Xi 18 23 25 27 34 Total ( Xi (18 25.5)=-7.4 (23 25.5)=-2.4 (25 25.5)=-0.4 (27 25.5)= 1.6 (34 25.5)= 8.6 xxxx (-7.4)2=54.76 (-2.4)2= 5.76 (-0.4)2= 0.16 ( 1.64)2= 2.16 ( 8.6)2 =73.96 137.20
La varianza para datos agrupados Si en una tabla de distribucin de frecuencias. Los puntos medios de las clases son X1, X2, , Xn; y las frecuencias de las clases f1, f2, , fn; la varianza se calcula as: (Xi2 = ---------------fi Sin embargo la formula anterior tiene algn inconveniente para su uso en la practica, sobre todo cuando se trabaja con nmeros decimales o cuando la media aritmtica es un nmero entero. Asimismo cuando se trabaja con mquinas calculadoras, La tarea de computar la varianza se simplifica utilizando la formula de computacin que se da a continuacin: Xi2fi - [(Xifi)2/N] 2 = ---------------------------N donde N=fi Ejemplo: Se tienen los datos de una muestra de 30 cuentas por cobrar de la tienda Cabreras y Asociados dispuestos en una tabla de distribucin de frecuencias, a partir de los cuales se deber calcular la varianza, para lo cual se construye la siguiente tabla estadstica de trabajo, si se calcul anteriormente la media aritmtica y se fij en 43.458 (ver ejemplo del calculo en "media aritmtica para datos agrupados) de la siguiente manera clases 7.420 21.835 21.835 36.250 36.250 50.665 50.665 65.080 65.080 79.495 79.495 93.910 Total Punto medios Xi 14.628 29.043 43.458 57.873 72.288 86.703 XXX fi 10 4 5 3 3 5 30 Xi2 213.978 843,496 1,888.598 3,349.284 5,225.555 7,533.025 19,053.936 Xifi 146.280 116.172 217.270 173.619 216.864 433.965 1,304.190 X2fi 2,139.780 3,373.984 9,442.990 10,047.852 15,676.665 37,665.125 78,346.396
= 21,649.344 / 30 = 721.645 Respuesta: la varianza de las cuentas por cobrar es igual B/.721.645
Propiedades de la varianza : s siempre un valor no negativo, que puede ser igual o distinta La varianza es la medida de dispersin cuadrtica optima por ser la menor de todas. Si a todos los valores de la variable se le suma una constante la varianza no se modifica. Vemoslo:
Si todos los valores de la variable se multiplican por una constante la varianza queda multiplicada por el cuadrado de dicha constante. Vemoslo: Si a xi = xi k tendremos (sabiendo que )
Si en una distribucin obtenemos una serie de subconjuntos disjuntos, la varianza de la distribucin inicial se relaciona con la varianza de cada uno de los subconjuntos mediante la expresin
Siendo Ni el n de elementos del subconjunto (i) S2i la varianza del subconjunto (i)
Si a todos los valores de la variable se multiplican por una misma constante, la desviacin estndar queda multiplicada por el valor absoluto de dicha constante.
Donde: C.V. representa el nmero de veces que la desviacin tpica contiene a la media aritmtica y por lo tanto cuanto mayor es CV mayor es la dispersin y menor la representatividad de la media. Propiedades del Coeficiente de Variacin : Si a todos los valores de la variable se le suma una misma constante el coeficiente de variacin queda alterado . Ejemplo: Suponga que Usted trabaja en una compaa de ventas, que ofrece como premio de incentivo al mejor vendedor del trimestre anterior las entradas al palco empresarial en la serie final de bisbol de las grandes ligas en los Estados Unidos (E,E,U,A,). De los registros de ventas se tienen los siguientes datos de ventas, expresados en porcentajes de cumplimiento de las metas fijadas mensualmente: Vendedor A 95 105 100 Vendedor B 100 90 110 El promedio trimestral de cumplimiento de las metas de ventas de ambos vendedores es igual y equivale al 100%, pero Ud. Slo le puede dar el premio de incentivo a uno de ellos. Cul usted escogera?. En base a que criterio. Explique. Este problema se resuelve utilizando el coeficiente de variacin, para estos efectos es necesario encontrar la desviacin estndar trimestral de las ventas de cada uno de la siguiente manera: Vendedor A Xi 95 105 100 ( Xi 95 100 = -5 105 100 = 5 ( Xi )2 (-5)2 = 25 ( 5)2 = 25
Total
XXX
50
La desviacin estndar es =(50/3) = 16.667 = 4.08, luego entonces el coeficiente de variacin es igual a: 4.08 C.VA= --------- = ----------- = 0.0408 Vendedor B Xi 100 90 110 Total ( Xi 100 100 = 0 90 100 = -10 110 100 = 10 XXX ( Xi ( 0 )2 = 0 (-10)2 = 100 ( 10)2 = 100 200
La desviacin estndar es =(200/3) = 66.667 = 8.16, luego entonces el coeficiente de variacin es igual a:
Respuesta: Dado que el vendedor A tiene menor coeficiente de variacin, A l le corresponde recibir el premio de incentivo.
Una distribucin
de
frecuencias o tabla
de
frecuencias es
una ordenacin en forma de tabla de los d atos estad sticos , asignando a cada dato su frecuencia correspondiente .
Tipos de frecuencia
Frecuencia absoluta
La frecuencia
ab solu ta es
el nmero
de
veces que
apa rece
un
Se representa por f i .
La suma de las frecu encias absolutas es igual a l nmero total de datos, que se representa por N .
Para
indica r
resumidamente
estas
sumas
se
utiliza
la
letra
Frecuencia relativa
La frecuencia relativa es el cociente entre la f recuencia abso luta de un determinado valor y el nmero total d e datos .
Frecuencia acumulada
La frecuencia
acumulada es
la suma
de
las
frecuencias
absolutas de todos los valo res inferio res o ig uales a l valo r considerado.
Se representa por F i .
La frecuencia relativa acumulada es el cociente entre la frecuencia acumulad a de un determinado valor y el nmero to tal de d atos . Se puede expresar en tantos por ciento.
Ejemplo
Durante el mes de julio, en una ciudad se han registrado las siguientes temperaturas mximas:
32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29, 29.
En la primera columna de la ta bla colocamos la variable ordenada de menor a mayor, en la segunda hacemos el recuento y en la tercera anotamos la frecuencia absoluta.
xi
Recuento
fi
Fi
ni
Ni
27
0.032
0.032
28
II
0.065
0.097
29
0.194
0.290
30
16
0.226
0.516
31
24
0.258
0.774
32
III
27
0.097
0.871
33
III
30
0.097
0.968
34
31
0.032
31
grande
Se agrupan los valores en in tervalos que amplitud denominados clases . correspondiente . A cada clase se le
tengan asigna
la misma su frecuencia
Lmites de la clase
el lmite
in ferio r
de
la
clase y
Amplitud de la clase
Marca de clase
de
clase es a
el punto todo
medio de
cada intervalo y
es
representa
el intervalo para
el clculo de
algunos parmetro s .
1 se loca lizan los va lores menor y mayor de la distribucin. En este caso son 3 y 48.
2 Se restan y se busca un nmero entero un poco mayor que la diferencia y que sea divisible por el nmero de interva los de queramos poner.
Se forman los intervalos teniendo presente que el lmite inferi or de una clase pertenece al intervalo, pero el lmite superior no pertenece intervalo, se cuenta en el siguiente interva lo.
ci
fi
Fi
ni
Ni
[0, 5)
2.5
0.025
0.025
[5, 10)
7.5
0.025
0.050
[10, 15)
12. 5
0.075
0.125
[15, 20)
17. 5
0.075
0.200
[20, 25)
22. 5
11
0.075
0.2775
[25, 30)
27. 5
17
0.150
0.425
[30, 35)
32. 5
24
0.175
0.600
[35, 40)
37. 5
10
34
0.250
0.850
[40, 45)
42. 5
38
0.100
0.950
[45, 50)
47. 5
40
0.050
40
DISTRIBUCION DE FRECUENCIAS
Ejercicio 6
La s ca lificaciones de 50 a lumnos en Matem ticas han sido la s siguientes:
5, 2, 4, 9, 7, 4, 5, 6, 5, 7, 7, 5, 5, 2, 10, 5, 6, 5, 4, 5, 8, 8, 4, 0, 8, 4, 8, 6, 6, 3, 6, 7, 6, 6, 7, 6, 7, 3, 5, 6, 9, 6, 1, 4, 6, 3, 5, 5, 6, 7.
C onstruir la tab la d e d istribuc in d e frecu enc ias y dibuja el d iag rama d e b arras .
xi
fi
Fi
ni
Ni
0. 02
0. 02
0. 02
0. 04
0. 04
0. 08
0. 06
0. 14
13
0. 12
0. 26
11
24
0. 22
0. 48
12
36
0. 24
0. 72
43
0. 14
0. 86
47
0. 08
0. 94
49
0. 04
0. 98
10
50
0. 02
1. 00
50
1. 00
Di agrama de b arras
Ejemplo: Quieren conocer si un grupo de individuos est a favor o en contra de la exhibicin de imgenes violentas por televisin, para lo cual han recogido los siguientes datos:
La inspeccin de los datos originales no permite responder fcilmente a cuestiones como cul es la actitud mayoritaria del grupo, y resulta bastante ms difcil determinar la magnitud de la diferencia de actitud entre hombres y mujeres.
Podemos hacernos mejor idea si disponemos en una tabla los valores de la variable acompaados del nmero de veces (la frecuencia) que aparece cada valor:
X: Smbolo genrico de la variable. f: Frecuencia (tambin se simboliza como ni). La distribucin de frecuencias de los datos del ejemplo muestra que la actitud mayoritaria de los individuos del grupo estudiado es indiferente. La interpretacin de los datos ha sido facilitada porque se ha reducido el nmero de nmeros a examinar (en vez de los 20 datos originales, la tabla contiene 5 valores de la variable y 5 frecuencias). Generalmente las tablas incluyen varas columnas con las frecuencias relativas (son el nmero de ocurrencias dividido por el total de datos, y se simbolizan "fr" o "pi"), frecuencias acumuladas (la frecuencia acumulada es el total de frecuencias de los valores iguales o inferiores al de referencia, y se simbolizan "fa" o "na". No obstante la frecuencia acumulada tambin es definida incluyendo al valor de referencia), frecuencias acumuladas relativas (la frecuencia acumulada relativa es el total de frecuencias relativas de los valores iguales o inferiores al de referencia, y se simbolizan "fr" o "pa") Ejemplo: Consideremos el siguiente grupo de datos:
La reduccin de datos mediante el agrupamiento en frecuencias no facilita su interpretacin: La tabla es demasiado grande. Para reducir el tamao de la tabla agrupamos los valores en intervalos, y las frecuencias son las de los conjuntos de valores incluidos en los intervalos:
Ahora es ms sencillo interpretar los datos. Por ejemplo, podemos apreciar inmediatamente que el intervalo con mayor nmero de datos es el 34-39, o que el 75% de los datos tiene valor inferior a 46. Este tipo de tabla es denominado "tabla de datos agrupados en intervalos". Elementos bsicos de las tablas de intervalos:
Intervalo: Cada uno de los grupos de valores de la variable que ocupan una fila en una distribucin de frecuencias Lmites aparentes: Valores mayor y menor del intervalo que son observados en la tabla. Dependen de la precisin del instrumento de medida. En el ejemplo, los lmites aparentes del intervalo con mayor nmero de frecuencias son 34 y 39. Lmites exactos: Valores mximo y mnimo del intervalo que podran medirse si se contara con un instrumento de precisin perfecta. En el intervalo 34-39, estos lmites son 33.5 y 39.5 Punto medio del intervalo (Mco Marca de clase): Suma de los lmites dividido por dos. Mc del intervalo del ejemplo= 36.5 Amplitud del intervalo: Diferencia entre el lmite exacto superior y el lmite exacto inferior. En el ejemplo es igual a 6.
ANALISIS BIVARIADO
EJEMPLO DE ANOVA
Ejemplo 1
Se quiere evaluar la eficacia de distintas dosis de un frmaco contra la hipertensin arterial, comparndola con la de una dieta sin sal. Para ello se seleccionan al azar 25 hipertensos y se distribuyen aleatoriamente en 5 grupos. Al primero de ellos no se le suministra ningn tratamiento, al segundo una dieta con un contenido pobre en sal, al tercero una dieta sin sal, al cuarto el frmaco a una dosis determinada y al quinto el mismo frmaco a otra dosis. Las presiones arteriales sistlicas de los 25 sujetos al finalizar los tratamientos son: Grupo 3 163 170 158 162 170
1 180 173 175 182 181 La tabla de anova es: Fuente de variacin Tratamiento Error Total
GL 4 20 24
MS 502,66 44,72
F 11,24
Como F0,05(4,20) =2,87 y 11,24>2,87 rechazamos la hiptesis nula y concluimos que los resultados de los tratamientos son diferentes. Nota: Para hacerlo con un paquete estadstico, p.e. el SPSS, deberamos crear un archivo con 2 variables: Trata (con un cdigo distinto para cada grupo, p.e. de 1 a 5) y Presion con la presin arterial de cada individuo al acabar el estudio. Para calcular el Anova desplegamos los mens que se ven en la grfica:
CORRELACION
Una compa a desea hacer predicciones del va lor anua l de sus venta s tota les en cierto pa s a pa rtir de la rela cin de sta s y la renta naciona l. Para investiga r la relacin cuenta con los siguientes da tos:
189
190
208
227
239
252
257
274
293
308
316
402
404
412
425
429
436
440
447
458
469
469
X representa la renta na ciona l en millones de euros e Y representa las ventas de la compa a en miles de euros en el periodo que va desde 1990 hasta 2000 (a mbos inclusive). Ca lcula r:
1 2 3
La rec ta d e reg resin de Y sobre X . E l co efic ien te d e co rrelac in lin eal e interpretarlo. S i en 2001 la renta naciona l del pa s fue de 325 millones de euros. C u l ser la
prediccin pa ra la s venta s de la compa a en este a o? So lu c in 2 La informacin esta dstica obtenida de una muestra de ta mao 12 sobre la rela cin existente entre la inversin rea liza da y el rendimiento obtenido en cientos de miles de euros pa ra explotaciones a grcolas, se muestra en el siguiente cua dro:
Inversin (X)
1 1
1 4
1 6
1 5
1 6
1 8
2 0
2 1
1 4
2 0
1 9
1 1
Rendimient o (Y)
1 0
1 0
Ca lcula r:
1 2
La rec ta d e reg resin del rendimiento respecto de la inversin. La previsin de inversin que se obtendr con un rendimiento de 1 250 000 . So lu c in 3 El nmero de horas dedica da s al estudio de una asigna tura y la
Horas (X)
20
16
34
23
27
32
18
22
Calificacin (Y)
6.5
8.5
9.5
7.5
S e pide:
1 2
Recta de regresin de Y sobre X . Ca lifica cin estima da pa ra una persona que hubiese estudia do 28 horas. So lu c in
4 En la ta bla siguiente se indica la eda d (en aos) y la conducta a gresiva (medida en una esca la de cero a 10) de 10 nios.
Edad
6.7
7.4
7.9
8.2
8.5
8.9
Conducta agresiva
1 2
Obtener la rec ta d e reg resi n de la conducta a gresiva en funcin de la eda d. A pa rtir de dicha recta , obtener el va lor de la conducta a gresiva que
correspondera a un nio de 7.2 a os. So lu c in 5 L os va lores de dos va ria bles X e Y se distribuyen segn la ta bla siguiente:
Y/X
100
50
25
14
18
22
S e pide:
1 2 3
Ca lcula r la co varianza . Obtener e interpreta r el coeficiente de co rrelac in lin eal . Ecuacin de la rec ta de reg resin de Y sobre X. So lu c in 6 La s puntuaciones obtenidas por un grupo de a lumnos en una ba tera de test que mide la ha bilida d verba l (X) y el ra zonamiento a bstracto (Y ) son las siguientes:
22>Y/X
22>20
22>30
22>40
22>50
22>(25-35)
22>(35-45)
22>(45-55)
22>(55-65)
S e pide:
1 2
Existe co rrelacin entre amba s va ria bles? S egn los da tos de la ta bla, si uno de estos alumnos obtiene una puntua cin de
70 puntos en ra zona miento abstracto, en cunto se estima r su ha bilida d verba l? So lu c in 7 S e sa be que entre el consumo de pa pel y el nmero de litros de a gua por metro cua dra do que se recogen en una ciudad no existe rela cin.
1 2 3
Cu l es el va lor de la c ovarian za de esta s varia bles? Cu nto va le el coeficiente de co rrelac in lineal ? Qu ecua ciones tienen las dos rec tas d e reg resin y cu l es su posicin en el
pla no? So lu c in 8 En una empresa de tra nsportes tra ba ja n cua tro conductores. L os aos de a ntigedad de permisos de conducir y el nmero de infracciones cometidas en el ltimo ao por cada uno de ellos son los siguientes:
Aos (X)
Infracciones (Y)
9 Una persona rellena sema na lmente una quiniela y un boleto de lotera primitiva anotando el nmero de a ciertos que tiene. D urante las sema na s del mes de febrero, los a ciertos fueron: cuatro
Quiniela (X)
Primitiva (Y)
Obtener el co efic iente d e co rrelac in lin eal e interpreta rlo. Ofreceran confianza la s previsiones hechas con las rectas de regresin?