Está en la página 1de 37

Anlisis Univariado.

Consiste en el anlisis de cada una de las variables estudiadas por separado, es decir, el anlisis esta basado en una sola variable. Las tcnicas ms frecuentes de anlisis univariado son la distribucin de frecuencias para una tabla univariada y el anlisis de las medidas de tendencia central de la variable. Se utiliza nicamente en aquellas variables que se midieron a nivel de intervalo o de razn (ver Therese L. Baker, 1997). La distribucin de frecuencias de la variable requiere de ver como estn distribuidas las categoras de la variable, pudiendo presentarse en funcin del nmero de casos o en trminos porcentuales.
El anlisis multivariante es un mtodo estadstico utilizado para determinar la contribucin de varios factores en un simple evento o resultado.

Los factores de estudio son los llamados factores de riesgo (bioestadstica), variables independientes o variables explicativas. El resultado estudiado es el evento, la variable dependiente o la variable respuesta.

El anlisis multivariante mediante tcnicas de proyeccin sobre variables latentes tiene muchas ventajas sobre los mtodos de regresin tradicionales:

se puede utilizar la informacin de mltiples variables de entrada, aunque stas no sean linealmente independientes puede trabajar con matrices que contengan ms variables que observaciones puede trabajar con matrices incompletas, siempre que los valores faltantes estn aleatoriamente distribuidos y no superen un 10% puesto que se basan en la extraccin secuencial de los factores, que extraen la mayor variabilidad posible de la matriz de las X (variables explicativas, tienen que ser dependientes) pueden separar la informacin del ruido. Se asume que las X se miden con ruido.

MARCO TEORICO REGRESIN.Se define como un procedimiento mediante el cual se trata de determinar si existe o no relacin de dependencia entre dos o ms variables. Es decir, conociendo los valores de una variable independiente, se trata de estimar los valores, de una o ms variables dependientes. La regresin en forma grafica, trata de lograr que una dispersin de las frecuencias sea ajustada a una lnea recta o curva. Clases de Regresin La regresin puede ser Lineal y Curvilnea o no lineal, ambos tipos de regresin pueden ser a su vez: a. Esta regresin se utiliza con mayor frecuencia en las ciencias econmicas, y sus disciplinas tecnolgicas. Cualquier funcin no lineal, es linealizada para su estudio y efectos prcticos en las ciencias econmicas, modelos no lineales y lineales multiecuacionales. Objetivo: Se utiliza la regresin lineal simple para: 1.- Determinar la relacin de dependencia que tiene una variable respecto a otra. 2.- Ajustar la distribucin de frecuencias de una lnea, es decir, determinar la forma de la lnea de regresin. 3.- Predecir un dato desconocido de una variable partiendo de los datos conocidos de otra variable. Por ejemplo: Podra ser una regresin de tipo lineal:

En una empresa de servicio de Internet busca relacionar las ganancias que obtiene cada computadora con el numero de usuarios que ingresan a dicha cabina diariamente. En la tabla representa Y (Ganancias S/.) e X (Numero de usuarios) Y 100 98 99 102 102 111 97 104 102 96 X 116 96 110 105 99 106 100 109 98 108 Coeficiente de Regresin Indica el nmero de unidades en que se modifica la variable dependiente "Y" por efecto del cambio de la variable independiente "X" o viceversa en una unidad de medida. Clases de coeficiente de Regresin: El coeficiente de regresin puede ser: Positivo, Negativo y Nulo. Es positivo cuando las variaciones de la variable independiente X son directamente proporcionales a las variaciones de la variable dependiente "Y" Es negativo, cuando las variaciones de la variable independiente "X" son inversamente proporcionales a las variaciones de las variables dependientes "Y" Es nulo o cero, cuando entre las variables dependientes "Y" e independientes "X" no existen relacin alguna.

Procedimiento para hallar el Coeficiente de Regresin Para determinar el valor del coeficiente de regresin de una manera fcil y exacta es utilizando el mtodo de los Mnimos Cuadrados de dos maneras: 1.- Forma Directa

De la ecuacin de la recta:

Si

, se obtienen a partir de las ecuaciones normales:

Aplicando normales Y sobre X tenemos:

El Coeficiente de Regresin es

De la misma manera la recta de regresin de "X" sobre "Y" ser dada de la siguiente manera:

Donde:

se obtienen a partir de las ecuaciones normales:

Aplicando normales X sobre Y tenemos:

2.- Forma Indirecta del Mtodo de los Mnimos Cuadrados. El fundamento de este mtodo es de las desviaciones de X respecto a su media aritmtica. X

Ecuacin de y sobre x Ecuacin de y sobre x

Donde:

b. c.

x, y = desviaciones X = media aritmtica Y = media aritmtica Regresin Simple: Este tipo se presenta cuando una variable independiente ejerce influencia sobre otra variable dependiente. Ejemplo: Y = f(x) Regresin Mltiple: Este tipo se presenta cuando dos o ms variables independientes influyen sobre una variable dependiente. Ejemplo: Y = f(x, w, z).

Por ejemplo: Podra ser una regresin de tipo mltiple: Una Empresa de desarrollo de software establece relacionar sus Ventas en funcin del numero de pedidos de los tipos de software que desarrolla (Sistemas, Educativos y Automatizaciones Empresariales), para atender 10 proyectos en el presente ao. En la Tabla representa Y (Ventas miles de S/.) e X (N pedidos de sistemas), W (N de pedidos de Aplicaciones Educativas) y Z (N de pedidos de Automatizaciones empresariales). Y 440 455 470 510 506 480 460 500 490 450 X 50 40 35 45 51 55 53 48 38 44

W 105 140 110 130 125 115 100 103 118 98 Z 75 68 70 64 67 72 70 73 69 74

Objetivo: Se presentara primero el anlisis de regresin mltiple al desarrollar y explicar el uso de la ecuacin de regresin mltiple, as como el error estndar mltiple de estimacin. Despus se medir la fuerza de la relacin entre las variables independientes, utilizando los coeficientes mltiples de determinacin. Anlisis de Regresin Mltiple Dispone de una ecuacin con dos variables independientes adicionales:

Se puede ampliar para cualquier nmero "m" de variables independientes:

Para poder resolver y obtener y en una ecuacin de regresin mltiple el clculo se presenta muy tediosa porque se tiene atender 3 ecuaciones que se generan por el mtodo de mnimo de cuadrados:

Para poder resolver se puede utilizar programas informticos como AD+, SPSS y Minitab y Excel.

El error estndar de la regresin mltiple Es una medida de dispersin la estimacin se hace ms precisa conforme el grado de dispersin alrededor del plano de regresin se hace mas pequeo. Para medirla se utiliza la formula:

Y : Valores observados en la muestra : Valores estimados a partir a partir de la ecuacin de regresin n : Nmero de datos m : Nmero de variables independientes El coeficiente de determinacin mltiple Mide la tasa porcentual de los cambios de Y que pueden ser explicados por , y simultneamente.

III.- APLICACION DE REGRESION MULTIPLE Mediante el siguiente problema podremos ilustrar la aplicacin de Regresin Multiple: En la Facultad de Ingeniera de Sistemas y Computo de la Universidad "Inca Garcilaso de la Vega" se quiere entender los factores de aprendizaje de los alumnos que cursan la asignatura de PHP, para lo cual se escoge al azar una muestra de 15 alumnos y ellos registran notas promedios en las asignaturas de Algoritmos, Base de Datos y Programacin como se muestran en el siguiente cuadro. Alumno 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 PHP 13 13 13 15 16 15 12 13 13 13 11 14 15 15 15 Algoritmos 15 14 16 20 18 16 13 16 15 14 12 16 17 19 13 Base de Datos 15 13 13 14 18 17 15 14 14 13 12 11 16 14 15 Programacin 13 12 14 16 17 15 11 15 13 10 10 14 15 16 10

Lo que buscamos es construir un modelo para determinar la dependencia que exista de aprendizaje reflejada en las notas de la asignatura de PHP, conociendo las notas de las asignaturas Algoritmos, Base de Datos y Programacin. Se presentara la siguiente ecuacin a resolver:

Utilizando las formulas de las ecuaciones normales a los datos obtendremos los coeficientes de regresin o utilizando Regresin de Anlisis de datos, en la Hoja de Calculo de Excel podemos calcular tambin los coeficientes de regresin:

Por lo tanto podemos construir la ecuacin de regresin que buscamos:

El Error Estndar de Regresin Mltiple Mediante esta medida de dispersin se hace ms preciso el grado de dispersin alrededor del plano de regresin, se hace ms pequeo. Para calcularla se utiliza la formula siguiente:

En los resultados de Excel se llama error tpico y para explicar la relacin del aprendizaje de PHP que se viene desarrollando es de 0.861 El coeficiente de determinacin mltiple (r2) Utilizaremos para determinar la tasa porcentual de Y para ser explicados las variables mltiples, utilizando la si siguiente formula:

IV.- CONCLUSIONES El 69.70% del aprendizaje del Curso de PHP puede ser explicado mediante las notas obtenidas por las asignaturas de Algoritmos, Base de Datos y Programacin.

Leer ms: http://www.monografias.com/trabajos30/regresion-multiple/regresionmultiple.shtml#ixzz2yagEzRNc

MEDIDAS DETENDENCIA CENTRAL

L a med id as

de

c en traliz ac i n nos

indica n

en

torno

qu

va l or

(centro) se distr ibuyen los da tos.

L a med id as d e c en tralizac i n son:

Moda
L a mo d a es el valo r qu e tiene m ayo r f rec u en c ia ab so lu ta .

S e representa po r M o .

Se

puede

ha lla r

la mo d a pa ra variab les

c u alitat ivas y c u an ti t ativ as .

Hall ar la mo d a de la di stribuci n:

2, 3, 3, 4, 4, 4, 5, 5 M o = 4

Si

en

un

grupo esa

ha y d o s

varias

p u n tu ac io n es con es la

la mism a m xima ,

frec u en c ia y

frecuencia

la d istrib u c i n es b imo d al o mu ltimo d al , es decir, t iene v ari as mo d as .

1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9 M o = 1, 5, 9

C ua ndo

toda s

la s pun tu ac io n es de

un

grupo

tienen

la mism a

frec u en c ia , n o ha y mod a .

2, 2, 3, 3, 6, 6, 9, 9

Si dos

p un tu ac io n es

ad yac en tes ti enen

l a frec u en c ia

mxima ,

la mo d a es el p ro med i o de la s dos puntua cion es a dya centes.

0, 1, 3, 3, 5, 5, 7, 8 Mo = 4

Clculo de la moda para datos agrupados


1 To d o s lo s in terv al o s tien en la m isma a mp litu d .

L i es el lm ite inf erio r d e la cla se moda l.

f i es la frecuencia a bsol uta de la cla se moda l.

f i - - 1 es la frecu encia a bsoluta inme dia ta ment e infe rio r a la en c la se moda l.

f i - + 1 es la frecuenc ia a bsoluta inmed ia ta mente poste rio r a la cla s e moda l.

a i es la a mplitu d de la cla se.

T a mbin

se

util iza

otra f rmu la de

la m o d a que

da

un valo r

ap ro ximad o de sta :

E j emp lo

Calc u lar la mo d a de una distribuc in esta ds tica que viene da da po r la sigui ente ta bla :

fi [ 60, 63) [ 63, 66) [ 66, 69) [ 69, 72) [ 72, 75) 5 18 42 27 8 100

2 Lo s in terv alo s t ien en amp litu d es d istin t as.

En primer luga r tenem o s que ha lla r la s a ltura s.

L a cla se moda l es la qu e tiene ma yor a ltu ra .

L a f rmu la de a mplitudes es:

la mo d a

ap ro xim ad a cua ndo

exist en

dist inta s

E j emp lo

En a proba do,

la

siguiente nota ble y

ta bl a

se

muestra

la s

ca lifica cion es por un

(suspens o, de 50

sobresa lient e)

obten ida s

grupo

a lumnos. Calc u lar la mo d a .

fi [ 0, 5) [ 5, 7) [ 7, 9) [ 9, 10) 15 20 12 3 50

hi 3 10 6 3

Mediana

Es

el valo r que

ocupa

el lu g ar

c en tral d e

todos

los d ato s cua ndo

stos est n o rd en ad o s d e men o r a mayo r .

L a med ian a se repres e nta por M e .

L a med ian a se puede h alla r slo pa ra vari ab l es c u an tita tiva s .

Clculo de la mediana
1 O rd en amo s los d ato s de men o r a m ayo r . 2 S i la ser ie tien e u n n mero imp ar d e med id as la med ian a e s
la p u n tu ac in c en tral de la misma .

2, 3, 4, 4, 5, 5, 5, 6, 6 Me= 5

3 S i la seri e ti ene un n mero p ar de punt ua ciones la med ian a e s


la med ia entre la s dos p u n tu ac ion es c en tral es .

7, 8, 9, 10, 11, 12 Me= 9. 5

Clculo de la mediana para datos agrupados


L a med ian a se encuentra en el in terv al o donde la frec u en c ia

ac u mu lad a lle ga ha sta la mitad d e l a su ma d e las frec u en c ias ab s o lu tas .

Es decir ten emos que b usca r el inte rva lo en e l que se encuentr e

L i es el lm ite inf erio r d e la cla se dond e se enc uentra la media na .

es la semisuma de la s frecuencia s a bsoluta s.

F i - 1 es la frec u en c ia a c u mu lad a a nterior a la cla se media na .

a i es la a mplitu d de la cla se.

L a med ian a es in d ep en d ien te de la s amp litu d es de los in te rvalo s .

E j emp lo

Calc u lar la med ian a d e una distribuc in est a dstica que vi ene da d a por la sigu iente ta b la :

fi [ 60, 63) [ 63, 66) [ 66, 69) [ 69, 72) [ 72, 75) 5 18 42 27 8 100

Fi 5 23 65 92 100

100 / 2 = 50

C la se moda l: [66, 69)

Media aritmtica
L a med ia aritmti c a es e l valo r obte nido a l su ma r todo s

los d ato s y d ivid ir el r esulta do entre el n mero tota l de d ato s .

es el s mbolo de la me d ia ar itmt ic a .

E j emp lo

L os pesos de seis a migos son: 84, 91, 72, 68, 87 y 78 kg. Ha lla r el peso med io.

Media aritmtica para datos agrupados


Si los d ato s vi enen a g ru p ad o s en una tabla de fr ecuencia s, la

expres in de la med ia es:

E j erc ic io d e med ia ari tmtic a

En un test rea liza do a un grupo de 42 persona s se ha n obtenido la s puntua ciones que mues tra la ta bla . Calc u la la p u n tu ac in med ia .

xi [ 10, 20) [ 20, 30) [ 30, 40) [ 40, 50) 15 25 35 45

fi 1 8 10 9

xi fi 15 200 350 405

[ 50, 60 [ 60, 70) [ 70, 80)

55 65 75

8 4 2 42

440 260 150 1 8 20

Propiedades de la media aritmtica


1 L a su ma de la s d es viac io n es de toda s la s puntua ciones de un a
distr ibucin respecto a la med ia de la misma i gua l a c ero .

L a s suma de la s desvi a ciones de los nmero s 8, 3, 5, 12, 10 de su media a ritmt ica 7. 6 es igua l a 0:

8 7. 6 + 3 7. 6 + 5 7.6 + 12 7.6 + 10 7.6 =

= 0. 4 4. 6 2. 6 + 4. 4 + 2. 4 = 0

2 L a med ia ari tmtic a de los c u ad rad o s de la s d esviac io n e s d e l os


va lores de la va ria ble con r especto a un n mero cua lquier a se

ha ce mn ima cua ndo di cho n mero coincide c on la med ia a ritm tic a .

3 S i a todos los va lores de la va ria ble se les s u ma un mismo n mero ,


la med ia a ritm tic a q ueda au men tad a en di cho n mero .

4 Si

todos

los

va lo res

de

la

va ria bl e

se mu ltip lic an por

un

mismo n mero la med ia dicho n mero .

ari tm tic a que da mu ltip lic a d a por

Observaciones sobre la media aritmtica


1 L a med ia se pued e h alla r slo pa ra vari ab l es c u an tita tiva s . 2 L a med ia es in d ep en d ien te de la s amp litu d es de los in te rvalo s . 3 L a med ia es

muy

sensibl e

la s p u n tuac io n es

extrem as .

Si

tenemos una distr ibuci n con los sigu ientes p es os:

65 kg, 69kg , 65 kg, 72 kg, 66 kg, 75 kg, 70 k g, 110 kg.

L a med ia es

igua l

74

kg,

que

es

una med id a

de

c en traliz ac i n poco re presenta tiva de la distr i bucin.

4 L a med ia no

se

p uede

ca lcula r

si

ha y

un

interva lo

co n

una amp litu d in d etermin ad a .

xi [ 60, 63) [ 63, 66) [ 66, 69) [ 69, 72) [ 72, ) 61. 5 64. 5 67. 5 70. 5

fi 5 18 42 27 8 100

En este ca so no es posible ha lla r la med ia por que no podemos ca lcula r la marc a d e c l ase d e ltimo interva lo.

MEDIDAS DE DISPERSION

1- PLANTEAMIENTO TORICO-CONCEPTUAL:
El conocimiento de la forma de la distribucin y del respectivo promedio de una coleccin de valores de una variable, puede servir para tener una idea bastante clara de la conformacin, pero no de de la homogeneidad de cada una de los valores con respecto a la medida de tendencia central aplicada. En el caso de las variables con valores que pueden definirse en trminos de alguna escala de medida de igual intervalo, puede usarse un tipo de indicador que permite apreciar el grado de dispersin o variabilidad existente en el grupo de variantes en estudio. A estos indicadores les llamamos medidas de dispersin, por cuanto que estn referidos a la variabilidad que exhiben los valores de las observaciones, ya que si no hubiere variabilidad o dispersin en los datos inters, entonces no habra necesidad de la gran mayora de las medidas de la estadstica descriptiva. Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor representativo, las medidas de dispersin nos dicen hasta que punto estas medidas de tendencia central son representativas como sntesis de la informacin. Las medidas de dispersin cuantifican la separacin, la dispersin, la variabilidad de los valores de la distribucin respecto al valor central. Distinguimos entre medidas de dispersin absolutas, que no son comparables entre diferentes muestras y las relativas que nos permitirn comparar varias muestras.

LA DISPERSIN. Al igual que sucede con cualquier conjunto de datos, la media, la mediana y la moda slo nos revelan una parte de la informacin que necesitamos acerca de las caractersticas de los datos. Para aumentar nuestro entendimiento del patrn de los datos, debemos medir tambin su dispersin, extensin o variabilidad. La dispersin es importante porque: Proporciona informacin adicional que permite juzgar la confiabilidad de la medida de tendencia central. Si los datos se encuentran ampliamente dispersos, la posicin central es menos representativa de los datos. Ya que existen problemas caractersticos para datos ampliamente dispersos, debemos ser capaces de distinguir que presentan esa dispersin antes de abordar esos problemas. Quiz se desee comparar las dispersiones de diferentes muestras. Si no se desea tener una amplia dispersin de valores con respecto al centro de distribucin o esto presenta riesgos inaceptables, necesitamos tener habilidad de reconocerlo y evitar escoger distribuciones que tengan las dispersiones ms grandes. Pero si hay dispersin en la mayora de los datos, y debemos estar en capacidad de describirla. Ya que la dispersin ocurre frecuentemente y su grado de variabilidad es importante, cmo medimos la variabilidad de una distribucin emprica?. Vamos a considerar slo algunas medidas de dispersin absolutas: el rango, la varianza, la desviacin estndar y el coeficiente de variacin.

1.1.- EL RANGO O RECORRIDO ( R ):


Es la medida de variabilidad ms fcil de calcular. Para datos finitos o sin agrupar, el rango se define como la diferencia entre el valor ms alto (Xn Xmax.) y el mas bajo (X1 Xmin) en un conjunto de datos. Rango para datos no agrupados; R = Xmx.-Xmn = Xn-X1 Ejemplo: Se tienen las edades de cinco estudiantes universitarios de Ier ao, a saber: 18,23, 27,34 y 25., para calcular la media aritmtica (promedio de las edades, se tiene que: R = Xn-X1 ) = 34-18 = 16 aos Con datos agrupados no se saben los valores mximos y mnimos. Si no hay intervalos de clases abiertos podemos aproximar el rango mediante el uso de los lmites de clases. Se aproxima el rango tomando el limite superior de la ltima clase menos el limite inferior de la primera clase. Rango para datos agrupados; R= (lim. Sup. de la clase n lim. Inf. De la clase 1) Ejemplo: Si se toman los datos del ejemplo resuelto al construir la tabla de distribucin de frecuencia de las cuentas por cobrar de Cabreras y Asociados que fueron los siguientes: Clases 7.420 21.835 P.M. Xi fi fr fa fa 30 20 16 11 8 5 fra fra

14.628 10 0.33 10 0.13 14 0.17 19 0.10 22 0.10 25 0.17 30

0.33 1.00 0.46 0.67 0.63 0.54 0.73 0.37 0.83 0.27 1.00 0.17

21.835 36.250 29.043 4 36.250 50.665 43.458 5 50.665 65.080 57.873 3 65.080 79.495 72.288 3 79.495 93.910 86.703 5 Total XXX

30 1.00 XXX XXX XXX XXX

Leer ms: http://www.monografias.com/trabajos43/medidas-dispersion/medidasdispersion.shtml#ixzz2yahtmkNn El rango de la distribucin de frecuencias se calcula as: R= (lim. Sup. de la clase n lim. Inf. De la clase 1) = (93.910 7.420) = 86.49 Propiedades del Rango o Recorrido: El recorrido es la medida de dispersin ms sencilla de calcular e interpretar puesto que simplemente es la distancia entre los valores extremos (mximo y mnimo) en una distribucin Puesto que el recorrido se basa en los valores extremos ste tiende s ser errtico. No es extrao que en una distribucin de datos econmicos o comerciales incluya a unos pocos valores en extremo pequeos o grandes. Cuando tal cosa sucede, entonces el recorrido solamente mide la dispersin con respecto a esos valores anormales, ignorando a los dems valores de la variable. La principal desventaja del recorrido es que slo esta influenciado por los valores extremos,, puesto que no cuenta con los dems valores de la variable. Por tal razn, siempre existe el peligro de que el recorrido ofrezca una descripcin distorsionada de la dispersin. En el control de la calidad se hace un uso extenso del recorrido cuando la distribucin a utilizarse no la distorsionan y cuando el ahorro del tiempo al hacer los clculos es un factor de importancia.

1.2.- LA VARIANZA (S2 2 ):


La varianza es una medida de dispersin relativa a algn punto de referencia. Ese punto de referencia es la media aritmtica de la distribucin. Ms especficamente, la varianza es una medida de que tan cerca,

o que tan lejos estn los diferentes valores de su propia media aritmtica. Cuando ms lejos estn las Xi de su propia media aritmtica, mayor es la varianza; cuando ms cerca estn las Xi a su media menos es la varianza. Y se define y expresa matemticamente de la siguiente manera:

La varianza para datos no agrupados Dado un conjunto de observaciones, tales como X1, X2, , Xn, la varianza denotada usualmente por la letra minscula griega (sigma) elevada al cuadrado (2)y en otros casos S2 segn otros analistas, se define como: el cuadrado medio de las desviaciones con respecto a su media aritmtica" Matemticamente, se expresa como:

Ejemplo: Se tienen las edades de cinco estudiantes universitarios de Ier ao, a saber: 18,23, 25, 27, y 34. Al calcular la media aritmtica (promedio de las edades, se obtuvo 25.4 aos, encontrar la varianza de las edades de estos estudiantes: Para calcular se utiliza una tabla estadstica de trabajo de la siguiente manera: ( Xi Xi 18 23 25 27 34 Total ( Xi (18 25.5)=-7.4 (23 25.5)=-2.4 (25 25.5)=-0.4 (27 25.5)= 1.6 (34 25.5)= 8.6 xxxx (-7.4)2=54.76 (-2.4)2= 5.76 (-0.4)2= 0.16 ( 1.64)2= 2.16 ( 8.6)2 =73.96 137.20

Respuesta: la varianza de las edades es de 27.4 aos

La varianza para datos agrupados Si en una tabla de distribucin de frecuencias. Los puntos medios de las clases son X1, X2, , Xn; y las frecuencias de las clases f1, f2, , fn; la varianza se calcula as: (Xi2 = ---------------fi Sin embargo la formula anterior tiene algn inconveniente para su uso en la practica, sobre todo cuando se trabaja con nmeros decimales o cuando la media aritmtica es un nmero entero. Asimismo cuando se trabaja con mquinas calculadoras, La tarea de computar la varianza se simplifica utilizando la formula de computacin que se da a continuacin: Xi2fi - [(Xifi)2/N] 2 = ---------------------------N donde N=fi Ejemplo: Se tienen los datos de una muestra de 30 cuentas por cobrar de la tienda Cabreras y Asociados dispuestos en una tabla de distribucin de frecuencias, a partir de los cuales se deber calcular la varianza, para lo cual se construye la siguiente tabla estadstica de trabajo, si se calcul anteriormente la media aritmtica y se fij en 43.458 (ver ejemplo del calculo en "media aritmtica para datos agrupados) de la siguiente manera clases 7.420 21.835 21.835 36.250 36.250 50.665 50.665 65.080 65.080 79.495 79.495 93.910 Total Punto medios Xi 14.628 29.043 43.458 57.873 72.288 86.703 XXX fi 10 4 5 3 3 5 30 Xi2 213.978 843,496 1,888.598 3,349.284 5,225.555 7,533.025 19,053.936 Xifi 146.280 116.172 217.270 173.619 216.864 433.965 1,304.190 X2fi 2,139.780 3,373.984 9,442.990 10,047.852 15,676.665 37,665.125 78,346.396

= 21,649.344 / 30 = 721.645 Respuesta: la varianza de las cuentas por cobrar es igual B/.721.645

Propiedades de la varianza : s siempre un valor no negativo, que puede ser igual o distinta La varianza es la medida de dispersin cuadrtica optima por ser la menor de todas. Si a todos los valores de la variable se le suma una constante la varianza no se modifica. Vemoslo:

Si a xi le sumamos una constante xi = xi + k tendremos (sabiendo que

Si todos los valores de la variable se multiplican por una constante la varianza queda multiplicada por el cuadrado de dicha constante. Vemoslo: Si a xi = xi k tendremos (sabiendo que )

Si en una distribucin obtenemos una serie de subconjuntos disjuntos, la varianza de la distribucin inicial se relaciona con la varianza de cada uno de los subconjuntos mediante la expresin

Siendo Ni el n de elementos del subconjunto (i) S2i la varianza del subconjunto (i)

1.3.- LA DESVIACIN ESTNDAR (S )


Es una medida de la cantidad tpica en la que los valores del conjunto de datos difieren de la media. Es la medida de dispersin ms utilizada, se le llama tambin desviacin tpica. La desviacin estndar siempre se calcula con respecto a la media y es un mnimo cuando se estima con respecto a este valor. Se calcula de forma sencilla, si se conoce la varianza, por cuanto que es la raz cuadrada positiva de esta. A la desviacin se le representa por la letra minscula griega "sigma" ( ) por la letra S mayscula, segn otros analistas. Clculo de la Desviacin Estndar = 2 S = S2 Ejemplo: Del calculo de la varianza de las edades de cinco estudiantes universitarios de primer ao se obtuvo 2=27.44, como la desviacin estndar es la raz cuadrada positiva, entonces = 27.44 = 5.29 aos. Igual procedimiento se aplica para encontrar le desviacin estndar de las cuentas por cobrar de la Tienda Cabreras y Asociados, recordemos que la varianza obte nida fue de 721.645, luego entonces la desviacin estndar es igual a =721.645 = 26.86 balboas. Propiedades de la Desviacin Estndar A su vez la desviacin estndar, tambin tiene una serie de propiedades que se deducen fcilmente de las de la varianza (ya que la desviacin tpica es la raz cuadrada positiva de la varianza): La desviacin estndar es siempre un valor no negativo S ser siempre 0 por definicin. Cuando S = 0 X = xi (para todo i). Es la medida de dispersin ptima por ser la ms pequea. La desviacin estndar toma en cuenta las desviaciones de todos los valores de la variable Si a todos los valores de la variable se le suma una misma constante la desviacin estndar no vara.

Si a todos los valores de la variable se multiplican por una misma constante, la desviacin estndar queda multiplicada por el valor absoluto de dicha constante.

1.4.- El Coeficiente de Variacin de Pearson (C.V.)


Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor representativo, las medidas de dispersin nos dicen hasta que punto estas medidas de tendencia central son representativas como sntesis de la informacin. Las medidas de dispersin cuantifican la separacin, la dispersin, la variabilidad de los valores de la distribucin respecto al valor central. Distinguimos entre medidas de dispersin absolutas, que no son comparables entre diferentes muestras y las relativas que nos permitirn comparar varias muestras. El problema de las medidas de dispersin absolutas es que normalmente son un indicador que nos da problemas a la hora de comparar. Comparar muestras de variables que entre s no tienen cantidades en las mismas unidades, de ah que en ocasiones se recurra a medidas de dispersin relativas. Un problema que se plantea, tanto la varianza como la desviacin estndar, especialmente a efectos de comparaciones entre distribuciones, es el de la dependencia respecto a las unidades de medida de la variable. Cuando se quiere comparar el grado de dispersin de dos distribuciones que no vienen dadas en las mismas unidades o que las medias no son iguales se utiliza el llamado "Coeficiente de Variacin de Pearson", del que se demuestra que nos da un nmero independiente de las unidades de medidas empleadas, por lo que entre dos distribuciones dadas diremos que posee menor dispersin aquella cuyo coeficiente de variacin sea menor., y que se define como la relacin por cociente entre la desviacin estndar y la media aritmtica; o en otras palabras es la desviacin estndar expresada como porcentaje de la media aritmtica. Definicin del Coeficiente de Variacin

Donde: C.V. representa el nmero de veces que la desviacin tpica contiene a la media aritmtica y por lo tanto cuanto mayor es CV mayor es la dispersin y menor la representatividad de la media. Propiedades del Coeficiente de Variacin : Si a todos los valores de la variable se le suma una misma constante el coeficiente de variacin queda alterado . Ejemplo: Suponga que Usted trabaja en una compaa de ventas, que ofrece como premio de incentivo al mejor vendedor del trimestre anterior las entradas al palco empresarial en la serie final de bisbol de las grandes ligas en los Estados Unidos (E,E,U,A,). De los registros de ventas se tienen los siguientes datos de ventas, expresados en porcentajes de cumplimiento de las metas fijadas mensualmente: Vendedor A 95 105 100 Vendedor B 100 90 110 El promedio trimestral de cumplimiento de las metas de ventas de ambos vendedores es igual y equivale al 100%, pero Ud. Slo le puede dar el premio de incentivo a uno de ellos. Cul usted escogera?. En base a que criterio. Explique. Este problema se resuelve utilizando el coeficiente de variacin, para estos efectos es necesario encontrar la desviacin estndar trimestral de las ventas de cada uno de la siguiente manera: Vendedor A Xi 95 105 100 ( Xi 95 100 = -5 105 100 = 5 ( Xi )2 (-5)2 = 25 ( 5)2 = 25

100 100 = 0 ( 0)2 = 0

Total

XXX

50

La desviacin estndar es =(50/3) = 16.667 = 4.08, luego entonces el coeficiente de variacin es igual a: 4.08 C.VA= --------- = ----------- = 0.0408 Vendedor B Xi 100 90 110 Total ( Xi 100 100 = 0 90 100 = -10 110 100 = 10 XXX ( Xi ( 0 )2 = 0 (-10)2 = 100 ( 10)2 = 100 200

La desviacin estndar es =(200/3) = 66.667 = 8.16, luego entonces el coeficiente de variacin es igual a:

Respuesta: Dado que el vendedor A tiene menor coeficiente de variacin, A l le corresponde recibir el premio de incentivo.

Leer ms: http://www.monografias.com/trabajos43/medidas-dispersion/medidasdispersion2.shtml#ixzz2yai3gGz5 DISTRIBUCION DE FRECUENCIAS

Una distribucin

de

frecuencias o tabla

de

frecuencias es

una ordenacin en forma de tabla de los d atos estad sticos , asignando a cada dato su frecuencia correspondiente .

Tipos de frecuencia
Frecuencia absoluta

La frecuencia

ab solu ta es

el nmero

de

veces que

apa rece

un

determinado valor en un estudio estadstico.

Se representa por f i .

La suma de las frecu encias absolutas es igual a l nmero total de datos, que se representa por N .

Para

indica r

resumidamente

estas

sumas

se

utiliza

la

letra

griega (sigma mayscula) que se lee suma o sumatoria.

Frecuencia relativa

La frecuencia relativa es el cociente entre la f recuencia abso luta de un determinado valor y el nmero total d e datos .

Se puede expresa r en tantos por ciento y se representa por n i .

La suma de las frecuencias relativas es igua l a 1.

Frecuencia acumulada

La frecuencia

acumulada es

la suma

de

las

frecuencias

absolutas de todos los valo res inferio res o ig uales a l valo r considerado.

Se representa por F i .

Frecuencia relativa acumulada

La frecuencia relativa acumulada es el cociente entre la frecuencia acumulad a de un determinado valor y el nmero to tal de d atos . Se puede expresar en tantos por ciento.

Ejemplo

Durante el mes de julio, en una ciudad se han registrado las siguientes temperaturas mximas:

32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29, 29.

En la primera columna de la ta bla colocamos la variable ordenada de menor a mayor, en la segunda hacemos el recuento y en la tercera anotamos la frecuencia absoluta.

xi

Recuento

fi

Fi

ni

Ni

27

0.032

0.032

28

II

0.065

0.097

29

0.194

0.290

30

16

0.226

0.516

31

24

0.258

0.774

32

III

27

0.097

0.871

33

III

30

0.097

0.968

34

31

0.032

31

Este tipo de tablas de frecuencias se utiliza con variables disc retas .

Distribucin de frecuencias agrupadas


La distribucin agrupados se emplea de si frecuencias agrupadas o tabla un nmero con datos de

las variables toman

grande

valo res o la variable es continua .

Se agrupan los valores en in tervalos que amplitud denominados clases . correspondiente . A cada clase se le

tengan asigna

la misma su frecuencia

Lmites de la clase

Cada clase est delimitada por el lmite superio r de la clase .

el lmite

in ferio r

de

la

clase y

Amplitud de la clase

La amplitud de la clase es la diferencia entre el lmite superior e inferior de la clase .

Marca de clase

La marca el valor que

de

clase es a

el punto todo

medio de

cada intervalo y

es

representa

el intervalo para

el clculo de

algunos parmetro s .

Construccin de una tabla de datos agrupados


3, 15, 24, 28, 33, 35, 38, 42, 43, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13.

1 se loca lizan los va lores menor y mayor de la distribucin. En este caso son 3 y 48.

2 Se restan y se busca un nmero entero un poco mayor que la diferencia y que sea divisible por el nmero de interva los de queramos poner.

Es conveniente que el nmero de intervalos oscile entre 6 y 15.

En este caso, 48 - 3 = 45, incrementamos el nmero hasta 50 : 5 = 10 interva los.

Se forman los intervalos teniendo presente que el lmite inferi or de una clase pertenece al intervalo, pero el lmite superior no pertenece intervalo, se cuenta en el siguiente interva lo.

ci

fi

Fi

ni

Ni

[0, 5)

2.5

0.025

0.025

[5, 10)

7.5

0.025

0.050

[10, 15)

12. 5

0.075

0.125

[15, 20)

17. 5

0.075

0.200

[20, 25)

22. 5

11

0.075

0.2775

[25, 30)

27. 5

17

0.150

0.425

[30, 35)

32. 5

24

0.175

0.600

[35, 40)

37. 5

10

34

0.250

0.850

[40, 45)

42. 5

38

0.100

0.950

[45, 50)

47. 5

40

0.050

40

DISTRIBUCION DE FRECUENCIAS
Ejercicio 6
La s ca lificaciones de 50 a lumnos en Matem ticas han sido la s siguientes:

5, 2, 4, 9, 7, 4, 5, 6, 5, 7, 7, 5, 5, 2, 10, 5, 6, 5, 4, 5, 8, 8, 4, 0, 8, 4, 8, 6, 6, 3, 6, 7, 6, 6, 7, 6, 7, 3, 5, 6, 9, 6, 1, 4, 6, 3, 5, 5, 6, 7.

C onstruir la tab la d e d istribuc in d e frecu enc ias y dibuja el d iag rama d e b arras .

xi

fi

Fi

ni

Ni

0. 02

0. 02

0. 02

0. 04

0. 04

0. 08

0. 06

0. 14

13

0. 12

0. 26

11

24

0. 22

0. 48

12

36

0. 24

0. 72

43

0. 14

0. 86

47

0. 08

0. 94

49

0. 04

0. 98

10

50

0. 02

1. 00

50

1. 00

Di agrama de b arras

Ejemplo: Quieren conocer si un grupo de individuos est a favor o en contra de la exhibicin de imgenes violentas por televisin, para lo cual han recogido los siguientes datos:

La inspeccin de los datos originales no permite responder fcilmente a cuestiones como cul es la actitud mayoritaria del grupo, y resulta bastante ms difcil determinar la magnitud de la diferencia de actitud entre hombres y mujeres.

Podemos hacernos mejor idea si disponemos en una tabla los valores de la variable acompaados del nmero de veces (la frecuencia) que aparece cada valor:

X: Smbolo genrico de la variable. f: Frecuencia (tambin se simboliza como ni). La distribucin de frecuencias de los datos del ejemplo muestra que la actitud mayoritaria de los individuos del grupo estudiado es indiferente. La interpretacin de los datos ha sido facilitada porque se ha reducido el nmero de nmeros a examinar (en vez de los 20 datos originales, la tabla contiene 5 valores de la variable y 5 frecuencias). Generalmente las tablas incluyen varas columnas con las frecuencias relativas (son el nmero de ocurrencias dividido por el total de datos, y se simbolizan "fr" o "pi"), frecuencias acumuladas (la frecuencia acumulada es el total de frecuencias de los valores iguales o inferiores al de referencia, y se simbolizan "fa" o "na". No obstante la frecuencia acumulada tambin es definida incluyendo al valor de referencia), frecuencias acumuladas relativas (la frecuencia acumulada relativa es el total de frecuencias relativas de los valores iguales o inferiores al de referencia, y se simbolizan "fr" o "pa") Ejemplo: Consideremos el siguiente grupo de datos:

La distribucin de freciemcias es:

La reduccin de datos mediante el agrupamiento en frecuencias no facilita su interpretacin: La tabla es demasiado grande. Para reducir el tamao de la tabla agrupamos los valores en intervalos, y las frecuencias son las de los conjuntos de valores incluidos en los intervalos:

Ahora es ms sencillo interpretar los datos. Por ejemplo, podemos apreciar inmediatamente que el intervalo con mayor nmero de datos es el 34-39, o que el 75% de los datos tiene valor inferior a 46. Este tipo de tabla es denominado "tabla de datos agrupados en intervalos". Elementos bsicos de las tablas de intervalos:

Intervalo: Cada uno de los grupos de valores de la variable que ocupan una fila en una distribucin de frecuencias Lmites aparentes: Valores mayor y menor del intervalo que son observados en la tabla. Dependen de la precisin del instrumento de medida. En el ejemplo, los lmites aparentes del intervalo con mayor nmero de frecuencias son 34 y 39. Lmites exactos: Valores mximo y mnimo del intervalo que podran medirse si se contara con un instrumento de precisin perfecta. En el intervalo 34-39, estos lmites son 33.5 y 39.5 Punto medio del intervalo (Mco Marca de clase): Suma de los lmites dividido por dos. Mc del intervalo del ejemplo= 36.5 Amplitud del intervalo: Diferencia entre el lmite exacto superior y el lmite exacto inferior. En el ejemplo es igual a 6.

ANALISIS BIVARIADO

Regresin Lineal Multiple Regresin Logit y Probit Anlisis Manova

EJEMPLO DE ANOVA
Ejemplo 1
Se quiere evaluar la eficacia de distintas dosis de un frmaco contra la hipertensin arterial, comparndola con la de una dieta sin sal. Para ello se seleccionan al azar 25 hipertensos y se distribuyen aleatoriamente en 5 grupos. Al primero de ellos no se le suministra ningn tratamiento, al segundo una dieta con un contenido pobre en sal, al tercero una dieta sin sal, al cuarto el frmaco a una dosis determinada y al quinto el mismo frmaco a otra dosis. Las presiones arteriales sistlicas de los 25 sujetos al finalizar los tratamientos son: Grupo 3 163 170 158 162 170

1 180 173 175 182 181 La tabla de anova es: Fuente de variacin Tratamiento Error Total

2 172 158 167 160 175

4 158 146 160 171 155

5 147 152 143 155 160

GL 4 20 24

SS 2010,64 894,4 2905,04

MS 502,66 44,72

F 11,24

Como F0,05(4,20) =2,87 y 11,24>2,87 rechazamos la hiptesis nula y concluimos que los resultados de los tratamientos son diferentes. Nota: Para hacerlo con un paquete estadstico, p.e. el SPSS, deberamos crear un archivo con 2 variables: Trata (con un cdigo distinto para cada grupo, p.e. de 1 a 5) y Presion con la presin arterial de cada individuo al acabar el estudio. Para calcular el Anova desplegamos los mens que se ven en la grfica:

La tabla de anova que devuelve el programa es

CORRELACION
Una compa a desea hacer predicciones del va lor anua l de sus venta s tota les en cierto pa s a pa rtir de la rela cin de sta s y la renta naciona l. Para investiga r la relacin cuenta con los siguientes da tos:

189

190

208

227

239

252

257

274

293

308

316

402

404

412

425

429

436

440

447

458

469

469

X representa la renta na ciona l en millones de euros e Y representa las ventas de la compa a en miles de euros en el periodo que va desde 1990 hasta 2000 (a mbos inclusive). Ca lcula r:
1 2 3

La rec ta d e reg resin de Y sobre X . E l co efic ien te d e co rrelac in lin eal e interpretarlo. S i en 2001 la renta naciona l del pa s fue de 325 millones de euros. C u l ser la

prediccin pa ra la s venta s de la compa a en este a o? So lu c in 2 La informacin esta dstica obtenida de una muestra de ta mao 12 sobre la rela cin existente entre la inversin rea liza da y el rendimiento obtenido en cientos de miles de euros pa ra explotaciones a grcolas, se muestra en el siguiente cua dro:

Inversin (X)

1 1

1 4

1 6

1 5

1 6

1 8

2 0

2 1

1 4

2 0

1 9

1 1

Rendimient o (Y)

1 0

1 0

Ca lcula r:
1 2

La rec ta d e reg resin del rendimiento respecto de la inversin. La previsin de inversin que se obtendr con un rendimiento de 1 250 000 . So lu c in 3 El nmero de horas dedica da s al estudio de una asigna tura y la

ca lifica cin obtenida en el exa men correspondiente, de ocho personas es:

Horas (X)

20

16

34

23

27

32

18

22

Calificacin (Y)

6.5

8.5

9.5

7.5

S e pide:
1 2

Recta de regresin de Y sobre X . Ca lifica cin estima da pa ra una persona que hubiese estudia do 28 horas. So lu c in

4 En la ta bla siguiente se indica la eda d (en aos) y la conducta a gresiva (medida en una esca la de cero a 10) de 10 nios.

Edad

6.7

7.4

7.9

8.2

8.5

8.9

Conducta agresiva
1 2

Obtener la rec ta d e reg resi n de la conducta a gresiva en funcin de la eda d. A pa rtir de dicha recta , obtener el va lor de la conducta a gresiva que

correspondera a un nio de 7.2 a os. So lu c in 5 L os va lores de dos va ria bles X e Y se distribuyen segn la ta bla siguiente:

Y/X

100

50

25

14

18

22

S e pide:
1 2 3

Ca lcula r la co varianza . Obtener e interpreta r el coeficiente de co rrelac in lin eal . Ecuacin de la rec ta de reg resin de Y sobre X. So lu c in 6 La s puntuaciones obtenidas por un grupo de a lumnos en una ba tera de test que mide la ha bilida d verba l (X) y el ra zonamiento a bstracto (Y ) son las siguientes:

22>Y/X

22>20

22>30

22>40

22>50

22>(25-35)

22>(35-45)

22>(45-55)

22>(55-65)

S e pide:
1 2

Existe co rrelacin entre amba s va ria bles? S egn los da tos de la ta bla, si uno de estos alumnos obtiene una puntua cin de

70 puntos en ra zona miento abstracto, en cunto se estima r su ha bilida d verba l? So lu c in 7 S e sa be que entre el consumo de pa pel y el nmero de litros de a gua por metro cua dra do que se recogen en una ciudad no existe rela cin.
1 2 3

Cu l es el va lor de la c ovarian za de esta s varia bles? Cu nto va le el coeficiente de co rrelac in lineal ? Qu ecua ciones tienen las dos rec tas d e reg resin y cu l es su posicin en el

pla no? So lu c in 8 En una empresa de tra nsportes tra ba ja n cua tro conductores. L os aos de a ntigedad de permisos de conducir y el nmero de infracciones cometidas en el ltimo ao por cada uno de ellos son los siguientes:

Aos (X)

Infracciones (Y)

Ca lcula r el c oefic ien te d e co rrelac in lin eal e interpreta rlo. So lu c in

9 Una persona rellena sema na lmente una quiniela y un boleto de lotera primitiva anotando el nmero de a ciertos que tiene. D urante las sema na s del mes de febrero, los a ciertos fueron: cuatro

Quiniela (X)

Primitiva (Y)

Obtener el co efic iente d e co rrelac in lin eal e interpreta rlo. Ofreceran confianza la s previsiones hechas con las rectas de regresin?

También podría gustarte