Está en la página 1de 137

Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS

Profesora: Vernica Herrero


- 1 -
MODULO 1

1.- INTRODUCCIN AL ANLISIS DE DATOS
CUANTITATIVOS

Bibliografa bsica:

Aaron y Aaron (2001). Captulos 1 y 2.

Blalock (1978). Captulos II, III, IV, V, VI y IX.



1. INTRODUCCIN AL ANLISIS DE DATOS

1.1. Repaso de los niveles de medicin: nominal, ordinal, las escalas
mtricas.

Recordaremos en primer algunos conceptos elementales del manejo de datos en
investigacin.
El primer concepto elemental es la operacionalizacin o definicin operativa de
variables. Este proceso consiste en el paso de aquellas ideas definidas de manera
terica basadas en la conceptualizacin del fenmeno, a los descriptores que
efectivamente darn cuenta de la condicin de inters en trminos manejables en el
anlisis.
Medir en el contexto de las Ciencias Sociales excede la cuantificacin de alguna
caracterstica fsica propia de las Ciencias Naturales. En las Ciencias Sociales, medir
corresponde a un proceso ms complejo relacionado con diferentes niveles de
medicin propios de cada tipo de aspecto a considerar (o variable, en trminos ms
tcnicos).
Vamos a considerar las particularidades de cuatro escalas:
Nominal
Ordinal
De Intervalo
De razn
La escala Nominal surge de la operacin bsica en ciencias: la clasificacin. En
cualquier tipo de problema o fenmeno es necesario agrupar elementos en categoras
homogneas, justamente lo que denominamos clasificar. Las categoras que surgen
de clasificar poseen nombres arbitrarios y tales nombres no implican ningn tipo de
relaciones entre s. Las categoras al clasificar deben ser exhaustivas, esto es,
comprender todas las situaciones o los casos posibles, y deben ser mutuamente


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 2 -
excluyentes, lo cual implica que las categoras no deben superponerse entre s, es
decir, que ningn caso figure o corresponda a ms de una categora.
Veamos un ejemplo:
En las encuestas sobre problemticas laborales, se suelen clasificar a los encuestados
de acuerdo con su condicin de actividad econmica, lo cual se logra considerando de
manera conjunta una serie de aspectos vinculados con su actividad laboral y sus
comportamientos. Las categoras que se obtienen son:
Variable: Condicin de actividad econmica
Categoras: Ocupado, Desocupado e Inactivo
Las definiciones usuales que permiten generar la clasificacin implcita en esta
categorizacin de los encuestados hacen referencia a la siguiente convencin:
Ocupado: individuo que posee un empleo (en trminos operativos, es ocupado
si en la semana anterior al relevamiento, realiz algn trabajo pago al menos
una hora, sin importar la ndole del trabajo ni la condicin de contratacin)
Desocupado: individuo que no posee empleo y que realiz una bsqueda
activa de empleo en el perodo de referencia.
Inactivo: individuo que no realiz ningn trabajo en el perodo de referencia y
no busc trabajo activamente.

Figura 1: Condicin de actividad econmica

Fuente. Elaboracin propia


Veamos que esta variable expresada en una escala nominal cumple las condiciones
mencionadas (ver la Figura 1):


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 3 -
(a) Las categoras no tienen ninguna relacin entre s: estar desocupado no es mayor
ni menor que estar inactivo, y viceversa, as como las dems relaciones entre
categoras.
(b) Las categoras son exhaustivas: cualquier individuo encuestado puede clasificarse
en alguna de las categoras.
(c) Las categoras son mutuamente excluyentes: ningn individuo corresponde a ms
de una categora.

En virtud de la necesidad de sistematizar los datos o por requisitos del software
estadstico para procesamiento de datos, es usual asignar nmeros a las categoras.
Tal asignacin es totalmente arbitraria y no implica que puedan realizarse operaciones
matemticas entre tales valores.
Siguiendo con el ejemplo:
Podramos codificar la variable de inters a los fines de simplificar la carga en una
base de datos, resultando la siguiente asignacin:
Variable: Condicin de actividad econmica
Categoras:
Cdigo Valor
1 Ocupado
2 Desocupado
3 Inactivo

En algunos casos, tras la clasificacin, surgen categoras que tienen implcita una
relacin de orden o jerarqua entre s. Tales relaciones sealan una relacin o el grado
de intensidad en que se posee una caracterstica en cierta dimensin. Las escalas que
corresponden a estas situaciones se denominan ordinales. Las escalas ordinales
permiten no slo clasificar sino tambin jerarquizar. Por tanto, las propiedades de las
escalas nominales estn contenidas en las escalas ordinales.
En las escalas ordinales, no se dispone de referencias acerca de la magnitud de las
diferencias entre elementos.

Ilustraremos este concepto a travs de un ejemplo:

Una caracterstica bsica para analizar las opiniones y los comportamientos
corresponde al nivel educativo alcanzado. Podemos considerar que el nivel ms alto al
que lleg un individuo estar asociado no slo con saberes formales sino tambin con
sus actitudes y su posicin ante diversos fenmenos sociales de inters. Una forma en
la que se suele operacionalizar se presenta a continuacin.




Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 4 -

Variable: Mximo nivel educativo alcanzado
Categoras:
Cdigo Valor
1 Sin instruccin
2 Nivel primario incompleto
3 Nivel primario completo
4 Nivel secundario incompleto
5 Nivel secundario completo
6 Nivel superior incompleto
7 Nivel superior completo

Cuando podemos cuantificar la medida de la distancia entre dos elementos en la
caracterstica considerada, trabajamos con escalas de intervalo. Por lo tanto, estar en
juego alguna unidad de medida en la se expresa la magnitud de inters.
Una propiedad importante de este tipo de escala es que los diferentes valores resultan
sumables.
Si adems de poder considerar las distancias, en la escala en cuestin existe un cero
absoluto, es decir, un cero no arbitrario, que efectivamente indique la ausencia de la
magnitud considerada, la escala se denomina escala de razn. En este ultimo tipo de
escala, es posible considerar el cociente entre dos valores.
Existe una tendencia entre los especialistas a no diferenciar estos dos tipos de
escalas, ya que se argumenta que es bastante raro trabajar con escalas de intervalo
que no sean adems escalas de razn.

Ilustraremos estas dos ltimas escalas a travs de ejemplos:
Un claro ejemplo de una escala de intervalo (por otra parte, un ejemplo recurrente a
falta de otros casos de uso prctico) es la escala con la que se mida la temperatura. En
nuestro medio es habitual el uso de los grados Celsius. Veamos de qu se trata esta
escala y cmo se computa la analoga para las otras escalas convencionales:
El grado Celsius (denotado C) es la unidad de la escala de temperatura creada por
Anders Celsius.
La escala de Celsius es muy utilizada para expresar las temperaturas de uso cotidiano,
por ejemplo, en el reporte del clima. La escala Celsius es una escala de temperatura
que asigna el valor cero (0C) al hielo fundindose,y el valor cien (100C) a la ebullicin
del agua en las condiciones estndar de presin. Claramente en esta escala, la eleccin
del valor 0 es arbitraria.
Las otras escalas de amplia utilizacin son las de Fahrenheit y Kelvin. Veamos cmo se
construye la equivalencia entre tales medidas:


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 5 -
Tabla 1: Temperaturas de fusin y ebullicin del agua a 1 atm de presin atmosfrica
Fusin Ebullicin
Escala Kelvin 273,15 K 373,15 K
Escala Celsius 0 C 100 C
Escala Fahrenheit 32 F 272 F

En el caso de las variables medidas en escalas de razn, en este caso, de amplia
aplicacin para toda caractersticas que admita una cuantificacin, podemos citar
como ejemplo, el nmero de aos de escolaridad formal que una persona complet.
As, obtendramos respuestas, generalmente en el intervalo: [0, 23], de acuerdo con
los niveles que curs y los aos de cada tipo de estudios realizados:
Tabla 2: Aos de escolaridad
Aos de escolaridad
Sin estudios 0
Primaria incompleta 1 a 6
Primaria completa 7
Secundaria incompleta 7 a 11
Secundaria completa 12
Superior incompleto 12 a 16
Superior completo (terciario o universitario) 15 a 18
Posgrado incompleto 16 a 22
Posgrado completo 16 a 23


1.2. Tipologas, ndices, proporcin y escalas

Cuando clasificamos a los individuos u objetos de estudio en funcin de alguna
caracterstica, y asignamos categoras que cumplen con las condiciones de ser
mutuamente excluyentes y exhaustivas, utilizamos proporciones, para reflejar cuntos
del total estudiado se ubican en cada una de las categoras.

Supongamos que clasificamos al total de individuos N en tres categoras en relacin
con cierto aspecto de inters. Los individuos que fueron clasificados con la categora 1
son N
1
, los que se clasificaron con la categora 2 y 3, son N
2
y N
3
, respectivamente.
Tenemos entonces:

(1) N
1
+ N
2
+ N
3
= N




Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 6 -
3 1 2
N N N N
(2) + + = 1
N N N N
=

Cada uno de los trminos del lado izquierdo de la ecuacin se denomina proporcin.

Veamos un ejemplo:
En una encuesta a personas de 18 aos y ms se les consult acerca de la religin que
profesaban. La siguiente tabla exhibe las proporciones que se obtuvieron para cada
una de las categoras detectadas para la variable religin:
Tabla 3: Proporciones de encuestados por religin profesada
Proporcin
Catlico 0,72
Evangelista 0,12
Ateo 0,09
Judo 0,04
Musulmn 0,02
Agnstico 0,01

Es habitual expresar las proporciones en trminos porcentuales, para facilitar su
lectura e interpretacin. Para calcular estos porcentajes, simplemente se multiplican
las proporciones por 100. En el ejemplo anterior, simplemente diramos que el 72% de
la encuesta indic que profesaba la religin catlica, un 12% una religin evangelista,
y as sucesivamente.

Otra forma en la que se suelen calcular indicadores usuales, es a travs de razones.
Una razn es el cociente de un nmero respecto de otro. En este caso, se comparan
dos categoras entre s.

Una razn muy utilizada en diferentes estudios socio-demogrficos es la razn de
masculinidad. Este indicador consiste en calcular el cociente entre varones y mujeres
de cierta muestra o poblacin, y multiplicarlo por 100. La siguiente tabla muestra la
razn de masculinidad para las provincias argentinas al momento del ltimo Censo de
poblacin.
Tabla 4: Poblacin total por sexo, razn de masculinidad y densidad de poblacin,
segn provincia. Total del pas. Ao 2001
Provincia Total Sexo Razn de
masculinidad
(1)
Varones Mujeres

Total 36.260.130 17.659.072 18.601.058 94,9

Ciudad de Buenos Aires 2.776.138 1.258.458 1.517.680 82,9
Buenos Aires 13.827.203 6.725.879 7.101.324 94,7


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 7 -
Provincia Total Sexo Razn de
masculinidad
(1)
Varones Mujeres
Partidos del Gran Buenos Aires 8.684.437 4.213.697 4.470.740 94,3
Resto Buenos Aires 5.142.766 2.512.182 2.630.584 95,5
Catamarca 334.568 166.544 168.024 99,1
Chaco 984.446 491.148 493.298 99,6
Chubut 413.237 207.053 206.184 100,4
Crdoba 3.066.801 1.489.403 1.577.398 94,4
Corrientes 930.991 459.458 471.533 97,4
Entre Ros 1.158.147 568.275 589.872 96,3
Formosa 486.559 244.160 242.399 100,7
Jujuy 611.888 301.508 310.380 97,1
La Pampa 299.294 149.169 150.125 99,4
La Rioja 289.983 144.894 145.089 99,9
Mendoza 1.579.651 769.265 810.386 94,9
Misiones 965.522 484.323 481.199 100,6
Neuqun 474.155 236.266 237.889 99,3
Ro Negro 552.822 274.671 278.151 98,7
Salta 1.079.051 534.140 544.911 98,0
San Juan 620.023 302.532 317.491 95,3
San Luis 367.933 183.411 184.522 99,4
Santa Cruz 196.958 100.479 96.479 104,1
Santa Fe 3.000.701 1.455.837 1.544.864 94,2
Santiago del Estero 804.457 402.961 401.496 100,4
Tierra del Fuego, Antrtida
Argentina e Islas del Atlntico Sur
101.079 51.696 49.383 104,7
Tucumn 1.338.523 657.542 680.981 96,6
Fuente: INDEC, Censo Nacional de Poblacin, Hogares y Viviendas 2001. Insitituto
Geogrfico Militar (IGM).

Frecuencias

Para analizar un conjunto de datos, la primera observacin que debemos realizar se
vincula con las categoras que aparecen y su importancia relativa. Para medir tal
importancia relativa, consideramos la cantidad de veces que se repite una
determinada categora en el conjunto de datos. Este nmero de veces que se repite la
categora se denomina frecuencia. En particular, dado que simplemente estamos
considerando un conteo lo referenciamos como frecuencia relativa. Si adems,
indicamos cunto representa ese conteo respecto del total de observaciones del
conjunto de datos, decimos que se trata de una frecuencia absoluta.

Este tipo de informacin podemos analizarla para variables medidas en cualquiera de
los niveles de medicin.

La siguiente tabla de frecuencia se refiere a la frecuencia de los hogares registrados en
el Censo de Poblacin y vivienda del ao 2001, segn si poseen o no algn tipo de
privacin (Nota: el ndice de Privacin Material de los Hogares (IPMH) es una variable
que identifica a los hogares segn su situacin respecto a la privacin material en
cuanto a dos dimensiones: recursos corrientes y patrimonial. La dimensin patrimonial
se mide a travs del indicador de Condiciones Habitacionales, que establece que los


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 8 -
hogares que habitan en una vivienda con pisos o techos de materiales insuficientes o
sin inodoro con descarga de agua presentan privacin patrimonial. La dimensin de
recursos corrientes se mide a travs del indicador de Capacidad Econmica, mediante
el cual se determina si los hogares pueden adquirir los bienes y servicios bsicos para
la subsistencia. Este indicador se construye a partir de la relacin entre la cantidad de
ocupados y/o jubilados del hogar y la cantidad total de sus integrantes. En dicho
clculo se consideran algunas caractersticas de los integrantes del hogar, tales como:
los aos de escolaridad formal aprobados, el sexo, la edad y el lugar de residencia. La
combinacin de estas dimensiones define cuatro grupos de hogares: sin ningn tipo de
privacin, con privacin slo de recursos corrientes, con privacin slo patrimonial y
con privacin convergente (cuando se presentan ambas privaciones
simultneamente):
Tabla 5: Hogares segn ndice de Privacin Material de los Hogares
Categoras Frecuencia
absoluta
Frecuencia
relativa
Privacin de recursos corrientes
nicamente
1.667.676
0,166
Privacin patrimonial nicamente
980.524
0,097
Privacin convergente
1.303.243
0,129
Sin privacin
6.124.371
0,608
Total
10.075.814
1
Fuente: INDEC, Censo Nacional de Poblacin, Hogares y Viviendas 2001.

El caso descripto corresponde a una variable medida en una escala nominal. Las
tablas de frecuencia pueden elaborarse de la misma manera para escalas ordinales,
intervalares y de razn.

Veamos un ejemplo para una variable medida en una escala de razn, el nmero de
hijos tenidos (en una muestra de mujeres analizada en el trabajo citado):
Tabla 6: Mujeres segn cantidad de hijos tenidos
Cantidad de hijos Frecuencia
absoluta
Frecuencia
relativa
0 5 0,096
1 13 0,250
2 12 0,231
3 13 0,250
4
7
0,135
5
2
0,038
Total
52
1


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 9 -
Fuente: Coronel Burgos, Virina. Comportamiento reproductivo. En publicacin: Mujer
y movilidad transfronteriza. Insercin laboral y comportamiento reproductivo. El caso
de Alberdi-Formosa. Diciembre. 1999.


1.3. Medidas estadsticas descriptivas: media, varianza, desviacin
estndar, coeficiente de variacin

En muchas ocasiones necesitamos disponer de una nica medida o nmero que
resuma toda la informacin provista por un conjunto de datos. Este tipo de medida se
denomina medida de tendencia central o de posicin
1
, e indica un valor de referencia
que da una idea del valor general de la variable analizada para todos los datos de
inters. La manera en que se comprensa esa idea de general dar lugar a la decisin
sobre qu medida utilizar.

El concepto ms difundido y de mayor aplicacin es la medida denominada media
2
. La
media (o promedio) informa sobre un valor tal que si todos los individuos del conjunto
fueran iguales (extrayendo lo que a algunos les sobra respecto de esa medida de
igualdad y agregando lo que les falta a los que se encuentran por debajo de esa
media).

Para calcular la media para los datos de una poblacin
3
se utiliza la siguiente frmula:

1
N
i
i
X
N

=
=



Como la frmula permite ver, se suman todos los valores registrados para todos los
integrantes de la poblacin, y se divide en tantos casos como el nmero que integran
la poblacin (N). En el caso de trabajar con datos provenientes de una muestra, se
procede de manera anloga, y se considerar la siguiente frmula de clculo y
notacin para la media muestral, donde n es el tamao de la muestra:

1
n
i
i
x
x
n
=
=



1
Tambin se las denomina medidas de tipicidad.
2
El concepto que explicaremos corresponde a la media aritmtica. Existen otras medidas que son de
aplicacin especfica, muy tiles en algunas ocasiones, y que pueden profundizarse en la bibliografa en el
caso de se necesario aplicarlas a un problema concreto (entre ellas podemos citar: media geomtrica,
media armnica, media recortada, etc.).
3
La poblacin es el colectivo completo al cual pertenece cada unidad de estudio. Una muestra es un
subconjunto de la poblacin. En general estamos interesados en las muestras probabilsticas o como las
denominamos habitualmente, representativas, que estn seleccionadas de manera tal que se conozca
previamente la probabilidad de seleccin de cada individuo.


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 10 -


El siguiente grfico esquematiza el concepto de la media de un conjunto de datos.


Figura: Concepto de promedio

Fuente: Elaboracin propia.

La casa 2 coincide con el tamao promedio del conjunto de tres casas presentado.
Como se puede observar, este tamao es tal que si sumamos los tamaos de las tres
casas y dividimos por tres, resulta un valor tal que indica el tamao que tendran si
todas fueran iguales. Y justamente para alcanzar este valor de igualdad, debemos
agregar (o restar) al valor original de las que no son iguales al promedio, lo que les
falta (o les sobra de ese valor). En relacin con esta situacin se deriva una propiedad
muy interesante de la media: la suma de los desvos respecto de la media es igual a
cero. Veamos esta propiedad con nuestro ejemplo.


Tabla 7: Desvos respecto de la media
Casa Altura Desvo respecto
de la media
Casa 1 2 -0,5
Casa 2 2,5 0
Casa 3 3 0,5
Suma
- 0
Fuente: Elaboracin propia.

De las caractersticas mencionadas de la media se desprende que es un buen
indicador de posicin del conjunto de datos en la medida en que los diferentes datos
analizados sean bastante similares entre s. Veremos ms adelante cmo evaluar si es
cierto que los datos se parecen y es conveniente usar la media.



Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 11 -
Como alternativa (y en algunas circunstancias como complemente para una mejor
descripcin de un conjunto de datos) al uso de la media, se usan otras medidas de
posicin. Describiremos a continuacin las siguientes medidas de posicin: la
mediana, la moda y los cuantiles (percentiles, deciles, quintiles, cuartiles, etc.).

La moda es uno de los indicadores ms sencillos disponibles. Seala el valor de la
variable que se repite ms veces. Para determinarla, slo es necesario contar con una
tabla de frecuencias. Por ello, es la nica medida de tendencia central o posicin que
se puede calcular para variables medidas en escala nominal. Veamos algunos
ejemplos.

Tabla 8: Cantidad de alumnos por sexo en un examen recuperatorio
Sexo Frecuencia
Mujer 2
Varn 5
Total 7
Fuente: Elaboracin propia.

En la tabla anterior observamos que la categora de la variable que presenta mayor
frecuencia es Varn, por lo tanto este valor ser la moda.

Ahora analicemos una variable medida en escala de razn.
Tabla 9: Notas en un examen recuperatorio
Nota Frecuencia
2 1
4 3
6 1
7 2
Total 7
Fuente: Elaboracin propia.

En este caso vemos que la moda asume el valor 4, ya que esta es la nota con mayor
nmero de repeticiones o mayor frecuencia.

La mediana es la medida de posicin que mejor refleja la informacin sinttica de un
conjunto de datos, si no podemos utilizar la media. La mediana nos indica cul es el
valor de la variable analizada que divide al conjunto de datos (ordenado) en dos partes
aproximadamente iguales. Una definicin ms precisa indica que, la mediana es aquel
valor de la variable (observado o no) que deja por debajo de ella a no ms de la mitad
de las observaciones y por encima de ella a no ms de la mitad de las observaciones.


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 12 -
Los siguientes ejemplos muestran cmo determinar el valor de la mediana para
diferentes conjuntos de datos.

En un conjunto pequeo de observaciones, lo que debemos hacer en primer lugar es
ordenarlos de menor a mayor:
Conjunto original: {2, 3, 5, 2, 6, 7, 5}
Serie ordenada: {2, 2, 3, 4, 5, 7, 7}

Vemos que el valor que cumple todas las condiciones mencionadas es el 4, ya que no
ms de la mitad de los datos es menor que este valor, y no ms de la mitad es mayor a
este valor.

Como regla general, cuando observamos los datos ordenados, la mediana podr
calcularse en base a las siguientes frmulas (se debe tener en cuenta si tenemos un
nmero par o impar de datos para ver cmo seleccionar este valor que divide el
conjunto de datos en dos partes de aproximadamente la misma cantidad de
observaciones).
Cantidad impar de observaciones: Supongamos que tenemos un nmero n de
observaciones, y que denotamos a cada una de ellas como X con un subndice (el
nmero que aparece levemente por debajo a la derecha) que indica la posicin de
orden en la serie ordenada. Entonces, la mediana ser:
1
2
n
Me X
+
=


En la siguiente serie ordenada tenemos (la primera fija indica la posicin en la serie
ordenada y la segunda el valor de la variable para esa posicin):
Tabla 10:
J 1 2 3 4 5 6 7 8 9
X
j
2 3 3,5 5 7 12 18 18 20

Aplicando la frmula tendremos:
1 9 1 5
2 2
7
n
Me X X X
+ +
= = = =


Entonces, la mediana es el valor 7. Es un error muy comn creer que la mediana es el
valor del subndice, es decir la posicin en la serie ordenada: es un error decir la
mediana, en el caso del ejemplo, es 5. 5 es la posicin de la mediana en la serie
ordenada.


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 13 -

Veamos el clculo para el caso de un nmero par de observaciones. En este caso es
evidente que no podr seleccionarse un nmero central indiscutido. Por ello, se
selecciona como indicativo de la mediana al promedio de los dos nmeros ms
prximos a la posicin central de la serie ordenada de datos.
2
2 2
2
n n
X X
Me
+
+
=


En la siguiente serie ordenada tenemos (la primera fija indica la posicin en la serie
ordenada y la segunda el valor de la variable para esa posicin).
Tabla 11:
J 1 2 3 4 5 6 7 8 9 10
X
j
2 3 3,5 5 7 12 18 18 20 25

Aplicando la frmula tendremos:
2 10 10 2 10 12
5 6 2 2 2 2 2 2
7 12 19
9, 5
2 2 2 2 2 2
n n
X X X X X X
X X
Me
+ +
+ + +
+ +
= = = = = = =

Puede observarse que la mediana es igual a 9,5. Este nmero cumple con las
propiedades que definen a la mediana. Es importante destacar que este nmero no
pertenece necesariamente al conjunto de datos original.

La mediana posee algunas propiedades interesantes, entre las que nos interesa
destacar que, a diferencia de la media, no es influida por valores extremos, ya que se
establece a partir de las posiciones en la serie ordenada.

Las medidas denominadas en trminos genricos cuantiles, hacen referencia a valores
anlogos a la mediana, pero que dividen al conjunto de datos (siempre ordenado) en
diferentes cantidades de secciones. En general, estos valores tienen sentido cuando
analizamos un nmero elevado de observaciones. As, por ejemplo, si dividen al
conjunto de datos en cuatro partes se denominan cuartiles. El siguiente esquema
representa los cuartiles. Como puede observarse, el primer cuartil es el valor de la
variable estudiada que supera al 25% de las observaciones y es superado por el 75%
de las observaciones, aproximadamente. El segundo cuartil (obviamente, coincide con
la Mediana), supera al 50% de las observaciones y es superado por la mitad restante,
y el tercer cuartil, supera al 75% de las observaciones, en tanto es superado por el
25% de los valores (los ms elevados).




Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 14 -

Figura 2: Cuartiles


Con la misma idea, si consideramos los quintiles, tendremos los valores que cortan a
la distribucin en 5 partes con la misma cantidad de datos. Si consideramos los
deciles, tendremos los valores que dividen a la distribucin en 10 partes, y as
sucesivamente. Otra divisin de gran aplicacin cuando el nmero de observaciones
es muy elevado es en 100 partes, y esos valores que cortan cada seccin se
denominan percentiles.

Como mencionamos previamente, estas medidas se utilizan para indicar dnde se
ubican aproximadamente un conjunto de datos, con una medida nica que resuma a
todo el conjunto. Para complementar esta informacin es necesario contar con otro
tipo de medidas o indicadores que informe si los datos son parecidos entre s o
respecto de la medida de tendencia central considerada. Este tipo de medida se
denomina medida de dispersin, ya que informan sobre las diferencias que presentan
los valores observados respecto de un de posicin.

Una de las medias de dispersin bsicas es la varianza. Este indicador se calcula
sumando los desvos al cuadrado de cada observacin con respecto a la media. La
siguiente frmula corresponde a la varianza poblacional:

2
2
1
( )
( )
N
i
i
X
Var X
N

= =



Para el clculo de la varianza muestral se debe tener en cuenta que el denominador
debe corregirse a fin de disponer de un estimador insesgado de la varianza
poblacional. Tal ajuste se refleja en la siguiente frmula:

2
2
1
( )
1
n
i
i
x x
s
n
=



Veamos cmo se calculan estos indicadores a travs de ejemplos.


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 15 -
Consideremos una serie de 10 ciudades para las cuales se dispone de un indicador de
cuidado ambiental, construido en una escala del 1 al 10 (puntaje). Se calcul la media
del indicador, y queremos saber cunto se diferencian con respecto a sta.
Tabla 12:
Ciudad Indicador de cuidado
ambiental
Desvo respecto de la
media
Desvo al
cuadrado
A 8 2,9 8,41
B 9 3,9 15,21
C 3 -2,1 4,41
D 3 -2,1 4,41
E 2 -3,1 9,61
F 7 1,9 3,61
G 8 2,9 8,41
H 6 0,9 0,81
I 2 -3,1 9,61
J 3 -2,1 4,41
Total 51 Total 68,9

Media= 5,1 puntos

Varianza=
6,89 puntos al
cuadrado
En el siguiente caso, comentaremos la manera de calcular la varianza muestral, para
una muestra de 8 alumnos, a los cuales se los evalu en un examen genrico.
Tabla 13:
Alumno de la
muestra
Nota obtenida en el
examen
Desvo respecto de la
media
Desvo al
cuadrado
1 5 -1,875 3,515625
2 7 0,125 0,015625
3 8 1,125 1,265625
4 6 -0,875 0,765625
5 4 -2,875 8,265625
6 9 2,125 4,515625
7 10 3,125 9,765625
8 6 -0,875 0,765625
Total 55 Total 28,875
Media= 6,875 puntos Varianza=
4,125 puntos al


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 16 -
cuadrado
Como se explicita en el ejemplo anterior, la unidad de medida de la varianza es la
misma que la de la variable original, pero elevada al cuadrado. Esto implica una mayor
dificultad para interpretar este parmetro. Por ello se suele utilizar ms la medida
derivada de la varianza denominada desviacin estndar, que precisamente se
obtiene tomando la raz cuadrada de la varianza.

Desviacin estndar de la poblacin:

2
1
( )
N
i
i
X
DS
N

= =


Desviacin estndar de la muestra:

2
1
( )
1
n
i
i
x x
s
n
=



Este indicador es ms fcil de emplear, ya que est expresado en las mismas
unidades que la media. Sin embargo, no permite la comparacin de dos poblaciones
(o muestras)a fin de determinar en cul de ellas los datos son ms homogneos
respecto de la media. Una medida conocida como coeficiente de variacin s nos
permite este tipo de comparacin.

s
CV
x
=

Desarrollamos un estudio para comparar la fecundidad (hijos tenidos por mujer) en
dos muestras, una rural y otra urbana y obtuvimos los siguientes valores para las
medias y las desviaciones estndar respectivas:
Tabla 14:
Muestra Urbana Rural
Media (cantidad promedio
de hijos por mujer)
2,7 5,1
Desviacin estndar 0,8 0,9
Coeficiente de variacin 0,296 0,176
Como puede observarse, la muestra correspondiente al rea rural presenta menor
dispersin relativa respecto de la media.


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 17 -

Aplicacin: Creacin de una base de datos en SPSS y descripcin del conjunto
de datos

El paquete estadstico SPSS (Statistic Package for Social Sciences) es un software
que facilita el anlisis de datos cuantitativos, especialmente til para analizar grandes
bases de datos.

En esta materia se analizan en diferentes aplicaciones, las salidas de procedimientos
estadsticos llevados a cabo con esta herramienta. Vamos a desarrollar a continuacin
un recorrido preliminar sobre las funciones elementales que permiten:
Crear una base de datos propia
Obtener las medidas estadsticas estudiadas en este mdulo (frecuencias,
medidas de tendencia central, indicadores de dispersin)
Generar grficos descriptivos de un conjunto de datos

En los siguientes mdulos se presentarn muy brevemente los procedimientos bsicos
para obtener resultados vinculados con cada uno de los mtodos y tcnicas, y se
enfatizar en la interpretacin de resultados producidos por esta herramienta.

a. Comenzando a usar SPSS
4


La vista inicial del software presenta una base de datos en blanco (es una planilla
donde las filas permiten cargar informacin sobre individuos u objetos de anlisis, uno
a continuacin de otro, y las columnas contendrn cada una de las variables de inters
en el anlisis).

Figura 3: Base de datos


4
Las referencias y capturas de pantalla se han elaborado usando la versin 17 del software. Los aspectos
centrales se mantienen de manera anloga desde la versin 7 en adelante. Cuando se indique algn
aspecto que no est presente en otras versiones previas se sealar el particular.


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 18 -

Como pueden observar en la Figura anterior, est seleccionada (esquina inferior
izquierda) la vista de datos (Data View). Si quisiramos ver un resumen de las
variables disponibles (una base de datos en particular que nos informa sobre el
contenido de cada columna), deberamos seleccionar la vista de variables (Variable
View). La siguiente figura muestra cmo se ver al iniciar la operacin del programa:

Figura 4: Vista de variables


La informacin que se conserva sobre cada variable creada se relaciona con:
Nombre de la variable (Name). Esta es la denominacin del contenido. En
versiones previas slo se permiten nombre de hasta 8 caracteres, que
comiencen con una letra.
Tipo de variable (Type). Se debe indicar si la variable Numrica (pueden existir
diferentes especificaciones, segn se separen las cifras decimales con coma o
punto, y si se usa separadores de miles, as como la cantidad de caracteres


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 19 -
mximos, y cuntos de ellos se destinan a las cifras decimales), Fecha (varios
formatos), Moneda, Cadena de caracteres o String (esto corresponde a
palabras, donde importa tanto el orden de los caracteres como si se usa
mayscula o minscula, slo recomendable para nombres propios).
Ancho (Width): Cantidad de caracteres en total que ocupa esa columna.
Decimales (Decimals): cantidad de cifras decimales que se consideran
(siempre que la variable sea Numrica).
Etiqueta de la variable (label). Denominacin de la variable que se desea que
aparezca en las tablas o grficos. Se puede escribir una denominacin con
aclaraciones o precisiones que en el nombre no se alcancen a detallar.
Valores (Values): Son las asociaciones entre nmeros que se guardan en la
base de datos y las etiquetas que corresponden a esos valores. Por ejemplo, si
queremos guardar la variable con informacin sobre Sexo de individuo, es ms
prctico registrar un nmero que la palabra. Sin embargo, para los cuadros y
grficos, necesitamos ver las etiquetas correspondientes a cada valor. As,
indicaremos en Valores la siguiente informacin (observen que se define la
variable como Numrica para software, an cuando claramente es una variable
nominal, esto es importante, ya que aunque el software nos d opcin de
calcular medidas descriptivas, las mismas carecen de significado y no
corresponde aplicarlas por la definicin de la variable):

Figura 5: Creacin de etiquetas de valores


Valores perdidos (Missing). Se especifican valores cuyo significado no deba
tenerse en cuenta para los clculos. Por ejemplo, si se define cargar 99
siempre que un encuestado dija No sabe / no contesta, tal valor no debe
distorsionar las medidas ni los resultados y se indica en esta vista de variables.



Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 20 -
Vamos a comenzar a crear una base de datos. En primer lugar, en Archivo (File)
seleccionados Guardar como (Save As) y elegiremos un nombre para la base de datos
que crearemos, por ejemplo, Ejemplo 1.

Crearemos las variables y cargaremos los datos captados del legajo de una empresa:

Figura 6: Datos de legajos a cargar en la base de datos












Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 21 -

Cada una de las variables que nos interesan se crea escribiendo el nombre en la Vista
de Variables. Luego especificaremos las siguientes caractersticas de cada una:
Nombre: Nombre de pila del individuo. Cadena de caracteres, ancho 30.
Sexo: Deducirlo del nombre. Numrica. Valores: 1 (Varn), 2 (Mujer)
Edad. Numrica. Sin decimales.
rea. Numrica. Valores: 1 (Produccin), 2 (Marketing), 3 (Recepcin)
Sede: Numrica. Valores: 1 (Buenos Aires), 2 (Rosario)
Personas a cargo. Numrica. Sin decimales.
Antigedad: Numrica. Sin decimales.
Aos de estudio: Numrica. Sin decimales.
Sueldo: Numrica. Dos decimales.

El resultado terminado quedara de la siguiente manera.

Figura 7: Base de datos creada (Vista de variables)


En la vista de datos, cargaremos la informacin de cada uno de los empleados:

Figura 8: Base de datos creada (Vista de datos)




Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 22 -
Una aclaracin: en esta vista se ha seleccionado que se vean las etiquetas de los
valores. Como en varios casos tenemos etiquetas de valores, si desactivamos las
etiquetas (cono de etiquetas en la Barra sealado en la siguiente figura-),
aparecern los nmeros que se cargaron.

Figura 9: Etiquetas de valores desactivadas


b. Clculos estadsticos con SPSS

Figura 10: Base de datos ampliada



Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 23 -

A fin de que resulten ms interesantes los clculos que presentaremos, se complet la
carga de 26 legajos en la base de datos Ejemplo 1 (Figura 10).

Para obtener las diferentes medidas estadsticas estudiadas se seleccionan los
mens: Analizar / Estadsticas descriptivas (Analyze / Descriptive Statistics).

Figura 11: Cmo obtener estadsticas descriptivas


- Frecuencias

Se debe seleccionar el cono correspondiente en el Men indicado previamente
(Figura 12).

Se selecciona la variable de inters (pueden seleccionarse varias al mismo
tiempo si desea realizar este anlisis para diferentes variables de forma
simultnea).

Para que el programa produzca la Tabla de frecuencias se debe marcar la
casilla correspondiente (esquina inferior izquierda en la ventana emergente de
Frecuencias). Luego clickeando en Ok, se obtiene la tabla. Observe que se
abre una nueva ventana denominada Resultados (Output) donde se exhiben
las salidas del programa. Tales resultados pueden copiarse y ser pegados en
cualquier programa del entorno Windows.






Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 24 -

Figura 12: Tablas de frecuencias




Los resultados son los siguientes:

Tabla 15: Frecuencia de la variable Sexo
Statistics
sexo
N Valid 26
Missing 0
sexo

Frequency Percent Valid Percent
Cumulative
Percent
Valid Varn 18 69,2 69,2 69,2
Mujer 8 30,8 30,8 100,0
Total 26 100,0 100,0


La primera tabla nos indica la cantidad de casos vlidos (N Valid), en este caso
26, y los casos perdidos (missing), en este variable no tenemos ningn caso
perdido o sin informacin. Si para algn caso no tuviramos la informacin, se
reflejara en esa primera tabla.

La segunda tabla informa la frecuencia de aparicin de cada categora. La
primera columna indica las categoras, varn y mujer, (recuerde que se
cargaron nmeros para facilitar el procesamiento, pero aparecen las etiquetas


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 25 -
de los valores, dado que es ms apropiado para interpretar la tabla). La
segunda columna informa la frecuencia absoluta (Frequency), es decir la
cantidad de casos que corresponde a cada categora. La tercera columna
indica las frecuencias expresadas en porcentajes. Si hubiera casos perdidos, la
columna que deberamos observar es la cuarta (porcentaje sobre casos
vlidos). Y finalmente se indican los porcentajes acumulados. Veremos otras
tablas de frecuencia del ejemplo. Interprete la informacin contenida en ellas:

Tabla 16. Frecuencias de las variables rea y aos de estudio
Statistics

area Aos de estudio
N Valid 26 26
Missing 0 0
rea

Frequency Percent Valid Percent
Cumulative
Percent
Valid Produccin 19 73,1 73,1 73,1
Marketing 5 19,2 19,2 92,3
Recepcin 2 7,7 7,7 100,0
Total 26 100,0 100,0

Aos de estudio

Frequency Percent Valid Percent
Cumulative
Percent
Valid 7 1 3,8 3,8 3,8
8 1 3,8 3,8 7,7
10 1 3,8 3,8 11,5
12 9 34,6 34,6 46,2
13 1 3,8 3,8 50,0
14 2 7,7 7,7 57,7
16 1 3,8 3,8 61,5
17 8 30,8 30,8 92,3
18 1 3,8 3,8 96,2
21 1 3,8 3,8 100,0
Total 26 100,0 100,0




Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 26 -


Medidas descriptivas.

Figura 13: Obtencin de medidas descriptivas


Figura 14


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 27 -


Para obtener las medidas descriptivas existen varios procedimientos. Una manera es
seleccionar Frecuencias, y luego en Estadsticas, seleccionar las medidas que nos
interesen (Figuras 13 y 14).

Los resultados que se obtienen son:

Tabla 17: Medidas descriptivas
Statistics
Aos de estudio edad
N Valid (casos vlidos) 26 26
Missing (perdidos) 0 0
Mean (media) 14,04 42,08
Median (mediana) 13,50 42,00
Std. Deviation (Desviacin estndar) 3,340 12,803
Variance (varianza) 11,158 163,914
Minimum (mnimo) 7 20
Maximum (mximo) 21 67
Percentiles 25 12,00 33,00
50 13,50 42,00
75 17,00 52,50

La otra forma en que pueden ser obtenidas las medidas estadsticas es seleccionando
el men Analizar / Estadsticas descriptivas / Descriptivas. Se indican las variables de
inters. Luego en Opciones se seleccionan las estadsticas a calcular.

Figura 15: Obtencin de medidas descriptivas


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 28 -


Figura 16: Seleccin de estadsticos a estimar


Los resultados sern anlogos a los obtenidos previamente, pero presentados de una
manera ms sinttica.

Tabla 18
Descriptive Statistics


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 29 -

N
Minimum
(mnimo)
Maximum
(mximo)
Mean
(Media)
Std. Deviation
(Desviacin estndar)
Personas a cargo 26 0 18 2,46 4,598
Antigedad 26 0 30 10,42 9,373
Valid N (listwise) 26



c. Generacin de grficos

Otro de los aspectos para los cuales es til y prctico el software es para la obtencin
de grficos estadsticos. Mostraremos algunos ejemplos.

- Histograma de frecuencias

Las siguientes pantallas muestran cmo se piden en el software.




Figura 17: Obtencin de grficos



Figura 18: Especificacin de histograma de frecuencias para ilustrar frecuencias
absolutas


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 30 -


Y obtenemos:






Figura 19: Histograma de frecuencia de la variable edad



- Grfico de barras

Figura 20 Obtencin de grficos de barra



Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 31 -
















Figura 21: Especificacin de grfico de barras para ilustrar porcentajes de respuestas



Y obtenemos:


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 32 -

Figura 22: Grfico de barras de la variable rea (porcentaje de casos)


Otros grficos

Pueden obtenerse tambin grficos de torta o sectores, diagramas de caja (box plot) y
diagramas de dispersin, como los que presentamos a continuacin. En todos los
casos, los aspectos grficos pueden refinarse editndolos segn los objetivos de cada
uno.

Figura 23: Diagrama de sectores (variable sede)



Figura 24: Grficos de baja de la variable sueldo segn sexo



Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 33 -







Figura 25: Diagrama de dispersin (variables edad y aos de estudio)



2. PROBABILIDAD Y VARIABLES ALEATORIAS


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 34 -

2.1 Concepto de probabilidad. Definiciones

Todos tenemos alguna idea intuitiva del concepto probabilidad. En general, decimos
que determinada situacin es muy probable o tiene alta probabilidad de darse en tanto
juzgamos que seguramente va a ocurrir, sin embargo, dadas las caractersticas de
imprevisibilidad perfecta del futuro, no podemos asegurar que ocurrir. As
escuchamos el pronstico del clima que indica que probable que llueva maana o a un
analista financiero que prev que hay alta probabilidad de que determinada accin
mantenga su cotizacin en los prximos meses.

En trminos estadsticos, vamos a decir que la probabilidad es una medida numrica
de la posibilidad que se asigna a la ocurrencia de determinado resultado, cuyo valor
exacto no podemos prever de antemano. Por lo tanto, juega un rol importante en este
concepto la idea de azar, que determine en definitiva el resultado, ms all de las
posibilidades estimadas previamente.

En trminos formales podemos definir la probabilidad como las posibilidades de
ocurrencia de cierto evento respecto del total de resultados posibles. Por ejemplo, si
queremos determinar la probabilidad de seleccionar un individuo al azar en una ciudad
que tenga cierta caracterstica, por ejemplo tener menos de 18 aos, y sabemos que
del total de 2.000.000 de habitantes, 400.000 de ellos son menores de 18 aos,
podramos a priori saber cul es esa probabilidad:

A = seleccionar al azar un individuo menor de 18 aos

P(A) = probabilidad de A = (ser menor de 18 aos) / (total de individuos)
= 400.000 / 2.000.000
= 0, 20

En el lenguaje estadstico se suele llamar a la situacin A, evento.

Otra forma de aproximarse a la estimacin de una probabilidad, cuando no tenemos
informacin suficiente, es a partir de un proceso experimental o frecuencial. Se trata
de repetir el experimento un cierto nmero suficientemente elevado de veces, y a partir
de la experiencia de ocurrencia en esas repeticiones, se calcula la probabilidad. En
esta idea se basa la construccin de modelos estadsticos para pronsticos, de amplia
utilizacin en las ciencias comportamentales.

Los nmeros que sirven para medir probabilidades cumplen algunas propiedades
establecidas axiomticamente. Entre ellas tienen principal importancia:
- Las probabilidades se ubican en el intervalo [0; 1]. Cuando un evento tiene
probabilidad cero decimos que es un evento imposible, y cuando tiene
probabilidad 1 decimos que es un evento cierto.
- La probabilidad de ocurrencia de todos los resultados posibles de un
experimento (es decir, la probabilidad de que ocurra alguno de tales
resultados) es 1. Esto es, si se realiza un experimento, estamos seguros
(probabilidad cierta) de que algn resultado se producir.




Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 35 -
2.2. Probabilidad conjunta, eventos mutuamente excluyentes e
independientes

Definamos ahora algunos eventos de inters especial. En primer lugar, denominamos
eventos mutuamente excluyentes a los que no pueden ocurrir de manera simultnea.
Un ejemplo de ello podra ser, para un hogar, ser pobre y no serlo al mismo tiempo.
Entonces, para los eventos mutuamente excluyentes, tenemos una propiedad
importante:

Si A y B son dos eventos mutuamente excluyentes, P(A o B) = P(A) + P(B).

Si por el contrario, dos eventos pueden ocurrir al mismo tiempo, no son
necesariamente mutuamente excluyentes. En ese caso, si C y D tiene posibilidad de
ocurrir al mismo tiempo, P(C o D) = P (C) + P(D) P (C y D). Como puede verse, el
caso de los eventos mutuamente excluyente es un caso particular, donde P(CyD)= 0.

Una analoga interesante que permite razonar de manera muy simple con
probabilidades es considerar los eventos como conjuntos. As, podemos usar las
operaciones, la notacin y las grficas propias de la teora de conjuntos.

P (A o B) = P (A U B)

Probabilidad conjunta
Si queremos calcular la probabilidad de ocurrencia de dos eventos de manera
conjunta, debemos multiplicar sus probabilidades.

P (A y B) = P (A B) = P (A) . P(B)

Probabilidad condicional
La probabilidad de que ocurra cierto evento, teniendo en cuenta que ocurre otro, se
denomina probabilidad condicional y su frmula de clculo es la siguiente:

( )
( / )
( )
P A B
P A B
P B

=

Tabla de contingencia
Muchas veces tenemos descripto un problema a travs de la situacin conjunta del
grupo de individuos u objetos analizados, en relacin con sus caractersticas en dos
dimensiones o variables. La forma tradicional de presentarlos en este caso se
denomina Tabla de contingencia, y corresponde a una tabla de doble entrada, que
ubica la cantidad de individuos que corresponden a cada par de categoras (en las
respectivas variables).

Tabla 19: Hogares con y sin Necesidades Bsicas Insatisfechas (NBI)
Provincia
Hogares
Sin NBI Con NBI Total
Ciudad de Buenos Aires 951.882 72.658 1.024.540
Buenos Aires 3.412.784 508.671 3.921.455
Catamarca 63.489 14.287 77.776


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 36 -
Chaco 172.510 65.672 238.182
Chubut 99.323 15.402 114.725
Crdoba 779.857 97.405 877.262
Corrientes 171.616 54.341 225.957
Entre Ros 270.107 46.608 316.715
Formosa 82.367 32.041 114.408
Jujuy 104.603 37.028 141.631
La Pampa 83.250 8.411 91.661
La Rioja 56.482 11.908 68.390
Mendoza 356.577 53.841 410.418
Misiones 179.789 55.215 235.004
Neuqun 108.468 19.883 128.351
Ro Negro 129.630 24.823 154.453
Salta 174.973 66.434 241.407
San Juan 127.541 21.361 148.902
San Luis 88.443 13.201 101.644
Santa Cruz 48.371 5.463 53.834
Santa Fe 768.738 103.557 872.295
Santiago del Estero 131.517 46.684 178.201
Tierra del Fuego, Antrtida e Islas del Atl. Sur 23.515 4.301 27.816
Tucumn 247.048 63.739 310.787
Total 8.632.880 1.442.934 10.075.814
Fuente: INDEC. Censo Nacional de Poblacin, Hogares y Viviendas 2001.

Por ejemplo, la Tabla 19, presenta una Tabla de contingencia presenta la totalidad de
hogares registrados en el Censo de Poblacin y vivienda 2001, segn provincia y
posesin o no de Necesidades Bsicas Insatisfechas
5
.

Veamos cmo podemos usar la tabla de contingencia para calcular probabilidades de
eventos:
a) Probabilidad de un evento simple: cul es la probabilidad de que un hogar en
Argentina en 2001, presente al menos un indicador de NBI?

P(A) = (Hogares con NBI) / Total de hogares = 1.442.934 / 10.075.814 = 0,1432

b) Probabilidad de un evento compuesto: cul es la probabilidad de que un no
tenga NBI y resida en Santiago del Estero?

5
Los hogares con Necesidades Bsicas Insatisfechas (NBI) son los hogares que presentan al
menos uno de los siguientes indicadores de privacin:
1- Hacinamiento: hogares que tuvieran ms de tres personas por cuarto.
2- Vivienda: hogares en una vivienda de tipo inconveniente (pieza de inquilinato, vivienda
precaria u otro tipo, lo que excluye casa, departamento y rancho).
3- Condiciones sanitarias: hogares que no tuvieran ningn tipo de retrete.
4- Asistencia escolar: hogares que tuvieran algn nio en edad escolar (6 a 12 aos) que
no asistiera a la escuela.
5- Capacidad de subsistencia: hogares que tuvieran cuatro o ms personas por miembro
ocupado y, adems, cuyo jefe no haya completado tercer grado de escolaridad
primaria.


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 37 -

P(B C) = 131.517 / 10.075.814 = 0,013

c) Probabilidad de un evento compuesto: cul es la probabilidad de que un
hogar resida en Santa Fe o en Crdoba?
Ya que son dos eventos mutuamente excluyentes, tenemos:

P(D U E) = P(D) + P(E) = 872.295/ 10.075.814 + 877.262/ 10.075.814
= 0,0865 + 0,087
= 0,1735

d) Probabilidad de la ocurrencia de eventos no mutuamente excluyentes. cul es
la probabilidad de que un hogar resida en Ciudad de Buenos Aires o no posea
NBI?

P(F U G) = P(F) + P(G) - P(F G)
= 1.024.540/10.075.814 + 8.632.880/10.075.814 - 951.882/10.075.814
= 0,864

e) Probabilidad condicional: cul es la probabilidad de que un hogar tenga NBI
dado que reside en San Juan?
P(H/I) = P(H I) / P(I)
= (21.361/10.075.814) / (148.902/10.075.814)
= 0,1434


2.3. Variable aleatoria, funciones de probabilidad

Qu es una variable aleatoria?
Una variable aleatoria es el resultado (numrico) de un experimento aleatorio. Por
ejemplo, si nosotros realizamos el experimento de lanzar una moneda, y observar el
resultado, los dos eventos que se derivan de tal experimento son:
Evento A: que salga Cara
Evento B: que salga Cruz

Si yo genero una asignacin (cualquiera sea esta, arbitraria o con un criterio
establecido) que transforme un resultado de un experimento aleatorio en nmeros,
estoy generando una variable aleatoria. Adems, una variable aleatoria tendr una
probabilidad asociada con la ocurrencia de cada valor de sta.

Tabla 20: Ejemplo de variable aleatoria
Evento X (variable aleatoria) P(X = X
0
)
A = que salga Cara 1 0,5
B = que salga Cruz 0 0,5

En la Tabla 20 se presenta una asignacin arbitraria de los valores de la variable X a
los resultados posibles del experimento. Podra ser (como en la Tabla 21) una regla de
asignacin. Por ejemplo, analizamos la cantidad de llamadas que ingresan en cierta
central telefnica de ayuda. Registramos como valores de la variable aleatoria la
cantidad que ingresan en ciertos perodos de tiempo, por ejemplo de 2 minutos.


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 38 -

Tabla 21: Nmero de llamadas que ingresan en perodos de 2 minutos
Nmero de llamadas que
ingresan
X (variable aleatoria)
0 0
1 1
2 2
3 3
4 4
5 5
6 6

Los dos casos anteriores son ejemplos de variables aleatorias discretas, ya que los
valores representan un conjunto finito y enumerado de resultados posibles. El segundo
tipo de variables aleatorias corresponde a las denominadas continuas. Este tipo de
variables aleatorias puede presentar cualquiera de infinitos valores posibles en cierto
intervalo de nmeros reales. Por ejemplo, si tengo una variable aleatoria que registra
el tiempo transcurrido entre dos terremotos en cierta zona ssmica. Claramente esta
variable podra tomar cualquier mayor que 0 (es una variable que mide tiempo,
mientras ms exacto se registre el dato, podr verse que la cantidad de valores
posibles es infinita). En estos casos slo tiene sentido calcular las probabilidades de
que ocurra algn valor de la variable aleatoria en intervalos de valores, ya que la
probabilidad de ocurrencia de un valor puntual es nula. Veamos un ejemplo:

La altura de las personas tiene una distribucin de probabilidades como la que se
ilustra en la Figura 26. Por ejemplo, si en determinada poblacin masculina, se tiene
una media de 175 cm, con una desviacin estndar de 10 cm, la probabilidad de que
un individuo al azar de esa poblacin mida entre 165 y 185 cm ( ; + ) es
aproximadamente el 0,68. Si consideramos un intervalo de 2, entonces, la
probabilidad aumenta al 0,95 aproximadamente, en tanto entre ( 3 ; + 3),
prcticamente la probabilidad es 1 (se estima en 0,9973). Esta distribucin
denominada Normal o Gaussiana es la ms utilizada en la resolucin de problemas de
inferencia.

Figura 26: Distribucin normal


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 39 -



Fuente: Elaboracin propia.

La consideracin conjunta de los valores posibles de una variable aleatoria y sus
respectivas probabilidades, se conoce como distribucin de probabilidad. En diversos
problemas de inferencia se har uso de este concepto.

X = altura de la
poblacin masculina
= 175 cm
P(X)


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 1 -
REVISIN 1

GLOSARIO

Los siguientes trminos deben ser comprendidos en trminos conceptuales y
en aplicaciones, tanto su definicin como sus interrelaciones. En caso de tener
dudas sobre alguno de ellos, repase nuevamente la Lectura 1 y la bibliografa
bsica indicada.

Desvo estndar: Raz cuadrada del promedio de los desvos al cuadrado
respecto de la media. Medida de dispersin ms utilizada.
Distribucin de frecuencias: patrn de frecuencias para cada valor de la
variable. Se describe a travs de una tabla o grficos (por ejemplo, histogramas
o polgonos de frecuencias
Estadstica descriptiva: Anlisis resumido de los datos, para facilitar la
utilizacin de una cantidad muy grande de informacin.
Estadstico: Medida estadstica referida a una muestra.
Media: Promedio aritmtico de un grupo de observaciones (se obtiene
sumando todos los valores y dividiendo por la cantidad de observaciones). La
media poblacional () implica considerar todos los casos de la poblacin. La
media muestral ( x ) tiene en cuenta slo los datos de la muestra.
Mediana: Valor de la variable que divide la serie ordenada en dos partes que
tienen aproximadamente la misma cantidad de datos.
Moda: valor con mayor frecuencia en la distribucin.
Muestra: Subconjunto de la poblacin. Nos interesan especialmente las
muestras representativas de la poblacin.
Niveles de medicin: Distintos tipos de informacin provistas por una medida
(nominal, ordinal, de intervalo, de razn).
Parmetro poblacional: Medida estadstica referida a una poblacin.


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 2 -
Poblacin: Conjunto completo de elementos bajo estudio.
Probabilidad: Frecuencia relativa con la que se espera determinado resultado.
Proporcin de resultados exitosos frente al total de resultados posibles.
Tabla de frecuencias: Listado de los valores posibles de una variable junto
con sus respectivas repeticiones o apariciones en el conjunto de datos
estudiado.
Tendencia central: valor tpico o ms representativo de un conjunto de datos
que permite dar una descripcin concisa del conjunto en cuestin.
Variable: Caracterstica determinada que puede presentar varios valores.
Varianza: Medida del grado de dispersin de una serie de datos. Promedio de
los desvos al cuadrado con respecto a la media. La Varianza poblacional
corresponde a todos los datos de la poblacin en relacin con la media
poblacional, se divide la suma de desvos al cuadrado en la cantidad (N) de
observaciones que componen la poblacin. La Varianza muestral corresponde
a los datos de la muestra respecto de la media muestral, se divide la suma de
desvos al cuadrado respecto de la media muestral en los casos que componen
la muestra menos 1 (n-1), para que la estimacin de la varianza poblacional
que proporciona este estadstico resulte insesgada.


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 1 -
MODULO 2

2.- INDUCCIN ESTADSTICA

Bibliografa bsica:

Aaron y Aaron (2001). Captulo 5.

Blalock (1978). Captulos XI Y XII.



1. INDUCCIN ESTADSTICA

Uno de los propsitos fundamentales que persigue la utilizacin de muestras
representativas, es el poder obtener un valor aproximado de alguna medida referida a
la poblacin completa. Debido a las propiedades de algunos indicadores obtenidos
directamente con la informacin de este tipo de muestras, es posible conocer (con
grados de aproximacin aceptablemente buenos en trminos probabilsticos) los
valores que describen una poblacin.
Veamos una situacin de aplicacin donde es necesario hacer
inferencia:
Una empresa va a instalar una planta en una localidad pequea. Desea fijar un salario
promedio para los puestos de baja calificacin, un 10% por encima de la media de la
localidad para atraer a personas con experiencia. Para ello, claramente, deber estimar
en primer lugar, cul es el salario promedio de la zona para este tipo de calificacin.
La primera decisin corresponde a la utilizacin de una muestra. Frente a la alternativa
de realizar un relevamiento exhaustivo de todos los trabajadores de la localidad, el
hecho de tomar una muestra representativa permite obtener una buena aproximacin
al dato buscado, en menos tiempo y con menos costos que si se realiza el censo. Por
otra parte, la menor envergadura del relevamiento permite en las muestras, reducir
los errores no debidos al muestreo, vinculados con otros aspectos, denominados
errores no muestrales.
Como anticipamos, por tomar una muestra, es posible que el valor se estime no
resulte exactamente igual que el valor para toda la poblacin, pero para el problema
en cuestin, el hecho de aproximarse, junto con la reduccin de costos y tiempos,
hace ms conveniente una muestra que un censo. Ahora bien, cmo se obtiene la
aproximacin? Hay dos caminos posibles, obtener la medida correspondiente a la
muestra y aceptarla como vlida para la poblacin (estimacin puntual), o construir un
intervalo de valores que podran atrapar el valor poblacional, con cierta seguridad
definida (estimacin por intervalos). Estudiaremos en este mdulo cmo es el
procedimiento en cada caso.


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 2 -
La inferencia incluye problemas como el ejemplificado, relacionado con estimar un
valor poblacional, de lo cual nos ocupare como tambin con la emisin de un juicio en
relacin con alguna hiptesis relativa a parmetros, que estudiaremos en el siguiente
mdulo.


1.1 Parmetros y estadsticos (media, proporcin, varianza)

Recordemos que un parmetro es un valor resumen, obtenido a travs de una
frmula estndar, que describe los valores de los datos de una poblacin
completa. Es decir, para calcular los parmetros (tales como la media poblacional,
la varianza poblacional, proporcin poblacional, etc.) debemos tener y considerar
la informacin de todos los individuos de la poblacin de inters.

Ejemplo:

En la Tabla 1, a partir de los datos del Censo de Poblacin Hogares y Viviendas de
Argentina 2001, considerando todos los datos de estas unidades de estudio, se pueden
considerar los siguientes promedios y proporciones poblacionales.
Tabla 1:
Hogares Poblacin Promedio
de
miembros
por hogar
Proporcin
de hogares
de cada
tipo
Total 10.075.814
35.927.409 3,57
1 Hogar unipersonal 1.512.788 1.527.252
1,01 0,15
2 Hogar multipersonal familiar 8.480.250 34.199.906
4,03 0,84
3 Hogar multipersonal no familiar 82.776 200.251
2,42 0,01
Fuente: INDEC (Censo Nacional de Poblacin, Hogares y Vivienda, 2001). Consultar en
http://www.indec.gov.ar/censo2001s2/ampliada_index.asp?mode=01

Cuando en lugar de considerar la poblacin como un todo, slo tenemos en cuenta
en el clculo de las medidas resumen a los datos obtenidos en una muestra,
hablamos de estadsticos. Para cada parmetro poblacional podemos obtener un
estadstico muestral correspondiente:

Tabla 2
Parmetro Estadstico
Media poblacional Media muestral
Proporcin poblacional Proporcin muestral
Varianza poblacional Varianza muestral





Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 3 -
Los estadsticos son la base de construccin de los estimadores de parmetros, ya
que son la medida ms prctica para emplear a partir de una muestra para tratar
de estimar el valor de un parmetro poblacional.


1.1.1 Distribucin de probabilidad de los estadsticos

La distribucin de muestreo de un estadstico es la distribucin de probabilidad que
puede obtenerse como resultado de considerar todas las muestras aleatorias
independientes posibles, cada una de tamao n provenientes de la poblacin de
inters.
Recorreremos a continuacin las caractersticas de las principales distribuciones
tericas de probabilidad, a travs de las cuales es posible describir las distribuciones
en el muestreo de los estadsticos de inters, a medida que las requiramos.

DISTRIBUCION NORMAL
La distribucin normal es de amplia difusin debido a una serie de
razones:
Se aproximan la mayora de los fenmenos de la naturaleza
(fsicos, qumicos y biolgicos)
Es la base de la inferencia estadstica paramtrica
Otras distribuciones, bajo ciertas circunstancias, se pueden
aproximar a la normal
Es la referencia para definir otras distribuciones con gran nmero
de aplicaciones prcticas como la Chi cuadrada, t de Student y
F de Fisher.
Figura 1: Distribucin normal



Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 4 -
Caractersticas de la distribucin normal
Forma
Es una campana simtrica con respecto a su eje de simetra.
La curva tiene un solo pico (es unimodal).
La media de una poblacin distribuida normalmente cae en el
centro de su curva normal.
Debido a la simetra de la distribucin normal de probabilidad, la
mediana y la moda de la distribucin se encuentran
tambin en el centro; en consecuencia, para una curva normal,
la media, la mediana y la moda tienen el mismo valor.
Los dos extremos de la distribucin normal de probabilidad se
extienden indefinidamente y nunca tocan el eje horizontal

Parmetros
La distribucin est caracterizada por dos parmetros: la media y la
varianza.
La media (m) es el parmetro de localizacin de la distribucin.
Figura 2: Distribuciones normales con diferente media

La varianza da informacin sobre la dispersin de los datos respecto de
la media.
Figura 3: Distribuciones normales con diferente varianza

Funcin de densidad



Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 5 -
Para calcular las reas bajo la curva de funcin de densidad normal se
requiere integrar la ecuacin anterior. Ya que no existe una solucin
exacta para esta integral, slo es posible obtener esa rea por mtodos
de aproximacin.
Para facilitar esta tarea en casos de aplicacin concretos con medias y
varianzas diferentes, se utiliza la propiedad por la cual puede
transformarse cualquier curva normal en una curva normal estndar
utilizando una nueva variable aleatoria Z llamada variable aleatoria
normal estndar.
Si X ~ N ( ,
2
) entonces X puede transformarse en Z


Teorema Central del lmite
Como su nombre lo indica, esta propiedad constituye un teorema, es
decir, un resultado muy importante, que puede ser demostrado con
generalidad.
Este resultado nos indica que:
Cuando el tamao es suficientemente grande, la distribucin de la
variable aleatoria media muestral puede aproximarse a la distribucin
normal. Y esta relacin es vlida, cualquiera sea la distribucin de los
datos de la variable original.
Por ejemplo, si estamos interesados en analizar la media de ingresos en
cierta poblacin, an cuando la distribucin de ingresos en esa
poblacin no sea normal, si tomamos muestras suficientemente
grandes, la distribucin en el muestreo de las medias muestrales de
ingresos, tendrn una forma aproximadamente normal.


Distribucin de muestreo de la media
En el caso de extraer una muestra aleatoria de tamao n, a partir de una poblacin
con media y varianza
2
, se obtiene que la media muestral es la suma de variables


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 6 -
aleatorias (ya que los casos que efectivamente forman parte de esta media surgieron
de una muestra aleatoria).
Esta media muestral es una variable aleatoria con distribucin normal, con valor
esperado y varianza
2
/n (o lo que es lo mismo, con desviacin estndar de la media
muestra o error estndar de la media muestral, igual a n / ). Como puede verse
en esta frmula, a medida que mayor sea el tamao de la muestra, menor ser el
grado de dispersin de la media muestral, es decir, la fluctuacin entre medias
muestrales extradas de la misma poblacin ser mnima en el caso de muestras cuyo
tamao es muy elevado.
Si las muestras fueran tomadas de una poblacin finita (sin reposicin), debe de
introducirse un factor de correccin para poblaciones finitas (fcpf) para calcular el
error estndar de la media. Este error estndar de la media ser:

Cuando la variable X proviene de una poblacin es normal, la distribucin de la media
muestral es tambin normal, cualquiera sea la muestra.
Si no puede especificarse la distribucin de probabilidad de la poblacin a partir de la
cual se obtiene la muestra, se considera el resultado provisto por el Teorema del
Lmite Central (TLC).

Considerando la frmula de estandarizacin de cualquier variable normal muestral,
para el caso de la media muestral tendremos:



Propiedades de la Media muestral
Insesgamiento
La media de todas las medias muestrales posibles (de cierto tamao de muestra n)
ser igual a la media de poblacin

.
Eficiencia
Indica la precisin de la muestra de estadstica como un estimador del parmetro de
poblacin.
Para distribuciones normales, la media aritmtica es ms estable de muestra a
muestra que otras medidas de tendencia central. Para una muestra de tamao n, la


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 7 -
media de la muestra estar ms cerca, en promedio, a la media de poblacin que
cualquier otro estimador.

Consistencia
Tiene en cuenta al efecto del tamao de muestra sobre la utilidad de un estimador. Al
aumentar el tamao de muestra, la variabilidad de la media de muestra respecto de la
media de poblacin se hace ms pequea, de manera que la media aritmtica de la
muestra se vuelve cada vez ms cercana al valor del parmetro a medida que
aumenta el tamao de la muestra y por ende se obtiene una mejor estimacin de la
media de poblacin.
Analicemos un ejemplo:
Tabla: Datos de anlisis
Caso Hijos tenidos Caso Hijos tenidos
1 8 26 4
2 4 27 2
3 1 28 6
4 5 29 4
5 2 30 3
6 6 31 1
7 4 32 7
8 6 33 3
9 4 34 5
10 2 35 2
11 5 36 4
12 3 37 5
13 2 38 9
14 6 39 4
15 2 40 3
16 1 41 5
17 4 42 4
18 5 43 3
19 4 44 1
20 3 45 4
21 7 46 5
22 4 47 6
23 5 48 3
24 2 49 8
25 4 50 3



Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 8 -

La informacin que proveemos en la tabla anterior corresponde a las 50 mujeres en
edad frtil en una pequea zona rural, que han tenido hijos, en las cuales se registran
la cantidad de hijos nacidos vivos que tuvieron hasta el momento.

Vamos a tomar muestras de tamaos: 3, 5 y 7 casos.
Para ejemplificar, tomamos 10 muestras de cada tamao.

Tamao 3
Muestra Casos seleccionados
1 24 14 7
2 37 4 49
3 11 41 48
4 21 7 8
5 6 50 30
6 10 40 48
7 4 26 34
8 3 11 17
9 47 40 9
10 31 47 11


Tamao 5
Muestra Casos seleccionados
1 9 45 21 14 15
2 33 41 33 16 38
3 34 49 22 35 17
4 49 30 17 15 8
5 39 21 35 2 28
6 11 26 40 24 45
7 42 5 31 23 19
8 19 38 46 50 6
9 37 33 31 8 48
10 34 46 33 46 37





Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 9 -


Tamao 7
Muestra Casos seleccionados
1 40 41 20 14 7 17 8
2 32 30 50 23 45 21 4
3 13 37 30 4 2 13 22
4 1 17 35 10 25 19 28
5 17 14 2 42 6 28 31
6 41 9 27 36 10 14 20
7 38 1 36 2 18 38 48
8 18 7 48 35 6 46 17
9 2 23 39 14 33 19 48
10 8 13 49 20 27 48 34


Ahora, para muestra, calculemos la media muestral:

Tamao 3
Muestra Valores de los casos de la
muestra seleccionada
Media muestral
1 2 6 4 4
2 5 5 8 6
3 5 5 3 4,33
4 7 4 6 5,67
5 6 3 3 4
6 2 3 3 2,67
7 5 4 5 4,67
8 1 5 4 3,33
9 6 3 4 4,33
10 2 6 5 4,33








Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 10 -

Tamao 5
Muestra Valores de los casos de la muestra
seleccionada
Media muestral
1 4 4 7 6 2 4,6
2 3 5 6 1 9 4,8
3 5 8 4 2 4 4,6
4 8 3 4 2 6 4,6
5 4 7 2 4 6 4,6
6 5 4 3 2 4 3,6
7 4 2 1 5 4 3,2
8 4 9 5 3 6 5,6
9 5 3 1 6 3 3,6
10 5 5 3 5 5 4,6


Tamao 7
Muestra Valores de los casos de la muestra seleccionada Media muestral
1 3 5 3 6 4 4 6 4,43
2 7 3 3 5 4 7 5 4,86
3 2 5 3 5 4 2 4 3,57
4 8 4 2 2 4 4 6 4,28
5 4 6 4 4 6 6 1 4,43
6 5 4 2 4 2 6 3 3,71
7 9 8 4 4 5 9 8 6,71
8 5 4 3 2 6 5 4 4,14
9 2 5 4 6 3 4 3 3,86
10 6 2 8 3 2 3 5 4,14


Veamos a continuacin cmo se distribuyen las medias muestrales obtenidas en cada
tamao de muestra, a travs de histogramas de frecuencia:







Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 11 -

Figura: distribucin de medias muestrales de muestras de tamao 3

Figura: distribucin de medias muestrales de muestras de tamao 5



Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 12 -


Figura: distribucin de medias muestrales de muestras de tamao 7



A partir de este ejemplo, qu reflexin puede hacer, teniendo en cuenta el Teorema
del Lmite central, vinculada con la media muestral que se analiza de una muestra en
particular (y el tamao de una muestra que se considere), y la probabilidad de
aproximarse lo ms posible al verdadero valor del parmetro poblacional de inters?

DISTRIBUCION t DE STUDENT
En muchas ocasiones no se conoce y el nmero de observaciones en
la muestra es menor de 30. En estos casos, se puede utilizar la
desviacin estndar de la muestra, s, como una estimacin de . Pero,
como no se dispone del valor de la desviacin estndar poblacional ya
que no es posible usar la variable normal Z como estadstico de prueba.
En su lugar, puede empleares la distribucin t.



Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 13 -
Caractersticas de la distribucin t de Student
Al igual que la distribucin normal, es una distribucin continua
La distribucin t tiene media de cero, es simtrica respecto de la
media y vara en todo el dominio real. Su varianza est dada por:

para > 2, donde v= grados de libertad.
Cuando los grados de libertad son suficientemente grandes la
varianza de la distribucin t tiende a 1.
No hay una distribucin t, sino una "familia" de distribuciones t.
todas con la misma media cero, pero con su respectiva
desviacin estndar diferente segn el tamao de la muestra n.
La distribucin t tiene forma acampanada y simtrica, pero es
ms aplanada que la distribucin normal. La distribucin t es
ms plana debido a que las medias de muestra calculadas a
partir de muestras ms pequeas tienen una mayor variabilidad.
No obstante, a medida que aumenta el tamao de la muestra, la
distribucin t se aproxima a la distribucin normal estndar.
Una variable T con distribucin t de Student se define de la siguiente
manera:

Grados de Libertad
Existe una distribucin t distinta para cada uno de los posibles grados
de libertad. Pero, a qu nos referimos con la expresin grados de
libertad? Son el nmero de valores que podemos elegir libremente de
un conjunto de datos.
Si tenemos una muestra de tamao n=3 y sabemos que tiene una
media de 12. Por definicin de la media sabemos que:
(x1 + x2 + x3)/3 = 12
Dos de estos valores podran ser cualquier nmero, sin embargo el
tercer no podr ser otra cosa que la diferencia de 36 menos la suma de


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 14 -
los otros dos nmeros
1
. Por lo tanto en este problema hay slo n-1=2
grados de libertad.

Distribucin de muestreo de la proporcin
Si P es la proporcin de casos que cumplen cierta condicin o poseen
determinada propiedad en una poblacin, tal como tener determinada
nacionalidad, estar cursando estudios superiores o realizar alguna
actividad laboral paga, tambin es susceptible de ser estimada a travs
de la proporcin de casos de una muestra de tamao n, seleccionada
de la poblacin de inters, que cumplen con la respectiva caracterstica.
La proporcin muestral (p) estar dada por:
p = X /n
donde
X es la cantidad de casos de la muestra que poseen la caracterstica.

El valor de la media o esperanza de p ser P (proporcin poblacional).
En tanto la varianza de p ser: P (1-P) / n
En el caso de muestras grandes, la distribucin de p se distribuye
normal. Ser este el caso cuando se cumplan las siguientes
condiciones:
i) n . p > 5
ii) n . (1 p) > 5

Distribucin
2

La distribucin
2
es en realidad una familia completa de distribuciones.
Hay una distribucin diferente para cada valor de los grados de libertad.
A medida que aumentan los grados de libertad la funcin se vuelve ms
simtrica. Para grados de libertad superiores a 30 la distribucin se
aproxima a la normal.

1
Despeje y corrobore la expresin indicada.


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 15 -
Esta distribucin es importante cuando se desea hacer una inferencia
con respecto a la varianza (
2
) poblacional basada en una muestra
aleatoria tomada de una poblacin normal.
Tambin tiene aplicaciones en las pruebas de independencia, bondad
de ajuste y proporciones las cuales vamos a ver en los prximos
mdulos.
Caractersticas de la distribucin
Todos los valores de
2
son positivos.
Es una curva sesgada hacia la derecha.
La media de la distribucin son sus grados de libertad
Figura: Distribuciones chi cuadrado con diferentes grados de libertad


Distribucin de muestreo de la varianza
Cuando se toma una muestra a partir de una poblacin cuya distribucin es normal
con media y varianza desconocida, la distribucin de:




Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 16 -
con (n 1) grados de libertad


1.2. Construccin de intervalos de confianza

Procedimiento general para encontrar un intervalo de confianza para un
Parmetro

Se trata de determinar el intervalo [LI, LS] donde LI = Lmite Inferior y LS = Lmite
Superior, tal que si el parmetro a estimar se simboliza por , entonces:

P(LI LS) = 1-


Lo cual indica que el intervalo de lmites aleatorios LI y LS tiene probabilidad (1-) de
contener al parmetro , donde (1-) denota la confianza de la estimacin
(coeficiente de confianza).


Estimacin de

Un intervalo de confianza est conformado por un conjunto de valores delimitados por
un lmite inferior de confianza (LIC) y un lmite superior de confianza (LSC). Para hallar
estos dos lmites se calcula la media muestral, , que se utiliza como estimacin
puntual. Despus se le suma una cantidad para hallar el lmite superior de confianza y
se le resta la misma cantidad para hallar el lmite inferior de confianza.
Cmo podemos construir un intervalo y afirmar que tenemos una confianza del 95%
en que contiene si ni siquiera sabemos cul es la media de la poblacin?
Aproximadamente el 95.5% de todas las medias muestrales se encuentran dentro de
dos errores estndar ms / menos la media poblacional. De aqu se deduce que la
media poblacional se encuentra dentro de dos errores tpicos del 95.5% de todas las
medias muestrales. En consecuencia, si a partir de cualquier media muestral nos
desplazamos dos errores tpicos por encima y otros dos por debajo de esa media,
podemos tener una confianza del 95.5% en que el intervalo resultante contiene la
media poblacional desconocida.
Interpretacin de los intervalos de confianza
Un intervalo de confianza se puede interpretar de dos maneras diferentes.
Consideremos, por ejemplo, el intervalo de 1200 a 1500 pesos de ingreso mensual
promedio de familias de sectores de bajos recursos con al menos un ingreso formal en
la ciudad. Se otorga una significacin del 95% a ese intervalo. La primera
interpretacin que puede hacer de ese intervalo:



Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 17 -
Interpretacin 1
Se considera al 95% en que la media poblacional se encuentra entre 1200 y 1500
pesos.
No quiere decir que haya una probabilidad del 95% de que la se encuentre entre
1200 y 1500 pesos. sta es una interpretacin muy generalizada y totalmente
equivocada del intervalo de confianza. En sentido apriori (antes de estimar el intervalo
de confianza) hay una probabilidad del 95% de construir un intervalo que comprenda
la .
Pero una vez fijado el intervalo, la media poblacional (que es fija aunque desconocida
por nosotros) es o no es atrapada por el intervalo. Entonces, la probabilidad de que el
valor de se encuentre entre 1200 y 1500 pesos es 1 o 0. En ningn caso es del
95%. El 95% de probabilidad se asigna a nuestro grado de confianza de que la sea
atrapada por el intervalo, no a la probabilidad de que est en l.
Interpretacin 2
Teniendo en cuenta que a partir de cualquier poblacin se pueden tomar muchas
muestras diferentes de tamao n. Es posible tomar
2
muestras de la poblacin,
donde N es el tamao de la poblacin y n el tamao de la muestra. Cada muestra dar
resultados diferentes. Supongamos que elegimos una muestra de tamao n de una
poblacin y obtenemos una = 1050. Si eligiramos una segunda muestra del mismo
tamao de la poblacin, obtendramos la misma media muestral de 1050?
Seguramente no. A causa de la variacin del error muestral, cada muestra dar una
media diferente. De la misma forma, cada vez que construyamos un intervalo de
confianza obtendremos lmites que tengan pequeas diferencias entre s.

PASOS PARA LA CONSTRUCCION DE UN INTERVALO DE CONFIANZA
1. Identificar el estimador puntual insesgado
2. Seleccionar la variable aleatoria que sea funcin del estimador y del parmetro cuya
distribucin sea conocida.
3. Determinar los valores de la variable aleatoria definida en el paso (2) de acuerdo a
la probabilidad establecida.



2
A partir de la notacin habitual en clculo combinatorio, se lee, combinaciones de N elementos
tomados de a n.


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 18 -


F(Z)

Z
El coeficiente de confianza (1-)100% = 0.95 es el nivel de confianza que tenemos
en que el intervalo contiene el valor desconocido del parmetro.
=0.025. Es la probabilidad de que el estimador se desve en ms por en
valor absoluto al parmetro poblacional.
4. Establecer la desigualdad con los valores de la variable aleatoria definidos en el
paso (3) y la expresin definida en el paso (2). Para cada una de las variables
aleatorias estudiadas, tenemos:





5. Encontrar los lmites inferiores y superiores del intervalo de confianza
6. Obtener la conclusin y redactarla.



Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 19 -

Error Muestral
Si usamos la media muestral para estimar la media poblacional, puede determinarse el
error incurrido cuando se usa el valor de como un estimado puntual de . En
general el valor absoluto de la diferencia entre un estimador puntual insesgado y el
parmetro de poblacin que estima se llama error muestral.
Error muestral =
En realidad, la prctica no se puede determinar el valor exacto del error muestral, ya
que no se conoce el valor verdadero de la media poblacional . Sin embargo, se
puede usar la distribucin muestral de para establecer mrgenes de probabilidad
respecto al tamao del error muestral.
Con una muestra de tamao n = 100 y una desviacin estndar = 20, el teorema del
lmite nos indica que la distribucin muestral de se puede aproximar mediante la
distribucin normal de probabilidades con media
. Como la distribucin muestral de
describe cmo se distribuyen sus valores en torno a , proporciona informacin
acerca de las probables diferencias entre y . Con esta informacin es posible
establecer aseveraciones probabilsticas acerca del error muestral.
Si usamos la tabla de la distribucin normal de probabilidades, veremos que el 95% de
los valores de cualquier variable aleatoria con distribucin normal quedan dentro de
una distribucin igual 1.96 desviaciones estndar de la media. Por lo tanto, para la
distribucin muestral del ejemplo anterior, el 95% de todos los valores de debe
estar a 1.96 desviaciones estndar o menos de . Teniendo en cuenta el valor del
error estndar, 1.96 , el 95% de las medias de muestra deben
estar a 3.92 o menos de la media de la poblacin.


Aplicacin:

INTERVALO DE CONFIANZA PARA CON VARIANZA POBLACIONAL
CONOCIDA
Mostraremos ahora cmo usar la distribucin muestral de para
determinar un estimador por intervalo de la media poblacional.


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 20 -
Si se conoce la varianza poblacional ( la muestra es grande, n>30),
es posible utilizar la distribucin normal.

Variable a utilizar= Z


Suponga una variable aleatoria X para designar el peso de una persona,
y estamos interesados en calcular el peso promedio de todas las
personas que utilizan cierto ascensor en una institucin educativa. A los
fines de contar con informacin sin costos elevados (que implicara
pesar a todos los que usan tal ascensor), se toma una muestra de 36
individuos de la cual se obtiene una media muestral = 65 kg.
Suponga adems que la distribucin de los individuos tenga una
distribucin normal con desviacin estndar = 30. Halle un intervalo
de confianza del 95 % para la .
a) Encontrar estimador puntual insesgado
= 65 kg (estimador puntual insesgado de la )
b) Determinar la variable aleatoria funcin del estimador y del
parmetro cuya distribucin conocemos.
Z =
Determinar los valores de la variable aleatoria definida de acuerdo a la
probabilidad establecida.
F(Z)


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 21 -

Z
P ( -1.96 Z 1.96 ) = 0.95
c) Despejar el parmetro estableciendo el clculo de los intervalos.

d) Obtener los lmites inferiores y superiores que capturan al
parmetro con una confianza del 95%

Lmite superior de confianza:
36
30
96 , 1 67 + = 76.8
Lmite inferior de confianza:
36
30
96 , 1 67 + = 57.2
e) Conclusin
Por lo tanto, con una confianza del 95%, el intervalo [57,2 kg ; 76,8 kg]
atrapa el verdadero valor de la media de peso poblacional de quienes
utilizan el ascensor de la entidad educativa estudiada.

INTERVALO DE CONFIANZA PARA CON VARIANZA POBLACIONAL
DESCONOCIDA (SALIDA DE SPSS)

Supongamos que queremos estimar el ingreso promedio entre los
trabajadores de un aglomerado, para lo cual tomamos datos de una
muestra, en este caso, de la Encuesta Permanente de Hogares.
El resultado que permite obtener el software SPSS se detalla en la
siguiente tabla.


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 22 -
Tabla: Salida de SPSS para estimacin por intervalo de la media
poblacional
3


En la primera sub tabla puede observarse la siguiente informacin:
Tamao de la muestra
Estimacin puntual de la media
Desviacin estndar
Error estndar (o desviacin estndar de la media muestral)
En la segunda subtabla, la informacin til para la estimacin se ubica
en las ltimas dos columnas: Donde se indica cules son los lmites del
intervalo para el nivel de confianza establecido. Como puede
observarse, con el uso del software de evita toda la tarea de clculo.
Slo resta la interpretacin del resultado.
Conclusiones: Con un nivel de confianza del 95%, el intervalo [$963,64 ;
$1003,75] atrapa al promedio de ingreso de la poblacin de la zona de
inters.

Estimacin de P
Tambin es posible estimar un intervalo que atrape con cierta confianza al valor del
parmetro proporcin poblacional (P). El procedimiento de construccin de intervalos

3
Ejemplo tomado del material Ejemplos para la lectura de salidas del Paquete Estadstico para
las Ciencias Sociales (SPSS), E. Bologna, elaborado para la Modalidad Tutorial a Distancia.
2006.


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 23 -
es anlogo al detallado para la media, y deber tenerse en cuenta el siguiente
estadstico:




1.2.2. Dos poblaciones: diferencia de medias, diferencia de proporciones

Es habitual en el anlisis cientfico tratar de indagar la diferencia en determinado
indicador como la media o la proporcin, entre distintas poblaciones o segmentos de
una poblacin.

En cuanto al procedimiento de estimacin, simplemente tenemos que adecuar
convenientemente los pasos detallados para la media poblacional. En cada caso la
nica diferencia significativa se relaciona con los estadsticos muestrales aptos para
estimar los intervalos, considerando los diferentes supuestos que se verifiquen.

En primer lugar presentaremos los estadsticos correspondientes a cada caso, y luego
incluiremos tambin salidas de SPSS con la informacin correspondiente.




Comparacin de dos muestras independientes

Cuando se tiene inters en conocer si las diferencias entre las medias de una variable
en dos poblaciones distintas, se procede a comparar las medias de las muestras.

En el caso que puedan aceptarse los supuestos:
muestra grande;
ambas varianzas conocidas;
seleccin independiente de ambas muestras,

el estadstico Z descripto a continuacin se distribuye normal y es el que se despeja
para obtener los lmites del intervalo de confianza.




Tal como mostramos para la media, el no cumplimiento de los supuestos relativos al
tamao de la muestra o al conocimiento de las varianzas muestrales, determina que el
n
p p
P p
Z
) 1 (

=
1 1 2 2
1 2 1 2
/ /
) ( ) (
n n
x x
Z


+

=


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 24 -
estadstico que se emplea tendr distribucin t. De hecho, debido a que generalmente
no conocemos las varianzas cuando estamos estimando las medias, este es el caso
que realmente ms se aplica para este tipo de muestras. El resto del procedimiento no
presenta ninguna diferencia relevante del presentado previamente.




Ejemplo de salida de SPSS

Supongamos que se desea estimar la diferencia de ingreso medio de los ocupados
varones y mujeres.

La tabla inferior permite estimar por intervalos (con el estadstico t), la diferencia para
los dos caso detallados: cuando si bien no conocemos la varianza poblacional pero las
podemos considerar iguales as como en el caso en que no es posible considerarlas
iguales. Las ltimas columnas indican los valores de los lmites inferior y superior,
respectivamente, del intervalo de confianza estimado al 95% de confianza (en el caso
de varianzas iguales o diferentes, segn corresponda).




Tabla: Salidas de SPSS de la estimacin por intervalos de la diferencia de medias
para muestras independientes
4






4
Ejemplo tomado del material Ejemplos para la lectura de salidas del Paquete Estadstico para las Ciencias
Sociales (SPSS), E. Bologna, elaborado para la Modalidad Tutorial a Distancia. 2006.


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 25 -


Comparacin de proporciones - Dos muestras independientes

Una situacin similar se da cuando se desea comparar entre dos poblaciones o
segmentos de una misma poblacin, el valor del parmetro proporcin poblacional de
cierta variable.

En este caso, los supuestos que deben verificarse son idnticos a los presentados
previamente. El estadstico tendr distribucin Z, con la especificacin que se detalla
en la siguiente frmula:




1
2
2
2
2
1 2 1 2
/ /
) ( ) (
1
n n
P P p p
Z
+

=


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 26 -

Uso de SPSS para estimaciones

Para las estimaciones puntuales, podemos usar dos maneras de obtencin.

La primera a travs de las estadsticas descriptivas:























Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 27 -










Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 28 -





La otra manera es a travs de las Frecuencias. Recuerde destildar la opcin de salida
de tablas si la variable presenta muchos valores.




Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 29 -







Para obtener estimaciones por intervalos, aprovechamos los resultados de las
utilidades para pruebas de hiptesis.


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 30 -







Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 31 -












Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 1 -
REVISIN 2

GLOSARIO

Los siguientes trminos deben ser comprendidos en trminos conceptuales y
en aplicaciones, tanto su definicin como sus interrelaciones. En caso de tener
dudas sobre alguno de ellos, repase nuevamente la Lectura 2 y la bibliografa
bsica indicada.

Desvo estndar de la media muestral o Error estndar: Raz cuadrada de
la varianza de la distribucin de las medias muestrales.
Estadstica inductiva: procedimientos para sacar conclusiones poblacionales
a partir de muestras.
Grados de libertad: Cantidad de registros libres para variar cuando se estima
un parmetro poblacional.
Intervalo de confianza: Rango de valores (entre determinado lmite inferior y
lmite superior) que con cierta probabilidad conocida pueden capturar el valor
poblacional de un parmetro de inters. Por ejemplo, si se estima con un 95%
de confianza, existe un 95% de posibilidades de que el intervalo identificado
atrape al verdadero valor de la media poblacional.
Lmites de confianza: Valores superior e inferior del intervalo de confianza.
Teorema del lmite central: Resultado matemtico que establece que la
distribucin de las medias (o las sumas) de datos tomados al azar de cualquier
distribucin de individuos tender a distribuirse normal a medida que aumenta
el nmero de observaciones consideradas en la muestra.
Varianza de una distribucin de medias: varianza poblacional dividida la
cantidad de casos de la muestra. Medida de la dispersin entre las medias
muestrales de cierto tamao de muestra.



Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 1 -
MODULO 3

3.- PRUEBAS ESTADSTICAS

Bibliografa bsica:

Aaron y Aaron (2001). Captulos 6, 7, 8, 9, 10, 11, 12 y 13.

Blalock (1978). Captulos XIII y XVI.


1. LAS PRUEBAS DE HIPTESIS

1.1. La lgica de las pruebas de hiptesis.

Una hiptesis estadstica es un enunciado referido a la poblacin que puede ser
evaluado en funcin de informacin muestral, y considerado verdadero o falso en
trminos de la evidencia que la muestra proporciona. Las hiptesis estadsticas
generalmente involucran uno o ms caractersticas de la distribucin, como forma de
una distribucin, el valor de cierto parmetro o la independencia de la variable
aleatoria, entre otras.
Las hiptesis son siempre enunciados relativos a la poblacin o distribucin bajo
estudio, no enunciados referidos a la muestra. El valor del parmetro de la poblacin
especificado en la hiptesis suele determinarse de las siguientes formas:
1. Puede surgir de la experiencia o conocimientos pasados del fenmeno de
inters, o incluso de experimentacin previa. El objetivo de la prueba de
hiptesis en estos casos suele ser determinar si la situacin experimental ha
cambiado.
2. Este valor puede determinarse a partir de alguna teora o modelo con respecto
al objeto que se estudia. El objetivo de la prueba de hiptesis en este caso es
verificar la teora o modelo.
3. Cuando el valor del parmetro de la poblacin es resultado de consideraciones
experimentales, como especificaciones de diseo o de obligaciones
contractuales. En este caso, el objetivo de la prueba de hiptesis es la prueba
de conformidad.






Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 2 -
El siguiente ejemplo
1
, ilustra cmo se emplean las pruebas de hiptesis en
estadstica:
Hace un tiempo se descubri accidentalmente que cierto frmaco prescripto
para los casos graves de presin sangunea elevada, provocaba el crecimiento
del cabello. Se ha estimado que el 80% de los pacientes tratados con ese
medicamento experimentan engrosamiento, alargamiento y oscurecimiento
del cabello dentro de las tres a seis semanas de haber empezado el
tratamiento. Como resultado de estos efectos colaterales, se ha estado
investigando las posibilidades de usarlo en forma tpica para tratar la calvicie
masculina.
Una investigadora realiz un experimento para probar los efectos del
mencionado frmaco contra la calvicie. El experimento se realiz durante un
periodo de seis meses para comparar la hiptesis.
Hiptesis nula:
El frmaco no tiene beneficios teraputicos para prevenir la calvicie.
Contra la hiptesis (alternativa):
El frmaco tiene beneficios teraputicos para prevenir la calvicie.
El experimento se realiz suponiendo que el frmaco no tiene
beneficios teraputicos para prevenir la calvicie, pero con la esperanza de
encontrar evidencia de lo contrario. Utilizando dos grupos de personas calvas,
el grupo de tratamiento recibi dosis fijas del frmaco y el otro grupo de
control recibi un placebo.
Despus del periodo experimental de seis meses, la investigadora encontr
evidencia para sugerir que el frmaco tena beneficios reales para el
tratamiento de la calvicie masculina. Entonces ella rechaz la hiptesis A en
favor de la B. Al proceso usado por la investigadora se le llama prueba de
hiptesis.
La prueba de hiptesis, en muchos aspectos, se parece a un juicio sobre un delito
criminal. En el juicio se parte del supuesto de que el acusado es inocente. La hiptesis
nula es de inocencia. Lo contrario de la hiptesis nula es la hiptesis alternativa, que
expresa la creencia de culpabilidad, Por consiguiente, las hiptesis en un juicio
criminal se escribiran:
Ho: El acusado es inocente
Ha: El acusado es culpable

1
El ejemplo es citado en http://www.scribd.com/doc/26640224/Estadistica-informe.


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 3 -

Para probar las aseveraciones o hiptesis se lleva a cabo un juicio. El testimonio y las
pruebas obtenidas durante el juicio equivalen a la informacin de la muestra. Si la
informacin de la muestra concuerda con la hiptesis de inocencia, no se puede
rechazar la hiptesis nula relativa a que el acusado es inocente. Sin embargo, si la
informacin muestral no es consistente con la hiptesis de inocencia, se rechazar la
hiptesis nula. En este caso, la accin a tomar se basar en la hiptesis alternativa de
que el acusado es culpable.
A continuacin se describirn los lineamientos para establecer la hiptesis nula y
alternativa para diferentes tipos de situaciones, en los que se emplean normalmente
los procedimientos de prueba de hiptesis.

Un productor de juguetes Tailands indica que solo un 10% de los osos de
juguete que hablan estn defectuosos. Cuatrocientos de stos juguetes se
sometieron a prueba de forma aleatoria. Las hiptesis nula y alternativa se
expresaran de la siguiente manera:
Ho:

P 0,10
Ha: P > 0,10
Si los resultados de los datos de la muestra indican que no se puede rechazar
Ho, los investigadores no pueden decir que la proporcin de defectuosos es
mayor a la declarada. Quiz se deban llevar a cabo ms investigaciones y
pruebas. Sin embargo si los datos de la muestra indican que se puede rechazar
Ho, los investigadores pueden hacer la inferencia que la proporcin de
defectuosos supera a la declarada. En funcin de tal conclusin se podrn
tomar las decisiones pertinentes.

Un investigador en Ciencias de la educacin, est probando un nuevo mtodo
de enseanza de escritura, y postula que en textos de cierta extensin
predeterminada, el nmero promedio de errores ortogrficos entre los
alumnos que aprenden con ese mtodo no es mayor a 1 error que en los que
aprenden con mtodos tradicionales. Si denominamos grupo 1 a los alumnos
que aprenden con un mtodo tradicional y grupo 2 a los que aprenden con el
mtodo analizado, las hiptesis podran formularse de la siguiente manera:
Ho:


1

2
1
Ha:
1
-
2
< 1



Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 4 -
Un antroplogo est estudiando una pequea comunidad en Amrica del
Norte que tiene prcticas maritales polgamas. En base a su trabajo cualitativo,
postula que para esa comunidad, el nmero de esposas en cada familia alcanza
un valor promedio de 3. Realizar una muestra de familias para constatar la
veracidad de su hiptesis.

Ho: = 3
Ha: 3

En resumen las caractersticas de la hiptesis nula:
- Se va a considerar como cierta hasta que se tenga suficiente evidencia de
lo contrario.
- Siempre incluye el signo de igualdad.
- Es la base para el anlisis estadstico de la prueba.
Caractersticas de la hiptesis alternativa:
- Es lo contrario a la hiptesis nula (incluye por lo tanto alguno de los
siguientes smbolos:

, <, >).
- En general esta hiptesis se establece en trminos de aquello sobre lo que
se est buscando evidencia.
- Es la que define la direccin de la zona de rechazo.



Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 5 -

1.2. Niveles de significacin
Al tomar una decisin en una prueba de hiptesis, hay cuatro posibles resultados que
pueden ocurrir; como se ilustra en el siguiente esquema:
Tabla: tipos de error en una prueba de hiptesis
REALIDAD DE INTERS:

DECISION
LA HIPOTESIS NULA (Ho)
ES VERDADERA
LA HIPOTESIS NULA (Ho)
ES FALSA
NO RECHAZAR
LA HIPOTESIS
NULA

NO EXISTE ERROR
PROB= 1-o Confianza de la
prueba
ERROR DEL TIPO II
PROB=|
RECHAZAR LA
HIPOTESIS
NULA

ERROR DEL TIPO I
PROB=o
Nivel de Significancia
NO EXISTE ERROR
PROB=1-|
Potencia de la Prueba


Dos de los resultados involucran decisiones correctas, en tanto, dos de las decisiones
involucran decisiones incorrectas:
- Rechazar Ho cuando es verdadera y no rechazar Ho cuando es falsa, son
decisiones incorrectas.
- Rechazar Ho cuando es cierta se llama error Tipo I, y no rechazar Ho, cuando
es falsa, se llama error Tipo II.
Se requiere disponer de alguna magnitud que mida la posibilidad de cometer alguno
de estos errores. Esta medida es una probabilidad.
- La probabilidad de rechazar Ho, dado que Ho es verdadera, se define como la
probabilidad del error Tipo I y se denota por .
- La probabilidad de no rechazar Ho, dado que Ho es falsa, se define como la
probabilidad del error tipo II y se denota por .




Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 6 -

Por tanto las probabilidades de los errores Tipo I y II estn dadas por las proposiciones
P (rechazar Ho | Ho verdadera) =
P (no rechazar Ho | Ho es falsa) =

Tanto como

son probabilidades condicionales. No pueden obtenerse las
probabilidades de los errores Tipo I y II en un sentido absoluto, debido a que el estado
de la naturaleza no es conocido. Es decir, slo puede calcularse la probabilidad de
rechazar Ho slo si se asume que Ho cierta, o la probabilidad de equivocarse el
rechazar Ho, si se asume que Ho es falsa.

Propiedades de y
1. El valor de se fija al escoger la zona de rechazo.
2. El valor de depender de la hiptesis alternativa que se escoja.
3. Para un tamao muestral fijo, al aumentar la regin de rechazo y por lo tanto
, disminuye. Si decrece,

aumentar.
4. Al aumentar el tamao de la muestra y decrecen a la vez




Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 7 -

1.3. Etapas en el diseo de una prueba, distintos casos

PASOS A SEGUIR EN UNA PRUEBA DE HIPOTESIS
1. Definir la Hiptesis nula H
0
y la Hiptesis alternativa H
a

En la prueba de hiptesis, se debe establecer el valor que se presume
(hipotetizado) del parmetro de poblacin antes de estudiar la muestra. La
premisa que deseamos someter a prueba se conoce como hiptesis nula y se
simboliza Ho.
De acuerdo con los datos muestrales la hiptesis nula se rechazar o no
rechazar. Es muy importante comprender que no podemos aceptar la
hiptesis nula como verdadera, ya que para demostrar sin lugar a dudas que la
hiptesis es verdadera necesitamos conocer el valor del parmetro de la
poblacin. En cambio no rechazar implica que la evidencia muestral no es lo
suficientemente contundente como para rechazarla.
En la hiptesis nula siempre se considera el signo de igual (=).
Supongamos que deseamos probar la hiptesis de que la media edad de cierta
poblacin es igual a 16 aos. La expresaramos de la siguiente manera:
La hiptesis nula es que la media de la poblacin es igual a 16.
O en trminos simblicos:
Ho: = 16
La hiptesis alternativa se refiere a la conclusin a la que se llegar si se
rechaza a la hiptesis nula. Tambin se conoce como hiptesis de
investigacin. La hiptesis alternativa se considera vlida si los datos de la
muestra proporcionan suficiente evidencia estadstica de que la hiptesis nula
es falsa (es decir, si es posible rechazar la hiptesis nula).
Consideraremos tres hiptesis alternativas posibles:
Ha: 16
Ha: > 16
Ha: < 16
El signo de igual (=) nunca aparecer en la hiptesis alternativa. Para la
utilizacin de los estadsticos de prueba se tomar la hiptesis nula como


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 8 -
vlida, a los fines de partir de una distribucin conocida. La hiptesis alternativa
se observa slo si se demuestra que no es verdadera la hiptesis nula.
2. Seleccionar el estadstico de prueba que sea apropiado.
El estadstico es un valor que se calcula en base a la informacin de la
muestra, y que se utiliza para determinar si se rechaza la hiptesis nula
Existen muchas estadsticas de prueba que pertenecen a una distribucin
muestral, a partir de considerar la forma de tal distribucin y sus respectivos
parmetros. Las que estudiaremos en esta materia son:
Z, t, _
2
, F
3. Definir el nivel de significacin y la zona de rechazo
El nivel de significacin es la probabilidad de rechazar la hiptesis nula cuando
es verdadera es a lo que se llama error Tipo I.
El nivel de significacin se simboliza con . Se le llama tambin nivel de
riesgo.
No se puede determinar de antemano un nico nivel de significacin que se
aplique a todas las pruebas. Generalmente se utilizan los niveles 0.05 (al que
nos solemos referir como un nivel del 5%), 0.01, 0.10, o cualquiera entre 0 y 1
a criterio del investigador responsable de la prueba.
La zona de rechazo corresponde a los valores del estadstico de prueba para
los cuales se rechaza la hiptesis nula. La regla de decisin en la prueba de
hiptesis, puede establecerse considerando:
- El estadstico de prueba.
- La probabilidad.
- La distribucin de probabilidad del estadstico utilizado en la prueba.
La zona de rechazo tiene una magnitud dada por o y una direccin dada por
la hiptesis alternativa.
El siguiente esquema considera la hiptesis nula que se planteo en base a la
media poblacional, y al primer ejemplo de hiptesis alternativa. Bajo hiptesis
nula cierta, las zonas de rechazo y no rechazo para un nivel de significacin del
5%, sern:





Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 9 -

Figura: Esquema de zonas de rechazo y no rechazo

4. Calcular el estadstico de prueba a partir de los datos muestrales considerando
H
0
como verdadera
5. Decidir si H
0
se rechaza o no se rechaza.
6. Obtener las conclusiones del problema

ERRORES TIPO I Y TIPO II
Ahora focalizaremos en los conceptos de error Tipo I y error Tipo II, con respecto a las
pruebas para la media poblacional. Estos conceptos se aplican en los dems casos de
pruebas de hiptesis.
La probabilidad del error Tipo I es igual al nivel de significacin que se defini para
someter a prueba la hiptesis nula. Hay una probabilidad ( ) de que seleccione una
muestra al azar (probabilstica) de la cual surja una media muestral comprendida en la
regin de rechazo o las regiones de rechazo. Si surgiera tal valor, dado como indica la
regla de decisin que debe procederse, se rechaza la hiptesis nula, pese a ser sta


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 10 -
verdadera, y estaramos cometiendo el error Tipo I. Cabe destacar que se rechazar
porque resulta inverosmil (aunque no imposible) que surja tal valor como media
muestral, si es que es verdadera la hiptesis nula, y en funcin de este razonamiento
est diseada la regla de decisin.
El caso de la probabilidad del error tipo II es bastante diferente, ya que su
determinacin suele ser mucho compleja en la mayora de las situaciones. La nica
forma en que se puede determinar la probabilidad del error Tipo II ( ) es con
respecto a un valor especfico incluido dentro del rango de la hiptesis alternativa. Es
decir, para cada valor posible (diferente del considerado en la hiptesis nula), se
obtiene un valor diferente de la probabilidad de cometer el error tipo II.
Analizaremos los resultados de un estudio vinculado con una gran tienda de
departamentos, con un gran nmero de sucursales en todo el pas. Segn su gerente
general, las sucursales en promedio venden anualmente $15 millones.
a) Se toma una muestra al azar una muestra de 120 sucursales y se encuentra que
la venta media es de 15.39 millones de pesos anuales, con una desviacin
estndar de 2.9 millones de pesos. Probar la hiptesis 15 millones con un
nivel de significacin del 10%
b) Si la es en realidad 14.8 millones de dlares, Cul es la probabilidad de
cometer el error Tipo II.
Datos
n = 120
= 15.39 millones
o = 2.9 millones
o = 0.10
1. Establecer la hiptesis
Ho: = 15
Ha:

15
2. Establecer el estadstico de prueba
Z =
3. Definir el nivel de significancia y la zona de rechazo


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 11 -

Nivel de significacin = 0.10
Zona de rechazo = { Z/ Z < -1.64 Z/Z > 1.64 }
4. Calcular la estadstica de prueba
Z =

El valor de la media poblacional es el que est siendo sometido a prueba en la
hiptesis por lo tanto:


Z= 1.47

Como 1.47 < 1.64
No se rechaza Ho
5. Conclusin: No existe evidencia para decir que las ventas promedio por sucursal
son diferentes de 15 millones de pesos con un nivel de significacin de 0.10.




Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 12 -

4.3.1. Una poblacin: media, proporcin

CASO RESUELTO DE PRUEBA DE HIPOTESIS PARA LA
SUPUESTOS:
a)

conocida
b)
CASO:
En una empresa de fletes internacionales de equipamiento de precisin (en general
pequeos pero frgiles), se est analizando el peso de los envos habituales, para un
nuevo diseo de cajas protectoras especiales de un material adaptable a diferentes
formas. En funcin de adecuar el diseo, se necesita conocer el peso promedio de
todos los paquetes que se envan habitualmente a travs de su servicio. Como hay
limitaciones de tiempo y dinero para pesarlos a todos, se toma una muestra de 36
paquetes de la cual se obtiene una media muestral = 160 gramos. Se conoce que
la distribucin de los paquetes tiene
= 30 gramos. Con un nivel de significacin de 0.05. Se puede concluir que el peso
promedio de todos los paquetes es menor que 170 gramos?

Datos
n =36
= 160 gramos
o = 30 gramos
o = 0.05

1. Establecer la hiptesis
Ho: 170
Ha: < 170



Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 13 -

2. Establecer la estadstica de prueba
Z =

3. Definir el nivel de significacin y la zona de rechazo

Nivel de significancia = .05
Zona de rechazo = { Z/ Z -1.64}

4. Calcular el estadstico de prueba
Z =

la media poblacional esta bajo la hiptesis nula entonces tenemos





Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 14 -

5. Regla de decisin basada en la estadstica de prueba
Como -2 es menor que -1.64 la hiptesis nula se rechaza con un nivel de significacin
de 0.05.

Regla de decisin basada en la probabilidad
P ( Z < -2 ) = .02275
P ( Z < -1.64) = 0.05
Como 0.02275 es menor que 0.05 la hiptesis nula se rechaza.

Regla de decisin basada en la distribucin de probabilidad del estadstico utilizado en
la prueba.







Como 160 es menor que 162 la hiptesis nula se rechaza.



Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 15 -

6. Conclusin
A partir de la evidencia muestral recogida, el peso promedio de todos los paquetes
enviados habitualmente corresponde a un valor menor de 170 gramos con una
significacin del 0,05.



PROBLEMA RESUELTO DE PRUEBA DE HIPOTESIS PARA LA
(

desconocida y )
En relacin con un contrato de provisin de computadoras para escuelas, hay una
denuncia de sobrefacturacin por parte de la empresa que gan la licitacin. El
contrato defina que se entregaran computadoras de un valor promedio de US $
1,150. Se analizan los precios de las facturas entregadas en 12 establecimientos
educativos participantes del programa, seleccionados al azar. Al analizar esta muestra,
surge una media muestral de US $ 1,275 y una desviacin estndar de US $ 235, Se
dispone de evidencia de que el valor medio de las computadoras entregadas difiere de
$1150? Someteremos esta hiptesis a prueba, con un nivel de significacin de 0,05.

Datos
n =12
Media muestral: $1275
s= $ 235
o = .05
1. Establecer la hiptesis
Ho: = 1150
Ha: 1150




Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 16 -

2. Establecer el estadstico de prueba
Debido a que desconocemos la desviacin estndar poblacional, utilizamos un
estadstico t.
t =

3. Definir el nivel de significacin y zona de rechazo
f(t)
t grados de libertad: 11
-2.201 2.201

Nivel de significacin = 0.05
Zona de rechazo = { t/t -2.201 t/t 2.201


4. Calcular el estadstico de prueba
como la media poblacional esta bajo la hiptesis nula entonces tenemos

t =



Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 17 -

= = 1.84

5. Como 1.84 est entre -2.201 y 2.201 no se rechaza la hiptesis nula a un nivel de
significacin de 0.05

6. Conclusin
No se tiene evidencia suficiente para decir que los valores de las computadoras
entregadas son diferentes a $ 1150.




Prueba de hiptesis referida a la proporcin poblacional

Un candidato en una eleccin estar interesado en conocer si ha habido un aumento
en la proporcin de votantes que lo prefieren en vista de las prximas elecciones; una
empresa puede querer conocer si ha ocurrido o no una baja en la proporcin de
clientes que prefieren su marca; un mdico desea confirmar la propaganda de un
medicamento en la cual se afirma ste cura al 80% de los enfermos que lo utilizan. En
situaciones como stas nos interesa probar alguna afirmacin referente a una
proporcin. El procedimiento para probar una proporcin en una poblacin normal es
prcticamente igual al presentado para las medias.


Podemos usar cualquiera de los siguientes dos mtodos:
1. Calculando la regin de rechazo
2. Analizando el valor P


1. Clculo la Regin de Rechazo

Digamos que p
o
es la proporcin que se desea comprobar.



Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 18 -

Paso 1 Establecer las hiptesis. H
o
: p = p
o

H
1
: p > p
o

p < p
o

p = p
o



Paso 2 A partir del nivel de significacin definido (o) indicar la regin de rechazo en la
curva normal estndar (curva z).





(H
1
: P > P
o
) (H
1
: P < P
o
) (H
1
: P = P
o
)

Paso 3 Calcular el valor z para la proporcin muestral
|
.
|

\
|
=
n
x
p usando la
frmula
Z =
p
p p
o
0

,
n
p p
p
) 1 (
0 0

= o
Paso 4 Dibujar este valor de z en el diagrama de la regin de rechazo
obtenido en el Paso 2.
Paso 5 Si el valor z cae dentro de la regin de rechazo (sombreada),
entonces se rechaza H
o
. Si cae fuera de la regin sombreada,
entonces no se rechaza H
o
.
Paso 6 Escribir la conclusin de la prueba.

Ejemplo:

Recientemente un documento conjunto de varias organizaciones sociales advierte
sobre el crecimiento de la pobreza. Se produjo una gran discusin entre las
organizaciones y el gobierno, a partir de lo cual se realiza un nuevo estudio para
determinar la proporcin de hogares que se encuentran por debajo de la lnea de la
pobreza. Se desea someter a prueba la cifra proclamada por las organizaciones
sociales, que indican que el 40% (en proporcin: 0,4) de los hogares se encuentra en
condiciones de pobreza. Para ello se tom una muestra de 200 hogares, y se obtuvo
una estimacin de P de 0,45. Con una significacin de 0,01, qu puede decirse sobre
la manifestacin de las organizaciones sociales?
o
z
o
-z
o/2 o/2
-z z


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 19 -


Planteo de las hiptesis

Hiptesis nula:

H
0
: p = 0.4


Hiptesis alternativa:
H
1
: p = 0.4

Datos:

p = 0.45,

n = 200,

o = 0.01.


Procedimiento:

Paso 1

H
0
: p = 0.4
H
1
: p = 0.4

Paso 2: Usando o = 0.01, el diagrama de la regin de rechazo es:


Paso 3 Calculando el valor z para la proporcin muestral p = 0.45), obtenemos:


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 20 -
0346 . 0
200
) 4 . 0 1 ( 4 . 0
=

=
p
o
Z = 45 . 1
0346 . 0
4 . 0 45 . 0
=




Paso 4: Localizar z = 1.45 en el diagrama de la regin de rechazo (obtenida en el
Paso 2):

Paso 5: Tomar la decisin estadstica: dado que el valor de Z=1,45 se encuentra en la
zona de no rechazo, con un nivel de significacin del 0,01, no podemos descartar que
el valor de P sea el que se indic en la hiptesis nula (P=0,04).
Paso 6: Podemos mantener la hiptesis de que la proporcin poblacional de hogares
bajo la lnea de pobreza es 0.4, con un nivel de significacin de 0,01.
1.45
.005 .005
-2.575 2.575
Z
f(Z)


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 21 -

2. Clculo usando el Valor P

Dejemos que P
0
sea la proporcin proclamada por la denuncia de las organizaciones
sociales.

Paso 1 Establezca las hiptesis:

H
0
: P = P
0


H
1
: P > P
0

P < P
0

p = p
0


Paso 2 Calcule el valor z para la proporcin muestral
|
.
|

\
|
=
n
x
p usando la
frmula:
Z =
p
p p
o
0

, donde
n
p p
p
) 1 (
0 0

= o .

Paso 3 Usando la hiptesis alterna dibuja la regin bajo la curva z que
representa los valores extremos.





(H
1
: P > P
o
) (H
1
: P < P
o
) (H
1
: P = P
o
)

Paso 4 El valor P = al rea de la cola sombreada (s) en el Paso 3.

Paso 5 Si el valor P < o entonces rechaza H
0

Si el valor P > o, entonces no rechaces H
0
.

Paso 6 Detallar la conclusin del problema.
Valor P
z
Valor P
-z
P/2 P/2
-z z


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 22 -



Ejemplo 1:

Una empresa dedicada a la comercializacin de perfumes importados analiza su
posicin competitiva frente a empresas rivales en la ciudad, partiendo de la hiptesis
de una participacin de mercado del 40% (proporcin: 0,40). Ante el ingreso reciente
de una empresa internacional del rubro al mercado local, decide emprender un estudio
de mercado especfico para su segmento de inters, el pblico de nivel
socioeconmico medio alto y alto de la ciudad, para determinar si su hiptesis es
correcta. Se indagan las compras de 200 personas del segmento en una muestra
representativa. En la muestra se obtuvo que una proporcin muestral igual a 0,45.
Qu respondera Ud. al interrogante planteado, con un nivel de significacin del 1%?

Datos:
p = 0.45, n = 200, y o = 0.01.

Planteo de la hiptesis

H
0
: p = 0.4
H
1
: p = 0.4

Anlisis:

Paso 1 H
0
: p = 0.4
H
1
: p = 0.4


Paso 2 Calculando el valor z de p , obtenemos
0346 . 0
200
) 4 . 0 1 ( 4 . 0
=

=
p
o
Z = 45 . 1
0346 . 0
4 . 0 45 . 0
=




Paso 3 La regin bajo la curva z que contiene los valores extremos es
P/2 P/2
-1.45 1.45


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 23 -

El valor P = suma de las reas de las regiones sombreadas en el Paso 3.
= 2 (el rea a la derecha de 1.45)
= 2 (0.5 0.4265)
= 0.147

Paso 5 Como el valor P es mayor que o, entonces no disponemos de
informacin suficiente como para rechazar H
0
(es decir, no se
rechaza H
o
).
Paso 6 Hasta que se disponga de evidencia en contrario, sostendremos la
idea de que la proporcin en la poblacin es 0.4.




Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 24 -

4.3.2. Dos poblaciones: diferencia de medias, diferencia de proporciones


El procedimiento de prueba de hiptesis no tiene alteraciones en este tipo de pruebas
respecto de lo presentado para las pruebas de medias y proporciones.

La diferencia fundamental se vincula con la seleccin del estadstico apropiado en
cada caso.



Diferencia de medias

En el caso de las pruebas sobre diferencias de medias se pueden distinguir dos
situaciones generales bsicas:

1. muestras independientes
2. muestras relacionadas o apareadas

Ambos tipos de situaciones tienen amplia utilidad para mltiples propsitos de
aplicacin en ciencias sociales.

Dos muestras son independientes si la aparicin o seleccin de un individuo en una
muestra no tiene ninguna relacin con la aparicin o seleccin de ningn individuo o
elemento en la otra muestra. Este caso se aplica cuando los individuos de cada una de
las muestras pertenece a dos poblaciones distintas, cuya diferencia de medias es el
propsito principal de la prueba.

Por el contrario, decimos dos muestras estn apareadas si la inclusin de un individuo
en una de las muestras condiciona la seleccin de otro en la otra muestra
considerado, o bien, se analiza repetidamente informacin (generalmente a lo largo del
tiempo) sobre un mismo individuo.

En el caso de muestras independientes, consideraremos dos pruebas de hiptesis
referidas a las diferencias entre medias de ambas muestras, teniendo en cuenta los
supuestos que puedan considerarse.



Pruebas para diferencias de medias independientes


a) Prueba t de varianzas iguales

En el caso que puedan suponerse iguales las varianzas (aunque desconocidas), se
procede a utilizar este procedimiento.

Supuestos:
- Las muestras fueron tomadas de manera independiente y al azar de sus
respectivas poblaciones


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 25 -
- Las poblaciones se distribuyen normal
- Las varianzas son iguales:
2
2
2
1
o o =


Los subndices indican en este caso las respectivas muestras 1 y 2. Debe tenerse en
cuenta que la diferencia entre medias (especialmente importante para el caso de
pruebas unilaterales en las que se aplica el mismo estadstico, con procedimiento
anlogo de adaptacin de las pruebas al caso unilateral), debe realizarse en el mismo
orden para las medias muestrales y poblacionales.


Las hiptesis nula y alternativa sern:

Hiptesis nula:

H
0
:
2 1
=

Hiptesis alternativa:

H
1
:
2 1
=


El estadstico de prueba tiene distribucin t, con (n
1
+n
2
-2) grados de libertad:

|
|
.
|

\
|
+

=
2 1
2
2 1 2 1
1 1
) ( ) (
n n
s
x x
t
p




La varianza conjunta se calcula de la siguiente manera:


) 1 ( ) 1 (
) 1 ( ) 1 (
2 1
2
2 2
2
1 1 2
+
+
=
n n
s n s n
s
p




b) Prueba t para varianzas distintas


Cuando no es posible asegurar que las varianzas de ambas poblaciones son iguales
(y en particular, cuando as lo permite aseverar un test realizado para someter a
contraste la igualad de tales varianzas), se procede modificando el estadstico de
prueba como detallamos a continuacin.




Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 26 -

|
|
.
|

\
|
+

=
2
2
2
1
2
1
2 1 2 1
) ( ) (
n
s
n
s
x x
t




El estadstico t anterior, posee v grados de libertad, calculados de la siguiente manera:


1 1
2
2
2
2
2
1
2
1
2
1
2
2
2
1
2
1

|
|
.
|

\
|
+

|
|
.
|

\
|
|
|
.
|

\
|
+
=
n
n
s
n
n
s
n
s
n
s
v


Afortunadamente para quienes toman este curso, la atencin principal debe estar
centrada en la interpretacin de resultados obtenidos con estas tcnicas y mtodos, y
no con el clculo manual de este tipo de frmula. Veremos a continuacin un ejemplo
de salida de SPSS para una caso donde se interpreten este tipo de resultados.


Ejemplo:

Se analizan datos de las muestras de dos poblaciones de mujeres:

La muestra 1 corresponde a mujeres residentes en zonas rurales.

La muestra 2 corresponde a mujeres residentes en zonas urbanas.

Se estudia el nmero de hijos tenidos por las mujeres.

Analice lo siguiente: por qu se trata de una prueba para muestras independientes?



Los resultados obtenidos a travs de la aplicacin del mtodo de anlisis en spss, de
Diferencia de medias para muestras independientes es el siguiente:

En primer lugar, arroja una tabla de datos descriptivos para los grupos de datos.
Puede observarse que la muestra 1 corresponde a 15 casos, en tanto la muestra 2
comprende 52 casos. El promedio de hijos tenidos para la muestra 1 es 3,6 mientras el
correspondiente a la muestra 2, alcanza los 1,46 hijos. A simple vista podemos tener
una idea a priori de una diferencia significativa entre ambas muestras. Esta intuicin
sirve para la interpretacin de los resultados.

Tambin ser observan en la salida, las varianzas muestrales correspondientes.


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 27 -



Estadsticas del grupo

Muestra N Media Desv. estndar
Error estndar
de la media
NUMERO DE HIJOS
TENIDOS
1,00 15 3,6000 2,92282 ,75467
2,00 52 1,4615 1,16251 ,16121

La salida correspondiente a la prueba t de diferencia de medias arroja el siguiente
resultado:




La tabla permite observar en primer lugar, que no corresponde considerar el caso de
varianzas iguales (ya que en este caso se rechaza el test de igualdad de varianzas).
Para este ltimo anlisis se analizan las primeras dos columnas de resultados. El valor
F del test cae en zona de rechazo (ya que el p-valor Sig.- es inferior a 5%, si es que
se toma este o como referencia).

Por lo tanto consideraremos los resultados provistos por la segunda fila de resultados
de la tabla para analizar la prueba de diferencia de medias de muestras
independientes.

Con la informacin muestral disponible, se obtiene un valor del estadstico t de la
prueba de 2,771. Ese valor de t (con los grados de libertad calculados v=15,298)
implican que con un nivel de significacin del o=0,05, se rechaza la hiptesis nula de
igualdad de medias, ya que el p-valor (Sig, en la quinta columna de la tabla) arroja un
valor inferior a 0,05, correspondiente a 0,014. Si por el contrario el nivel de
significacin hubiera sido 0,01, no tendramos elementos para rechazar la hiptesis de
igualdad entre las medias.



Pruebas para diferencias de medias relacionadas o apareadas

El caso de las muestras relacionadas es de amplia utilizacin cuando se necesita
disponer de comparaciones entre sujetos con muy poca variabilidad entre s (estudios


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 28 -
de gemelos por ejemplo) o en pruebas sucesivas repetidas (estudios antes y
despus sobre un mismo sujeto).


En este caso, analizamos la diferencia especfica para el par de observaciones
apareadas, que denominaremos D.

2 1 i i i
X X D =

Esta diferencia para cada par de datos que estamos estudiando representa las
diferencias uno a uno. Por ejemplo, si es un estudio entre gemelos, en el cual a uno de
los gemelos de cada conjunto de hermanos gemelos que se est estudiando se le
aplic un tratamiento, cuyo efecto se quiere comprobar, la diferencia D es la medida
de la distancia en la variable de respuesta para ambos sujetos. Justamente lo que se
pretende someter a prueba es la existencia o no de tal diferencia entre los sujetos que
fueron sometidos a tratamiento y los que no, an en estos casos, en los cuales los
sujetos poseen mucha homogeneidad entre s.

El promedio muestral de tales diferencias se obtiene considerando todas las D para los
n pares de sujetos de estudio:

n
D
D
i
=

Denotaremos
D
a la diferencia poblacional, que se somete a prueba.

La prueba se lleva a cabo con el mismo procedimiento utilizado previamente para los
diversos casos de pruebas de hiptesis.

Las hiptesis nula y alternativa en este caso sern:

H
o
: 0 =
D

H
1
: 0 =
D


El estadstico de prueba ser:

n
s
D
t
D
D
2

=


Este estadstico posee n-1 grados de libertad.

Para el clculo de la desviacin estndar muestral se deber considerar la siguiente
frmula:



Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 29 -
1
2 2

=

n
D n D
s
i
D




4.3.3. Diferencia de medias de ms de dos poblaciones

Anlisis de varianza

El anlisis de varianza o como es ms conocido, ANOVA, sus siglas de la
denominacin en ingls: ANalysis Of VAriance, examina dos o ms conjuntos de
datos, en particular sus varianzas, e intenta detectar diferencias estadsticamente
representativas entre las medias de dichos conjuntos.

En general, el propsito del ANOVA es probar si existen diferencias significativas entre
medias. Si slo comparamos dos medias, el ANOVA producir el mismo resultado que
la prueba t para muestras independientes (si estamos comparando dos grupos
diferentes de casos u observaciones) o la prueba t para muestras dependientes (si
estamos comparando dos variables en un conjunto de casos u observaciones).
Produce un resultado realmente novedoso y til cuando lo utilizamos para comparar
las medias de tres o ms grupos.

El mtodo de anlisis de varianza se basa en el hecho de que hay una diferencia entre
los grupos slo si la varianza intergrupos es mayor que la varianza intra-grupo.

El anlisis se inicia calculando la varianza intra-grupo para cada grupo, y la media de
todas estas varianzas de grupo.


La separacin de la suma de cuadrados

La idea bsica del ANOVA es el hecho de que las varianzas pueden ser divididas, es
decir separadas. Se debe recordar que la varianza se calcula como la suma de
desviaciones al cuadrado respecto de la media general (o gran media), dividida por n-1
(el tamao de la muestra menos uno). Por eso, dado un cierto n, la varianza es una
funcin de las sumas de cuadrados (de desvos), a la cual denominaremos SS. La
particin de la varianza funciones como mostraremos a continuacin:

Consideremos el siguiente conjunto de datos, correspondientes a las notas en cierta
prueba estandarizada, de muestras de alumnos de tres zonas del pas (el grupo 1 es
una muestra de alumnos de la regin menos aventajada, el grupo 2 corresponde a una
muestra de la zona de situacin intermedia en cuanto a nivel socioeconmico, y el
grupo 3 corresponde a una muestra de la zona con mayor nivel socioeconmico). Se
desea analizar si hay diferencias en las notas promedio de los alumnos de acuerdo
con la zona de residencia:





Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 30 -






Tabla: Datos del problema

Grupo 1 Grupo 2 Grupo 3
Observacin 1 2 6 8
Observacin 2 3 7 8
Observacin 3 1 5 7
Media del grupo 2 6 7,67
Suma de cuadrados
(dentro)
2 2 0,67
Gran Media 5,2
Suma de cuadrados
totales
55,56

Las medias de los tres grupos son bastante diferentes. Las sumas de cuadrados en
cada grupo son relativamente reducidas. En total suma 4,56. Por otra parte, si
analizamos la SS total, obtenemos 55,56. En definitiva, calcular la varianza (suma de
cuadrados) basados en la variabilidad en los grupos conduce a una estimacin mucho
menor de la varianza que calcularla basada sobre la variabilidad total. La razn para
ello en este ejemplo es que hay una gran diferencia entre las medias, y esta diferencia
genera la diferencia entre las SS.

A travs del cuadro ANOVA, tendramos el siguiente resultado:

Tabla de ANOVA

Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Cuadrados
medios
F p
Entre
grupos
(Efecto)
50,89 2 25,44

32,71


0,001


Dentro de
grupos
(Error)
4,67 6 0,778
Total 55,56 8 -




Suma de cuadrados del Error (Suma de Cuadrados Dentro) y Suma de
cuadrados del Efecto (Suma de Cuadrados Entre)

La variabilidad dentro de los grupos es generalmente denominada Varianza de Error.
Este trmino denota el hecho de que no podemos realmente explicarlo o tenerlo en
cuenta en este diseo que estamos considerando. Sin embargo, la variabilidad entre


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 31 -
grupos (Efecto), puede ser explicada. Como su nombre lo indica, esta variabilidad se
debe a las diferencias en las medias entre los grupos. Explicado de otra forma, ser
miembro de un grupo explica esta variabilidad ya que conocemos que esto se asocia
con las diferencias en las medias.

El ANOVA es otro ejemplo de prueba en la que se desea conocer la significacin
estadstica. En este caso el test o prueba se basa en la comparacin de la varianza
debida a la variabilidad entre grupos (Cuadrados medios entre, CME) con la
variabilidad dentro de los grupos (Cuadrados medios dentro, CMD, o Cuadrados
medios del error). Bajo hiptesis nula (que se expresa como: no hay diferencias entre
las medias de los grupos de la poblacin), la varianza estimada basada en la
variabilidad dentro de los grupos debera ser aproximadamente la misma que la
varianza debida a variabilidad entre grupos. Podemos entonces comparar estas dos
estimaciones de la varianza a travs de la prueba F, la cual somete a prueba si el
cociente de dos varianzas es significativamente mayor que 1.

En el ejemplo, el test es elevadamente significativo, por lo cual se concluye que en
efecto las medias de los grupos (al menos una de ellas) son significativamente
diferentes entre s.


Lgica bsica del ANOVA

El propsito del anlisis de varianza es probar si son estadsticamente significativas
las diferentes en las medias para tres ms grupos de casos.

Para ello se analiza la varianza, particionndo la varianza total en sus componentes:
el que se debe al error aleatorio (Suma de cuadrados dentro de los grupos) y el que se
debe a las diferencias entre las medias (Suma de cuadrados entre los grupos).

Estos componentes de la varianza son sometidos a la prueba de significacin
estadstica, y si resulta significativa, se rechaza la hiptesis nula referida a la no
existencia de diferencia entre las medias y se concluye que hasta nueva evidencia se
mantiene como vlida la hiptesis alternativa referida a que las medias de la poblacin
son diferentes entre s (o ms precisamente, que al menos una de las medias
consideradas lo es).


Comparaciones Post hoc

El hecho de rechazar la hiptesis nula de un ANOVA no nos dice nada acerca de las
diferencias de las medias entre s, slo nos permite asegurar que tal diferencia es
significativa, en al menos una de las medias consideradas.

Para poder identificar cul o cules medias difieren se realizan pruebas como el test
de Tuckey, que posibilitan su deteccin.

Las salidas de SPSS que mostramos a continuacin corresponden a una prueba
ANOVA, para someter a contraste la hiptesis de igualdad en la cantidad promedio de
miembros por hogar entre las distintas regiones del pas. El anlisis se realiz con
datos de la EPH de primer semestre de 2009:


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 32 -


ANOVA
Cantidad de miembros del Hogar

Suma de
cuadrados GL
Cuadrados
medios F Sig.
Entre grupos 1583,586 5 316,717 88,237 ,000
Dentro de grupos 64243,100 17898 3,589

Total 65826,686 17903


Como se observa en la tabla, se rechaza la hiptesis nula de igualdad de medias.

Ahora veremos los anlisis posteriores vinculados con detectar cul de las regiones
posee diferente media:


Comparaciones mltiples
Cantidad de miembros del Hogar
Tukey HSD
(I) Cdigo de
Regin
(J) Cdigo
de Regin
Diferencia
media (I-J)
Error
estndar Sig.
Intervalo de confianza 95%
LI LS
Gran Buenos
Aires
NOA -,754
*
,049 ,000 -,89 -,61
NEA -,516
*
,056 ,000 -,68 -,36
Cuyo -,368
*
,059 ,000 -,54 -,20
Pampeana ,025 ,044 ,992 -,10 ,15
Patagnica -,159
*
,051 ,023 -,31 -,01
NOA Gran
Buenos
Aires
,754
*
,049 ,000 ,61 ,89
NEA ,238
*
,055 ,000 ,08 ,39
Cuyo ,387
*
,058 ,000 ,22 ,55
Pampeana ,780
*
,042 ,000 ,66 ,90
Patagnica ,595
*
,050 ,000 ,45 ,74
NEA Gran
Buenos
Aires
,516
*
,056 ,000 ,36 ,68


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 33 -
NOA -,238
*
,055 ,000 -,39 -,08
Cuyo ,148 ,063 ,177 -,03 ,33
Pampeana ,541
*
,050 ,000 ,40 ,68
Patagnica ,357
*
,056 ,000 ,20 ,52
Cuyo Gran
Buenos
Aires
,368
*
,059 ,000 ,20 ,54
NOA -,387
*
,058 ,000 -,55 -,22
NEA -,148 ,063 ,177 -,33 ,03
Pampeana ,393
*
,053 ,000 ,24 ,54
Patagnica ,208
*
,059 ,006 ,04 ,38
Pampeana Gran
Buenos
Aires
-,025 ,044 ,992 -,15 ,10
NOA -,780
*
,042 ,000 -,90 -,66
NEA -,541
*
,050 ,000 -,68 -,40
Cuyo -,393
*
,053 ,000 -,54 -,24
Patagnica -,185
*
,044 ,000 -,31 -,06
Patagnica Gran
Buenos
Aires
,159
*
,051 ,023 ,01 ,31
NOA -,595
*
,050 ,000 -,74 -,45
NEA -,357
*
,056 ,000 -,52 -,20
Cuyo -,208
*
,059 ,006 -,38 -,04
Pampeana ,185
*
,044 ,000 ,06 ,31
*. The mean difference is significant at the 0.05 level.

La columna de la significacin nos permite identificar las diferencias que son
significativas (aquellas con una significacin superior a 0,05).

Se resumen en el siguiente cuadro, las agrupaciones de regiones entre las cuales no
hay diferencias significativas en sus medias:



Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 34 -



Cantidad de miembros del Hogar
Tukey HSD
a,,b

Cdigo de Regin N
Subconjuntos para o = 0.05
1 2 3 4
Pampeana 5687 3,09

Gran Buenos Aires 2781 3,12

Patagnica 2690

3,28

Cuyo 1656

3,48

NEA 1951

3,63

NOA 3139

3,87
Sig.

,997 1,000 ,057 1,000



Supuestos y efectos de la violacin de supuestos

a) Desviacin de la distribucin normal

Supuestos:
- Se supone que la variable dependiente est medida al menos en un nivel de
una escala de intervalo.
- Adems, la variable dependiente debera distribuirse normal en los grupos.

Efectos de la violacin del supuesto:
- La prueba F es notablemente robusta de desviaciones de la normalidad.
- Si la curtosis es mayor que 0, entonces, la F tiene a ser demasiado pequea y
no podemos rechazar la hiptesis nula aunque sta sea incorrecta.
- Lo opuesto ocurre en el caso en que la curtosis es menor que 0.
- La asimetra de la distribucin generalmente no tiene un efecto considerable
sobre la prueba F.


b) Homogeneidad de Varianzas

Supuestos:
- Las varianzas de los diferentes grupos del diseo son idnticas.
- Si las varianzas de dos grupos son diferentes unas de otras, la suma de dos
varianzas no es apropiada y no conducira a una estimacin de la varianza
comn dentro de los grupos.


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 35 -

Efectos de la violacin del supuesto:
- La prueba F es bastante robusta contra violaciones de este supuesto.

Veamos un ejemplo de aplicacin de ANOVA para un problema de
ciencias sociales
Se quiere evaluar la eficacia de distintos mtodos para la enseanza de idioma
extranjero para obtener puntaje en una prueba internacional. Para ello se
seleccionan al azar 25 estudiantes de un curso y se distribuyen aleatoriamente
en 5 grupos. Al primero de ellos no se le somete a ningn mtodo especial de
aprendizaje, al segundo un mtodo con nfasis en la conversacin informal, al
tercero a un mtodo de comunicacin por telfono, al cuarto realiza su
entrenamiento para el examen a travs de pelculas y series en el idioma
original y al quinto se le duplica la cantidad de horas de estudio con el mtodo
bsico. Las notas en el examen internacional de los 25 sujetos al finalizar la
aplicacin de los diferentes mtodos son:
Grupo
1 2 3 4 5
180 172 163 158 147
173 158 170 146 152
175 167 158 160 143
182 160 162 171 155
181 175 170 155 160

La tabla de ANOVA es:
Fuente de
variacin
GL SS MS F
Tratamiento 4 2010,64 502,66 11,24
Error 20 894,4 44,72
Total 24 2905,04
Como F
0,05(4,20)
=2,87 y 11,24>2,87 rechazamos la hiptesis nula y concluimos
que los resultados de los tratamientos son diferentes.
La tabla de ANOVA que devuelve el programa SPSS es
ANOVA


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 36 -

nota_test

Suma de
cuadrados GL
Cuadrados
medios F Sig.
Entre grupos 2010,640 4 502,660 11,240 ,000
Dentro de grupos 894,400 20 44,720

Total 2905,040 24



Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 1 -
REVISIN 3

GLOSARIO
Los siguientes trminos deben ser comprendidos en trminos conceptuales y
en aplicaciones, tanto su definicin como sus interrelaciones. En caso de tener
dudas sobre alguno de ellos, repase nuevamente la Lectura 3 y la bibliografa
bsica indicada.

Alfa (): o nivel de significacin, probabilidad de cometer un error Tipo I, .
ANOVA (anlisis de varianza): procedimiento de prueba de hiptesis para
estudios que incluyen ms de dos grupos.
Beta (): Posibilidad de cometer el error Tipo II en la prueba de hiptesis.
Distribucin t de Student: Distribucin terica de probabilidad. Se usa para la
comparacin de dos medias en poblaciones independientes y normales.
Error Tipo I: Error de rechazar la hiptesis nula siendo sta verdadera.
Error Tipo II: Error de no rechazar la hiptesis nula siendo sta falsa.
Estadstico de prueba: Estadstico cuyo valor ayuda a determinar si se
rechaza la hiptesis nula.
Hiptesis nula: hiptesis que se supone tentativamente verdadera.
Hiptesis alternativa: hiptesis que se concluye verdadera cuando se rechaza
la hiptesis nula.
Potencia: probabilidad de rechazar adecuadamente Ho cuando sta es falsa.
Prueba bilateral: Prueba de hiptesis en la que la significacin se reparte
entre las dos colas de la distribucin.
Prueba unilateral o de una cola: Toda la significacin se ubica en una cola de
la distribucin.
P-valor: probabilidad dada por la muestra, contra la hiptesis nula. Mientras
menor sea p, mayor es la evidencia en contra de Ho.
Valor crtico: Valor que se compara con el estadstico de prueba para
determinar si se rechaza o no la Ho.


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 1 -
MODULO 4

RELACIONES ENTRE VARIABLES

Bibliografa bsica:

Aaron y Aaron (2001). Captulos 14 y 16.

Blalock (1978). Captulos XV, XVII, XVIII y XIX.


Cuando se consideran dos variables, aparecen diferentes formas de medir su posible
interrelacin.

El siguiente cuadro (adaptado de Babbie, 2000, Fundamentos de la investigacin
social, pg. 378), da una visin ordenadora de los principales indicadores que
recorreremos en este mdulo, como as tambin de algunos que exceden el alcance
de este curso, pero pueden ser tiles y deberan ser explorados en detalle, si son
requeridos en investigaciones especficas.


Cuadro: Medidas de asociacin y niveles de medicin

Variable independiente
Nominal Ordinal Intervalar o de
razn
Variable
dependiente
Nominal Tablas cruzadas
Chi Cuadrado
Lambda
Tablas cruzadas
Chi Cuadrado
Lambda

Ordinal Tablas cruzadas
Chi Cuadrado
Lambda
Tablas cruzadas
Chi Cuadrado
Lambda
Gamma
Tau de Kendall
d de Sommers

Intervalar o de
razn
Medias
Prueba t
ANOVA
Medias
Prueba t
ANOVA
Correlacin
r de Pearson
Regresin


Las pruebas indicadas para variables dependientes medidas en escala intervalar o de
razn y variables dependientes medidas en escala nominal u ordinal: diferencia de
medias - pruebas t y ANOVA, han sido estudiadas en el mdulo anterior.

El resto de los anlisis sern objeto de estudio de este mdulo, con nfasis en los
puntos que detalla el programa de la materia.



Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 2 -


5.1. Tablas de anlisis para la relacin entre variables

5.1.1. Prueba de independencia de atributos

La prueba de independencia permite establecer si existe o no relacin entre variables
medidas en escala nominal, cada una de las cuales posea dos o ms categoras.

Veamos un ejemplo. Supongamos que desde el Ministerio de asuntos sociales, se
emprende una evaluacin del resultado de varios programas de asistencia
desarrollados por el gobierno en el ltimo mandato.

En particular, se quiere considerar el efecto sobre la mejora en la situacin
socioeconmica de las familias beneficiarias de los programas de asistencia,
diferencindolas por el tipo de beneficio recibido. Se trabaj en el perodo (3 aos) con
tres programas bsicos: uno relativo a una poltica de ingreso, en la cual se haca una
transferencia compensatoria a familias con ingresos muy reducidos, una segunda
poltica correspondiente a la solucin de problemas habitacionales a familias pobres
sin vivienda, y una tercera, consistente en un programa de acceso ampliado a
cobertura de salud con nfasis en los grupos de edad ms vulnerables.

A los fines de la evaluacin, se trabaj con muestra de cada una de las poblaciones de
beneficiarios, y se estudi comparativamente su situacin socioeconmica, en relacin
el momento de recepcin del beneficio.

Los resultados arrojados por el estudio son los siguientes:

Tabla: Cantidad de familias en cada situacin tras el beneficio de la poltica social
recibido

Cambios en la situacin socioeconmica de las familias
Poltica Mejoraron Se mantuvieron
igual
Empeoraron
Ingresos 180 150 90
Salud 120 180 70
Vivienda 70 100 130
Fuente: elaboracin propia


La prueba Chi cuadrado que presentaremos permite establecer si existe relacin entre
escalas como las planteadas en el ejemplo.

La prueba Chi cuadrada es una prueba de carcter general que se utiliza cuando se
desea determinar si las frecuencias absolutas obtenidas en la observacin (como en la
tabla del ejemplo previo), difieren significativamente o no de las que se esperaran bajo
cierta hiptesis planteada de interrelacin de las categoras de las variables
consideradas.



Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 3 -




Tabla cruzada: Datos observados, frecuencias absolutas, porcentajes totales, en filas y
en columnas

Tabla cruzada: politica * cambio

cambio Total

Mejoraron Se
mantuvieron
Empeoraron
poltica Ingresos Total 180 150 90 420
% en poltica 42,9% 35,7% 21,4% 100,0%
% en cambio 48,6% 34,9% 31,0% 38,5%
% del total 16,5% 13,8% 8,3% 38,5%
Salud Total 120 180 70 370
% en poltica 32,4% 48,6% 18,9% 100,0%
% en cambio 32,4% 41,9% 24,1% 33,9%
% del total 11,0% 16,5% 6,4% 33,9%
Vivienda Total 70 100 130 300
% en poltica 23,3% 33,3% 43,3% 100,0%
% en cambio 18,9% 23,3% 44,8% 27,5%
% del total 6,4% 9,2% 11,9% 27,5%
Total Total 370 430 290 1090
% en poltica 33,9% 39,4% 26,6% 100,0%
% en cambio 100,0% 100,0% 100,0% 100,0%
% del total 33,9% 39,4% 26,6% 100,0%


Considerando los datos de la tabla previa, se puede observar que entre los que
mejoraron, es ms elevada la proporcin, respecto del total que recibi los beneficios
de una poltica de ingresos, en tanto, entre los que se mantuvieron, la proporcin que
se destaca es la de individuos que recibieron los beneficios del programa de salud.
Finalmente, los hogares que vieron desmejorar su situacin socio-econmica,
presentan proporcionalmente una mayor presencia de la poltica de vivienda que el
resto.

A los fines de corroborar si tal observacin puede sostenerse, o bien si se trata slo de
una casualidad presente en los datos de la muestra, la prueba Chi cuadrado permite
someter a contraste las siguientes hiptesis:





Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 4 -

Ho:

Las variables son independientes entre s (es decir, no tienen relacin)


H1:
Las variables no son independientes.


Observe que si bien estamos interesados en considerar la vinculacin entre las
variables, la hiptesis nula parte del supuesto neutral de no relacin o independencia.
En el caso de rechazar la hiptesis nula, detectaremos la relacin que suponemos que
existe, que motiv el estudio.

El estadstico justamente considerar esta situacin, en la cual, si los valores
observados se distancian significativamente del valor esperado bajo el supuesto de
independencia, el estadstico resultar en un valor elevado (ubicado en la zona de
rechazo), y se rechazar la hiptesis nula. El estadstico Chi cuadrado est dado por:


=
e
e o
f
f f
2
2
) (
_

Este estadstico se distribuye Chi cuadrado con (c-1).(f-1) grados de libertad.

Donde

f
o
: frecuencias observadas
f
e
: frencuencias esperadas
c= nmero de columnas
f= nmero de filas


Veamos los resultados que proporciona la aplicacin del mtodo, utilizando el paquete
estadstico SPSS:



Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 5 -

Tabla: Valores observados y esperados
politica * cambio Crosstabulation

cambio
Total

Mejoraron Se mantuvieron Empeoraron
politica Ingresos Observados 180 150 90 420
Esperados 142,6 165,7 111,7 420,0
Salud Observados 120 180 70 370
Esperados 125,6 146,0 98,4 370,0
Vivienda Observados 70 100 130 300
Esperados 101,8 118,3 79,8 300,0
Total Observados 370 430 290 1090
Esperados 370,0 430,0 290,0 1090,0

Tabla de resultados:

Pruebas Chi cuadrado

Valor GL
Significacin
asinttica (2
colas)
Chi cuadrado de Pearson 76,296
a
4 ,000
Razn de Verosimilitud 72,575 4 ,000
Asociacin Lineal Lineal 46,957 1 ,000
Nmero de casos vlidos 1090




El resultado proporcionado por el indicador Chi Cuadrado de Pearson (primer rengln
de los resultados) da la informacin correspondiente para tomar decisin.

En el caso del ejemplo, rechazamos la hiptesis nula (observar la significacin del
resultado, que es menor al 0,05), por lo tanto, concluimos que con la informacin
muestral disponible, no podemos descartar la existencia de una relacin (no son
independientes) entre las variables poltica de beneficios y resultados en la situacin
socioeconmica de las familias beneficiarias.





Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 6 -

5.2. Coeficientes de asociacin

Medidas de fuerza de la relacin

A partir del prueba de independencia slo podemos afirmar si existe o no relacin
entre las variables.

En el caso de detectar (rechazando la hiptesis nula de la prueba de independencia)
que existe relacin, podemos estar interesados a su vez en conocer en qu medida se
relacionan las variables.



5.2.1. V de Cramer

La V de Cramer es la medida basada en el estadstico Chi cuadrado ms popular de
las correspondientes a la asociacin entre variables nominales debido a que da un
indicador buen ubicado entre 0 y 1 ajustado al tamao de la tabla.

V es igual a la raz cuadrada de Chi cuadrado dividido por el tamao de la muestra por
el mnimo entre el nmero de filas menos 1 y el nmero de columnas menos 1:


k n
V
.
2
_
=

Donde k= mnimo entre el nmero de filas menos 1 y el nmero de columnas menos 1.


Cmo se interpreta la V de Cramer?
V puede ser vista como la asociacin entre dos variables como un porcentaje de su
mxima variacin posible.

Qu significa la asociacin medida por V en sus valores extremos?
V define una relacin perfecta como aquella que es predictiva (o monotnicamente
ordenada), y define una relacin nula como la independencia estadstica. Da valores
entre 0 y 1. El 0 corresponde a ausencia de asociacin y 1 a asociacin perfecta.


Otras caractersticas de V:

- La significacin de V es la misma que la de la Chi cuadrado. En el caso del uso
del paquete SPSS, este la reporta como un resultado junto con el clculo de V.

- Simetra: V es una medida simtrica. No se ve afectada por cual es la variable
independiente.



Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 7 -
- El coeficiente V de Cramer se utiliza cuando la variable de menor nivel es
nominal.



5.2.2. Q de Kendall


El Coeficiente Q de Kendall (conocido tambin como Q de Yule) mide la asociacin
entre dos variables a nivel nominal u ordinal y se usa para tablas de contingencia de
dos columnas por dos renglones. Este indicador es un caso especial del conocido
indicador Gamma para variables ordinales.

Los valores que puede alcanzar oscilan entre - 1 y + 1; cuando es igual a -1 indicar
una completa disociacin entre las variables, y si es igual a +1 mostrar una
asociacin total.

En caso de que el valor sea igual a cero, se concluye que no hay asociacin o relacin
entre las variables, lo cual es la diferente al hecho de que exista una disociacin.


Supongamos una tabla genrica 2 x 2, con las siguientes denominaciones para las
casillas:

Variable 1
Variable 2 1 categora 2 categora Total
1 categora a b
2 categora c d
Total


La estructura del coeficiente ser:

bc ad
bc ad
Q
+

=

Cuando los productos de las diagonales son iguales, el valor de Q es cero, e indica
independencia entre las variables.

Q alcanza sus lmites, -1 1, cuando alguna de las casillas es cero.


5.2.3. r de Spearman y de Pearson

Para las variables cuantitativas o numricas (tanto intervalares como medidas en
escalas de razn), podemos calcular como medidas de la asociacin entre ellas,
diferentes coeficientes que permiten cuantificar la correlacin entre s.




Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 8 -


Coeficiente de correlacin por rangos de Spearman

Este coeficiente es una medida de asociacin lineal que utiliza los rangos, nmeros de
orden, de cada grupo de sujetos y compara dichos rangos.

El denominado rho de Spearman es anlogo al coeficiente de correlacin de Pearson,
que presentaremos a continuacin, pero en este caso calculado sobre el rango de
observaciones.

Esta diferencia implica que la correlacin estimada entre las variables X e Y
corresponda en este caso a diferencias entre dados apareados. El coeficiente de
correlacin de Spearman es recomendable para situaciones en las que los datos
presentan valores externos, lo que los valores afectan demasiado el coeficiente de
correlacin de Pearson, o para el caso de distribuciones no normales.

El clculo del coeficiente viene dado por:

) 1 .(
6
1
2
2

=

n n
d
r
i


Donde d
i
es la diferencia de los rangos de X e Y.


Los valores de los rangos se colocan segn el orden numrico de los datos de la
variable.

Veamos un ejemplo:

Edad del ciudadano Cantidad de elecciones
en las que vot
18 0
25 2
35 7
17 0
35 8
45 9
53 12
46 8
27 5
66 19
70 16
56 13
30 3


Si ordenamos cada variable de menor a mayor, podemos asignar a cada valor de cada
variable un rango correspondiente a la posicin que ocupa en la serie ordenada.


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 9 -
Cuando aparezcan valores coincidentes se coloca el promedio de los rangos que
hubiesen sido asignado si no hubiese coincidencias.

La siguiente tabla incorpora entre parntesis el rango para cada valor de ambas
series:

Edad del ciudadano Cantidad de elecciones
en las que vot
18 (2) 0 (1,5)
25 (3) 2 (3)
35 (6,5) 7 (6)
17 (1) 0 (1,5)
35 (6,5) 8 (7,5)
45 (8) 9 (9)
53 (10) 12 (10)
46 (9) 8 (7,5)
27 (4) 5 (5)
66 (12) 19 (13)
70 (13) 16 (12)
56 (11) 13 (11)
30 (5) 3 (4)


Por lo tanto, las diferencias quedan de la siguiente manera, si directamente trabajamos
con los rangos respectivos:

Tablas: Diferencias de rangos

Rango de edad Rango de cantidad de
elecciones en las que
vot
d
i
d
i
2

2 1,5 0,5 0,25
3 3 0 0
6,5 6 0,5 0,25
1 1,5 -0,5 0,25
6,5 7,5 -1 1
8 9 -1 1
10 10 0 0
9 7,5 1,5 2,25
4 5 -1 1
12 13 -1 1
13 12 1 1
11 11 0 0
5 4 1 1


Para calcular el valor de r de Spearman tenemos:

168 . 13
54
1
) 1 13 .( 13
9 . 6
1
2
=

= r


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 10 -

975 , 0 = r

Interpretacin del coeficiente de correlacin de Spearman:

- Los valores prximos a 1 indican una correlacin fuerte y positiva.
- Los valores prximos a 1 indican una correlacin fuerte y negativa.
- Valores prximos a cero indican que no hay correlacin lineal.


En el caso del ejemplo, el valor del coeficiente de correlacin indica una correlacin
positiva fuerte: a medida que es mayor la edad del ciudadano, mayor el nmero de
elecciones en las que vot.


Coeficiente de correlacin por rangos de Spearman

La medida de la relacin lineal entre dos variables cuantitativas, se estudia por medio
del clculo del coeficiente de correlacin de Pearson.


Interpretacin de los resultados:

Este coeficiente brindar valores entre 1 y +1.

- Cuando el valor tiende a 1, la asociacin positiva es elevada. Un valor de 1
indica una relacin lineal positiva perfecta.
- Cuando el valor tiende a -1, la asociacin negativa es elevada. Un valor de -1
indica una relacin lineal negativa perfecta.
- Una correlacin prxima a cero indica que no hay relacin lineal entre las dos
variables.


La representacin grfica de los datos para visualizar la relacin entre el valor del
coeficiente de correlacin y la forma de la grfica es fundamental ya que podra existir
una relacin no lineal o la ausencia de relacin que prever desde el propio grfico.


El coeficiente de correlacin posee las siguientes caractersticas:

El valor del coeficiente de correlacin es independiente de cualquier unidad de medida
usada para medir las variables. Esto implica que el coeficiente es una magnitud que no
posee una unidad de medida propia.

El valor del coeficiente de correlacin se altera de forma importante ante la presencia
de un valor extremo.

El coeficiente de correlacin mide solo la relacin lineal. Dos variables pueden tener
una relacin no lineal fuerte, a pesar de que su correlacin sea pequea. Por tanto


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 11 -
cuando se consideren las relaciones entre dos variables debe preliminarmente partir
de su representacin grfica y luego calcular el coeficiente de correlacin.

El coeficiente de correlacin no se debe extrapolar ms all del rango de valores
considerado para su clculo ya que la relacin existente entre X e Y puede cambiar
fuera de dicho rango.

La correlacin no implica causalidad. La causalidad requiere ms informacin que un
simple valor cuantitativo de un coeficiente de correlacin y especialmente trabajarse a
partir de los modelos tericos propios de cada disciplina.

El coeficiente de correlacin de Pearson puede calcularse en cualquier grupo de
datos.

La validez del test de hiptesis sobre la correlacin entre las variables exige el
cumplimiento de los siguientes supuestos:

a. Que ambas variables correspondan a una muestra aleatoria de individuos.
b. Que al menos una de las variables tenga una distribucin normal en la
poblacin de la cual la muestra procede.



El coeficiente de correlacin puede arrojar valores entre 1 y +1, en tanto el valor 0
indica que no existe asociacin lineal entre las dos variables a estudio.

Mostraremos ahora el clculo del coeficiente de correlacin de Pearson a travs de un
ejemplo.
Se dispone de la siguiente informacin captada en una muestra de recin nacidos, en
la cual se registra el dato de edad gestacional y el peso al nacer (en gramos).

Tabla: datos de anlisis
Edad gestacional (semanas) Peso al nacer (gramos)
25,00 748,00
26,00 847,00
27,00 934,00
28,00 1051,00
29,00 1117,00
30,00 1310,00
29,00 1120,00
31,00 1446,00
32,00 1645,00
33,00 1845,00
34,00 2075,00
35,00 2327,00
36,00 2594,00
36,00 2500,00


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 12 -
Edad gestacional (semanas) Peso al nacer (gramos)
38,00 3180,00
39,00 3320,00
40,00 3500,00
41,00 3600,00
42,00 3650,00
36,00 2670,00
35,00 2400,00
34,00 2200,00
35,00 2350,00
36,00 2800,00
38,00 2850,00
38,00 3040,00
38,00 3150,00
39,00 3400,00


El primer paso es obtener las medias de cada una de las variables:

89 , 35 = X semanas


20 , 2599 = Y gramos

Para el clculo del coeficiente, incluiremos las columnas auxiliares correspondientes a
los desvo y al producto de los desvos, respecto de las medias respectivas.

Tabla: datos de anlisis
Edad gestacional
(semanas)
Peso al nacer
(gramos)
X X Y Y ) )( ( Y Y X X
25,00 748,00 -10,89 -1851,18 20168,16
26,00 847,00 -9,89 -1752,18 17337,40
27,00 934,00 -8,89 -1665,18 14811,38
28,00 1051,00 -7,89 -1548,18 12222,51
29,00 1117,00 -6,89 -1482,18 10219,27
30,00 1310,00 -5,89 -1289,18 7599,40
29,00 1120,00 -6,89 -1479,18 10198,59
31,00 1446,00 -4,89 -1153,18 5644,53
32,00 1645,00 -3,89 -954,18 3716,30
33,00 1845,00 -2,89 -754,18 2183,16
34,00 2075,00 -1,89 -524,18 993,19
35,00 2327,00 -0,89 -272,18 243,53
36,00 2594,00 0,11 -5,18 -0,55
36,00 2500,00 0,11 -99,18 -10,44


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 13 -
Edad gestacional
(semanas)
Peso al nacer
(gramos)
X X Y Y ) )( ( Y Y X X
38,00 3180,00 2,11 580,82 1222,77
39,00 3320,00 3,11 720,82 2238,32
40,00 3500,00 4,11 900,82 3698,09
41,00 3600,00 5,11 1000,82 5109,43
42,00 3650,00 6,11 1050,82 6415,51
36,00 2670,00 0,11 70,82 7,45
35,00 2400,00 -0,89 -199,18 178,22
34,00 2200,00 -1,89 -399,18 756,35
35,00 2350,00 -0,89 -249,18 222,95
36,00 2800,00 0,11 200,82 21,14
38,00 2850,00 2,11 250,82 528,03
38,00 3040,00 2,11 440,82 928,03
38,00 3150,00 2,11 550,82 1159,61
39,00 3400,00 3,11 800,82 2486,74

Para el clculo del coeficiente de correlacin de Pearson consideramos las sumas de
las columnas respectivas:



=
2 2
) ( ) (
) )( (
Y Y X X
Y Y X X
r


7 , 34583089 . 58 , 873
16 , 200321
= r

9895 , 0 = r

Observe que el valor del coeficiente de correlacin alcanza un valor muy prximo a 1,
lo cual, como indicamos previamente, significa que la relacin entre las variables es
positiva y fuerte.

Tras realizar el clculo del coeficiente de correlacin de Pearson se debe determinar si
dicho coeficiente es estadsticamente diferente de cero, o lo que es lo mismo, si ese
valor no se debi slo al azar. Para dicho clculo se aplica un test basado en la
distribucin de la t de Student. Veamos cmo analizarlo a partir de la salida de SPSS
para el ejemplo previo.










Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 14 -


Correlaciones

edad_gestacional peso_al_nacer
edad_gestacional Coeficiente de
correlacin de Pearson
1 ,990
**

Sig. (2-tailed)

,000
N 38 38
peso_al_nacer Coeficiente de
correlacin de Pearson
,990
**
1
Sig. (2-tailed) ,000

N 38 38
**. Correlation is significant at the 0.01 level (2-tailed).

La tabla de doble entrada proporciona las correlaciones entre todas las variables
numricas que se indiquen.

En este caso, para el caso del a correlacin entre la edad gestacional y el peso al
nacer, reporta un p-valor de 0,000. El cual comparado con un a convencional del 0,05,
nos hace concluir que se debe rechazar la hiptesis de no correlacin
(correspondiente a esta prueba).


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 15 -

5.3. La forma de la relacin: el modelo lineal

Un modelo aplicable para analizar la relacin entre dos variables es el modelo de
regresin. La utilizacin del modelo de regresin lineal est muy difundida en las
Ciencias Sociales, en particular, porque permite describir una serie muy amplia de
fenmenos (comportamiento de los individuos, reacciones de los consumidores,
decisiones econmicas, entre otros).
El anlisis de regresin lineal tiene como finalidad explorar y cuantificar la relacin
entre variables, una llamada dependiente (Y) y una o ms variables independientes.
En el caso de utilizar una sola variable independiente o explicativa, estamos frente a
una regresin lineal simple, en tanto si las variables explicativas o independientes son
dos o ms, el anlisis se denomina regresin lineal mltiple.
Cabe sealar que una de las aplicaciones ms destacadas del modelo es la de realizar
predicciones y pronsticos acerca de la variable dependiente, teniendo en cuenta
valores de las variables explicativas o independientes.
En el caso de este modelo, deben considerarse adems de las tcnicas de estimacin,
una serie de pruebas de diagnstico (anlisis de residuos, anlisis de influencia, etc.)
cuyo cumplimiento es necesario para obtener estimaciones adecuadas.

El diagrama de dispersin
Un grfico que nos permite visualizar de manera sencilla la posible existencia de una
relacin entre las variables de inters, es el diagrama de dispersin. Este grfico
consiste en la coleccin de puntos en un diagrama de ejes cartesianos, donde los
valores de la variable dependiente se representan en las ordenadas y los de la
variable independiente en las abcsisas. Cada punto del grfico se indica con las
coordenadas del mismo representado como par ordenado (x, y). El conjunto de puntos
surgidos de graficar todos los datos disponibles recibe el nombre de nube de puntos.
Lo que el diagrama de dispersin da la posibilidad de observar, es la forma de la
relacin, en trminos no estrictos (en el sentido que siempre necesitaremos los test y
estimaciones estadsticas), pero es un buen punto de partida, por ejemplo, para
preliminarmente analizar si la lnea recta ser una aproximacin aceptable de la
relacin o no.
En el ejemplo de Diagrama de dispersin, la variable Y (dependiente) indica el salario
horario inicial (expresado en moneda corriente) de un ocupado en el mercado laboral,
la variable X (independiente) representa los aos de experiencia previa que esa
persona exhiba en su curriculum. Para describir la relacin aparente entre estas
variables, podramos indicar que si bien en nuestra muestra hay pocos casos con baja
experiencia relativa, a medida que ms experiencia laboral previa tena un ocupado,
su salario inicial resulta ms elevado. Con la intencin de ser ms especficos y
sintticos al mismo tiempo, el modelo de regresin lineal intenta asociar la relacin
entre estas variables a travs de una lnea recta que generalice esta vinculacin,
despreciando las oscilaciones especficas de cada caso particular respecto de la lnea
recta que indicara la estructura de la relacin entre experiencia y salario inicial.




Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 16 -

Figura: Diagrama de dispersin
Y

=

s
a
l
a
r
i
o

h
o
r
a
r
i
o

i
n
i
c
i
a
l


X = aos de experiencia laboral al ingreso
Fuente: Elaboracin propia

Actividad:

Elabore (utilizando una hoja cuadriculada, para facilitar la adecuacin a una escala
proporcional de cada variable) la siguiente relacin:

Los siguientes datos fueron tomados de un estudio sobre las diferentes
sucursales de una marca de supermercados de la ciudad:

Sucursal Superficie del local de
venta (m
2
)
Ventas diarias (en
miles de $)
1 300 425
2 350 435
3 450 550
4 500 600
5 700 860
6 760 770
7 770 980
8 900 1100


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 17 -
Sucursal Superficie del local de
venta (m
2
)
Ventas diarias (en
miles de $)
9 1200 1240
10 1400 1500
11 2000 2400
12 2050 2200
13 2100 2080


La relacin puede sintetizarse de manera que represente una lnea recta de la
siguiente manera:
X Y | o + =
Los coeficientes o y | son los que definen la recta. El coeficiente o representa la
ordenada al origen, es decir, el punto en que la recta corta al eje vertical. El coeficiente
| es la pendiente de la recta, el cual indica el cambio experimentado en la variable Y
cuando se produce cierto incremento en la variable X. En el ejemplo, | representa el
cambio en el salario inicial ante el cambio en un ao de experiencia laboral al ingreso.
En el caso de o, est indicando el salario promedio de una persona sin experiencia
laboral al ingreso (cuando X=0).
En el siguiente grfico se representa una recta que podra describir de manera general
y simplificada la relacin analizada.



Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 18 -

Figura: Recta de regresin
Y

=

s
a
l
a
r
i
o

h
o
r
a
r
i
o

i
n
i
c
i
a
l


X = aos de experiencia laboral al ingreso
Fuente: Elaboracin propia

Mtodo para obtener estimaciones de o y |
No hemos mencionado an cmo determinar los valores que nos permitan trazar una
recta, es decir, estimaciones de o y | en base a los datos de la muestra disponible.
En la ecuacin:
X Y | o + =
o y | son constantes. La relacin especificada entre X e Y es exacta, sin embargo,
como hemos observado en el diagrama de dispersin, tal relacin podra tener algunos
desvos o perturbaciones que denominaremos trmino de error. Por lo tanto, debemos
reescribir la relacin como el valor esperado de Y que depende de valores de X:
X X Y E | o + = ) / (


Interpretacin de los valores de |
Si la pendiente | que corresponde a la recta de regresin es positiva, la relacin entre
las variables es tal que cuando el valor de X aumenta, tambin lo hace el de Y.
Si la pendiente | es menor que cero, entonces, la relacin es negativa, es decir, a
medida que aumenta el valor de X, el valor de Y es menor.


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 19 -
Si | = 0, entonces no hay una relacin lineal entre X e Y de manera que podamos
indicar cmo cambia Y conociendo el cambio en X.

Figura: valores de | y forma de la relacin
|>0

|=0








|=0

|<0


Fuente: Elaboracin propia

Supuestos del modelo de regresin lineal
1. Linealidad
Debe verificarse que la forma de la ecuacin que describa la relacin entre X e
Y sea lineal.

2. Normalidad
Las distribuciones de los valores de Y para valor de X deben ser normales.

3. Homocedasticidad
La variabilidad de los valores de la variable dependiente Y es igual para
cualquier valor de la variable X.


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 20 -
La violacin de este supuesto es ms frecuente cuando se trabaja con
obsrvaciones correspondientes a datos de corte transversal.

4. Independencia de errores
Los residuos o errores (las diferencias entre los valores pronosticados y los
observados realmente), deben ser independientes entre s.
La violacin de este supuesto es ms frecuente cuando se trabaja con datos
correspondientes a series de tiempo.


Bondad de ajuste
Para poder afirmar que el resultado de la regresin es adecuado, necesitamos
contar con algn indicador del grado en que la recta ajusta acertadamente a la
nube de puntos. En particular estamos pensando en un indicador del grado de
fidelidad con que la recta obtenida por el mtodo de mnimos cuadrados
describe la relacin existente entre los datos.
La medida de aplicacin ms generalizada corresponde al coeficiente de
determinacin o R
2
.
Este indicador corresponde al cuadrado del coeficiente de correlacin. Es una
medida estandarizada que asume valores entre 0 y 1:
- 0 cuando las variables son independientes
- 1 si la relacin captada por la recta es perfecta

El R
2
nos permite medir cunto podemos explicar los valores de la variable
dependiente basndonos en el conocimiento de otras variables y de su
relacin. Mide ms precisamente, la relacin entre la variabilidad de la variable
dependiente explicada por el modelo (lo cual incluye la variable independiente
y la forma lineal de su relacin con la dependiente), respecto de la variabilidad
total de la variable dependiente.

Para el ejemplo presentado, el valor del R
2
alcanza 0,83, lo cual significa que el
83% de la variabilidad del salario inicial al momento de ingreso es explicada de
manera lineal, por los aos de experiencia previos al ingreso.


Veamos un ejemplo

Analizaremos los siguiente datos relativos al promedio de las notas obtenidas
en el secundario y las notas obtenidas en la universidad por un a muestra
representativas de egresados.


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 21 -

A continuacin se presenta la base de datos utilizada, cargada en SPSS.

Figura: datos de trabajo




Estamos interesados en modelar una relacin que intente pronosticar la nota
promedio en la universidad al momento de ingreso.

Veamos en primer lugar, el grfico de la nube de puntos o diagrama de
dispersin.








Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 22 -

Figura: diagrama de dispersin


Fuente. Elaboracin propia

La grfica anterior permite prever una relacin lineal positiva entre las variables.

El siguiente resultado es un resumen del modelo, donde aparece como indicador el R
2
,
que presentamos como medida de la bondad de ajuste. Como puede observarse, el
valor de este indicador es elevado y prximo a 1, por lo que el modelo de regresin
planteado explica el 83,2% de la variabilidad total de la variable dependiente (nota
promedio en la universidad). En esa misma tabla se indica el R cuadrado ajustado que
es la medida anloga pero cuando se trabaja con una regresin lineal mltiple, donde
es habitual que el R
2
sea ms elevado simplemente con incorporar variables al
anlisis, y por eso la medida del R
2
ajustado, libre de los efectos de incorporar nuevas
variables, corrigiendo por los grados de libertad, es una mejor medida de la bondad de
ajuste, en tales casos de regresin lnea mltiple.
Resumen del modelo
Modelo R R Cuadrado
R cuadrado
ajustado
Error estndar
de la estimacin
1 ,912
a
,832 ,819 ,76790
a. Predictores (Constante), notas_secundario



Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 23 -
La tabla ANOVA permite hacer una evaluacin global del modelo de regresin a travs
de la prueba F. Como puede observarse, tal como lo indica el valor de la significacin
del test, el modelo de regresin sirve en este caso para describir la relacin entre las
variables de inters.

ANOVA
b

Modelo
Suma de
cuadrados GL
Cuadrados
medios F Sig.
1 Regresin 37,934 1 37,934 64,331 ,000
a

Residual 7,666 13 ,590

Total 45,600 14



Finalmente, los resultados arrojados por el modelo permiten obtener los coeficientes
de regresin.
En primer lugar, el valor estimado para la ordenada al origen es de -1,558 (aparece
referido en la primer columna de resultados, consignada como constante). Este valor
no result ser signficativamente diferente de cero, ya que el valor de la significacin es
0,157 (superior al 0,05 con que trabajamos habitualmente en este tipo de hiptesis).
Recordemos que la ordenada al origen indica el valor de la recta regresin (en
particular de la variable dependiente) cuando la variable independiente vale 0.

Coeficientes
a

Modelo
Coeficientes no estandarizados
Coeficientes
estandarizados
t Sig. B Error estndar Beta
1 (Constante) -1,558 1,036

-1,503 ,157
notas_secundario 1,224 ,153 ,912 8,021 ,000
a. Variable dependiente: notas_universidad

La pendiente estimada por mnimos cuadrados, que mide el cambio en la variable
dependiente ante un cambio en la variable independiente, alcanz un valor de 1,224.
Esto quiere decir, que tal como esperbamos a partir del grfico de dispersin, la
relacin entre ambas variables es positiva, y que por cada punto adicional de nota en
el promedio del secundario, se espera 1,224 puntos adicionales en el promedio de
notas de la universidad.



Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 24 -
Como indica el nivel de significacin para el coeficiente de la pendiente, dicho
coeficiente es significativamente diferente de 0, lo cual implica que la relacin lineal
positiva entre las variables es vlida para este caso.

Con la informacin obtenida de la regresin, podramos ahora pronosticar la nota
promedio en la universidad, tal como se solicit, a partir de la nota promedio obtenida
en el secundario.

Por ejemplo, si un alumno que ingresa a la universidad obtuvo una nota promedio de
6, entonces:

558 , 1 6 . 224 , 1 _ = d universida Nota
786 , 5 _ = d universida Nota

Y as podramos proceder con cualquier otra nota del secundario, simplemente
reemplazando en la ecuacin de regresin lineal estimada.


El uso de regresin lineal en economa

La Economa es la ciencia social que se ha apropiado por encima de las dems, del
uso de los modelos de regresin lineal como instrumento para explicar diversas
relaciones entre variables.

Este uso ha dado como consecuencia primera el desarrollo de una disciplina basada
en el manejo de mltiples modelos matemtico para facilitar la prediccin de variables
econmicas, entre los cuales se destacan los modelos de regresin. De ms est
decir, que los aportes propios generados desde esta disciplina, la Econometra, han
significado importantes avances para los conocimientos sobre aspectos complejos de
modelos lineales multivariables avanzados.

A continuacin, como reflexin final, incorporo un ejemplo de aplicacin, en campos
ajenos a la economa, en los cuales a muchos economistas les gusta incursionar, y en
los que suelen utilizar tambin como herramienta al propio modelo de regresin.

Los genios creativos, bajo la lupa de los economistas
Por Sebastin Campanario
(Fuente: http://blogs.clarin.com/economiainsolita)


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 25 -
Uno de los descubrimientos econmicos ms fascinantes de los ltimos aos naci
por accidente. En la primavera de 1997, David Galenson, por entonces un
desconocido acadmico de Chicago, especializado en el mercado de esclavos de la
poca colonial, decidi comprar una pequea acuarela del pintor norteamericano Sol
LeWitt. Para chequear si el precio era justo, llam a un amigo marchand, quien opin
que era un poco caro: Nosotros tenemos trabajos ms grandes al mismo valor, le
dijo.
Galenson compr la obra, de todas formas, pero se fue a su casa pensando si el
mercado de las pinturas era como el de las alfombras: cuanto ms grande el cuadro,
ms caro. En los meses siguientes, estudi la vida y obra y 42 artistas de EE.UU.
contemporneos. Cuando aplic herramientas economtricas, el resultado fue
sorprendente: hall dos nubes en una regresin que vinculaba la edad de los
pintores con el valor de mercado de su obra. Con muy pocas excepciones, encontr
dos tipos de genios creativos: los innovadores conceptuales, que producen cambios
rupturistas en sus campos a una muy temprana edad; y los experimentalistas, que
siguen un proceso de prueba y error y logran sus resultados ms valiosos despus de
los 40 aos. En el primer pelotn se ubican Picasso, Andressens y Munch; en el
segundo Rodin, Cezanne y Monet.
Es el precio de mercado un indicador mentiroso del valor artstico de un cuadro?
Galenson se lo pregunt, y corri la regresin contra otra variable: la cantidad de
reproducciones de cada cuadro en libros de arte prestigiosos.
El resultado fue el mismo.
El economista de Chicago luego extendi sus estudios a otras ramas, como literatura o
cine, y hall que el patrn de jvenes genios y viejos maestros se repeta. Mientras
que Hemingway, Welles, Melville y Joyce estn en el primer grupo, Dickens, Twain y
Hitchcock hicieron lo mejor en el final de sus carreras.







Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 1 -
REVISIN 4

GLOSARIO
Los siguientes trminos deben ser comprendidos en trminos conceptuales y
en aplicaciones, tanto su definicin como sus interrelaciones. En caso de tener
dudas sobre alguno de ellos, repase nuevamente la Lectura 4 y la bibliografa
bsica indicada.

Coeficiente de correlacin (r): promedio de los productos cruzados de las
puntuaciones estandarizadas de dos variables. Medida del grado de
correlacin lineal, en el rango [-1; 1] .
Coeficiente de correlacin mltiple (R): medida de la asociacin general
entre una variable dependiente y la combinacin de dos o ms variables de
prediccin. Raa cuadrada positiva del R
2
.
Coeficiente de Determinacin (R
2
): Cuadrado del coeficiente de correlacin.
Este estadstico indica la proporcin de la variabilidad de una variable (la
variable dependiente), que es explicada conociendo un valor de una o ms
variables (las variables independientes).
Coeficiente de regresin (b): coeficiente en un modelo de prediccin
(ecuacin de regresin).
Constante de regresin (a): nmero fijo determinado que se agrega a la
prediccin en un modelo de prediccin (ecuacin de regresin).
Diagrama de dispersin: grfico que refleja la relacin entre dos variables.
Error: en la prediccin, es el registro real menos el registro predicho.
Independencia: Cuando no existe una relacin sistemtica entre dos variables.
Mtodo de mnimos cuadrados: mtodo para obtener los coeficientes del
modelo de regresin, basado en minimizar las distancias al cuadrado entre la
recta de regresin y el valor observado, para cada valor de la/s variable/s
independiente/s.
Multicolinealidad: en la regresin mltiple, cuando las variables
independientes (predictoras) estn correlacionadas entre s.


Materia: METODOLOGA DE ANLISIS DE DATOS CUANTITATIVOS
Profesora: Vernica Herrero
- 2 -
Tabla de contingencia: cuadro de dos dimensiones que muestra las
frecuencias en las que cada combinacin de categoras de dos variables
ocurren.
Variable Dependiente: la variable del desenlace de inters en cualquier tipo
de estudio. El desenlace o resultado que uno pretende explicar o estimar.
Variable Independiente: Variable que se mide para determinar el valor
correspondiente de la variable dependiente en cualquier tipo de estudio. Las
variables independientes definen las condiciones bajo las cuales se examinar
la variable dependiente.