Está en la página 1de 264

ESTADSTICA

1. El propsito de la Estadstica.
2. Tipos de Variables.
3. La Estadstica Descriptiva y el Anlisis de
Frecuencia.
4. Las medidas de tendencia central y de variabildiad.
5. La estadstica inferencia.
6. El Anlisis Paramtrico
7. El Anlisis No Paramtrico.

TEMA 1.
EL PROPSITO
DE LA
ESTADSTICA

PARA QUE NOS SIRVE LA ESTADSTICA?

Segn Kerlinger la estadstica es la teora y el


mtodo de analizar datos cuantitativos
obtenidos de muestras de observaciones para
estudiar y comparar fuentes de varianza de
los fenmenos, para ayudar en la toma de
decisiones para aceptar o rechazar relaciones
hipotetizadas entre los fenmenos, y para
contribuir en la extraccin de inferencias
confiables a partir de observaciones empricas

TRES PROPSITOS DE LA ESTADSTICA

1. Reducir grandes cantidades de datos


de manera que puedan manejares y
comprenderse.
2. Ayudar en la toma de decisiones.
3. Ayuda a realizar inferencias confiables
a partir de los datos observados

Para resumir lo anterior, los propsitos de la


estadstica pueden reducirse a un propsito
principal: ayudar a realizar inferencias. Este es uno
de los propsitos bsicos del diseo, metodologa y
estadstica de la investigacin. Los cientficos
buscan realizar inferencias a partir de datos. La
ciencia de la estadstica, con su poder para reducir
datos a formas ms manejables (estadsticos), y
para estudiar y analizar varianzas, permite a los
cientficos unir estimados de probabilidad a las
inferencias que extraen de los datos. La estadstica
dice, en efecto, "la inferencia que extrajo es correcta
a tal o cual nivel de significancia. Puede actuar
como si su hiptesis fuera verdadera, recordando
que existe tal o cual probabilidad que sea falsa".

TEMA 1: El Propsito de la Estadstica.


Preguntas de estudio
1.Qu es la estadstica segn Kerlinger?
2.Cules son los tres propsitos de la
estadstica?
3.Por qu es importante resumir las grandes
cantidades de datos obtenidos en un experimento?
4.Por qu se dice que la estadstica nos ayuda a
tomar decisiones?
5.Cmo es que la estadstica ayuda a realizar
inferencias?

TEMA 2.
TIPOS DE
VARIABLES

La estadstica utiliza los datos como materia


prima para realizar el anlisis e inferencias
pertinentes de un fenmeno.
En este contexto, dato es una representacin
numrica de los diferentes valores que puede
tener una variable cualquiera.

No todos los datos o valores son iguales,


dependiendo de qu tipo de variable
estemos usando se pueden dividir en:
Variables continuas.
Variables discretas.
Por los niveles de medicin las
variables pueden ser definidas como:
nominal.
ordinal.
Intervalar.
De razn.

Variables Continuas
VS
Variables Discretas

VARIABLES CONTINUAS

Las variables continas son todos


aquellos datos que pueden tomar
valores intermedios entre cualquier
valor observado.
Esto quiere decir que entre 2 valores
observables (potenciales) hay por lo
menos un valor no observable
(potencialmente)

VARIABLES DISCRETAS

Una variable discreta son todas


aquellas variables que al cuantificar se
hace en nmero enteros y que no
tienen subdivisiones reales entre ellos.
Es decir cada valor est separado
completamente del siguiente; no hay
puntos reales en medio; por ejemplo, no
es posible tener dos y medio nios

NIVELES
DE
MEDICIN

Nivel Nominal
Nivel Ordinal
Nivel Intervalar
Nivel de razn

Nivel Nominal

El nivel de medicin nominal se refiere a


datos que son categricos. En el caso de
algunas diferencias de calidad no es
indispensable usar nmeros para distinguir
un elemento de otro.

EJEMPLO

Hombres y mujeres
Objetos rojos, verdes y azules
Perfiles griegos y otros perfiles

Lo importante con la categorizacin es que


debe ser factible colocar a cada elemento o a
cada persona slo en una categora, para
fines de comparacin.
Tal vez se decida categorizar a las personas
como, por ejemplo, "enrgicas", "promedio" y
"lentas". Una persona es hombre o mujer y no
puede inclursele si se emplea un sistema
nominal en ambas categoras slo porque l
o ella tengan un poco de ambas.

EJEMPLO

Se realiza un estudio para investigar el uso del


comedor universitario, podra contarse la
cantidad de personas que lo utilizan y
categorizarlas segn sus funciones
(estudiantes, maestros, personal administrativo,
etc.)
Si se registra la frecuencia de varios cientos de
personas se pudiera generar una tabla como la
siguiente:

Advierta que es posible codificar (p. ej., "estudiantes" =


1; "maestros" = 2) y que debe hacerse si se introducen
datos en el SPSS (Statistical Package for the Social
Sciences;).
La codificacin de estas funciones muestra el origen
del trmino "nominal" (los nmeros o cdigos
asignados a las categoras aqu son slo nombres).

El cdigo "1" (estudiantes) no es la mitad del


cdigo "2" (personal docente) o de ningn
modo anterior o menor que los otros en
calidad.
Los nmeros son sencillamente clasificaciones
convenientes,
aunque
arbitrarias,
para
identificar cada categora de personas.

Nivel Ordinal
Los
nmeros
ordinales
no
representan cantidades o conteos,
sino posiciones de rango en un
grupo.
Son las posiciones
segunda,
tercera
sucesivamente.

primera,
y
as

EJEMPLO

Grados escolares.
Posiciones en una
competencia.
Nivel de habilidad (alto (1),
medio (2), bajo(3))

Nivel Intervalar
En una escala de intervalos,
Se emplean unidades iguales, es decir, entre
el 10 y el 15 existe la misma diferencia en la
intensidad del fenmeno que entre el 20 y el
25.
El cero es relativo.

Nivel de Razn
Las escalas de razn son escalas tipo intervalo
que empiezan en un punto cero real.
En ella, las razones de los valores tienen sentido
(6 kg es el doble de 3 kg en sentido absoluto, de
lo contrario no podra discutirse con el tendero
cuando da menos peso).
Cabe recordar que el cero es la ausencia de la
variable medida.

EJEMPLO

Las escalas de razn comunes son las mediciones


de cantidades fsicas con las que uno est
familiarizado:
Peso
Longitud
Presin

Comparacin de los diferentes niveles

EJERCICIO
1.- De las siguientes variables, identifique cules de ellas son
continuas y cules son discretas:

TEMA 2: Tipos de Variables.


Preguntas de estudio
Qu diferencia existe entre las variables discretas y continuas?
Cules son las caractersticas del nivel de medicin nominal?
Cules son las caractersticas del nivel de medicin ordinal?
Cules son las caractersticas del nivel de medicin intervalar?
Cules son las caractersticas del nivel de medicin de razn?
Qu diferencia existe entre el nivel de medicin nominal y ordinal?
Qu diferencia existe entre el nivel de medicin intervalar y de
razn?

TEMA 3.
LA ESTADSTICA
DESCRIPTIVA Y
EL ANLISIS DE
FRECUENCIAS

Qu es la Estadstica Descriptiva?

La estadstica descriptiva es un conjunto


de tcnicas que nos permite describir
distribuciones de muestras, es decir,
conocer la distribucin de los datos a
partir de la cuantificacin de los atributos
de una variable.

Considera simplemente las formas en


que es posible resumir y presentar la
informacin estadstica a un lector.
La mayor parte de los estudios de
investigacin
recaban
demasiada
informacin como para presentar cada
elemento,
de
modo
que
los
procedimientos estadsticos empiezan por
organizar los datos en un resumen
razonable. "Razonable" aqu significa
justo, til y que no sea engaoso.

Para resumir y presentar los datos de


manera ordenada utiliza la siguientes
tcnicas.
Distribucin de frecuencias.
Representaciones graficas
(Histogramas, graficas de pastel,
barra, etc)
Medidas de Tendencia central
Medidas de Variabilidad

Qu es la distribucin de
frecuencias?

Una distribucin de frecuencias es un conjunto de


puntuaciones obtenidas ordenadas en sus
respectivas categoras.
La distribucin de frecuencias es la herramienta
ms sencilla que podemos utilizar para ordenar y
resumir nuestros datos obtenidos en el
experimento y adems nos permite conocer la
distribucin de los mismos.

Cmo puedo obtener una distribucin


de frecuencias?
1
2

Establezca las categoras


correspondientes.
Obtenga los datos.

Obtenga la frecuencia de cada


categora.
4 btenga la frecuencia acumulada.
O
5Obtenga
6

la frecuencia relativa.

Obtenga la frecuencia relativa


acumulada.

Establezca las categoras


correspondientes.
En este punto debe de definir cules son las
categoras que desea describir en trminos de
su frecuencia obtenida, recuerde que esto no
debe ser decidido arbitrariamente, sino debe
de considerar cual es el objetivo de su estudio,
para as elegir las categoras ms apropias
para ser descritas.

EJEMPLO

Usted desea describir como es la autoestima en


una secundaria privada, para ello decide aplicar un
instrumento que mide la autoestima a 30 alumnos
(considere este valor solo como ejemplo).
Usted podra utilizar diferentes categoras para
describir a la poblacin que contesto la prueba,
podra usar la categora de sexo (masculino y
femenino), o agruparlos por grado escolar (1er
grado, 2do grado y 3er grado) o tal vez por turno
cursado (matutino o vespertino) pero realmente:
Estas categoras describiran como es la
autoestima en esta poblacin?

Seguramente su respuesta es absolutamente


negativa y est en todo lo correcto dado que
aunque podemos hacer un anlisis descriptivo en
estas categoras poco nos dira si lo nico que nos
interesa es saber cmo es la autoestima en dicha
escuela.
Una mejor categora para dicho objetivo podra ser
la puntuacin obtenida en la escala de autoestima,
que para este ejemplo usaremos una escala de 80
puntos a 110 puntos.

2
Obtenga
los datos.

En este punto usted debe recabar la informacin


pertinente segn su objetivo de estudio.
Continuando con el ejemplo anterior solamente
tendr que aplicar la prueba y concentrar los datos
obtenidos en una tabla para su anlisis.
En este caso los resultados fueron:

Obtenga la frecuencia de cada


categora.
Para obtener la frecuencia de cada una de
las categoras que eligi, solamente debe
contar cuantas veces se repite el valor de su
categora en los datos obtenidos. Adems
debe de ordenar las categoras de una
manera lgica, de preferencia de menor a
mayor.

Obtenga la frecuencia
acumulada.

La frecuencia acumulada (fa) es el nmero total de


casos que se encuentra en o por debajo de un
puntaje dado.

Se obtiene sumando la frecuencia de una categora y


las frecuencias de todas las categoras anteriores a ella.
La frecuencia acumulada permite conocer la posicin
de un caso en relacin con la actuacin total de un
grupo.

En nuestro ejemplo la frecuencia acumulada es la


siguiente:

Hasta este momento lo nico que hemos hecho con


nuestros datos ha sido resumirlos de una manera
ordenada ya que pasamos de 30 datos (en un caso
real suelen ser muchos ms) a solamente 7 agrupados
en 7 categoras.

Esto nos permite tener una visin ms amplia de


cmo se comportan, e incluso podemos hacer
algunas aseveraciones acerca de nuestras
puntuaciones tales como:
Los puntajes de 90 y 91 obtuvieron una
frecuencia de 2.
El puntaje ms frecuente fue el 98.
La frecuencia del puntaje 100 y 101 fue de 3.
7 personas obtuvieron puntajes de 93 o
menos.

Aunque estas observaciones son ciertas pueden


carecer de valor interpretativo dado que estos
nmeros por si solos carecen de un contexto que
nos especifique su verdadera relevancia con
respecto al total de la muestra, esto es, decir que
los valores 90 y 91 tienen una frecuencia de dos no
me indica si esto es mucho, poco o regular, dado
que no se habla del total de individuos.

Una manera de corregir esto es usando


porcentajes en las frecuencias.
El porcentaje es valioso porque en una
sola cifra nos da cuenta de cul es la
proporcin de la muestra que obtuvo tal
frecuencia en una categora.

Obtenga la frecuencia
relativa.
La frecuencia relativa (fr) es la proporcin de
casos en cada categora, se obtiene
dividiendo el nmero de casos en una
categora dada (frecuencia absoluta) entre el
nmero total de casos en la distribucin, se
puede convertir en porcentaje al multiplicar el
resultado por 100.
La frecuencia relativa permite hacer
comparaciones entre grupos de datos que
contengan las mismas categoras pero
frecuencias totales diferentes.

Su formula es:

fa
fr
x100
ft

En nuestro ejemplo la frecuencia relativa sera la


siguiente:

Una
vez
obtenidos
estos
datos
las
aseveraciones que pudramos dar de nuestros
resultados ser mas precisa.
Por ejemplo, es mucho mejor reportar que el
10% de la poblacin obtuvo una puntacin de
93, que, 3 participantes obtuvieron una
puntuacin de 93.

Obtenga la frecuencia relativa


acumulada.
La frecuencia (fra) es la proporcin acumulada de
cada uno de los datos. Se obtiene de la misma
forma que la frecuencia acumulada, slo que en vez
de sumar todos los datos de las frecuencias
absolutas, se suman los datos de las frecuencias
relativas.

En nuestro ejemplo la frecuencia relativa acumulada


sera la siguiente:

Como podr ver en este ejemplo, trabajar


con la frecuencia relativa acumulada nos es
ms til que trabajar con datos en bruto, ya
que es mejor reportar que:
el 23.33% obtuvo puntuaciones por debajo
de 93 en la prueba de autoestima, que
decir que 7 personas puntuaron por debajo
del 93 en prueba de autoestima.

En el ejemplo anterior se utilizaron frecuencias


absolutas para cada una de las categoras que nos
resultaron prcticas para describir a nuestra poblacin.
Sin embargo esta no es la nica forma de hacerlo.
Puede darse el caso de que la categoras sean
demasiadas y que los datos por cada una de estas
categoras seleccionadas sean muy pocos.

Por ejemplo supongamos que obtuvo los


siguientes datos en nuestra aplicacin de
instrumento de autoestima a 85 estudiantes:

Si realizramos la tabla de frecuencia


simple o absoluta quedara de la
siguiente manera:

Como podr ver, es este caso, a pesar de que


hemos agrupado los datos en sus frecuencias por
cada categora, no hemos logrado el objetivo
principal de esta tarea, que es, resumir los datos, ya
que estaramos trabajando con 20 datos,
distribuidos en 30 categoras diferentes, adems de
esto, la mayora de estas categoras concentra
pocos datos.
Por lo que su anlisis con las frecuencias relativas y
relativa acumulada ser deficiente al referirnos a
una muy pequea proporcin de los datos.

Distribucin de Frecuencias para Datos


Agrupados.
1

Obtenga el Rango de las categoras.

2
Obtener

la amplitud del intervalo:

3 Obtener

los intervalos:

4
Obtener
el valor de las frecuencias:
5

Obtener el valor de la frecuencia


acumulada, la frecuencia relativa y la
frecuencia relativa acumulada.
.

Obtenga el Rango de las


categoras.
Para ello deber restar el valor ms bajo de sus
categoras al valor ms alto de su categora.
En este caso

R = 110 81+1 = 30

Obtener la amplitud del


intervalo:

Para ello deber dividir el valor del rango obtenido entre


el nmero de intervalos que considere necesarios.
Esta decisin, aunque aparentemente es arbitraria,
deber de estar sustentada en el conocimiento previo del
comportamiento del fenmeno o de alguno parecido, con
la intencin de que no se elija obtener muchos intervalos
porque volveras a tener el problema antes citado, ni
elijamos tener muy pocos intervalos, porque estaramos
dejando escapar informacin relevante.

Para nuestro ejemplo hemos decidido obtener 6


intervalos, siendo la amplitud de cada uno de ellos
de 5.

30
AI
5
6

3
Obtener
los intervalos:

Tmese el dato ms bajo de los datos


originales y se cuenta hasta el 5to
numero contando el 81 es decir 81, 82,
83, 84,85 en este caso tenemos la
amplitud de 5.
Contine con esta operacin hasta tener
todos los intervalos.

En nuestro ejemplo quedaran as:

Intervalo de Clase
81-85
86-90
91-95
96-100
101-105
106-110

Obtener el valor de las


frecuencias:

Asgnese el valor de las frecuencias segn el


valor que se construyo de cada grupo.
Intervalo de Clase
81-85
86-90
91-95
96-100
101-105
106-110
Total

Frecuencia
5
11
8
27
24
10
85

Obtener el valor de la
frecuencia acumulada, la
frecuencia relativa y la
frecuencia relativa
Intervalo de Clase Frecuencia Frecuencia Frecuencia
acumulada. Acumulada Relativa

81-85
86-90
91-95
96-100
101-105
106-110
Total

5
11
8
27
24
10
85

5
16
24
51
75
85

5.88%
12.94%
9.41%
31.76%
28.24%
11.76%

Frecuencia
Relativa
Acumulada
5.88%
18.82%
28.24%
60.00%
88.24%
100.00%

EJEMPLO
1. Dada la distribucin siguiente, constryase una tabla de
frecuencias en la que aparezcan las frecuencias absolutas, las
frecuencias relativas y las frecuencias relativas acumuladas. as:

2. Aplicada una prueba de medicin de la inteligencia a un grupo de 50


alumnos, se obtuvieron las siguientes puntuaciones:

45 56
78
87 75
64
46 89 100
98 87
76
77 85
45
99 75
98
66 59
48
96 110 74
65 44
89
106 55
77

120
89
110
45
68
65
99
101
76
89

100
90
69
39
88
40
103
100
94
64

Con base en una tabla de frecuencias contesta las


siguientes preguntas.
a) Qu dato obtuvo la mayor frecuencia?
b) Qu porcentaje de sujetos tienen una puntuacin menor
a 99?
c) Qu porcentaje de individuos tuvo la calificacin ms
alta?
d) Cuntos sujetos tuvieron una puntuacin igual o menor a
89?
e) Qu porcentaje de sujetos tuvieron una puntuacin de
89?

TEMA 3: La Estadstica Descriptiva y el Anlisis de


Frecuencias.
Preguntas de estudio.
1.Cul es el propsito de la estadstica descriptiva?
2.Para qu me sirve un anlisis de frecuencia?
3.Cmo calcula la frecuencia de un dato?
4.Qu es la frecuencia acumulada?
5.Qu es la frecuencia relativa?
6.Qu diferencia existe entre la frecuencia simple y la
frecuencia acumulada?

TEMA 4.
LAS MEDIDAS DE
TENDENCIA
CENTRAL Y
VARIABILIDAD

Otra de las maneras en la que podemos describir


un conjunto de datos es hablando acerca de su
tendencia central y de su variabilidad.
Estas medidas las utilizamos cuando nuestro
objetivo no es tener una visin general y especifica
acerca de cada dato de nuestra muestra, ms
bien, cuando estamos interesados en sus atributos
ms representativos.

Medidas de Tendencia Central

Una medida de tendencia central es el


grupo de valores, o la puntuacin
alrededor del cual se agrupan los
dems, se encuentra al centro y es
donde se localizan la mayora de los
puntajes de la muestra.

EJEMPLO

Imagine que acaba de llegar a casa de su primer da


en un nuevo curso universitario y alguien le pregunta
qu edad tienen sus compaeros de clases,
difcilmente procedera a enumerar la edad exacta de
cada integrante de la clase, eso llevara mucho
tiempo, tal vez dira algo como "Pues, la mayora en la
clase tiene unos 25 aos de edad, pero hay un par de
adolescentes y 1 o 2 de unos 40". En realidad ha
resumido las edades de la clase en forma estadstica,
aunque es cierto que sin mucho rigor.
En primer lugar, dio un promedio aproximado, la edad
comn en el grupo y despus ofreci una idea de la
variacin real de esta edad comn presente en el
grupo.

Tipos de Medidas de Tendencia


Central
La media.
La mediana.
La moda.
Cabe destacar que el nivel de medicin de la
variable determina cul es la medida de tendencia
central apropiada.

La Media
Es el promedio aritmtico de una distribucin.
La frmula para calcular la media es:

Esto quiere decir:


Sume todos los valores en el conjunto
de datos (es decir x).
Divida entre el nmero total de valores
(siempre representados como N para
todo el grupo).

EJEMPLO

Si a cinco personas les lleva 5, 2, 12, 1 y 10


segundos resolver un anagrama, el periodo medio
que se llevan es:

5 2 12 1 10 30

6 seg
5
5

Ventajas de la Media
La media es un estadstico eficaz que se emplea
para estimar parmetros poblacionales y esta
estimacin es la base para pruebas paramtricas
ms eficaces que pueden usarse para buscar
diferencias significativas o correlaciones.
Es el indicador ms sensible y preciso sobre la
moda y la mediana, ya que funciona en el nivel de
medicin de intervalo y de razn y contempla las
distancias exactas entre los valores del conjunto de
datos.

Desventajas de la Media
Como la media es muy sensible, tambin existe el
problema de que sea fcilmente distorsionada por uno, o
algunos, valores "aislados" y no representativos.
Por ejemplo, si incluye a un sexto participante en la tarea
de anagramas mencionada antes y a este ltimo le toma
60 segundos hallar la solucin, entonces el total sera
ahora de 90 segundos y la media se volvera 15 segundos.
Este valor es muy poco representativo del grupo en su
conjunto, pues ninguna de las cinco personas originales
obtuvo realmente una puntuacin tan alta como esta nueva
media. Los valores "aislados" distorsionan la media; los
valores aislados iguales, pero en direcciones contrarias
suelen cancelarse entre s.

Desventajas de la Media

Una pequea desventaja ms de la media es que


con las variables discretas se obtienen valores
"ridculos" de la media y esto en ocasiones es
engaoso o cuando menos distrae (p. ej., el curioso
caso de los padres con 2.4 hijos).

La Mediana
La mediana es el valor central de un conjunto que
divide la distribucin de frecuencias en dos partes
iguales.
Por ello se dice que la mediana marca el punto
donde el 50% de los datos este por debajo y el
50% de los datos este por encima de este valor.
Su uso es ms adecuado cuando la distribucin
de frecuencias es asimtrica y tienen valores
extremos.

Si hay un nmero impar de valores en un


pequeo conjunto de datos, entonces esto
sera fcil de hallar.
El valor central de los primeros cinco
periodos de solucin de anagramas anterior
es el tercero; para hallarlo primero se deben
poner los cinco en orden numrico, lo cual
genera 1, 2, 5, 10, 12 y la mediana es 5.

Si hay un nmero impar de valores en el conjunto de datos


1. Halle la posicin o ubicacin mediana.
Se trata del lugar en donde se encuentra el valor mediano.
ste es se obtienen realizando la siguiente operacin. Llame "k" a esta
posicin.

N 1
2

2. k ser un nmero entero. La mediana es el valor en la posicin ksima. En el conjunto de cinco valores anterior se obtendra:
5 + 1 = 3.
2

La mediana es el valor en la tercera posicin


cuando los datos estn ordenados, de manera
que en nuestro ejemplo con los siguientes datos:
1, 2, 5, 10, 12, la mediana es 5.

Cuando existe un nmero par de valores en el conjunto de datos


1. Encuentre la posicin mediana, como ya se demostr. Sera a la mitad entre
los nmeros enteros. En el caso de un conjunto de seis dgitos sera:

6 1
K
3.5
2
De modo que 3.5 indica que la mediana est entre el miembro tercero y
cuarto del conjunto.
2. Tome la media de estos dos valores, as que del conjunto 1, 2, 5, 10, 12, 60
se logra:

5 10 15
7.5
2
2
Observe que la mediana de 7.5, en promedio, es
razonablemente representativa del grupo de valores, a
diferencia de la media mencionada antes, la cual fue 15.

Normalmente, en una investigacin tenemos muchos ms datos que en el


ejemplo anterior, y en muchas de estas ocasiones dichos datos estn
organizados en intervalos de clase.
Para estos casos utilizaremos la siguiente frmula:

N /2F
mediana L
X h
fm
Donde:
L = lmite inferior exacto del intervalo que contiene la
mediana.
F = nmero total de valores por debajo de L.
fm = nmero de valores en el intervalo que contiene la
mediana.
h = tamao total de valores en el conjunto de datos.

EJEMPLO
En una investigacin que estudio el consumo de cigarrillos se agruparon los
datos en diferentes intervalos de clase con la particularidad de que no todos
fueron el mismo rango. Los resultados obtenidos se muestran a continuacin:

Como vera, aqu resulta difcil ver dnde podra estar la mediana. Hay
238 casos en total, de modo que la mediana es el valor por encima y
por debajo del cual se ubican 119 de todos los casos.
La mediana debe estar en la categora de 6 a 10. La frmula supone
que los valores en esta categora se reparten equitativamente en toda
ella, por tanto:
L es 5.5; esto es el comienzo exacto del intervalo 6-10,
F es 110,
fm es 78,
h es 5
N es 238.
Al poner estos valores en la frmula se obtiene.

238 / 2 110
mediana 5.5
X 5 6.08
78

238 / 2 110
mediana 5.5
X 5 6.08
78
Este datos nos indica que 6.08 es el valor medio de la distribucin, esto
es, que la mitad de los datos se encuentran por debajo de 6.08 y la otra
mitad por encima de 6.08.

Ventajas de la Mediana
No la afectan los valores extremos o "aislados" en una direccin;
por tanto, conviene utilizarla con distribuciones "sesgadas".
Es ms fcil de calcular que la media (siempre que haya grupos
pequeos y ningn empate o se pase por alto una situacin de
valores empatados).
Se obtiene cuando se desconoce el valor de los datos puntuales
extremos.

Desventajas de la Mediana
No toma en cuenta las distancias exactas entre los valores.
No puede emplearse en estimaciones de parmetros poblacionales.
En un pequeo conjunto de datos, puede ser poco representativa;
por ejemplo, con 2, 3, 5, 98, 112 la mediana sera 5.

La moda es el indicador comn de


tendencia central de los datos en el nivel
nominal, pero tambin es una opcin ms
cmoda con escalas de medicin discretas,
ya que evita la irrealidad horripilante de "2.4
hijos" y nos da la estadstica familiar comn
de, por decir, 2 hijos.

La Moda
La moda es la categora o puntuacin que ocurre con mayor frecuencia
en una distribucin.

La moda del conjunto de nmeros:


1, 2, 3, 3, 3, 4, 4, 4, 5, 5, 5, 5, 5, 5, 6, 6, 7, 7, 7, 8
es, por tanto, 5 ya que este valor ocurre ms a menudo.
En el conjunto de valores 5, 2, 12, 1, 10 no existe un valor modal nico
pues cada uno ocurre slo una vez.
En el caso del conjunto de nmeros 7, 7, 7, 8, 8, 9, 9, 9, 10, 10 hay dos
modas, 7 y 9, y se dice que el conjunto es bimodal.

Ventajas de la Moda

Muestra el valor ms frecuente o "comn" de un conjunto de


datos.
No la afectan los valores extremos en una direccin.
Se obtiene si se desconocen los valores extremos.
A menudo resulta ms informativa que la media cuando la
escala es discreta.

Desventajas de la Moda
No toma en cuenta las distancias exactas entre los valores.
No puede usarse
poblacionales.

en

estimaciones

de

parmetros

No es til en el caso de conjuntos de datos relativamente


pequeos en los que diversos valores ocurren con igual
frecuencia (1, 1, 2, 3, 4, 4).
En el caso de distribuciones bimodales deben informarse dos
valores modales.
No es posible estimarla con precisin cuando los datos estn
agrupados en intervalos de clase.

Medidas de tendencia central y niveles


de medicin
Intervalo/razn
La media es el indicador ms sensible, pero slo debe utilizarse
cuando los datos estn por lo menos en el nivel de medicin de
intervalo. De lo contrario, la media se calcula sobre intervalos que
son desiguales y engaosos.
Ordinal
Si los datos no estn en el nivel de medicin de intervalo, sino que
pueden clasificarse por rango, entonces la mediana es el indicador
apropiado de tendencia central.
Nominal
Si los datos estn en categoras discretamente separadas,
entonces slo puede utilizarse la moda.
La moda puede emplearse tambin en datos de nivel ordinal y de
intervalo.
La mediana puede utilizarse tambin en datos de nivel de intervalo.

Medidas de Variabilidad
La dispersin es un indicador de la tendencia
en que varan todos los valores en un conjunto
entorno al valor central o comn.
Los valores de la dispersin pude ser
conocido a travs de:
El rango.
La desviacin estndar.
La varianza.

El Rango
El rango, tambin llamado recorrido, es la
diferencia entre la puntuacin mayor y la
puntuacin menor, e indica el nmero de
unidades en la escala de medicin necesaria
para incluir los valores mximos y mnimos.
Se calcula as:
XM -Xm +1
(puntuacin mayor, menos puntuacin menor
ms uno).

Si tenemos los siguientes valores:


17

18

20

20

24
33

28

28

el rango ser: 33 - 17 + 1= 17

Cuanto ms grande sea el rango, mayor ser la


dispersin de los datos de una distribucin.

30

Ventajas del Rango


Incluye valores extremos.
Es fcil calcularlo.

Desventajas del Rango


Los valores extremos lo distorsionan y, por tanto, puede resultar
engaoso.
Es poco representativo de las caractersticas de la distribucin
de los valores entre los extremos; por ejemplo, el rango no
indica si stos se hallan agrupados estrechamente o no
alrededor de la media, o espaciados por todo el rango.

La Desviacin Estndar
La desviacin estndar es el promedio de desviacin de las
puntuaciones con respecto a la media.
Esta medida se expresa en las unidades originales de
medicin de la distribucin.
Se interpreta en relacin con la media. Cuanto mayor sea la
dispersin de los datos alrededor de la media, mayor ser
la desviacin estndar. Se simboliza con: s o la sigma
minscula () y su frmula esencial es:

(X X )

Esto es, la desviacin de cada puntuacin respecto a la media


se eleva al cuadrado, se suman todas las desviaciones
cuadradas, se divide entre el nmero total de puntuaciones, y
a esta divisin se le saca raz cuadrada.

Procedimientos para calcular la desviacin


estndar
El procedimiento para calcularla es el siguiente:
1. Se ordenan las puntuaciones. Por ejemplo.
Variable: calificacin en estadstica social:

2. Se calcula la media:

97665 43
X
5.71
7
3. Se determina la desviacin de cada puntuacin con respecto a
la media:

4. Se eleva al cuadrado cada desviacin y se obtiene la sumatoria de


las desviaciones elevadas al cuadrado o (X- ) 2

5. Se aplica la frmula:

Cuando los datos estn agrupados en una distribucin de frecuencias,


se procede as:

1. Se obtiene el punto medio de cada intervalo y se determina la media de


la distribucin (con la frmula para datos agrupados):

2. Se eleva la media al cuadrado:


2

X (8.95) 2 80.1

3. Se multiplica la columna fx por los puntos medios, y se obtiene


una columna, que llamaremos fx2, as como la sumatoria de esta
ltima columna:

Obsrvese que cada valor de la ltima columna fx2 se


obtiene multiplicando un punto medio por su respectivo
valor en la columna fx

4. Se aplica la siguiente frmula para la desviacin estndar con datos


agrupados en una distribucin de frecuencias:

La desviacin estndar se interpreta como


"cunto se desva, en promedio, de la media un conjunto de
puntuaciones".
Supongamos que un investigador obtuvo para su muestra
una media de ingreso familiar de $8 000 (ocho mil pesos) y
una desviacin estndar de $1 000 (un mil pesos).
La interpretacin es que los ingresos familiares de la
muestra se desvan, en promedio, mil pesos respecto a la
media.
La desviacin estndar slo se utiliza en variables medidas
por intervalos o de razn.

La Varianza
La varianza es la desviacin estndar elevada al
cuadrado y se simboliza s2.
Es un concepto estadstico muy importante, ya que
muchas de las pruebas cuantitativas se
fundamentan en l.
Diversos mtodos estadsticos parten de la
descomposicin de la varianza. Sin embargo, con
fines descriptivos se utiliza preferentemente la
desviacin estndar.

Cmo se interpretan las medidas


de tendencia central y de la
variabilidad?
Cabe destacar que al describir nuestros datos,
interpretamos las medidas de tendencia central y de la
variabilidad en conjunto, no aisladamente. Tomamos en
cuenta todas las medidas. Para interpretarlas, lo
primero que hacemos es tomar en cuenta el rango
potencial de la escala.
Supongamos que aplicamos una escala de actitudes
del tipo Likert para medir la "actitud hacia el presidente"
de una nacin (digamos que la escala tuviera 18 tems
y se promediaran sus resultados).

El rango potencial es de 1 a 5:

Si obtuviramos los siguientes resultados:


Variable: actitud hacia el presidente.
Moda: 4.0
Mediana: 3.9
Media: 4.2
Desviacin estndar: 0.7
Puntuacin ms alta observada (mximo): 5.0
Puntuacin ms baja observada (mnima): 2.0
Rango: 3

Podramos hacer la siguiente interpretacin descriptiva:


La actitud hacia el presidente es favorable.
La categora que ms se repiti fue 4 (favorable).
El 50% de los sujetos est por encima del valor 3.9 y el restante 50%
se sita por debajo de este valor.
En promedio, los sujetos se ubican en 4.2 (favorable). Asimismo, se
desvan de 4.2, en promedio, 0.7 unidades de la escala. Ninguna
persona calific al presidente de manera desfavorable (no hay "1").
Las puntuaciones tienden a ubicarse en valores medios o elevados.

Medidas de distribucin

Las medidas de distribucin nos permiten identificar la forma en que


se separan o aglomeran los valores de acuerdo a su representacin
grfica. Estas medidas describen la manera como los datos tienden a
reunirse de acuerdo con la frecuencia con que se hallen dentro de la
informacin. Su utilidad radica en la posibilidad de identificar las
caractersticas de la distribucin sin necesidad de generar el grfico.
Sus principales medidas son:

la Asimetra
la Curtosis.

Asimetra

El coeficiente de asimetra sirve para evaluar si la distribucin de tus


datos se aproxima a una distribucin normal. Si la distribucin de la
variable es simtrica, su valor ser igual a cero; valores mayores a
cero indicarn que las desviaciones de la media son mayores para los
valores superiores a la media que para los valores inferiores (positiva);
mientras que los valores menores que cero indicarn que las
desviaciones de la media son mayores para los valores inferiores a la
media que para los valores superiores (negativa).

El Coeficiente de asimetra, se representa mediante la ecuacin


matemtica:

Donde (g1) representa el coeficiente de asimetra de Fisher, (Xi)


cada uno de los valores, la media de la muestra y (ni) la
frecuencia de cada valor.

Los resultados de esta ecuacin se interpretan:

(g1 = 0): Se acepta que la distribucin es Simtrica, es decir,


existe aproximadamente la misma cantidad de valores a los
dos lados de la media. Este valor es difcil de conseguir por lo
que se tiende a tomar los valores que son cercanos ya sean
positivos o negativos ( 0.5).
(g1 > 0): La curva es asimtricamente positiva por lo que los
valores se tienden a reunir ms en la parte izquierda que en la
derecha de la media.
(g1 < 0): La curva es asimtricamente negativa por lo que los
valores se tienden a reunir ms en la parte derecha de la
media.
Desde luego entre mayor sea el nmero (Positivo o Negativo), mayor ser la
distancia que separa la aglomeracin de los valores con respecto a la
media.

Curtosis
Esta medida determina el grado de concentracin que presentan los
valores en la regin central de la distribucin. Por medio del Coeficiente
de Curtosis, podemos identificar:
Si existe una gran concentracin de valores (Leptocrtica),
Una concentracin normal (Mesocrtica)
Una baja concentracin (Platicrtica).

Para calcular el coeficiente de Curtosis se utiliza la ecuacin:

Donde (g2) representa el coeficiente de Curtosis, (Xi) cada


uno de los valores, ( ) la media de la muestra y (ni) la
frecuencia de cada valor.

Los resultados de esta frmula se interpretan:

(g2 = 0) la distribucin es Mesocrtica: Al igual que en la asimetra


es bastante difcil encontrar un coeficiente de Curtosis de cero (0),
por lo que se suelen aceptar los valores cercanos ( 0.5 aprox.).
(g2 > 0) la distribucin es Leptocrtica
(g2 < 0) la distribucin es Platicrtica

TEMA 4: Las Medidas de Tendencia Central y de Variabilidad.


Preguntas de estudio
Para qu nos sirven las medidas de tendencia central?
Cules son las medidas de tendencia central?
Qu es la media y para qu sirve?
Cules son las desventajas de la media?
Qu es la media?
Cules son las ventajas de la mediana?
Qu es la moda?
Cules son las ventajas del uso de la moda?
Qu tipo de medidas de tendencia central son apropiadas para el nivel de
medicin intervalar?
Qu tipo de medidas de tendencia central son apropiadas para el nivel de
medicin ordinal?
Qu significa las medidas de dispersin o variabilidad?
Cules son las desventajas del rango?
Qu es la desviacin estndar?
Con que niveles de medicin se usa la desviacin estndar?
Para qu sirve la varianza?
Para qu sirven las medidas de distribucin?
Qu significan las diferentes medidas de distribucin?

TEMA 5 .
LA
ESTADISTICA
INFERENCIAL

Qu es la
estadstica
inferencia?

La estadstica inferencial pretende


generalizar
los
resultados
obtenidos en la muestra a la
poblacin o universo.

Los datos casi siempre son recolectados de una


muestra y sus resultados estadsticos se
denominan estadgrafos estadsticos.
La media o la desviacin estndar de la
distribucin de una muestra son estadgrafos o
estadsticos.
A las estadsticas de la poblacin o universo se
les conoce como parmetros. Los parmetros
no son calculados, porque no se recolectan
datos de toda la poblacin, pero pueden ser
inferidos a travs de los estadgrafos, de ah el
nombre de estadstica inferencial.

La estadstica inferencial puede ser utilizada para


dos procedimientos

1. Probar hiptesis.
2. Estimar parmetros.

La prueba de hiptesis
Una hiptesis en el contexto de la estadstica inferencial es una
proposicin respecto a uno o varios parmetros, y lo que el
investigador hace a travs de la prueba de hiptesis es
determinar si la hiptesis es consistente con los datos obtenidos
en la muestra.
Si la hiptesis es consistente con los datos, sta es retenida
como un valor aceptable del parmetro. Si la hiptesis no es
consistente con los datos, se rechaza sta (pero los datos no son
descartados).
Para comprender lo que es la prueba de hiptesis en la
estadstica inferencial es necesario revisar el concepto de
distribucin muestral y nivel de significancia.

La Distribucin Muestral
Una distribucin muestral consiste en un conjunto de valores
sobre una estadstica calculada de todas las muestras posibles
de un determinado tamao.
Supongamos que nuestro universo o poblacin son los automovilistas de
una ciudad y deseamos averiguar cunto tiempo pasan diariamente al
volante.

Extraemos una muestra representativa de n=512 Automovilistas.

Cuntas muestras posibles puedo extraer de mi poblacin si


necesito una n=512 automovilistas?

Del mismo universo se podran extraer diferentes muestras, cada una


con 512 personas. Tericamente, incluso podra hacerlo al azar una
vez, dos, tres, cuatro y las veces que fuera necesario hasta agotar
todas las muestras posibles de 512 automovilistas de esa ciudad
(todos los sujetos seran seleccionados en varias muestras).
En cada muestra se podra obtener una media del tiempo que pasan
los automovilistas manejando. Tendramos pues, una gran cantidad de
medias, tantas como las muestras extradas.

Y con estas medias podramos elaborar una distribucin de medias. Habra


muestras que en promedio pasan ms tiempo al volante que otras. Si lo
graficamos quedara as:

Si calculramos la media de todas las medias de las muestras, obtendramos


el valor de la media poblacional.

Desde luego, muy rara vez se obtiene la distribucin muestral (la distribucin
de las medias de todas las muestras posibles). Es ms bien un concepto
terico definido por la Estadstica para los investigadores. Lo que stos
comnmente hacen es extraer una sola muestra.
En el ejemplo de los automovilistas, slo una de las lneas verticales de la
distribucin muestral presentada en la figura es la media obtenida para la
nica muestra seleccionada de 512 personas.
Y la pregunta es, nuestra media est cerca de la media de la distribucin
muestral? (o lo que es igual: la media de la muestra est cercana a la media
de la distribucin muestral?), debido a que si est cerca podremos tener una
estimacin precisa de la media poblacional (el parmetro poblacional es
prcticamente el mismo que el de la distribucin muestral). Esto se expresa en
el teorema central del lmite,

Teorema Central del lmite:


Si
una
poblacin
(no
necesariamente normal) tiene de
media m y de desviacin estndar
o (s), la distribucin de las
medias en el muestreo aleatorio
realizado en esta poblacin tiende,
al aumentar n, a una distribucin
normal de media m y desviacin
estndar donde n es el tamao
de muestra.

La prueba de hiptesis
La probabilidad de que un evento ocurra oscila entre 0 y 1,
donde 0 significa la imposibilidad de ocurrencia y 1 la certeza de que
ocurra el fenmeno.
Aplicando el concepto de probabilidad a la distribucin muestral, podemos
tomar el rea de sta como 1.00, y consecuentemente, cualquier rea
comprendida entre dos puntos de la distribucin corresponder a la
probabilidad de la distribucin.
Para probar hiptesis inferenciales respecto a la media, el investigador
tiene que evaluar si la probabilidad de que la media de la muestra est
cerca de la media de la distribucin muestral es grande o pequea. Si es
pequea, el investigador dudar de generalizar a la poblacin. Si es
grande, el investigador podr hacer generalizaciones.

Es aqu donde entra el nivel de significancia o nivel alfa (nivel a). ste es
un nivel de probabilidad de equivocarse y se fija antes de probar
hiptesis inferenciales.

EJEMPLO

Si usted fuera a apostar en las carreras de caballos y tuviera 95% de


probabilidades de atinarle al ganador, contra slo un 5% de perder,
apostara? Seguramente s, siempre y cuando le aseguraran ese 95% en
su favor. O bien, si le dieran 95 boletos de 100 para la rifa de un automvil,
tendra confianza en que va a estrenar vehculo? Seguramente s. No
tendra la certeza total, pero si un alto grado de probabilidad.

Algo similar hace el investigador social.


l obtiene una estadstica en una muestra (v.g., la media) y analiza qu
porcentaje tiene de confianza de que dicha estadstica se acerque al
valor de la distribucin muestral (que es el valor de la poblacin o
parmetro).
Busca un alto porcentaje de confianza, una probabilidad elevada para
estar tranquilo. Porque sabe que puede haber error de muestreo, y
aunque la evidencia parece mostrar una aparente cercana entre el
valor calculado en la muestra y el parmetro, esta cercana puede no
ser real y deberse a errores en la seleccin de la muestra.

Y con qu porcentaje tiene confianza el investigador para


generalizar para suponer que tal cercana es real y no
debida a un error de muestreo?
Existen dos niveles convenidos en ciencias sociales:

A. El nivel de significancia del .05, el cual implica que el


investigador tiene 95% de seguridad para generalizar sin
equivocarse, y slo un 5% en contra. En trminos de
probabilidad, 0.95 y .05 respectivamente, ambos suman la
unidad.

B. El nivel de significancia del .01, el cual implica que el


investigador tiene un 99% en su favor para generalizar sin
temor y un 1% en contra (0.99 y 0.01 = 1.00).

Cmo se relacionan la
distribucin muestral y el
nivel de significancia?

As, el nivel de significancia representa reas de riesgo o confianza en la


distribucin muestral.

Procedimiento para realizar la prueba de hiptesis.

1. Sobre bases firmes (revisin de la literatura e informacin


disponible), establecer una hiptesis acerca del parmetro
poblacional.
Por ejemplo: El promedio de horas diarias que se exponen los nios
de la ciudad de Celaya en fin de semana es de 3.0.
2. Definir el nivel de significancia. Por ejemplo, = .05.
3. Recolectar los datos en una muestra representativa. Vamos a
suponer que obtuvimos una media de 2.9 horas y una desviacin
estndar de 1.2 horas, la muestra incluy 312 nios.

4. Estimar la desviacin estndar de sla distribucin muestral de la media,


Sx
utilizando la siguiente frmula:

Donde Sx es la desviacin estndar de la distribucin muestral de la


media, s representa la desviacin estndar de la muestra y n el
tamao de la muestra.
En el ejemplo:

1.2
Sx
312

Sx 0.0679

5. Transformar la media de la muestra en una puntuacin z, en el contexto de


la distribucin muestral. Con una variacin de la frmula ya conocida para
obtener puntuaciones z.

XX
Z
Sx
Donde X es la media de la muestra (recordemos que la distribucin
muestral es de medias y no de puntuaciones). es la media hipotetizada
de la distribucin muestral (parmetro poblacional). Sx es la desviacin
estndar de la distribucin muestral de medias. As tenemos:

2.9 3.0
z
1.47
0.0679

6. En la tabla de reas bajo la curva normal, buscar aquella puntuacin


z que deje al 2.5% por encima de ella, que es 1.96. En la tabla uno se
presenta la distribucin de puntuaciones z, slo la mitad, pues
debemos recordar que es una distribucin simtrica y se aplica igual
para ambos lados de la media.
As se incluye en los textos de estadstica social. Se busca el 2.5%
porque la tabla slo abarca la mitad de la distribucin y el riesgo que
estamos afrontando es del 5% (2.5% del extremo de cada lado). La tabla
contiene cuatro columnas: la primera, indica puntuaciones z, la
segunda, expresa la distancia de la puntuacin z a la media, la tercera,
el rea que est por debajo de esa puntuacin desde el comienzo de la
distribucin y la cuarta, el rea que est por encima de esa puntuacin
Las reas estn expresadas en proporciones. Lo que buscamos es una
puntuacin z que deje por encima un rea de .0250 2.5% (la
buscamos en la cuarta columna de la tabla), esta puntuacin z es 1.96.
Siempre que nuestro nivel de significancia es .05 tomamos la puntuacin
z 1.96.

7. Comparo la media de mi muestra transformada a puntuacin z con el


valor 1.96, si es menor acepto la hiptesis y si es mayor la rechazo. Veamos
en el ejemplo:
Media de la muestra transformada a z
del .05
1.47
1.96

Nivel de significancia
1.96

Decisin: Acepto la hiptesis a un nivel de


significancia del .05 (95% a mi favor y 5% de riesgo de
cometer un error).

Intervalo de Confianza

Otro procedimiento de la estadstica inferencial es construir un


intervalo donde se localiza un parmetro.
Por ejemplo, en lugar de pretender probar una hiptesis acerca de la
media poblacional, puede buscarse obtener un intervalo donde se
ubique dicha media. Esto requiere un nivel de confianza, al igual que
en la prueba de hiptesis inferenciales.

Los niveles de confianza utilizados ms comnmente en la


investigacin social son:

0.95
0.99.
Su sentido es el del 0.95, quiere decir que tenemos 95% en favor de que el
parmetro se localice en el intervalo estimado, contra un 5% de elegir un
intervalo equivocado.

El nivel del 0.99 seala un 99% de probabilidad de seleccionar el intervalo


adecuado.

La formula es:

Donde el estadgrafo es la estadstica calculada en la muestra, la


puntuacin z es 1.96 con un nivel de .95 y 2.58 con un nivel de .99
y el error estndar depende del estadgrafo en cuestin.

EJEMPLO
Vemoslo con el ejemplo de la media en el caso de la exposicin diaria a la
televisin en fin de semana por parte de los nios de Celaya:
Media = 2.9 horas
s = 1 .2 horas
S = 0.0679
(desviacin estndar
de la distribucin muestral
de la media).
Nivel de confianza

= .95 (z = 1.96)

Intervalo de confianza

= 2.9 (1.96) (0.0679)

= 2.9 (0.133)
Intervalo de confianza:
La media poblacional est entre 2.767 y 3.033 horas, con un 95% de
probabilidades de no cometer error.

Error Tipo I y Error Tipo II

Nunca podemos estar completamente seguros de nuestra estimacin.


Trabajamos con altos niveles de confianza o seguridad y aunque el
riesgo es mnimo podra cometerse un error. Los resultados posibles al
probar hiptesis pueden ser:

Aceptar una hiptesis verdadera (decisin correcta).


Rechazar una hiptesis falsa (decisin correcta).
Aceptar una hiptesis falsa (error conocido como del Tipo II o beta).
Rechazar una hiptesis verdadera (error conocido como de Tipo 1 o
error alfa).

Ambos tipos de error son indeseables y puede reducirse la


posibilidad de que se presenten mediante:

a)Muestras representativas probabilsticas.


b)Inspeccin cuidadosa de los datos.
c)Seleccin de las pruebas estadsticas apropiadas.
d)Mayor conocimiento de la poblacin.

TEMA 5: La Estadstica Inferencial.


Preguntas de estudio

1.Cul es el propsito de la estadstica inferencial?


2.En que procedimientos se aplica la estadstica inferencial?
3.Explique con sus propias palabras que es la distribucin
muestral?
4.Qu significa el nivel de significancia del .05?
5.Cul es el procedimiento para aceptar o rechazar nuestra
hiptesis sobre la media poblacional?
6.Define con tus propias palabras el concepto de intervalo de
confianza
7.Cul es la frmula para calcular el intervalo de confianza?
8.Cul es la diferencia entre el error tipo I y el error tipo II

TEMA 6.
EL ANALISIS
PARAMETRICO

Supuestos del Anlisis Paramtrico.

Para realizar anlisis paramtricos debe partirse de los siguientes


supuestos:
1. La distribucin poblacional de la variable dependiente es normal: el
universo tiene una distribucin normal.
2. El nivel de medicin de la variable dependiente es por intervalos o
razn.
3. Cuando dos o ms poblaciones son estudiadas, stas tienen una
varianza homognea: las poblaciones en cuestin tienen una
dispersin similar en sus distribuciones.

Las pruebas estadsticas paramtricas ms utilizadas son:

1. Coeficiente de correlacin de Pearson y la


regresin lineal.
2. Prueba t.
3. Prueba de contraste de la diferencia de
proporciones.
4. Anlisis de varianza unidireccional (ANOVA
Oneway).
5. Anlisis de varianza factorial (ANOVA).
6. Anlisis de covarianza (ANCOVA).

Coeficiente de correlacin de Pearson

Es una prueba estadstica para analizar la relacin entre dos


variables medidas en un nivel intervalar o de razn.
Se simboliza: r

Hiptesis a probar:
Correlacional, del tipo de A mayor X, mayor y, A mayor Y, menor Y,
Altos valores en X estn asociados con altos valores en Y, Altos valores
en X se asocian con bajos valores de Y.
Variables involucradas
Dos. La prueba en s no considera a una como independiente y a otra como
dependiente, ya que no se trata de una prueba que evala la causalidad. La
nocin de causa y efecto (independiente-dependiente) se puede establecer
tericamente, pero la prueba no considera dicha causalidad.

Interpretacin
El coeficiente r de Pearson puede variar de - 1.00 a +1.00 donde:
- 1.00 = correlacin negativa perfecta (A mayor X, menor Y de manera
proporcional. Es decir, cada vez que X aumenta una unidad, Y disminuye
siempre una cantidad constante). Esto tambin se aplica a a menor X, mayor
Y.
- 0.90 = Correlacin negativa muy fuerte.
- 0.75 = Correlacin negativa considerable.
- 0.50 = Correlacin negativa media.
- 0.10 = Correlacin negativa dbil.
0.00 = No existe correlacin alguna entre las variables.
+ 0.10 = Correlacin positiva dbil.
+ 0.50 = Correlacin positiva media.
+ 0.75 = Correlacin positiva considerable.
+ 0.90 = Correlacin positiva muy fuerte.
+ 1.00 = Correlacin positiva perfecta (A mayor X, mayor Y o a menor X,
menor Y de manera proporcional. Cada vez que X aumenta, Y aumenta
siempre una cantidad constante).
El signo indica la direccin de la correlacin (positiva o negativa) y el valor
numrico, la magnitud de la correlacin.

El signo indica la direccin de la correlacin (positiva o negativa) y el valor


numrico, la magnitud de la correlacin.
Los principales programas de anlisis estadstico en computadora reportan
si el coeficiente es o no significativo, de la siguiente manera:

s = 0.001
0.783

significancia
valor de coeficiente

Si s es menor del valor .05, se dice que el coeficiente es significativo al


nivel del .05 (95% de confianza en que la correlacin sea verdadera y 5%
de probabilidad de error).
Si s es menor a .01, el coeficiente es significativo al nivel del .01 (99% de
confianza de que la correlacin sea verdadera y 1% de probabilidad de
error).

Cuando el coeficiente r de Pearson se eleva al cuadrado (r2), el resultado


indica la varianza de factores comunes. Esto es, el porcentaje de la
variacin de una variable debido a la variacin de la otra variable y
viceversa.

EJEMPLO

Por ejemplo: La correlacin entre productividad y asistencia al trabajo


es de 0.80.
r = 0.80
r2 = 0.64

La productividad contribuye a o explica el 64% de la variacin de la


asistencia al trabajo. La asistencia al trabajo explica el 64% de la
productividad.

En los artculos de revistas cientficas o textos, se suele indicar la


significancia as:
0.48

p<.05

Quiere decir que el coeficiente es significativo al nivel del .05. La


probabilidad de error es menor del 5%. Si p < .01, el coeficiente es
significativo al nivel de .01.

EJEMPLO
Hi: A mayor motivacin intrnseca, mayor puntualidad
Resultado:
r = .721 s = 0.0001
Interpretacin: Se acepta la hiptesis de investigacin al nivel del .01. La
correlacin entre la motivacin intrnseca y la productividad es
considerable.

Hi: A mayor ingreso, mayor motivacin intrnseca.


Resultado:
r = .214 s = 0.081

Interpretacin: Se acepta la hiptesis nula. El coeficiente no es


significativo: 0.081 es mayor que 0.05 y recordemos que 05 es el
nivel mnimo para aceptar la hiptesis.

Regresin lineal
Es un modelo matemtico para estimar el efecto de una variable sobre
otra. Est asociado con el coeficiente r de Pearson.. Usa variables de
Intervalos o de razn.
Hiptesis a probar:
Correlacionales y causales.
Variables involucradas
Dos. Una se considera como independiente y otra como dependiente.
Pero para poder hacerlo debe tenerse un slido sustento terico.

Procedimiento e interpretacin:
La regresin lineal se determina en base al diagrama de dispersin.
ste consiste en una grfica donde se relacionan las puntuaciones de
una muestra en dos variables.
Vemoslo con un ejemplo sencillo de 8 casos. Una variable es la
calificacin en filosofa y la otra variable es la calificacin en estadstica,
ambas medidas hipotticamente de 0 a 10.

Para calcular la regresin lineal se utiliza la siguiente formula.


Y = a + bX

Donde
Y = es un valor de la variable
dependiente que se desea predecir,
a = es la ordenada en el origen
b = la pendiente o inclinacin.

Los programas y paquetes de anlisis estadstico por


computadora que incluyen la regresin lineal proporcionan
los datos de a y b.
a o intercept y b o slope.
Para predecir un valor de Y se sustituyen los valores
correspondientes en la ecuacin. Por ejemplo:

a (intercept) = 1.2
b (slope)
= 0.8

Entonces podemos hacer la prediccin:


a un valor de 7 en filosofa qu valor en estadstica le
corresponde?

Predecimos que a un valor de 7 en X, le corresponder un


valor de 6.8 en Y

EJEMPLO

Hi:
La autonoma laboral es una variable para predecir la motivacin
intrnseca en el trabajo. Ambas variables estn relacionadas.
Las dos variables fueron medidas en una escala por intervalos de 1 a 5.
Resultado:
a (intercept) = 0.42 b
b (slope) = 0.65

Interpretacin: Cuando X (autonoma) es 1, la prediccin estimada de Y


es 1.07; cuando X es 2, la prediccin estimada de Y es 1.72: cuando X
es 3, Y ser 2.37: cuando X es 4, Y ser 3.02; y cuando X es 5, Y ser
3.67.

Y = a + bX

1.07 = 0.42 + 0.65 (1)


1.72 = 0.42 + 0.65 (2)
2.37 = 0.42 + 0.65 (3)
3.02 = 0.42 + 0.65 (4)
3.67 = 0.42 + 0.65 (5)

Prueba t
Es una prueba estadstica para evaluar si dos grupos difieren entre s
de manera significativa respecto a sus medias.
Se simboliza: t

Hiptesis a probar:
De diferencia entre dos grupos. La hiptesis de investigacin propone
que los grupos difieren significativamente entre s y la hiptesis nula
propone que los grupos no difieren significativamente.

Variable involucrada
La comparacin se realiza sobre una variable. Si hay diferentes
variables, se efectuarn varias pruebas t (una por cada variable).
Aunque la razn que motiva la creacin de los grupos puede ser una
variable independiente. Por ejemplo: un experimento con dos grupos,
uno al cual se le aplica el estmulo experimental y el otro grupo el de
control.
Nivel de medicin de la variable:
Intervalar o razn.

Interpretacin:
El valor t se obtiene en muestras grandes mediante la frmula:

X1 X 2
S12 S 22

N1 N 2

Donde:
X1 es la media de un grupo,
X2 es la media del otro grupo,
S12 es la desviacin estndar del primer grupo elevada al
cuadrado,
N1 es el tamao del primer grupo,
S22 es la desviacin estndar del segundo grupo elevada al
cuadrado
N2 es el tamao del segundo grupo.
En realidad, el denominador es el error estndar de la
distribucin muestral de la diferencia entre medias.

Para saber si el valor t es significativo, se aplica la frmula y se calculan


los grados de libertad.
Entre mayor nmero de grados de libertad se tengan, la distribucin t de
Student se acerca ms a ser una distribucin normal

Los grados de libertad se calculan as:


gl = (N1 + N2) -2
N1 y N2 son el tamao de los grupos que se comparan.

Una vez calculados el valor t (t obt) y los grados de libertad, se elige el


nivel de significancia y se compara el valor obtenido contra el valor que le
correspondera en la tabla (tabla de la distribucin t de Student).

Si nuestro valor calculado es igual o mayor al que aparece en la tabla (t


crit), se acepta la hiptesis de investigacin.

t obs t critica
Aceptamos hiptesis de investigacin se rechaza la
hiptesis nula

Pero si nuestro valor calculado es menor al que aparece en dicha tabla,


se acepta la hiptesis nula.

Consideraciones
La prueba t puede utilizarse para comparar los resultados de
una preprueba con los resultados de una postprueba en un
contexto experimental.
Cabe mencionar que la prueba t puede aplicare para muestras
independientes y para muestras dependientes.

EJEMPLO
Ejemplos
Hi: Los jvenes le atribuyen mayor importancia al atractivo fsico en
sus relaciones heterosexuales que las jvenes.
Ho: Los jvenes no le atribuyen ms importancia al atractivo fsico
en sus relaciones heterosexuales que las jvenes.

La variable atractivo fsico fue medida a travs de una prueba


estandarizada y el nivel de medicin es por intervalos. La escala vara
de 0 a 18.
La hiptesis se somete a prueba con los estudiantes de clase media de
dos universidades de la ciudad de Monterrey, Mxico.

N1 (hombres) = 128
N2 (mujeres) = 119
Resultados:
Media 1 (hombres) = 15
Media 2 (mujeres) = 12
S1 (hombres) = 4
S2 (mujeres) = 3

15 12
2

( 4)
(3)

128 119

Gl
Gl>200

1.645

.05
2.326

.01 .

1 = 6.698
Gl = (128 + 119) 2
Gl = 245
Al acudir a la tabla de la distribucin t de Student , buscamos los
grados de libertad correspondientes y elegimos en la columna de
gl, el rengln .

Nuestro valor calculado de t es 6.698, resulta superior al valor


de la tabla en un nivel de confianza de .05 (6.698> 1.645).
Entonces, la conclusin es que aceptamos la hiptesis de
investigacin y rechazamos la nula. Incluso, el valor t calculado
es superior en un nivel de confianza del .01 (6.698 > 2.326).

t obs t critica
6.698 1.645
Aceptamos hiptesis de investigacin se rechaza la
hiptesis nula

15 12
(4) 2 (3) 2

128 119

Anlisis de varianza unidireccional (oneway)


Es una prueba estadstica para analizar si ms de dos grupos difieren
significativamente entre s en cuanto a sus medias y varianzas.
La prueba t es utilizada para dos grupos y el anlisis de varianza
unidireccional se usa para tres, cuatro o ms grupos.
Y aunque con dos grupos, el anlisis de varianza unidireccional se puede
utilizar, no es una prctica comn.

Hiptesis a probar
De diferencia entre ms de dos grupos.
La hiptesis de investigacin propone que los grupos difieren
significativamente entre s
La hiptesis nula propone que los grupos no difieren
significativamente.

Variables involucradas:
Una variable independiente y una variable dependiente.

Nivel de medicin de las variables


La variable independiente es categrica y la dependiente es por intervalos
o razn.
El que la variable independiente sea categrica significa que se pueden
formar grupos diferentes. Puede ser una variable nominal, ordinal, por
intervalos o de razn (pero en estos ltimos dos casos la variable debe
reducirse a categoras).

Por ejemplo:
Religin.
Nivel socioeconmico (muy alto, alto, medio, bajo y muy bajo).
Antigedad en la empresa (de 0 a 1 ao, ms de un ao a cinco aos,
ms de cinco aos a diez, ms de diez aos a 20 y ms de 20 aos).

El anlisis de varianza unidireccional produce un valor conocido como F

La razn F compara las variaciones en las puntuaciones debidas a dos


diferentes fuentes:
variaciones entre los grupos que se comparan
y variaciones dentro de los grupos.

Si los grupos defieren realmente entre s sus puntuaciones variarn


ms de lo que puedan variar las puntuaciones entre los integrantes
de un mismo grupo.

Si tenemos tres familias A, B y C. La familia A est integrada


por Felipe, Anglica, Elena y Jos Luis. La familia B est compuesta
por Chester, Pilar, Iigo, Alonso y Carlos. Y la familia C est
integrada por Rodrigo, Laura y Roberto. Qu esperamos? Pues
esperamos que los integrantes de una familia se parezcan ms entre
s de lo que se parecen a los miembros de otra familia. Esto podra
graficarse as:

Es decir, esperamos homogeneidad intrafamilias y heterogeneidad


interfamilias.

Qu

sucedera si los miembros de las


familias se parecieran ms a los integrantes
de las otras familias que a los de la suya
propia? Quiere decir que no hay diferencia
entre los grupos (en el ejemplo, familias).

Esta misma lgica se aplica a la razn F, la cual nos indica si las


diferencias entre los grupos son mayores que las diferencias
intragrupos (dentro de stos).
Estas diferencias son medidas en trminos de varianza.

Consecuentemente la razn F que es una razn de varianzas, se


expresa as:

En donde media cuadrtica implica un promedio de varianzas


elevadas al cuadrado.
La media cuadrtica entre los grupos se obtiene de la siguiente
manera:
1.- Se calcula la media de las puntuaciones de todos los grupos
(media total),
2.- Despus se obtiene la desviacin de la media de cada grupo
respecto a la media total y se eleva al cuadrado cada una de
estas desviaciones,
3.- Estos resultados se suman.
4.- Finalmente se sopesa el nmero de individuos en cada
grupo y la media cuadrtica se obtiene en base a los grados de
libertad intergrupales (no se calcula en base al nmero de
puntuaciones).

La media cuadrtica dentro de los grupos se calcula de la


siguiente manera:
1.- Se obtiene primero la desviacin de cada puntuacin
respecto a la media de su grupo.
2.- Despus esta fuente de variacin se suma y combina
para obtener una medida de la varianza intragrupal para
todas las observaciones, tomando en cuenta los grados de
libertad totales.

Las frmulas de la media cuadrtica son:

Los grados de libertad entre grupos = K 1


(donde K es el nmero de grupos).

Los grados de libertad intragrupos = N K


(N es el tamao de la muestra, la suma de los individuos de todos los
grupos y K recordemos que es el nmero de grupos).

Cuando F resulta significativa esto quiere


decir que los grupos difieren
significativamente entre s.
Es decir, se acepta la hiptesis de
investigacin y se rechaza la hiptesis
nula.

Cuando se efecta el anlisis de varianza por medio de un


programa para computadora o se utiliza un paquete
estadstico, se genera una tabla de resultados con los
elementos de la siguientes tablas

El valor (alfa) o probabilidad a elegir es una vez ms .05 o .01.

Si es menor del .05 es significativo a este nivel y si es menor del .01 es


significativo tambin a este nivel.
Javier: Tengo duda con es
prrafo, segn yo para que
El valor exacto de F que debemos obtener depende desea
sussignificativa,
grados de debe ser
o igual que la F de
libertad asociados. Por lo tanto, la utilizacin de la tabla mayor
se inicia
pero yaqu
buscando los dos valores gl, los grados de libertad entretablas,
los grupos
los entiendo
que es alrevez, que la f
grados de libertad intragrupos.
obtenida debe ser menor q
la f obarvasda. Cual es lo
correcto????
Los grados de libertad entre grupos se indican en la parte
superior de la
que existe una me
pgina, mientras que los grados de libertad intra-gruposSi
secrees
han colocado
manera de explicarlo,
al lado izquierdo de la tabla. El cuerpo de la tabla de la distribucin
F
adelante,
cambialo.
presenta razones F significativas a los niveles de confianza
de .05
y .01. Porqu
seta prueba si me causa
confusin y no se si la
Si F = 1.12
presentancin este bien.
Gl entre = 2
Saludos
Gl intra = 60

Este valor F se compara con el valor que aparece en la tabla de la


distribucin F, que es 3.15, y como el valor F calculado es menor al
de dicha tabla, rechazaramos la hiptesis de investigacin y
aceptaramos la hiptesis nula. Para que el valor F calculado sea
significativo debe ser igual o mayor al de la tabla.

EJEMPLO
Hi:
Los nios que se expongan a contenidos de elevada violencia
televisiva exhibirn una conducta ms agresiva en sus juegos,
respecto a los nios que se expongan a contenidos de mediana o
baja violencia televisada.
Ho:
Los nios que se expongan a contenidos de elevada violencia
televisiva no exhibirn una conducta ms agresiva en sus juegos,
respecto a los nios que se expongan a contenidos de mediana o
baja violencia televisada.

Para probar la hiptesis se disea un experimento con tres grupos:

En cada grupo hay 25 nios.


Los Resultados generados por el programa estadsticos son los
siguientes:

La razn F result significativa: se acepta la hiptesis de


investigacin.
La diferencia entre las medias de los grupos es significativa, el
contenido altamente violento tiene un efecto sobre la conducta
agresiva de los nios en sus juegos.
El estimulo experimental tuvo un efecto.

El anlisis de varianza nos indica que existen diferencias entre los


grupos, pero no nos indica exactamente en que grupos estn estas
diferencias.
Para conocer en que grupos estn estas diferencias debemos
realizar un anlisis post hoc o a posteriori

Para conocer en que grupos estn estas diferencias debemos realizar


un anlisis post hoc o a posteriori
Este anlisis comparara de manera cada par de medias para
determinar en donde existen las diferencias.
Este anlisis normalmente se realiza calculando una prueba t para
cada par de medias o bien, a travs de algunas estadsticas que
suelen ser parte de los anlisis efectuados mediante paquetes
estadsticos para computadoras.

Anlisis Factorial de Varianza (ANOVA) (anlisis


de varianza de k-direcciones)
Es una prueba estadstica para evaluar el efecto de dos o ms
variables independientes sobre una variable dependiente.
Responde a esquemas del
tipo:

Constituye una extensin del anlisis de varianza unidireccional,


solamente que incluye ms de una variable independiente. Evala
los efectos por separado de cada variable independiente y los
efectos conjuntos de dos o ms variables independientes.

Variables Involucradas:
Dos o ms variables independientes y una dependiente.

Nivel de medicin de las variables:


La variable dependiente (criterio) debe estar medida en un nivel por
intervalos o razn,
Las variables independientes (factores) pueden estar en cualquier
nivel de medicin, pero expresadas de manera categrica.

Interpretacin y ejemplo:

Hi:
La similitud en valores, la atraccin fsica y el grado
de retroalimentacin positiva son factores que
inciden en la satisfaccin sobre la relacin en
parejas de novios cuyas edades oscilan entre los 24
y los 32 aos.

El ANOVA efectuado mediante un paquete estadstico para computadora


produce los siguientes elementos bsicos:
Fuente de la variacin (source of variation).
Que es el factor que origina variacin en la variable dependiente. Si
una fuente no origina variacin en la dependiente, no tiene efectos.
Efectos principales (main effects).
Es el efecto de cada variable independiente por separado, no est
contaminado del efecto de otras variables independientes ni de error.
La suma de todos los efectos principales suele proporcionarse.
Interacciones de dos direcciones (2-way interactions).
Representa el efecto conjunto de dos variables independientes,
aislado de los dems posibles efectos de las variables
independientes (individuales o en conjuntos).
La suma de los efectos de todas estas interacciones suele
proporcionarse.

Interacciones de tres direcciones (3-way interactions).


Constituye el efecto conjunto de tres variables
independientes, aislado de otros efectos. La suma de los
efectos de todas estas interacciones suele proporcionarse.
Puede haber efecto de K-direcciones, dependiendo del
nmero de variables independientes.

En nuestro ejemplo, tenemos los


resultados que se muestran en la siguiente
tabla.

Como podemos ver en la tabla, la similitud, la


atraccin y la retroalimentacin tienen un efecto
significativo sobre la satisfaccin en la relacin.
Respecto a los efectos de dos variables
independientes conjuntas, slo la similitud y la
atraccin tienen un efecto, y hay un efecto conjunto
de las tres variables independientes.
La hiptesis de investigacin se acepta y la nula se
rechaza. Cabe agregar que el ANOVA es un mtodo
estadstico propio para los diseos experimentales
factoriales.

El Anlisis de Covarianza
Es una prueba estadstica que analiza la relacin entre una variable
dependiente y dos o ms independientes, removiendo y controlando el
efecto de al menos una de estas independientes.
Perspectiva experimental.
Se aplica a aquellas situaciones en que el inters del investigador se
centra en las diferencias observadas en la variable dependiente a travs
de las categoras de la variable independiente (o variables
independientes).
Pero el experimentador asume que hay otras variables independientes
cuantitativas que contaminan la relacin y cuya influencia debe ser
controlada. Es decir, se tiene el siguiente esquema:

Y el investigador nicamente se interesa por conocer la relacin


entre las variables independientes categricas y la variable
dependiente. Deseando remover y controlar el efecto de las
variables independientes cuantitativas no categricas. Es decir,
desea tener un esquema as:

Remover
o
controlar

El objetivo es purificar la relacin entre las independientes


categricas y la dependiente, controlando el efecto de las
independientes no categricas o continuas.

Ejemplos de variables independientes categricas seran:


sexo (masculino, femenino),
inteligencia (alta, media, baja),
ingreso (menos de 1 salario mnimo, 2 a 4 salarios mnimos, 5 a 10
salarios mnimos, 11 o ms salarios mnimos).
Los niveles de medicin nominal y ordinal son categricos en s
mismos, y los niveles de intervalos y razn deben de transformarse en
categoras ms discretas. Estos ltimos son en s: cuantitativos,
continuos y de categoras mltiples-continuas. Por ejemplo, el ingreso
en su estado natural vara de la categora o hasta la categora (K)k,
puede haber millones de categoras.

Variable categrica unas cuantas categoras o un rango medio.


Variable continua muchas categoras (a veces una infinidad).
A dichas variables independientes cuantitativas continuas, cuya
influencia se remueve y controla, se les denomina covariables.
Una covariable es incluida en el anlisis para remover su efecto sobre la
variable dependiente e incrementar el conocimiento de la relacin entre
las variables independientes categricas y la dependiente, aumentando
la precisin del anlisis.
En esta perspectiva, el anlisis de covarianza puede ser concebido
primero como un ajuste en la variable dependiente respecto a
diferencias en la covariable o covariables y posteriormente como
una evaluacin de la relacin entre las variables independientes
categricas y los valores ajustados de la variable dependiente.

Las otra
perspec
no la po
porque
son tan
importan
Con est
entiende
objetivo
prueba

En resumen, el anlisis de covarianza remueve influencias no deseadas


sobre la variable dependiente. Wildt y Ahtola definen algunos usos del
anlisis de covarianza:
1.Incrementar la precisin en experimentos con asignacin al azar.
2.Remover influencias extraas o contaminantes que pueden resultar
cuando las pruebas y/o individuos no pueden ser asignados al azar a las
diferentes condiciones experimentales (grupos de un experimento).
3.Remover efectos de variables que confundan o distorsionen la
interpretacin de resultados en estudios no experimentales.

Nivel de medicin de las variables:


La variable dependiente siempre est medida por intervalos o razn
Las variables independientes pueden estar medidas en cualquier nivel.
Aunque las covariables deben medirse en un nivel de intervalos o
razn.
Interpretacin:
Dependiendo de cada caso especfico, el anlisis de covarianza
efectuado mediante un paquete estadstico para computadora produce
una tabla de resultados muy parecida a la del anlisis de varianza. Los
elementos ms comunes de la tabla son:

Interpretacin:
Dependiendo de cada caso especfico, el anlisis de covarianza efectuado
mediante un paquete estadstico para computadora produce una tabla de
resultados muy parecida a la del anlisis de varianza. Los elementos ms
comunes de la tabla son:

La razn F es, al igual que en el anlisis de varianza, una razn de


varianzas. El razonamiento estadstico es el mismo y F se interpreta
igual, incluso se utiliza la misma tabla de la distribucin F.
Solamente que las inferencias y conclusiones se hacen tomando en
cuenta que las medias de la variable dependiente a travs de las
categoras de la(s) variable (s) independiente(s) han sido ajustadas,
removiendo el efecto de la covariable

EJEMPLO
Hi:
Los trabajadores que reciban retroalimentacin verbal sobre el
desempeo de parte de su supervisor, mantendrn un nivel mayor de
productividad que los trabajadores que reciban retroalimentacin sobre
el desempeo por escrito y que los trabajadores que no reciban ningn
tipo de retroalimentacin.

El investigador plantea un diseo experimental para intentar probar su


hiptesis.
Sin embargo, no puede asignar aleatoriamente a los trabajadores a los tres
grupos del experimento. El diseo sera con grupos intactos
(cuasiexperimental) y se podra esquematizar:

Asimismo, el investigador sabe que hay un factor que puede


contaminar los resultados (actuar como fuente de invalidacin interna):
la motivacin.

El esquema es:

Cabe destacar que, para poder introducir a una covariable en el


anlisis, sta debe ser medida preferiblemente antes del
inicio del experimento.

Lo que el anlisis de covarianza hace es quitar a la


variabilidad de la dependiente lo que se debe a la covariable.

Ajusta la varianza de la variable dependiente en las


categoras de la independiente, basndose en la covariable.

En el ejemplo, ajusta la varianza de la productividad debida a la motivacin,


en las categoras experimentales (tratamientos o grupos).
El ajuste se realiza sobre la base de la correlacin entre la covariable y la
dependiente. Esto se muestra esquemticamente en la siguiente tabla.

Una vez realizado el anlisis de covarianza, se evala si F es o no


significativa. Cuando F resulta significativa se acepta la hiptesis de
investigacin.

Si el resultado fuera:
G1 = 35
G2 = 36
G3 = 38
Gl entre = K1 = 3
1 = 2
Gl intra = NK =
109
F = 1.70

Comparamos con el valor de la tabla que al .05 es igual a


3.07: nuestra razn F 1.70 es menor a este valor.
Por lo tanto, rechazamos la hiptesis de investigacin y
aceptamos la hiptesis nula.
Esto se contrasta con las medias ajustadas de los grupos
que proporcione el anlisis de covarianza (no las medias
obtenidas en el experimento por cada grupo, sino las
ajustadas en base a la covariable).

El Anlisis Multivariado

Los mtodos de anlisis multivariado son aquellos en donde


se analiza la relacin entre varias variables independientes
y al menos una dependiente.
Son mtodos ms complejos que requieren del uso de
computadoras para efectuar los clculos necesarios. A
continuacin se mencionan algunos de los principales
mtodos de anlisis multivariado.

La Regresin Mltiple
Es un mtodo para analizar el efecto de dos o ms variables
independientes sobre una dependiente.
Es decir, la regresin mltiple sirve para predecir el valor de una variable
dependiente conociendo el valor y la influencia de las variables
independientes incluidas en el anlisis.

Por ejemplo, si queremos conocer la influencia que ejercen las variables


satisfaccin sobre los ingresos percibidos, antigedad en la empresa,
motivacin intrnseca en el trabajo y percepcin del crecimiento y
desarrollo personal en el trabajo sobre la variable duracin en la
empresa, el modelo de regresin mltiple es el adecuado para aplicar a
los datos obtenidos. Este mtodo es til para analizar esquemas del
siguiente tipo:

La informacin bsica que proporciona la regresin mltiple es el


coeficiente de correlacin mltiple (R), que seala la correlacin entre la
variable dependiente y todas las dems variables independientes
tomadas en conjunto.
El coeficiente puede variar de 0 a 1.00 y entre mayor sea su valor significa
que las variables independientes explican en mayor medida la variacin de
la variable dependiente o que son factores ms efectivos para predecir el
comportamiento de esta ltima. R2 (el coeficiente de correlacin mltiple
elevado al cuadrado) nos indica el porcentaje de variacin en la
dependiente debida a las independientes.

Otra informacin relevante producida por el anlisis de regresin mltiple


son los valores beta (B) que indican el peso o influencia que tiene cada
variable independiente sobre la dependiente.
Tambin se proporcionan coeficientes de correlacin bivariados entre la
dependiente y cada independiente.

Para poder predecir la variable dependiente se aplica la ecuacin de


regresin mltiple:
y = a + b1x1 + b2x2 + b3x3 + ...bkxk

Donde a es una constante de regresin para el conjunto de


puntuaciones obtenidas, b1, b2, b3 ... bk son los valores o pesos de
beta y X1, X2, X3 y Xk son valores de las variables
independientes que fija el investigador para hacer la prediccin.
La variable dependiente debe estar medida en un nivel por intervalos o
de razn.

El Anlisis de Factores

Es un mtodo estadstico multivariado para determinar el nmero y


naturaleza de un grupo de constructos que estn subyacentes en un
conjunto de mediciones.
Un constructo es un atributo para explicar un fenmeno. En este anlisis
se generan variables artificiales (denominadas factores) que representan
constructos.
Los factores son obtenidos de las variables originales y deben ser
interpretados de acuerdo a stas. Es una tcnica para explicar un
fenmeno complejo en funcin de unas cuantas variables.

Paniagua (1988). En un estudio pretenda analizar los factores


que determinan la relacin entre los vendedores y los
compradores industriales de la Ciudad de Mxico.
Se midieron diversas variables entre las que destacan:
coordinacin (Coord.),
conflicto (Confl.),
frecuencia de la relacin comprador-vendedor (frec.),
reciprocidad econmica en la relacin (RF2),
reciprocidad en el manejo de consideraciones
administrativas (RF1)
Importancia de la relacin (monto de las operaciones)
(Impor.).
Los resultados se muestran en la tabla siguiente:

F I = Coordinacin
F II = Conflicto
F III = Frecuencia

F IV = Reciprocidad 2 (RF2)
F V = Reciprocidad 1 (RF1)
F VI = Importancia

(explica el 37.7% de la varianza)


(explica el 17.8% de la varianza)
(explica el 17.4% de la varianza)

(explica el 10.9% de la varianza)


(explica el 8.7% de la varianza)
(explica el 7.5% de la varianza)

Obsrvese que debajo de las columnas FI a FVI aparecen unos


coeficientes que corresponden a los items de una escala.

Si estos coeficientes son medios o elevados se dice que los items


cargan o forman parte del factor correspondiente.

Por ejemplo,
Los items 23,24,25 y 26 cargan en el primer factor (obtienen valores
de .843 92, .71642, .67853 y .74737, respectivamente) y no cargan
en otros factores (tienen valores bajos).
As, descubrimos una estructura de seis factores en 19 items. Los
factores reciben un nombre para saber qu constructos se
encuentran subyacentes.
El anlisis de factores tambin proporciona la varianza explicada y
puede explicarse grficamente en las coordenadas X y Y. La tcnica
es compleja y debe conocerse muy bien. Es sumamente til para la
validez de constructo. Las variables deben de estar medidas en un
nivel por intervalos o razn.

TEMA 6: El anlisis paramtrico


Preguntas de Estudio.
Para qu nos sirven las pruebas parmetricas?
Cules son los supuestos que se deben cumplir para utilizar una prueba
paramtrica?
Para qu se utiliza la t de student?
Cul es la regla de decisin para Pearson?
Cundo se aplica una regresin lineal?
Cules son las ventajas de la covarianza?
Qu tipos de estudios son propios para el anlisis por regresin
mltiple?
Cundo se aplica un Anova (Oneway) y cuando uno de factores?

TEMA 7.
EL ANALISIS
PARAMETRICO

Los Supuestos de la Estadstica No Paramtrica


Para realizar anlisis no paramtricos debe partirse de las
siguientes consideraciones:

1. La mayora de estos anlisis no requieren de presupuestos


acerca de la forma de la distribucin poblacional. Aceptan
distribuciones no normales.
2. Las variables no necesariamente deben de estar medidas en un
nivel por intervalos o de razn, pueden analizarse datos
nominales u ordinales. De hecho, si se quieren aplicar anlisis
no paramtricos a datos por intervalos o razn, stos deben de
ser resumidos a categoras discretas (a unas cuantas). Las
variables deben ser categricas.

Las pruebas no paramtricas ms utilizadas son:

1. La Ji cuadrada o 2
2. Los coeficientes de correlacin e independencia para
tabulaciones cruzadas.
3. Los coeficientes de correlacin por rangos ordenados
de Spearman y Kendall.

La Ji cuadrada o Chi cuadrada


Es una prueba estadstica para evaluar hiptesis acerca de la relacin
entre dos variables categricas.
Se simboliza: X2.
Hiptesis a probar:
Correlacionales.

Variables involucradas:
Dos. La prueba Ji-cuadrada no considera relaciones causales.

Nivel de medicin de las variables:


Nominal u ordinal (o intervalos o razn reducidas a ordinales).

Procedimiento:
La Ji-cuadrada se calcula a travs de una tabla de contingencia o
tabulacin cruzada, que es una tabla de dos dimensiones y cada
dimensin contiene una variable. A su vez, cada variable se subdivide en
dos o ms categoras.
Un ejemplo de una tabla de contingencia se presenta en la figura 7.1

La figura 7.1 demuestra el concepto de tabla de contingencia o


tabulacin cruzada. Las variables aparecen sealadas a los lados de
la tabla, cada una con sus dos categoras.
Se dice que se trata de una tabla 2 x 2, donde cada dgito significa una
variable y el valor de ste indica el nmero de categoras de la
variable.

En la tabla de contingencia se anotan las frecuencias observadas en la


muestra de la investigacin, tal y como ocurre en la siguiente tabla:

Ejemplo de tabla de
contingencia 2 X 3
Zona del Distrito Federal

Identificaci
n Poltica

Partido
Derechista
Partido del
Centro.
Partido
Izquierdista.
Total

Nor
Tot
te Sur al
180 100 280
190 280 470
170 120 290
104
540 500 0

Posteriormente, se calculan las frecuencias esperadas para cada celda.


En esencia, la Ji cuadrada es una comparacin entre la tabla de
frecuencias observadas y la denominada tabla de frecuencias
esperadas, la cual constituye la tabla que esperaramos encontrar si las
variables fueran estadsticamente independientes o no estuvieran
relacionadas.
La Ji cuadrada es una prueba que parte del supuesto de no relacin
entre variables y el investigador evala si en su caso esto es
cierto o no, analizando si sus frecuencias observadas son diferentes
de lo que pudiera esperarse en caso de ausencia de correlacin.

La lgica es as: Si no hay relacin entre las variables, debe de tenerse


una tabla as (la de las frecuencias esperadas). Si hay relacin, la tabla
que obtengamos como resultado en nuestra investigacin debe ser muy
diferente respecto a la tabla de frecuencias esperadas.

La frecuencia esperada de cada celda, casilla o recuadro, se calcula


mediante la siguiente frmula aplicada a la tabla de frecuencias
observadas.

(Totalom arg inaldereng ln)(Totalom arg inaldecolumna)


fe
N

fe

(Totalom arg inaldereng ln)(Totalom arg inaldecolumna)


N

Veamos de dnde salieron los nmeros:

Para el ejemplo de la tabla donde se muestra el ejemplo de una tabla de


contingencia 2X3, la tabla de frecuencias esperadas sera la de la
siguiente tabla (Tabla de frecuencias esperadas para el ejemplo 2X3)

Tabla de frecuencias
esperadas para el ejemplo
2X3
145.5
244
150.6
540

134.6
226
139.4
500

280
470
290
1040

Una vez obtenidas las frecuencias esperadas, se aplica la


siguiente frmula de Ji cuadrada:

(0 E )

E
2

Donde:
implica sumatoria.
0 es la frecuencia observada en cada celda.
E es la frecuencia esperada en cada celda.

Es decir, se calcula para cada celda la diferencia entre la frecuencia


observada y la esperada,
Esta diferencia se eleva al cuadrado y se divide entre la frecuencia
esperada.

Finalmente se suman estos resultados y la sumatoria es el valor de x2


obtenida.

Otra manera de calcular x2 es mediante la siguiente tabla:

Gl = (3-1)(2-1) = 2

El valor de x2 para los valores observados es de 47.33.


Interpretacin:
Al igual que t y F, la Ji cuadrada proviene de una distribucin muestral,
denominada distribucin X2 y los resultados obtenidos en la muestra estn
identificados por los grados de libertad. Esto es, para saber si un valor de
X2 es o no significativo, debemos calcular los grados de libertad. stos se
obtienen mediante la siguiente frmula:
Gl = (r-1)(c-1)

En donde r es el nmero de renglones de la tabla de contingencia y


c el nmero de columnas. En nuestro caso:

Gl = (3-1)(2-1) = 2

Y acudimos con los grados de libertad que nos corresponden a la tabla


Distribucin de Ji-cuadrada, eligiendo nuestro nivel de confianza (.05 o
.0 1).

Si nuestro valor calculado de X2 es igual o superior al de la tabla,


decimos que las variables estn relacionadas (X2 fue significativa).

X2 obs X2 critica
47.33 5.5991
En el ejemplo, el valor que requerimos empatar o superar al nivel del .
05 es 5.991. El valor de X2 calculado por nosotros es de 47.33, que es
muy superior al de la tabla, X2 resulta significativa.

EJEMPLO
Hi:
Los tres canales de televisin a nivel nacional difieren en la cantidad de
programas prosociales, neutrales y antisociales que difunden. Hay
relacin entre la variable canal de televisin nacional y la variable
emisin de programas prosociales, neutrales y antisociales.

Resultados:
X2 = 7.95
Gl = 4

Para que y sea significativa al .01, con cuatro grados de libertad, se


necesita un valor mnimo de 13.277 y para que sea significativa al .05, se
necesita un valor mnimo de 9.488. Por lo tanto, se rechaza la hiptesis de
investigacin y se acepta la nula. No hay relacin entre las variables.

Comentario:
Cuando al calcular 2 se utiliza un paquete estadstico para computadora, el
resultado de 2 se proporciona junto con su significancia, si sta es menor
al .05 o al .01, se acepta la hiptesis de investigacin.

Coeficientes de Correlacin e Independencia para


Tabulaciones Cruzadas

Adems de la X2 existen otros coeficientes para evaluar si las


variables incluidas en la tabla de contingencia o tabulacin cruzada
estn correlacionadas. A continuacin, se mencionan algunos de
estos coeficientes. No en todas se utilizan frecuencias.

Coeficiente
:
Phi ()

Para tablas de
Contingencia:
2x2

Coeficiente cualquier de
de
tamao
contingencia
o C de
pearson

Nivel de
medicin de
las variables
(ambas):

Interpretacin:

nominal

Varia de 0 a +1 , donde cero


implica ausencia de correlacin entre las
variables y ms uno significa que las
variables estn correlacionadas de manera
perfecta.

nominal

Su valor mnimo es 0 (ausencia de


correlacin), pero su valor mximo depende
del tamao de la tabla de contingencia. Con
tablas 2x2 vara de 0 a .707.
Si se trata de tablas 3 x 3 varia de 0 a 0.816.

V de Cramer Mayores de 2x2


(V)

nominal

Es un ajuste a Phi en tablas mayores a 2x2.


Vara de 0 a +1 con variables nominales
(cero es nula correlacin y ms uno
representa una correlacin perfecta).

Lambda (b) Cualquier tamao

nominal

Se utiliza con variables nominales y varia de


0 a +1 (+1 significa que puede predecirse sin
error a la variable dependiente definida en la
tabla, sobre la base de la independiente.

Gamma (r)

ordinal

Varia de -1 a +1 (-1 es una relacin negativa


perfecta y +1 una relacin positiva perfecta).

Cualquier tamao

Coeficientes de correlacin por rangos ordenados de


Spearman y Kendall
Los coeficientes rho de Spearman, simbolizado como rs, y tau de
Kendall, simbolizado como t.
Son medidas de correlacin para variables en un nivel de medicin
ordinal, de tal modo que los individuos u objetos de la muestra pueden
ordenarse por rangos (jerarquas).

Por ejemplo, supongamos que tenemos las variables preferencia en el


sabor y atractivo del envase, y pedimos a personas representativas
del mercado que evalen conjuntamente a 10 refrescos embotellados y
los ordenen del 1 al 10 (donde 1 es la categora o rango mximo en
ambas variables). Y tuviramos los siguientes resultados:

Para analizar los resultados, utilizaramos los coeficientes rs y t.


Ahora bien, debe observarse que todos los sujetos u objetos deben
jerarquizarse por rangos que contienen las propiedades de una
escala ordinal (se ordenan de mayor a menor).

Ambos coeficientes varan de -1.0 (correlacin negativa perfecta) a


+1.0 (correlacin positiva perfecta).

Coeficiente de Correlacin de Rango de Spearman


El coeficiente de correlacin de rangos de Spearman constituye una versin
no paramtrica del coeficiente de correlacin lineal. En este coeficiente se
utilizan solo rangos o jerarquizaciones, si los datos son cuantitativos es
preciso jerarquizar cada una de las variables por separado.
Este coeficiente se calcula mediante la frmula:
n

rs 1

6 ( d i ) 2
i

n(n 2 1)
Donde:
di = es la diferencia en los
rangos
n= es el nmero de pares de
datos.

rs 1

6 ( d i ) 2
i

n(n 2 1)

El valor de rs vara entre -1 y +1 y se utiliza de manera muy parecida a la


que estudiamos antes para el coeficiente de correlacin lineal.
Probaremos como hiptesis nula:
No existe corelacin entre los dos rangos.
La hiptesis alterna puede ser de dos colas, existe corelacin, o de una
sola, cuando se espera que haya correlacin.
La regin crtica se situar en el lado correspondiente a la posibilidad
especfica que se espera; por ejemplo, si se sospecha una correlacin
negativa, la regin crtica estar del lado izquierdo.

Consideremos una situacin hipottica en la cual cuatro jueces califican a


cinco participantes en un concurso. Llamaremos A, B, C Y D a los jueces, y
a, b, c, d y e a los concursantes. En la tabla se enumeran los rangos
conferidos. Cuando comparamos los rangos de los jueces A y B, vemos que
han calificado a los concursantes en rdenes exactamente inversos, lo cual
constituye un desacuerdo perfecto.

A partir de nuestro trabajo anterior con el concepto de correlacin,


podemos esperar que el valor calculado de rs, sea de -1, exactamente.

Al comparar los jueces A y C, vemos que han clasificado de manera


idntica a los concursantes. Esperamos encontrar aqu un coeficiente
calculado de correlacin de +1.

Los coeficientes de correlacin de rango de Spearman y Kendal son


estadsticos sumamente eficientes para datos ordinales. La diferencia
entre ellos la podemos entender de la siguiente manera: El coeficiente de
Kendall resulta un poco ms significativo cuando los datos contienen un
nmero considerable de rangos empatados.

El coeficiente de Spearman, parece ser una aproximacin cercana al


coeficiente r de Pearson, cuando los datos son continuos (v.g., no
caracterizados por un nmero considerable de empates en cada rango).

TEMA 7: El Anlisis no Paramtrico.


Preguntas de estudio:

Cules son los supuestos del anlisis no paramtrico?


Cules son las pruebas ms utilizadas para el anlisis no
paramtrico?
Qu es la Chi cuadrada?
Qu nivel de medicin deben de tener las variables para poder
utilizar la chi cuadrada?
En la tabla de contingencia Cul es la principal comparacin que
hace la chi cuadrada?
Cmo se calculan los grados de libertad de la chi cuadrada?
Cul es la regla de decisin de la chi cuadrada?

Qu otros coeficientes de correlacin para tabulaciones


cruzadas existen?