Está en la página 1de 22

Resumen Estadstica

Estadstica Descriptiva.
Botella
Captulo 1: Conceptos Generales.
La estadstica actual no slo es un conjunto de tcnicas para resumir y transmitir informacin
cuantitativa, sino que sirve tambin, y fundamentalmente para hacer inferencias, generalizaciones y
extrapolaciones de un conjunto relativamente pequeo de datos a un conjunto mayor. Clsicamente
la estadstica se ha dividido en dos partes, la estadstica descriptiva y la estadstica inferencial.
Para hacer un estudio inferencial primero hay que hacer un estudio descriptivo de los datos. Es decir,
un estudio descriptivo se agota en la descripcin, mientras que uno inferencial comienza por la
descripcin y luego aborda la inferencia. Mientras que la estadstica descriptiva puede abordarse sin
conocimientos tcnicos previos, aparte del lgebra elemental, para el estudio de la estadstica
inferencial es imprescindible adquirir nociones bsicas de probabilidad.

Estadstica es la ciencia que se ocupa de la ordenacin y anlisis de


datos procedentes de muestras, y de la realizacin de inferencias
acerca de las poblaciones de las que stas proceden.
Otro conjunto de tcnicas ms sofisticadas y desconocidas de la estadstica, y que se utilizan para
extraer conclusiones de poblaciones a partir de la observacin de unos pocos casos, son las que
integran la estadstica inferencial.
Distincin entre estadstica terica y estadstica aplicada: la primera se dedica
al estudio de los mtodos formalmente vlidos para la realizacin de inferencias. La
segunda se dedica a la aplicacin de esos mtodos y modelos de actuacin a campos
reales.
Cualquier trabajo en el que se aplica la estadstica se refiere a un conjunto de entidades, conocido
con el nombre de poblacin.

Se llama poblacin estadstica al conjunto de todos los elementos que


cumplen una o varias caractersticas o propiedades.
A los elementos que componen una poblacin se les denomina entidades estadsticas o
individuos. Dependiendo del nmero de elementos que la compongan, la poblacin puede ser
finita o infinita. La mayor parte de las poblaciones con las que solemos trabajar son finitas, pero
tan numerosas que a la hora de hacer inferencias acerca de ellas se pueden considerar infinitas a
efectos prcticos. Cuando un investigador aborda un trabajo emprico debe definir claramente la
poblacin sobre la cual se interesa. La poblacin ha de ser el marco o conjunto de referencia sobre el
cual van a recaer las conclusiones e interpretaciones, y stas no pueden exceder ese marco. El
hecho de que las poblaciones sean, por lo general, muy numerosas, suele hacer inaccesible la
descripcin de sus propiedades. De ah que se trabaje fundamentalmente con muestras.

Una muestra es un subconjunto de los elementos de una poblacin.

La muestra nos va a ofrecer una serie de datos que podemos ordenar, simplificar y describir. Pero el
objetivo fundamental es el poder describir la poblacin de partida mediante lo que podamos
encontrar en la muestra. Y para poder extraer esas conclusiones lo ms importante es que las
muestras de observaciones sean representativas. Existe todo un campo de la estadstica, llamado
muestreo, dedicado a estudiar los procedimientos de extraccin de muestras encaminados a
maximizar la representatividad de las mismas. Por ello un primer objetivo de la estadstica
descriptiva consiste en conseguir resmenes de los datos en ndices compactos y de gran calidad
informativa.
Las poblaciones pueden caracterizarse a partir de unas constantes denominadas parmetros.
Como normalmente los parmetros son desconocidos, una de las tareas de la estadstica es la de
hacer conjeturas lo ms acertada posibles acerca de esas cantidades. Para ello se utilizan cantidades
anlogas obtenidas en las muestras, que se denominan estadsticos.

Un parmetro es una propiedad descriptiva de una poblacin


Un estadstico es una propiedad descriptiva de una muestra.
Los parmetros y estadsticos no slo son medias, sino que pueden ser otros tipos de cantidades,
como porcentajes. Desde un punto de vista simblico, conviene indicar, para distinguirlos, que los
parmetros se suelen representar por letras griegas mientras que los estadsticos se suelen
simbolizar por letras latinas. En la primera fase de una investigacin se obtienen los estadsticos, y
en la segunda se utilizan los valores obtenidos para hacer inferencias acerca de los parmetros.
Cuando estudiamos las entidades que conforman una poblacin nos interesamos por algunas de las
propiedades de sus elementos, y esas propiedades adoptan distintas variedades.

Una caracterstica es una propiedad o cualidad de un individuo.

Una modalidad es cada una de las maneras como se presenta una


caracterstica.
MEDICIN.
La estadstica no realiza sus funciones directamente sobre las modalidades observadas, sino que
stas se representan por nmeros, y la estadstica realiza sus funciones sobre esos nmeros.

Se llama medicin al proceso de atribuir nmeros a las caractersticas.

La asignacin de nmeros a las caractersticas se hace siguiendo unas reglas; del estudio de los
modelos mediante los cuales conocemos las reglas para una correcta atribucin de los nmeros se
ocupa la Teora de la Medida. El objetivo de la medicin de una caracterstica es conectar un sistema
relacional emprico y un sistema relacional numrico, de tal forma que las relaciones entre las
entidades se reflejen en las relaciones entre los nmeros que los simbolizan. Slo si se consigue este
objetivo ocurrir que de las relaciones entre los nmeros podrn hacerse inferencias vlidas acerca
de las relaciones entre las entidades. La medicin estudia las condiciones de construccin de
representaciones numricas, y los modelos desarrollados para la medicin se llaman escalas.
Se utiliza una clase por cada una de las modalidades que adopta la caracterstica que se est
estudiando. Las clases son mutuamente exclusivas y exhaustivas, es decir, cada observacin es
incluida en una y slo una clase. Se tiene un conjunto de objetos cuya caracterstica nos interesa
para su estudio. sta adopta un nmero k de modalidades distintas; representamos por m a la
modalidad del objeto. Asignamos nmeros a los objetos en funcin de la modalidad que presentan
en esa caracterstica; representamos por n al nmero asignado al objeto. Al tipo de medicin que
cumple con estas condiciones se la llama escalamiento cualitativo o nominal, y al conjunto de
clases que las integran se le llama escala nominal. Podran tambin utilizarse otros smbolos, como
letras, palabras, etc, puesto que los nmeros asignados no se van a utilizar como tales, sino como
simples cdigos de identificacin.
Supongamos que contamos de nuevo con un conjunto de objetos que difieren en una caracterstica
que cada uno posee en una cierta cantidad. De nuevo el proceso de medicin debe consistir en la
aplicacin de una regla de asignacin de nmeros a las diferentes cantidades, pero ahora de tal
forma que los nmeros asignados a los objetos reflejen esos distintos grados en los que se presenta
la caracterstica. A aquellas escalas de medida que cumplen estas caractersticas se les llama
escalas ordinales.
Para poder extraer conclusiones ms precisas, como la de en cunto ms presenta la caracterstica
un objeto sobre otro, hay que contar con una unidad de medida, y para ello hay que pasar al
siguiente tipo de escala, escala de intervalo. Esta unidad de medida y su origen son arbitrarios. La
principal limitacin de este tipo de escalas es que, aunque cuenta con una unidad de medida, no
tiene un cero absoluto. Es decir, el nmero cero no representa realmente la ausencia de esa
caracterstica.
En la siguiente escala, escala de razn, cumple la funcin de preservar el significado del valor cero,
de forma que siempre represente la ausencia de esa caracterstica. La consecuencia fundamental de
la presencia de un origen absoluto, y no arbitrario, es que a dems de poder extraer conclusiones
acerca de la igualdad o desigualdad de diferencias, tambin puede hablarse de desigualdad o
igualdad de razones.
Un concepto ligado al concepto de escala, y que las caracteriza, es el de transformacin
admisible, que hace referencia al problema de la unicidad de la medida. La cuestin de la unicidad
puede plantearse de la siguiente manera: es la representacin numrica que hemos construido la
nica posible? En general la respuesta ser negativa. Sern muchas las representaciones
alternativas que seran correctas. De un conjunto de valores correctamente atribuidos se puede
pasar a otro tambin correctamente atribuido mediante una transformacin admisible. Se dice que
una transformacin de los nmeros asignados en una escala es una transformacin admisible si
preserva las caractersticas que definen a esa escala, es decir, si los nmeros transformados tambin
representan al sistema emprico.
Tipo
Nominal
Ordinal
Intervalo
Razn

Informacin
deducible
Relaciones igual
que o distinto que
Relaciones mayor
que o igual que
Igualdad o
desigualdad de
diferencias
Igualdad o

Trans. Admisible

Ejemplos

Aplicaciones
inyectivas
Funciones crecientes

Sexo, estado civil,


diagnstico clnico
Dureza, nivel
socioeconmico,
grado de asertividad
Temperatura,
calendario,
inteligencia
Longitud, peso

A + b x (b > 0)
B x (b > 0)

desigualdad de
razones

VARIABLES.
En el proceso de medicin se asignan nmeros a los objetos segn unas reglas, y el conjunto de
valores numricos atribuidos a las modalidades de una caracterstica constituyen lo que llamamos
variable estadstica.

Una variable es una representacin numrica de una caracterstica.


Hay veces que una caracterstica tiene una nica modalidad, en ese caso todas las entidades
estudiadas adoptaran el mismo valor numrico, y decimos que se trata de una constante.
Las variables pueden clasificarse de varias formas. Las variables cuantitativas (sean de intervalo
o razn) pueden a su vez clasificarse en variables discretas y variables continuas, en funcin
del nmero de valores asumibles por ellas. Una variable discreta es aquella que adopta valores
aislados. Por tanto, fijados dos consecutivos, no puede tomar ninguno intermedio. En las variables
continuas entre dos valores cualesquiera, por prximos que sean, siempre pueden encontrarse
valores intermedios. Las variables estadsticas se simbolizan por letras maysculas latinas, y
generalmente con un subndice, para distinguirlas de las constantes.

Captulo 2
Luego de obtener un conjunto de valores tomados en una o varias variables hay que empezar por
inspeccionar los datos. Cuando la cantidad de nmeros recolectados es demasiado grande, se hace
difcil hacer una inspeccin directa que sea realmente comprensiva. Por eso el primer paso suele
consistir en reorganizar los datos. Un instrumento para conseguir esa ordenacin es la denominada
distribucin de frecuencias, y a partir de ella es frecuente tambin construir representaciones
grficas.
DISTRIBUCIN DE FRECUENCIAS.
La distribucin de frecuencias es un instrumento diseado para cumplir tres funciones: a)
proporcionar una reorganizacin y ordenacin racional de los datos recogidos, b) ofrecer la
informacin necesaria para hacer representaciones grficas y c) facilitar los clculos necesarios para
obtener los estadsticos muestrales. Representaremos por X a la variable con la que trabajamos, y
que puede adoptar distintos valores (X1, X2, X3) pero cada uno de esos valores puede aparecer
repetido ms de una vez en los n elementos que componen la muestra.

Se llama frecuencia absoluta de un valor Xp (? Y se simboliza por np al


nmero de veces que se repite el valor Xi en la muestra.
Se llama frecuencia relativa de un valor xp y se simboliza por pp al
cociente entre la frecuencia absoluta de ese valor y el tamao de la
muestra.
Se llama frecuencia absoluta acumulada de un valor xp y se simboliza
por px al cociente entre su frecuencia absoluta acumulada y el tamao
de la muestra.
A veces las frecuencias relativas, ya sean simples o acumuladas, se expresan en trminos
porcentuales. En esos casos suelen representarse con maysculas; par obtenerlas basta con
multiplicar por 100 las frecuencias relativas. Construimos la distribucin de frecuencias siguiendo los
pasos descritos:
a) Se ponen los valores que toma la variable en la primera columna de abajo hacia arriba.
b) Para la columna de f. absolutas contamos el nmero de veces que se repite cada valor.
La suma de ellos es igual al tamao de la muestra.
c) Para la columna de f. relativas dividimos cada f. absoluta por n. Las suma de ellas debe
dar 1.
d) Para obtener las f. absolutas acumuladas sumamos para cada valor su f. absoluta ms
la absoluta acumulada del valor anterior. Su suma debe dar tambin n.
e) Para las f. relativas acumuladas dividimos cada f. absoluta acumulada por n. La
frecuencia relativa de valor mayor debe ser igual a 1.
En muestras en donde se tienen muchsimos valores que toma la variable, suele aplicarse lo que se
denomina una agrupacin en intervalos, y que consiste en formar grupos de valores
consecutivos, llamados intervalos, y poner uno de estos grupos en cada fila, en lugar de poner cada
valor individual por separado. A continuacin se calculan las f. absolutas conjuntas de los valores
incluidos en el intervalo haciendo lo mismo despus con las f. relativas, las absolutas acumuladas y
las relativas acumuladas. En las distribuciones de frecuencias con valores agrupados en intervalos
aparecen algunos elementos nuevos:

Se llama intervalo a cada uno de los grupos de valores que ocupan una
fila en una distribucin de frecuencias.
Se llaman lmites aparentes o informados de un intervalo a los valores
mayor y menor que puede adoptar la variable dentro de ese intervalo.
Se llaman lmites exactos de un intervalo a los valores mximo y
mnimo incluidos en el intervalo.
Se llama punto medio de un intervalo a la suma de sus lmites exactos
partido por dos.
Se llama amplitud de un intervalo a la diferencia entre su lmite exacto
superior y su lmite exacto inferior. Se representa por la letra I.
Hay tres reglas y algunas directrices para hacer una distribucin: a) el intervalo superior debe
incluir al mayor valor observado, b) el intervalo inferior debe incluir al menor valor observado, c)
cada intervalo debe incluir el mismo nmero de valores. Pero al ser muchas las agrupaciones
diferentes que se pueden realizar, para decidir entre ellas hay que tener presentes algunas
directrices basadas en dos guas principales: a) dado que el objetivo de una distribucin es conseguir
una ordenacin manejable que ayude a comprender el significado de los datos, no es conveniente
que el nmero de intervalos sea demasiado grande, b) el nmero apropiado de intervalos debe ser
tal que, simultneamente, con ella se consiga una agrupacin operativa y que cumpla los objetivos
para los que ha sido diseada la distribucin, pero sin distorsionar los valores con el error de
agrupamiento.
2.2.1 Supuestos de distribucin intraintervalo 2.3.2 convenciones sobre las
representaciones grficas, 2.3.3 tendenciosidad de las representaciones
grficas.
REPRESENTACIONES GRFICAS.
A partir de las distribuciones de frecuencias se pueden construir representaciones grficas. La
funcin de stas es dar informaciones globales mediante un solo golpe de vista.
a) Diagrama de rectngulos: para hacer un diagrama de rectngulos se colocan en el
eje de abscisas las modalidades (o los nmeros que las representan), y en el eje de
ordenadas las frecuencias (puede ser absolutas o relativas simples o acumuladas).
Sobre cada modalidad se levanta un rectngulo cuya altura es la frecuencia
correspondiente. Para variables nominales u ordinales.
b) Perfil octogonal: se utiliza mucho en informes psicopedaggicos o de rendimiento.
c) Pictograma: son representaciones en forma de crculos en los que stos son divididos
en secciones cuya superficie es proporcional a la frecuencia de la modalidad
correspondiente.
d) Diagrama de barras: se utiliza en variables cuantitativas discretas. En el eje de
abscisas se colocan los distintos valores de la variable y en el eje de ordenadas las
frecuencias. Sobre cada valor de la variable se traza una lnea o barra perpendicular
cuya altura debe ser igual a la frecuencia.
e) Histograma: se utiliza para variables cuantitativas continuas con datos agrupados en
intervalos. En el eje de abscisas se colocan los lmites exactos de los intervalos, y en el
eje de ordenadas las frecuencias. Sobre cada intervalo se levanta un rectngulo cuya
altura sea igual a la frecuencia correspondiente.
f) Polgono de frecuencias: para variables discretas, el polgono es la figura que resulta
de unir los extremos superiores de las que hubieran sido las barras.
g) Diagrama de barras acumuladas: se utiliza en variables discretas. En el eje de
abscisas se colocan los valores de la variable y en el de ordenadas las frecuencias
acumuladas, ya sean absolutas o relativas. Sobre cada valor se traza una perpendicular
cuya longitud sea igual a la f. acumulada. Desde el extremo superior de cada una de
estas barras se traza una lnea horizontal que se une con la barra situada a su derecha.
h) Polgono de frecuencias acumuladas: se utiliza en variables continuas. El eje de
abscisas se construye igual que en los histogramas, pero en el de ordenadas se
incluyen las f. acumuladas, ya sean absolutas o relativas. Sobre cada lmite se levanta
una perpendicular cuya longitud sea idntica a la f. acumulada y se une con los
extremos superiores de dichas perpendiculares.
i) Otros dibujos: muchas veces se utilizan otras representaciones figuritas, en las que
se incluyen los objetos de los que se estn haciendo recuentos de frecuencias, a algn
smbolo que los identifique de forma muy expresiva.
PROPIEDADES.

Los conjuntos de datos de variables cuantitativas obtenidos en muestras, tienen algunas


caractersticas. Son cuatro:
a) Tendencia central: se refiere a la magnitud general de las observaciones hechas. Esta
magnitud general puede cuantificarse mediante unos ndices conocidos como ndices
de tendencia central o promedios y que reciben ese nombre porque pretenden ser
sntesis de los valores de la variable.
b) Variabilidad: esta propiedad se refiere al grado de concentracin de las observaciones
en torno al promedio. Una distribucin ser homognea o poco variable si los datos
difieren poco entre si, y por tanto, se agolpan en trono a su promedio. Ser
heterognea o muy variable si los datos se dispersan mucho con respecto al promedio.
Esta propiedad es independiente de la anterior, es decir, dos grupos que tengan
distinta variabilidad pueden tener tendencias centrales muy distintas o similares.
c) Asimetra o sesgo: esta propiedad se refiere, por tanto, al grado en que los datos
tienden a concentrarse en los valores centrales, en los valores inferiores al promedio, o
en los valores superiores a ste. Existe simetra perfecta cuando en caso de doblar la
representacin grfica por una vertical trazada sobre la media, las dos mitades se
superponen perfectamente.
d) Curtosis: se refiere al grado de apuntamiento de la distribucin. Si es muy apuntada,
se llama leptocrtica, y si es muy aplastada, se llama platicrtica. Generalmente el
grado de curtosis de una distribucin se compara con un modelo de distribucin
llamado distribucin normal, y que respecto a la curtosis se llama distribucin
mesocrtica.
DIAGRAMA DE TALLOS Y HOJAS.
Las distribuciones de frecuencias no son el nico medio para resumir y exponer conjuntos de datos;
una alternativa a ellas son los llamados diagramas de tallo y hojas. Su obtencin requiere separar
cada puntuacin en dos partes: el primer o primeros dgitos, que reciben el nombre de tallo y el
dgito o dgitos restantes, que reciben el nombre de hojas. (x=56, 5 (tallo) y 6 (hoja). Pasos:
a) Se identifican los valores mximo y mnimo observados.
b) Se toma una decisin acerca del nmero ms apropiado de tallos distintos.
c) Se listan todos los tallos distintos en una columna, ordenados de forma creciente de
arriba hacia abajo.
d) Se escribe cada hoja, junto al tallo que le corresponda, preferiblemente ordenados
segn su valor.
El diagrama de tallo y hojas tiene varias ventajas sobre la distribucin e inconvenientes: una
primera ventaja es que permite identificar cada puntuacin individual. En las distribuciones
tradicionales slo conocemos las frecuencias del intervalo, y eso nos obliga a tratar los datos de
ciertas maneras distorcionadas; no facilita, como la distribucin clsica, el clculo de estadsticos;
ofrece tanto un listado de las puntuaciones como un dibujo de la distribucin; al contener los valores
de cada observacin es ms fcil de modificar para obtener un dibujo con un nivel de detalle
distinto; pueden representarse dos conjuntos de datos en el mismo diagrama, con lo que facilita la
comparacin.

Captulo 3: Medidas de posicin


Para hacer estas valoraciones relativas se pueden utilizar las llamadas medidas de tendencia
central, que son ndices diseados especialmente para revelar la situacin de una
puntuacin con respecto a un grupo, utilizando a ste como marco de referencia. Un tipo
concreto de medida de posicin son las llamadas medidas de tendencia central.
Centiles o percentiles: son 99 valores de la variable que dividen a la distribucin en
100 secciones, cada una conteniendo a la centsima parte de las observaciones. Se
simboliza por C28 a aquella puntuacin que deja por debajo de si al 28 por 100 de las
observaciones y que es superada por el 72 por 100. Los centiles no suelen calcularse
con cantidades de pequeos datos, y cuando es necesario hacerlo se obtienen
sencillamente ordenando las puntuaciones y calculando la proporcin de stas que
superan al valor que se quiere comparar. Normalmente los centiles se obtienen sobre
datos agrupados en intervalos, y en su clculo se asume el supuesto de distribucin
homognea intraintervalo. Frmula:

Deciles: son nueve puntuaciones que dividen a la distribucin en 10 partes, cada una
conteniendo al 10 por 100 de las observaciones. Se representa por D k, donde k indica el
nmero del decil al que se refiere. As, el decil cuarto, es la puntuacin que deja por
debajo de si al 40 por 100 de las observaciones y por encima de si al 60 por 100.
Cuartiles: son tres puntuaciones que dividen a la distribucin en cuatro partes, cada
una conteniendo al 25 por 100 de las observaciones. Se representan por Q k donde k
indica el nmero del cuartil al que se refiere
Existe una equivalencia directa entre los distintos cuantiles. Gracias a esta equivalencia, las frmulas
de clculo de los cuantiles se resumen en la de los centiles correspondientes al cuantil que se quiera.

Captulo 4: Medidas de tendencia central .


Las medidas de posicin permiten comparar una puntuacin con aquellos valores que
ocupan ciertas posiciones especiales en un grupo de referencia. De todas esas posiciones
hay una, la que representa la posicin central, que suele suscitar un mayor inters que las dems,
las medidas de tendencia central. Son ndices que actan como resmenes numricos de
las observaciones hechas. Representan la magnitud general observada en los valores.
Tambin sirven para comparar conjuntos de valores. Dado que no se pueden comparar
distribuciones completas, lo que se comparan son ciertas caractersticas resumen de stas.
MEDIA ARITMTICA.
El ndice de tendencia central ms utilizado. Se define como la suma de los valores observados,
dividida por el nmero de ellas. Por tanto, si recogemos n observaciones de la variabel X,
entonces la media de los valores observados es: X=
El procedimiento para hacer los clculos de la media con datos agrupados en una distribucin de
frecuencias:
Propiedades de la media aritmtica:
A las puntuaciones que hemos venido tratando hasta aqu, y que no son ms que los valores brutos,
las denominaremos a partir de ahora puntuaciones directas y las representaremos por la letra de la
variable en mayscula. Por el contrario, a las diferencias de cada sujeto con respecto a la media
grupal las denominaremos puntuaciones diferenciales y las representaremos por la letra minscula:
Con las puntuaciones diferenciales podemos dar una informacin ms precisa que con las directas.

1 La suma de las diferencias de n puntuaciones con respecto a su


media o puntuaciones diferenciales es igual a cero.

La razn por la que la suma de las diferenciales es igual a cero es que unas son positivas y otras
negativas (las que superan la media y las que quedan por debajo de ella) y se compensan con otras.

2 La suma de los cuadrados de las desviaciones de unas puntuaciones


con respecto a su media es menor que con respecto a cualquier otro
valor.
A veces nos interesar sumar a las puntuaciones observadas una cantidad constante, y en esos
casos tambin nos interesar conocer la media de las nuevas puntuaciones.

3 Si sumamos una constante a un conjunto de puntuaciones, la media


aritmtica quedar aumentada en esa misma constante.

Pero las puntuaciones no slo pueden transformarse sumando constantes, tambin lo pueden hacer
multiplicando constantes.

4 Si multiplicamos por una constante a un conjunto de puntuaciones,


la media aritmtica quedar multiplicada por esa misma constante.

En algunos casos contamos con la media de varios grupos en una variable y nos interesa conocer la
media de todas las observaciones juntas. Su frmula suele denominarse media ponderada.

5 La media total de un grupo de puntuaciones, cuando se conocen los


tamaos y medias de varios subgrupos hechos a partir de un grupo
total, mutuamente exclusivos y exhaustivos, puede obtenerse
ponderando las medias parciales a partir de los tamaos de los
subgrupos en que han sido calculadas.
Otra situacin relativamente frecuente es aquella en la que se forma una variable a partir de una
combinacin lineal de dos o ms variables, e interesa conocer la media de la variable resultante.

6 Una variable definida como la combinacin lineal de otras variables


tiene como media la misma combinacin lineal de las medias de las
variables intervinientes en su definicin.

MEDIANA.
Es el ndice, la puntuacin que es superada por la mitad de las observaciones pero no por
la otra mitad. Para su clculo podemos encontrarnos en dos casos generales, aquel en el que
contamos con un nmero impar de observaciones y aquel en que nos encontramos con un nmero
par de ellas. En el primero se toma como mediana el valor central, en el segundo se da la
circunstancia de que cualquier valor comprendido entre los dos centrales cumple con la definicin de
la mediana.
MODA.
Una tercer va para representar la tendencia central de un conjunto de valores consiste en informar
del valor ms frecuentemente observado. En esta idea se basa nuestro tercer ndice de tendencia
central, la moda, que se representa por Mo, y se define sencillamente como el valor de la variable
con mayor frecuencia absoluta.
COMPARACIN.
Con qu criterios elegimos uno sobre los dems para representar la magnitud general observada en
unos valores o para comparar la de dos o ms grupos de valores? Si no hay ningn argumento de
peso en contra, se preferir siempre la media. Hay dos razones para apoyar esta normal general.
La primera es que en ella se basan otros estadsticos y la segunda es que es mejor estimador de su
parmetro que la mediana y la moda. Este segundo argumento significa que, en trminos generales,
las medias halladas sobre muestras representativas se parecen ms a la media poblacional que lo
que se parecen las medianas y modas muestrales a la mediana y la moda poblacional. Hay al menos
tres situaciones en las que se preferir la mediana a la media: a) cuando la variable est medida en
una escala ordinal; b) cuando haya valores extremos que distorsionen la interpretacin de la media y
c) cuando haya intervalos abiertos. Este tercer y ltimo caso se refiere a situaciones en las que el
intervalo superior carece de lmite superior, el intervalo inferior carece de lmite inferior, o ambas
cosas a la vez.
La mediana ser la segunda candidata para representar la tendencia central y por tanto, si no hay
argumentos de peso en contra, se preferir la mediana a la moda. Pero hay al menos dos situaciones
en las que se dar esa preferencia: a) cuando se trate de una variable medida en una escala
nominal, b) cuando haya intervalos abiertos y la mediana pertenezca a uno de ellos.
En algunos casos los tres ndices de tendencia central dan valores parecidos, o incluso pueden
coincidir exactamente.

Captulo 5: Medidas de variacin


Para conseguir una visin completa y comprensiva de los datos hay que complementar las medidas
de tendencia central con las de otras propiedades de los mismos. Una de las propiedades ms
importantes de los conjuntos de datos es el grado en que stos se parecen o se diferencian entre si.
Esta propiedad se denomina variabilidad, dispersin u homogeneidad, y es diferente de la
tendencia central.
VARIANZA Y DESVIACIN TPICA.
Una idea que se ha demostrado til a las hora de cuantificar la variabilidad es la de trabajar con las
distancias desde los valores hasta algn poste central, que podra ser la media aritmtica. Sin
embargo tambin vimos en el tema anterior que la suma de las diferenciales es necesariamente
igual a cero. Una solucin al problema de que las distancias con respecto a la media sumen cero
consiste en elevar al cuadrado esas distancias antes de hallar su promedio, dado que los cuadrados
son siempre positivos. El ndice basado en esta idea se llama varianza, y se representa por
la expresin S2x. Cuando se quiere describir el grado de variabilidad de un grupo de
valores basta con obtener este ndice. La cuestin que puede surgir es la de cmo valorar el
grado de dispersin cuantificando mediante este ndice. Dado que valores de varianzas que pueden
ser normales en ciertas variables y poblaciones podran parecer exagerados en otros casos, no tiene
sentido comparar varianzas halladas sobre variables distintas. La varianza sirve sobre todo para
comparar el grado de dispersin de dos o ms conjuntos de valores en una misma variable, llegando

a conclusiones como la siguiente: la poblacin de hombres presenta una mayor variabilidad en su


estatura que la poblacin de mujeres, que son ms homogneas en esa caracterstica. La razn de
esta discrepancia es que las distancias no se han tratado como tales, sino que para evitar el
problema de que las diferenciales sumen cero se han elevado stas al cuadrado. Por ello es
frecuente, con objeto de retomar las unidades originales de esas distancias, se calcule la raz
cuadrada de la cantidad obtenida. Al ndice as hallado se le llama desviacin tpica, se
representa por Sx y se define sencillamente como la raz cuadrada de la varianza. Las
variaciones entre los datos estn reflejando variaciones en las caractersticas que estn estudiando,
y que en psicologa suelen ser indicadores de variables psicolgicas o mediciones del
comportamiento. La variabilidad de los datos reflejando el hecho incuestionable de las diferencias
individuales. Uno de los objetivos de la psicologa es precisamente la explicacin sistemtica de esas
diferencias, en tanto en cuanto presentan regularidades asociadas a segundas o terceras variables.
No siempre son la varianza y la desviacin tpica los ndices ms apropiados para representar la
variabilidad de un grupo de datos. Hay veces en que algn dato extremo distorsionara su
interpretacin, en otras ocaciones la variable est medida en una escala ordinal y en otras no se
puede calcular.
CLCULO.
El clculo de la varianza puede siempre hacerse por medio de la frmula que la define, pero en
muchas ocasiones resulta ms prctico utilizar otras frmulas derivadas de aqulla, y en cualquier
caso es necesario adaptar la frmula a aquellas situaciones en las que los valores estn agrupados
en intervalos.
- La varianza es tambin igual a la media de las puntuaciones directas elevadas al
cuadrado menos el cuadrado de la media. Esta frmula resultar til en ciertos casos.
PROPIEDADES.
En primer lugar, hay que destacar que un conjunto de valores puede mostrar un mayor o menor
grado de homogeneidad, pero el grado ms pequeo posible de homogeneidad se produce cuando
todos los valores son idnticos. En ese caso las desviaciones de los valores con respecto a su media
son todas cero y en consecuencia tambin es igual a cero la media de sus cuadrados, por tanto, se
es el mismo valor que puede adoptar la varianza. Igualmente, como desviacin tpica se toma la raz
positiva de la varianza.

1 La varianza y la desviacin tpica, como medidas de la dispersin,


son valores esencialmente positivos.
A veces interesa transformar las puntuaciones observadas sumando una constante y/o multiplicando
por otra constante, tal y como vimos al exponer las propiedades de la media. En esos casos no har
falta calcular la varianza de las puntuaciones transformadas, sino que podr deducirse conociendo la
varianza de las puntuaciones originales.

2 Si sumamos una constante a un conjunto de puntuaciones, su


varianza no se altera.

Si la transformacin consiste en multiplicar por una constante, la varianza si se ve alterada.


Conociendo la varianza de las puntuaciones originales y la constante multiplicada se puede obtener
fcilmente la varianza de las puntuaciones obtenidas mediante la multiplicacin de la constante.

3 Si multiplicamos por una constante a un conjunto de puntuaciones,


la varianza quedar multiplicada por el cuadrado de la constante, y la
desviacin tpica por el valor absoluto de esa constante.

En ciertas ocasiones conocemos las varianzas de varios subgrupos y se quiere obtener la varianza
del grupo total. Esto se puede conseguir aplicando una propiedad que relaciona la varianza de todas
las puntuaciones juntas con las varianzas, medias, y tamaos de los subgrupos.

4 La varianza total de un grupo de puntuaciones, cuando se conocen


los tamaos, las medias, las varianzas de varios subgrupos hechos a
partir del grupo total, mutuamente exclusivos y exhaustivos, puede
obtenerse sumando la media (ponderada) de las varianzas y la
varianza (ponderada) de las medias.

OTRAS.
Una forma muy sencilla el grado de dispersin consiste en calcular la distancia entre el mayor y el
menor de los valores observados. Este ndice se llama amplitud total, rango o recorrido y se
obtiene sencillamente hallando la diferencia entre los valores extremos. Distincin entre ambos tipos
de amplitud, que se denominan rango excluyente y rango incluyente, usadas en variables discretas y
continuas. Esto es muy sensible a los valores extremos y nada sensibles a los intermedios, pudiendo
carecer de toda representatividad. Otro inconveniente de este ndice es que est ligado al tamao de
la muestra utilizada. Si se quiere comprara la variabilidad de las dispersin de dos conjuntos de
datos de tamao marcadamente distinto, es probable que la muestra de mayor tamao presente
una mayor amplitud aunque las poblaciones de referencia tengan la misma variabilidad.

Desviacin media: tomar las desviaciones con respecto a la media, o puntuaciones


diferenciales, en valores absoluto.
Amplitud semi-intercuartil: basad en las puntuaciones correspondientes a los
cuartiles primero y tercero.
Coeficiente de variacin: a veces se desea comparar la variabilidad de grupos cuya
media es distinta. Este ndice es expresado como un porcentaje. Este ndice puede
construirse como un ndice de la representatividad de la media. Cuanto mayor es el
coeficiente de variacin, menos representativa es la media.

Captulo 6: Puntuaciones tpicas y escalas derivadas.


Comparar las magnitudes mediante la comparacin de los valores asociales a ellas. Otras soluciones,
que se basan en la transformacin de las puntuaciones observadas en otras que, sin perder o
distorsionar la informacin contenida en las puntuaciones originales, permitan una comparacin
directa de las mismas.
PUNTUACIN TPICA.
Las puntuaciones diferenciales son informaciones insuficientes para comparar puntuaciones de
sujetos pertenecientes a distintos grupos o a distintas variables. Las puntuaciones tpicas, se
representa por letra z. Al proceso de obtencin de las puntuaciones tpicas se llama tipificacin.

La puntuacin tpica de una observacin indica el nmero de


desviaciones tpicas que esa observacin se separa de la media del
grupo de observaciones.
Las puntuaciones tpicas permiten, por tanto, hacer comparaciones entre unidades de distintos
grupos, entre variables medidas de distintas formas, o incluso entre variables diferentes. En
cualquier caso, las puntuaciones tpicas siempre nos indicarn el nmero de desviaciones tpicas (de
las de ese grupo y variable) que se separan de la media (de ese grupo y variable) y si esa desviacin
es por encima o po debajo de la media (segn el signo de la puntuacin tpica). Las caractersticas
de las puntuaciones tpicas son universales, no dependen del tipo de puntuaciones ni de su
dispersin, ni de su nmero.

La media de las puntuaciones tpicas es cero, mientras que su


varianza y desviacin tpica son iguales a uno.
Las puntuaciones tpicas reflejan las relaciones esenciales entre las puntuaciones, con independencia
de la unidad de medida que se haya utilizado en la medicin. Cuando en dos conjuntos de
puntuaciones, emparejadas con algn criterio, a los elementos de cada para les corresponde la
misma puntuacin tpica dentro de su conjunto, puede decirse que mantienen la misma estructura
interna, y se dice entonces que son puntuaciones equivalentes.
ESCALAS DERIVADAS.
Inconvenientes que surgen de las desviaciones tpicas. En concreto y dado que la media de las
tpicas es cero y su desviacin tpica uno, buena parte de las puntuaciones suelen ser negativas, y
casi todas decimales. Esto hace que resulte incmodo su tratamiento y que muchas veces se
busquen procedimientos que permitan superar esta dificultad. Un procedimiento consiste en
transformar las puntuaciones tpicas en otras que retengan todas las relaciones que manifiestan las
puntuaciones originales, por tanto que sean puntuaciones equivalentes, pero evitando la dificultad
operativa, y que constituyen lo que se denomina una escala derivada. Estas transformaciones se
basan en una propiedad de las puntuaciones tpicas.

Si
transformamos
linealmente
las
puntaciones
tpicas,
multiplicndolas por una constante a, y sumando una constante b,
entonces las puntuaciones transformadas tendrn como media la
constante sumada b, como desviacin tpica el valor de la constante
multiplicada, |a| y como varianza el cuadrado de esta constante, a2.

En resumen la construccin de una escala derivada parte de unas puntuaciones directas, stas se
tipifican, y despus se transforman linealmente en otras puntuaciones.
La cuestin fundamental de las escalas derivadas consiste en transformar las puntuaciones
originales, Xi, en otras puntuaciones transformadas, Ti, tales que sean ms cmodas de tratar e
interpretar, pero que a la vez retengan las relaciones comerciales entre los valores, es decir, que
sean puntuaciones equivalentes.

Captulo 7: Medidas de asimetra y curtosis.

Hay otras dos caractersticas con las que se pueden describir y comparar las distribuciones de
frecuencias.
NDICES DE ASIMETRA

El grado de asimetra de una distribucin hace referencia al grado en que los datos se
reparten equilibradamente por encima y por debajo de la tendencia central. Se han
propuesto diferentes ndices con los que cuantificar esta propiedad.
relacin entre la media y la moda, y se define como la distancia entre la media y la
moda, medida en desviaciones tpicas, es decir: la media es inferior a la moda, y por
tanto este ndice dar un valor negativo; la media es superior y el ndice dar positivo;
coinciden los dos ndices de tendencia central y por tanto el ndice de asimetra dar
cero. Las distribuciones como las primeras tienen asimetra negativa y el ndice da
valores menores que cero; las del segundo tipo asimetra positiva, y este ndice da
valores mayores que cero. En las ltimas se dice que son distribuciones simtricas,
puesto que no estn inclinadas hacia ningn lado; este ndice da en ellas valores en
torno a cero y si la simetra es perfecta entonces da exactamente cero. Slo se puede
calcular en distribuciones unimodales.
ndice de asimetra de Pearson: es igual al promedio de las puntuaciones tpicas
elevadas al cubo. Los valores menores que cero indican asimetra negativa, los
mayores que cero asimetra positiva y los valores en torno a cero indican distribuciones
aproximadamente simtricas. Es el ndice ms utilizado.
ndice de asimetra intercuartlico: se basa, en los cuartiles. La interpretacin es
similar a la de los ndices anteriores. Los valores mayores de cero indican asimetra
positiva, los menores indican asimetra negativa y los valores en torno a cero reflejan
distribuciones simtricas. Tienen una ventaja sobre los ndices anteriores, y es que
tiene un valor mximo y mnimo con lo que se facilita su interpretacin en trminos
relativos.
NDICES DE CURTOSIS
Se basa en el promedio de las tpicas elevadas a la cuarta potencia.
Una distribucin en la que el ndice sea igual a cero tienen un grado de curtosis similar al de la
distribucin normal, y se dice que es mesocrtica, mientras que si es positivo su grado de
apuntamiento es mayor que el de la distribucin normal, y se dice que es una distribucin
leptocrtica y si es negativo su apuntamiento es menor que el de la distribucin normal y se dice
que es platicrtica.

Captulo 8: Correlacin lineal


Uno de los objetivos principales de la ciencia consiste en descubrir las relaciones entre variables, y la
estadstica ha desarrollado instrumentos apropiados para esta tarea. La observacin de relaciones
claras y estables entre las variables ayuda a comprender los fenmenos y a encontrar explicaciones
de los mismos, e indica las vas probablemente ms eficaces para intervenir sobre las situaciones.
El estudio de las relaciones lineales, es aplicable exclusivamente a las variables de intervalo.

Se dice que dos variables X e Y mantienen una relacin lineal directa


cuando los valores altos en Y tienden a emparejarse con valores altos
en X, los valores intermedios en Y tienden a emparejarse con valores
intermedios en X, y los valores bajos en Y tienden a emparejarse con
valores bajos de X.
Se dice que dos variables X e Y mantienen una relacin lineal inversa
cuando los valores altos en Y tienden a emparejarse con valores bajos
en X, los valores intermedios en Y tienden a emparejarse con valores
intermedios en X, y los valores bajos en Y tienden a emparejarse con
valores altos en X.
Se dice que hay relacin lineal nula entre dos variables cuando no hay
un emparejamiento sistemtico entre ellas en funcin de sus valores.

Al hacer una representacin grfica conjunta de dos variables pueden apreciarse visualmente estos
tres tipos de relacin. Para ello se identifican los pares de valores y se sealan los correspondientes
puntos en unos ejes de coordenadas. Estas nubes de puntos reciben el nombre de diagramas de
dispersin.
CUANTIFICACIN
Un primer procedimiento consistira en hallar el promedio de los productos cruzados de las
puntuaciones diferenciales. Al hablar de productos cruzados nos referimos al producto, para cada
sujeto o caso, de sus valores en las dos variables, es decir Xi Y. Estos productos pueden obtenerse
con puntuaciones directas, diferenciales o tpicas. Cada figura est separa en cuatro cuadrantes, y
los puntos estarn en uno u otro dependiendo de que la observacin supere o no la media de X y/o la
media de Y. En concreto, si supera ambas medias, el punto aparecer en el cuadrante superior
derecho (NE), si supera la media de X pero no la de Y, como el par aparecer en el cuadrante inferior
derecho (SE); si supera la de Y pero no la de X, aparecer el cuadrante superior izquierdo (NO); sino

supera ninguna de las medias, aparecer en el cuadrante inferior izquierdo (SO). Al tratar con
puntuaciones diferenciales, stas sern positivas si superan la media y negativas en caso contrario.
Por tanto, aquellas observaciones que aparezcan en los cuadrantes NE o SO tendrn productos
cruzados positivos, mientras que las que aparezcan en los cuadrantes NO o SE tendrn productos
cruzados negativos. El promedio de productos cruzados de diferenciales tender a dar positivo si la
relacin es directa, negativo si es inversa, y en torno a cero si es nula, y a dems su valor absoluto
ser mayor cuanto ms acusada sea la tendencia a la linealidad en el diagrama de dispersin.
PROPIEDADES
La razn principal por la que la covarianza no llegaba a satisfacer completamente la necesidad de un
ndice de la asociacin lineal era la dificultad de su valoracin, dado que careca de un mximo y un
mnimo estables. Puesto que hemos destacado su alternativa principal, el coeficiente de correlacin
de Pearson, precisamente porque no tiene esa dificultad

El coeficiente de correlacin de Pearson no puede valer ms de +1 ni


menos de -1
Si hacemos transformaciones lineales de una o las dos variables, en
las que las constantes multiplicadoras son positivas, la correlacin de
Pearson no se altera.
VALORACIN E INTERPRETACIN
En la interpretacin de una correlacin de Pearson hay que separar dos aspectos distintos: su
cuanta y su sentido. La cuanta se refiere al grado en el que la relacin entre dos variables queda
bien descrita con un ndice de asociacin lineal como r, mientras que el sentido se refiere al tipo de
relacin. Una correlacin en torno a cero indica una relacin lineal baja o nula; una correlacin
positiva indica una relacin lineal directa, mientras que una correlacin negativa indica una relacin
lineal inversa. Cuanto ms cercano quede un coeficiente del valor cero, menos apto es el modelo
lineal como descripcin de la relacin entre las variables. Por el contrario, cuanto ms se acerque a
los extremos, mejor describe esa relacin.

Reuchlin

Captulo 1: carcter variable de las conductas.


Variaciones previsibles y variaciones imprevisibles: las variaciones de las conductas son previsibles
cuando se conoce la situacin, el momento o la persona. Por otra parte, estas variaciones de las
conductas son imprevisibles a partir de las informaciones de las que dispone el observador. El
psiclogo utiliza a menudo el mtodo estadstico precisamente porque este mtodo permite tratar
con ms eficacia las observaciones que presentan a la vez variaciones previsibles y variaciones
imprevisibles.
Las fuentes de variacin y anlisis estadstico: las variaciones que son imprevisibles porque no estn
asociadas a ninguna fuente de variacin sistemtica. Las variaciones imprevisibles se atribuyen as a
un conjunto de fuentes fortuitas de variacin para el experimentador o encuestador. Las variaciones
que son previsibles porque estn asociadas a fuentes sistemticas de variacin. Si las variaciones as
previstas no son mayores que las variaciones imprevisibles, el psiclogo comprobar que no se
verifica su hiptesis sobre el efecto de las fuentes sistemticas de variacin que haba credo
introducir en la experiencia o en la encuesta. La comparacin entre la amplitud de las variaciones
previsibles y la amplitud de las variaciones imprevisibles permite interpretar los resultados de la
experiencia o de la encuesta e identificar, a la vez, algunas fuentes sistemticas de variacin.
Ponderacin de una fuente sistemtica de variacin: cuando el experimentador o el encuestador
hace la hiptesis de que varias fuentes sistemticas de variacin producen efectos sobre sus
observaciones, comienza en general por verificar si cada una de ellas tiene efectivamente un efecto
no nulo y significativo. El experimentador podr intentar averiguar cules son las fuentes de
variacin ms importantes, es decir, las que contribuyen ms a las variaciones de las observaciones.
Ponderacin de las fuentes fortuitas de variacin: debe evaluar el peso que toman en sus
observaciones las fuentes fortuitas de variacin. Si este peso es grande, con relacin al de las
fuentes sistemticas de variacin, ser difcil poner en evidencia estas ltimas, reconocer su
significado.

Captulo 2: Resmenes estadsticos en el nivel de las escalas nominales.


El empleo de la estadstica en psicologa: distinguir dentro de las observaciones las variaciones
fortuitas de las variaciones sistemticas. Para asumir esta funcin del mtodo estadstico procede a
hacer resmenes de series de observaciones. Por qu tiene necesidad el psiclogo de efectuar
resmenes estadsticos de este tipo? Para poder razonar sobre conjuntos de observaciones: pueden
compararse dos medias o dos grficos. El resumen de una serie de observaciones puede hacerse de
manera que se ponga en evidencia un aspecto particular de la informacin contenida en estas
observaciones y llegar as a poseer un instrumento de anlisis de esta informacin. Hay que

examinar algunos mtodos que permiten describir una serie de observaciones en forma resumida y
que pueden tener significaciones diferentes. La eleccin de uno u otro de estos mtodos depender
del problema que se plantee el psiclogo.
Niveles de medida: tres niveles, estando definido cada nivel por las propiedades del conjunto de los
valores que pueden obtener mediante las operaciones de medida. Hay una jerarqua entre estos tres
niveles: en cada uno de ellos los nmeros gozan de todas las propiedades del nivel inferior y de otras
propiedades.
Construccin de la escala nominal: para construir una escala nominal basta que el psiclogo sea
capaz de repartir sus observaciones en un cierto nmero de clases, el conjunto de las cuales
constituye la escala, y que deben poseer las dos propiedades siguientes: cada observacin debe
entrar en una clase y solamente en una. El que dos observaciones entren o no en la misma clase de
equivalencia no se sigue de un criterio estadstico, sino de un criterio emprico. Se producen
dificultades, ya que hay que definir el conjunto de clases de manera tal que toda observacin entre
dentro de una clase, luego hay que conseguir que cada observacin no pueda entrar ms que en una
nica clase. Se necesitar adoptar una definicin precisa de cada clase y verificar que los criterios
as propuestos los comprenden de la misma manera utilizadores diferentes.
Propiedades de los nmeros en una escala nominal: una vez realizada esta particin de una serie de
observaciones se van a poder utilizar nmeros para describir y resumir esta serie. Pero cada uno de
estos nmeros designar aqu una clase de observaciones. Estas operaciones slo permiten decir
que una observacin que pertenece a una clase es diferente de una observacin que pertenece a
otra clase; no permiten decir que la primera es mayor o menor que la segunda. El nmero de
observaciones que pertenecen a una clase es el efectivo de esta clase.
Entropa: la informacin de la distribucin no permite saber si las posibilidades de pertenecer a otra
clase son muy diferentes o solamente poco diferentes, dicho de otro modo, si las observaciones son
muy diferentes o poco diferentes, si su distribucin est muy dispersada o poco dispersada. Se
admitir que la dispersin podr ser tanto mayor cuanto mayor sea el nmero de clases. Para un
nmero fijo de clases, ser mayor si las observaciones se reparten igualmente sobre todas las clases
en vez de concentrarse solamente sobre algunas clases. Se puede explicitar y cuantificar esta nocin
definiendo y calculando la entropa de la distribucin.

Glosario de Conceptos
Elementos o Unidades: son las entidades acerca de las que se renen datos. Por ejemplo: 1) si se
evala la memoria de los aspirantes a un puesto de mozo en el restaurante X, las unidades son cada
uno de los aspirantes.
Poblacin de Individuos: es el conjunto de todos los elementos sobre los cuales se observa una o
ms caractersticas de inters.
Muestra de Individuos: es un subconjunto o parte de una poblacin de individuos.

Notas: cuando hablamos de unidades como de la poblacin objetivo o de individuos o de la


muestra de individuos, stas entidades deben ser situadas en el espacio (situacin geogrfica) y en
el tiempo (ao o fecha).

Como generalmente las muestras se extraen con fines inferenciales; esto es, para tener
conocimiento de lo que acontece a nivel poblacional, es de desear que sean representativas de las
respectivas poblaciones. Para favorecer la representatividad de las muestras, la llamada Teora de
Muestreo ha desarrollado diversidad de mtodos. Uno de ellos es la eleccin al azar de las unidades
muestrales.
Variables o Caracterstica: es una caracterstica de un fenmeno observable en los individuos de
una poblacin. Es una variable propiamente dicha cuando presenta diferentes modalidades (dos o
ms) entre los individuos. Si se presenta bajo una nica modalidad se dice que es una caracterstica
constante.
Variable Estadstica: es una representacin, a travs de nmeros u otros smbolos, de una
variable. Esta representacin se obtiene mediante algn procedimiento de medicin. Las variables
estadsticas se clasifican de acuerdo con el tipo de valores que pueden tomar en: Variable
cualitativa: es aquella cuyos valores expresan atributos; Variable cuasi-cuantitativa: es aquella
cuyos valores indican un orden de jerarqua; Variable cuantitativa: es aquella cuyos valores
expresan cantidades numricas. Dentro de las variables cuantitativas se diferencian las llamadas
discretas de las continuas. Se consideran discretas aquellas cuyos valores son puntos aislados, esto
es, cuando todo valor tiene un consecutivo. Se consideran continuas a las variables que, al menos
tericamente pueden tomar cualquier valor dentro de un intervalo numrico.
Constructo y Operacionalizacin: cuando se alude a estas variables es necesario explicitar que
se entiende por ellas, o que aspectos se estn considerando y qu relaciones se verifican entre
ellas. De all surge una construccin terica, hipottica que toma el nombre de constructo. Estos
constructos o variables complejas no son directamente observables como son y esto es lo que
dificulta el proceso de medicin, para poder obtener valores de estas variables a travs de la

medicin es necesario hacer un recorte adecuado del constructo; es decir, considerar un solo
aspecto del mismo y explicitar cules son las manifestaciones observables que dan cuenta de l. En
estos casos se recurre a una definicin operacional (operacionalizacin) del constructo permite
asignar sin ambigedad un valor a la variable a travs del proceso de medicin. A las variables que
no son directamente observables tambin se las denomina rasgos latentes.
Continuo o discreto: el hecho de que una variable estadstica sea discreta o continua determina el
tipo de tratamiento estadstico que se le dar. Sin embargo muchas veces es decisin del
investigador si la tratar de un modo y otro dependiendo de la naturaleza de la variable estadstica y
de su correspondiente variable latente. Es importante considerar que para que una variable discreta
pueda ser tratada adecuadamente como continua, es conveniente que tome una gran cantidad de
valores diferentes.
Poblacin de Observaciones: es el conjunto de todos los valores que pueden tomar una variable
estadstica sobre la poblacin de individuos. Ntese que sobre una misma poblacin de individuos se
pueden definir muchas poblaciones de observaciones, tantas como variables de inters.
Muestra de Observaciones: es el conjunto de de valores que toma una variable estadstica sobre
una muestra de individuos; es decir, es un subconjunto de la poblacin de observaciones.
Estadstica Descriptiva: es la parte de la estadstica que proporciona mtodos para organizar,
representar, resumir y analizar la informacin contenida en un conjunto de datos muestrales o
poblaciones.
Estadstica inferencial: es la parte de la estadstica que proporciona mtodos para extraer
conclusiones sobre las poblaciones a partir de sus muestras controlando el margen de error que se
pueden cometer en esa extrapolacin de lo muestral a lo poblacional. Los mtodos de inferencia
estadstica se agrupan fundamentalmente en dos clases: estimacin de parmetros y contraste de
hiptesis.
Poblaciones reales o hipotticas, finitas o infinitas: una muestra de observaciones siempre es
eral porque consiste de datos efectivamente recolectados; pero la correspondiente poblacin de
observaciones puede ser real o hipottica. Por otra parte, una poblacin de observaciones puede ser
finita, esto es con una cantidad grande o pequea pero limitada de elementos. Pero una poblacin
puede ser infinita. La importancia de reconocer con que tipo de poblacin se est trabajando radica
en la pertinencia de los mtodos estadsticos que se utilizan para recoger los datos, analizarlos y
sacar conclusiones.
Parmetro: es una caracterstica fija, generalmente numrica, de la poblacin de valores de una
variable.
Estadstico: es una caracterstica muestral y como tal, es una variable porque sus valores dependen
de la muestra que salga seleccionada. Cada valor del estadstico se obtiene como funcin de las
observaciones de una muestra.
Estimador: es un estadstico cuyos valores se consideran prximos a un parmetro que, por ser
generalmente desconocido, se desea estimar.
Frecuencia Absoluta: es la cantidad de veces que cada valor de la variable aparece en un conjunto
de datos. La suma de todas las frecuencias absolutas coincide con la totalidad de los datos.

Estadstica Inferencial.
Botella
Captulo 11.
El azar tiene que ver con aquellos eventos cuyo resultado no podemos predecir con certeza, y a los
que nosotros llamaremos experimentos aleatorios. Lo que depende del azar, y por tanto, da
sentido al trmino aleatorio en este contexto, es el procedimiento de extraccin de un individuo y
slo uno, de los que componen la poblacin. Todo experimento aleatorio tiene dos o ms resultados
posibles, que nosotros llamaremos sucesos elementales. En un experimento que tuviera solo un
resultado posible no habra incertidumbre y por tanto, no podramos hablar de experimento
aleatorio. La realizacin de un experimento aleatorio da lugar a un suceso elemental, y slo uno, de
entre los posibles. Al conjunto de los resultados posibles de un experimento aleatorio, o sucesos
elementales, se le llama espacio muestral y se representa por E. Se llama verificacin de un
suceso elemental al hecho de que la realizacin del experimento aleatorio produzca ese suceso
elemental. Sobre los espacios muestrales, como conjuntos que son, se pueden definir subconjuntos,
que denominaremos sucesos y los representaremos por letras maysculas. Aunque para definir un
suceso basta con definir un subconjunto cualquiera de E, normalmente los sucesos con los que
trabajaremos se constituiran con los sucesos elementales que cumplen alguna condicin, y no de
forma arbitraria. Un suceso se verificar cuando el experimento aleatorio de lugar a uno de los
sucesos elementales que integran el subconjunto que lo define. En algunas ocasiones se definen

sucesos a partir de subconjuntos vacos. Este tipo de sucesos reciben el nombre de suceso
imposible. En otras ocasiones definen sucesos cuyo subconjunto constituyente est formado por
todos los elementos del espacio muestral. Este tipo de sucesos reciben el nombre de suceso
seguro. Vamos a definir operaciones sobre sucesos que utilizaremos a partir de aqu:
a) Llamaremos unin de dos sucesos al subconjunto E formado por sucesos elementales
que integran los subconjuntos de al menos uno de esos sucesos.
b) Llamaremos interseccin de dos sucesos al subconjunto de E formado por los sucesos
elemtanles que pertenecen simultneamente a ambos sucesos. Cuando la interseccin
de dos sucesos es un subconjunto vaco se dice que son sucesos incompatibles o
exclusivos.
c) Llamaremos diferencia de dos sucesos al subconjunto E integrado por los sucesos
elementales que pertenecen al primero, pero no al segundo.
d) Llamaremos complementario de un suceso al subconjunto de E integrado por los
sucesos elementales no incluidos en ese suceso.
En trminos generales representaremos por n al nmero de sucesos elementales que integran el
espacio muestral, y por na al nmero de sucesos elementales que constituyen el suceso A.

Un experimento aleatorio es toda accin cuyo resultado no se puede


predecir con certeza.
Cada uno de los resultados posibles de un experimento aleatorio se
llama suceso elemental y su conjunto constituye el espacio muestral
del experimento aleatorio.
La verificacin de un suceso elemental es la observacin de ese suceso
elemental al realizar el experimento aleatorio.
Un suceso es cualquier subconjunto de los elementos de un espacio
muestral.
Dos sucesos son incompatibles o exclusivos si no tienen elementos
comunes y por tanto, no pueden verificarse simultneamente.
El complementario de un suceso es el subconjunto de sucesos
elementales del espacio muestral que no participan en ese suceso.
La interseccin de dos sucesos es el subconjunto de elementos del
espacio muestral que, simultneamente estn incluidos en los
subconjuntos de ambos sucesos.
La unin de dos sucesos es el subconjunto de elementos del espacio
muestran que estn incluidos, al menos, en uno de esos sucesos.
Tipos de espacio muestral: los espacios muestrales se clasifican en espacios muestrales finitos e
infinitos y a su vez estos ltimos se subdividen en numerables y no numerables.
a) Espacios muestrales finitos: un espacio muestral es finito si tiene un nmero de
sucesos elementales finito.
b) Espacios muestrales infinitos numerables. Tiene infinitos sucesos elementales pero
estos pueden ponerse en correspondencia biunvoca con los nmeros naturales.
c) Espacios muestrales infintos no numerables. Tiene infinitos sucesos elementales pero
stos no pueden ponerse en correspondencia biunvoca con los nmeros naturales.
PROBABILIDAD.
El concepto de probabilidad hace referencia a como los eventos puntuales que tienen resultados
inciertos, al estudiar su repeticin un nmero grande veces, comienzan a tener resultados
globalmente previsibles, y a mostrarse sujetos a ciertas leyes. La probabilidad es un concepto ideal,
pues se refiere a las frecuencias con las que ocurriran las cosas en el caso hipottico de que los
eventos se repitiesen un nmero infinitamente grande de veces y en las mismas condiciones. La
confianza puesta en cada uno de los elementos posibles en la prxima realizacin del evento debe
ser proporcional al nmero de repeticiones que cada una de esas alternativas se daran en el futuro.
La asignacin de nmeros a esos grados de confianza depositados en la obtencin de cada resultado
es la clave del concepto de probabilidad:

La probabilidad de un suceso es un nmero que cuantifica en trminos


relativos las opciones de verificacin de ese suceso.

Un suceso sin opcin alguna tendra una probabilidad igual a 0, y un suceso con todas las opciones
tendran una probabilidad igual a 1. Cualquier suceso con un nmero de opciones intermedio entre
esos dos tendr como probabilidad asociada un nmero intermedio cuya magnitud represente
cuantitativamente esas opciones. No obstante a veces se utilizan porcentajes para indicar
probabilidad, que es lo mismo, pero estrictamente hablando esos valores no son probabilidades, sino
porcentajes de posibilidades que expresan cuantas de cada cien veces se espera que ocurra el
suceso.

ENFOQUE CLSICO
La aplicacin del enfoque clsico o a priori exige la aceptacin del llamado principio de indiferencia,
segn el cual todos los elementos del espacio muestral tienen las mismas opciones de ser
verificados al realizar un experimento aleatorio. Desde el enfoque clsico que exige asumir el
principio de indiferencia se define la probabilidad de un suceso como la frecuencia relativa de ese
suceso en el espacio muestral. Desde este enfoque la probabilidad de un suceso es igual al cociente
entre el nmero de casos favorables y posibles. Los procedimientos habitualmente utilizados para
determinar estas cantidades reciben los nombres de tcnicas de contar o combinatoria. De la forma
de definir la probabilidad de este enfoque se deducen:
a) La probabilidad de un suceso es un valor que oscila entre 0 y 1.
b) Un suceso que no contiene ningn suceso elemental tiene una probabilidad igual a 0, y
por ello recibe el nombre de suceso imposible.
c) Un suceso que contiene todos los sucesos elementales del espacio muestral tiene una
probabilidad igual a 1 y por ello recibe el nombre de suceso seguro.
d) La suma de las probabilidades de un suceso y su complementario es igual a 1.
ENFOQUE FRECUENCIALISTA
La probabilidad se determinara mediante una operacin ideal de repeticin sistemtica del
experimento aleatorio y de cmo del nmero de veces que se verifican los sucesos. Las opciones de
verificacin de un suceso se manifestaran en el nmero de veces que se repite este al realizar una y
otra vez el experimento aleatorio. Representa proporcionalmente a su probabilidad, el nmero de
veces que se realiza el experimento debe ser infinitamente grande. Por tanto, desde el enfoque
frecuencialista la probabilidad de un suceso A se define como el lmite de la frecuencia relativa de
apariciones de ese suceso cuando el nmero de repeticiones del experimento aleatorio tiende a
infinito.
La diferencia fundamental entre este enfoque y el anterior es que mientras en el primero n era el
tamao del espacio muestral, en este representa el nmero de repeticiones del experimento
aleatorio. De esta definicin se deducen las mismas consecuencias y propiedades que exponamos
en conexin con el enfoque clsico.

Captulo 12.
En ciencia resulta extremadamente til representar a los sucesos elementales por nmeros, creando
lo que se denominan variables aleatorias. Una funcin es cualquier conjunto de pares ordenandos de
elementos, en los cuales se repite el primer elemento. As, el siguiente conjunto de pares ordenados
es una funcin. Las variables aleatorias son funciones que cumplen con ciertos requisitos.

Una variable aleatoria es una funcin que asocia un nmero real, y


slo uno, a cada suceso elemental del espacio muestral de un
experimento aleatorio.
Representaremos a las variables aleatorias por letras maysculas. Distinguiremos entre variables
aleatorias discretas y variables aleatorias continuas. Las primeras son las que se definen sobre
espacios muestrales finitos o infinitos pero numerables, mientras que las segundas son las que se
definen sobre espacios muestrales infinitos no numerables.

Captulo 13: Modelos de distribucin de probabilidad.


DISTRIBUCIN BINOMIAL
Para que la distribucin de probabilidad de una variable se ajuste al modelo binomial deben
cumplirse una serie de requisitos. El primero es que se base en una variable dicotmica. Esta
variable dicotmica no es todava la variable nominal, pero su presencia es imprescindible para la
generacin de sta. Las variables que estn en la base de una variable binomial pueden definirse
como aquellas que adoptan la regla de asignar un 1 si se cumple una cierta condicin y un 0 si no se
cumple. El segundo requisito es que haya una repeticin de n ensayos de la variable dicotmica en
los que la probabilidad de que cada repeticin se verifique la condicin, y por tanto se asigne un 1,
sea constante. A la probabilidad de verificacin de la condicin en cada ensayo independiente la
representaremos por n. El tercer y ltimo requisito es que se defina una variable X, como el nmero
de casos que en la secuencia de n ensayos dicotmicos verifican la condicin especifcada, o lo que
es lo mismo, el nmero de unos observados.

Si a) definimos una variable dicotmica a partir del cumplimiento o


incumplimiento de una condicin.

B) realizamos una secuencia de n observaciones de esos ensayos


dicotmicos en los que la probabilidad de verificacin de la condicin en cada
repeticin, es constante.

C) definimos una variable aleatoria X, como el nmero de casos de esa


secuencia en los que se cumple la condicin.


Entonces la variable X se ajusta a un modelo binomial con parmetros n y
y se representa por: B(X; n, )
De la forma de generar una variable aleatoria binomial se deducen algunas de sus caractersticas:
a)
Los valores de una variable binomial oscilan entre 0 y n. El nmero ms pequeo posible de
casos en los que se verifica la condicin es ninguno y el mximo de todos.
b)
Si representamos el resultado de cada ensayo dicotmico con ceros y unos, el valor que
adopta la variable X no es ms que la suma de esa secuencia de unos y ceros.
c)
El valor esperado de una variable binomial se obtiene a partir de las propiedades de la suma
de variables aleatorias y de la definicin del valor esperado. Dado que una binomial es la suma de
una secuencia de n valores, y cada uno de ellos puede considerarse una variable aleatoria
dicotmica, su valor esperado ser igual a la suma de los valores esperados de cada una de ellas.
TRANSPARENCIAS
Una distribucin de probabilidades es un modelo de distribucin de frecuencias relativas tericas;
esto es, una variable que toma ciertos valores y a cada uno de estos valores se les asigna una cierta
frecuencia relativa que no proviene de la observacin de un hecho realizado sino que es deducida a
partir de ciertas condiciones tericas. La probabilidad de un valor de la variable puede interpretarse
como una medida de la posibilidad de que dicho valor sea observado.
MODELO BERNOULLI: una variable se distribuye segn el modelo Bernoulli, cuando toma slo dos
valores. Los dos valores de un variable Bernoulli, suelen denominarse xito o fracaso y
codificarse respectivamente con 1 y 0. La probabilidad asignada al xito se la denota con la letra p
por lo que la del fracaso con 1-p ya que deben sumar 1. Una variable Bernoulli queda totalmente
caracterizada conociendo el parmetro p, es decir, la probabilidad de xito o, equivalentemente, la
probabilidad de fracaso.
BINOMIAL: la distribucin binomial depende de dos valores fijos o parmetros a saber: un nmero
natural n y una probabilidad p. Una variable binomial es aquella cuyos valores son 0, 1, 2 n, por
tanto es un modelo para una variable discreta y las probabilidades asociadas a cada uno de ellos
resultan de la aplicacin de una frmula matemtica que involucran a n y a p.
RELACIN: una variable binomial de parmetros n y p puede generarse, bajo ciertas condiciones
que mencionaremos despus, a partir de n observaciones de una variable Bernoulli de parmetro p.
(n es la cantidad de observaciones de una variable Bernoulli y p la probabilidad de xito en cada
observacin de la variable Bernoulli)
CONDICIONES NECESARIAS PARA LA RELACIN.
Estabilidad: la probabilidad de xito debe permanecer constante en las n observaciones de la
variable Bernoulli.
Independencia: la probabilidad de obtener xito en una observacin no aumenta ni disminuye si se
conoce el resultado de otra observacin.
DISTRIBUCIN MULTINOMIAL
En ocasiones se trabaja con ensayos que en lugar de dar lugar a dos resultados alternativos
(dicotoma) puede dar lugar a ms de dos (politoma). En estos casos las probabilidades asociadas a
cualquier combinacin de resultados pueden obtenerse mediante el modelo multinomial.
MODELOS PARA VARIABLES CONTINUAS.
La mayor parte de las tcnicas inferenciales que se utilizan para la investigacin en psicologa tienen
distribuciones de probabilidad que se ajustan a las de los modelos tericos para variables continuas.
La curva normal, a dems de ser un instrumento para la inferencia estadstica, es el modelo al que
se ajustan muchas variables de inters en psicologa.
DISTRIBUCIN RECTANGULAR: es la equivalente a la uniforme de las variables discretas. Una
variable aleatoria se ajusta a este modelo si todos los valores con probabilidad no nula tienen la
misma funcin de densidad de probabilidad. Representacin grfica: un rectngulo.
DISTRIBUCIN NORMAL: la importancia de la curva normal estriba no slo en su utilidad para el
anlisis estadstico, sino que en muchas variables de inters para los psiclogos. La estatura, el
peso, la agudeza visual, la fuerza son variables que se ajustan a este modelo. Ya dentro de la
psicologa, variables como el cociente intelecutal, la extraversin son variables con distribucin
normal. En la mayor parte de las variables existe un valor central (la media) en torno a la cual se
concentran la mayor parte de los individuos, y a medida que nos vamos fijando en valores ms
alejados de la media observamos que stos son menos frecuentes. Esta reduccin gradual en la
frecuencia no es lineal, sino que es mayor al principio y menor despus (pasa de convexa a cncava
al alejarse de la media). Una variable aleatoria se distribuye segn el modelo nomral, con
parmetros u y o. Las variables cuya distribucin se ajusta al modelo normal adoptan una
representacin grfica en la que se pueden apreciar algunas de las propiedades que vamos a
enumerar:

a)
Es simtrica con respecto a un valor central (u) y en ese valor central coinciden la media, la
mediana o la moda.
b)
Es asinttica con respecto al eje de abscisas, es decir, por mucho que se extienda, nunca
llega a tocar los ejes.
c)
Hay toda una familia de curvas normales, dependiendo de los valores de u y o. De entre
ellas, la ms importante es aquella que tienen media 0 y de desviacin tpica 1.
d)
Los puntos de inflexin se encuentran en los puntos correspondientes a la media ms/menos
una desviacin tpica (u +- o)
e)
Cualquier combinacin lineal de variables aleatorias normales se ajusta tambin al modelo
normal.
La mayor parte del trabajo prctico con variables aleatorias normales consiste en hallar
probabilidades asociadas a valores. Esto significara integrar la funcin de densidad entre los valores
de inters. Para evitar tener que resolver este tipo de operaciones se han construido tablas
apropiadas con las reas ya halladas y cuyo eso se basa en el teorema de tipificacin. Segn este
teorema, la funcin de distribucin asociada a un valor de una variable aleatoria, X, con distribucin
normal, es la misma que la funcin de distribucin de la tipificada de ese valor en la normal unitaria.
Para obtener las reas asociadas a un valor de cualquier otra distribucin normal basta con tipificar
ese valor y acudir con la z obtenida en la tabla correspondiente.
El trabajo con variables aleatorias normales, al igual que con otras variables continuas, se reduce a
la obtencin de las probabilidades de obtener un valor menor o igual que uno concreto, la de obtener
un valor mayor o igual que uno concreto, o la de obtener un valor comprendido entre dos valores
concretos.

Anlisis de datos en Psicologa Pardo y San Martin


Contraste de Hiptesis
El objetivo ltimo del anlisis de datos es el de extraer conclusiones de tipo general a partir de unos
pocos datos particulares. Es decir, el de extraer conclusiones sobre las propiedades de una poblacin
a partir de la informacin contenida en una muestra procedente de esa poblacin (inferencia
estadstica). Dos formas bsicas de inferencia estadstica: la estimacin de parmetros y el contraste
de hiptesis. La estimacin de parmetros es el proceso consistente en asignar a las propiedades
desconocidas de una poblacin las propiedades conocidas de una muestra extrada de esa
poblacin. El contraste de hiptesis es un proceso mediante el cual se trata de comprobar si una
afirmacin sobre alguna propiedad poblacional puede ser sostenida a la luz de la informacin
muestral disponible. Puede ser entendido como un mtodo de toma de decisiones, que nos permite
decidir si una proposicin acerca de una poblacin puede ser mantenida o debe ser rechazada.
LGICA
El primer paso del proceso de verificacin de una hiptesis consiste en formular estadsticamente la
hiptesis cientfica que se desea contrastar, es decir, en transformar la hiptesis cientfica en
hiptesis estadstica. Esto supone que una hiptesis cientfica puede ser formulada en trminos de la
forma de una o varias distribuciones poblacionales, o en trminos del valor de uno o ms parmetros
de esa o esas distribuciones. Formulada la hiptesis estadstica, el segundo paso del proceso de
verificacin consiste en buscar evidencia emprica relevante capaz de informar sobre si la hiptesis
establecida es o no sostenible. Una hiptesis ser compatible con los datos empricos cuando a partir
de ella sea posible deducir o predecir un resultado muestral con cierta precisin. Necesitamos una
regla de decisin que debe establecerse en trminos de probabilidad. Pero la necesidad de trabajar
con muestras en lugar de con poblaciones nos obliga a establecer una regla de decisin en trminos
de probabilidad. En general, la regla de decisin que utilizaremos ser una afirmacin de este tipo: si
el resultado muestral observado es, suponiendo correcta nuestra hiptesis, muy poco probable,
consideraremos que nuestra hiptesis es incompatible con los datos; por el contrario, si el resultado
muestral observado es, suponiendo correcta nuestra hiptesis, probable, consideraremos que
nuestra hiptesis es compatible con los datos.

Un contraste de hiptesis es un proceso de decisin en el que una


hiptesis formulada en trminos estadsticos es puesta en relacin con
los datos empricos para determinar si es o no compatible con ellos.

HIPTESIS ESTADSTICA
Una hiptesis estadstica es una afirmacin sobre una o ms distribuciones de probabilidad; ms
concretamente, sobre la forma de una o ms distribuciones de probabilidad, o sobre el valor de uno
o ms parmetros de esas distribuciones. La hiptesis estadstica se suele representar por la letra H
seguida de una informacin que le da contenido. Surge a partir de una hiptesis cientfica. La
primera proporciona la base para la formulacin de la segunda, pero no son la misma cosa. Mientras
una hiptesis cientfica se refiere a algn aspecto de la realidad, una hiptesis estadstica se refiere a
algn aspecto de una distribucin de probabilidad. Existen varias formas de expresar
estadsticamente una hiptesis cientfica correcta. El primer paso en el proceso de verificacin de

una hiptesis consiste en formular en trminos estadsticos la afirmacin contenida en la hiptesis


cientfica que se desea verificar. Todo contraste se basa en la formulacin de dos hiptesis.

La hiptesis nula, representada por H0 / La hiptesis alternativa,


representada por Hi.
La hiptesis nula es la hiptesis que se somete a contraste. Consiste generalmente en una
afirmacin concreta sobre la forma de una distribucin de probabilidad o sobre el valor de alguno de
los parmetros de esa distribucin. La hiptesis alternativa es la negacin de la nula, incluye todo lo
que la nula excluye. Mientras la nula suele ser una hiptesis exacta (tal cosa es igual a tal otra), la
alternativa suele ser inexacta (tal cosa es distinta, mayor o menor que otra). Cuando en Hi aparece
el signo distinto decimos que el contraste es bilateral o bidireccional. Cuando en Hi aparece los
signos mayor o menor, decimos que el contraste es unilateral o unidireccional. La hiptesis nula y
alternativa suelen plantearse como hiptesis rivales. Son exhaustivas y mutuamente exclusivas, lo
cual implica que si una es verdadera, la otra es necesariamente falsa.
SUPUESTOS
Para que una hiptesis estadstica pueda predecir un resultado muestral con cierta exactitud es
necesario, en primer lugar, que la distribucin poblacional con la que se va a trabajar est
completamente especificada. Son hiptesis que especifican por completo las distribuciones
poblacionales a las que hacen referencia. Se las llama simples. Las hiptesis en las que la
distribucin poblacional no queda completamente especificada reciben el nombre de compuestas. Lo
ideal es plantear hiptesis nulas simples, pero ocurre que ni los intereses del investigador se
corresponden siempre con el contenido de una hiptesis simple.

Los supuestos de un contraste de hiptesis son un conjunto de


afirmaciones que necesitamos establecer (sobre la poblacin de
partida y sobre la muestra utilizada) para conseguir determinar la
distribucin de probabilidad en la que se basar nuestra decisin
sobre Ho.
Algunos de estos supuestos son ms restrictivos o exigentes que otros. Es importante tener presente
que el incumplimiento de uno o varios supuestos podra invalidad el contraste y llevarnos a una
decisin errnea. Conviene, por tanto, que los supuestos sean pocos y poco exigentes.
ESTADSTICO DE CONTRASTE.

Un estadstico de contraste es un resultado muestral que cumple la


doble condicin de proporcionar informacin emprica relevante sobre
la afirmacin propuesta en la hiptesis nula y, poseer una distribucin
muestral conocida.

La condicin que debe cumplir un resultado muestral para poder ser utilizado como estadstico de
contraste es la de poseer una distribucin muestral conocida. Un estadstico, es una variable
aleatoria y como tal, tiene su propia funcin de probabilidad a la que denominamos distribucin
muestral. Una vez planteada la hiptesis, es necesario seleccionar el estadstico de contraste capaz
de proporcionarnos informacin relevante sobre ellas y establecer los supuestos necesarios para
conseguir determinar la distribucin normal del estadstico.
REGLA DE DECISIN
La regla de decisin es el criterio que vamos a utilizar para decidir si la hiptesis nula planteada
debe o no ser rechazada. Este criterio se basa en la particin de la distribucin muestral del
estadstico de contraste en dos zonas mutuamente exclusivas: la zona de rechazo y la zona de
aceptacin. La zona de rechazo tambin llamada zona crtica, es el rea de la distribucin muestral
que corresponde a los valores del estadstico de contraste que se encuentran tan alejados de la
afirmacin establecida en Ho, que es muy poco probable que ocurran si Ho, como se supone, es
verdadera. Su probabilidad es alfa (nivel de significacin). La zona de aceptacin es el rea de la
distribucin muestral que corresponde a los valores del estadstico de contraste prximos a la
afirmacin establecida en Ho. Es, por tanto, el rea correspondiente a los valores del estadstico de
contraste que es probable que ocurran si Ho como se supone, es verdadera. Su probabilidad es 1
alfa, valor llamado nivel de confianza.

La regla de decisin consiste en rechazar Ho si el estadstico de


contraste toma un valor perteneciente a la zona de rechazo o crtica;
mantener Ho si el estadstico de contraste toma un valor
perteneciente a la zona de aceptacin.
Se rechaza una hiptesis sometida a contraste cuando e valor del estadstico de contraste cae en la
zona crtica; y se rechaza porque eso significa que el valor tomado por el estadstico de contraste se
aleja demasiado de la prediccin establecida por esa hiptesis, es decir, porque, si la hiptesis
planteada fuera verdadera, el estadstico de contraste no debera haber tomado ese valor; como de
hecho el estadstico ha tomado es el valor, la conclusin ms razonable ser que la hiptesis
planteada no es verdadera. El tamao de las zonas se determina fijando el valor de alfa, es decir,

fijando el valor de significacin con el que se desea trabajar. La forma dividir la distribucin muestral
en zonas depende de si el contraste es bilateral o unilateral. La zona crtica debe estar situada all
donde puedan aparecer los valores muestrales incompatibles con Ho, es decir, all donde puedan
aparecer los valores muestrales que apunten en la direccin propuesta en H. En los contrastes
bilaterales, la zona crtica se encuentra, generalmente repartida a partes iguales entre las dos colas
de la distribucin muestral. En los contrastes unilaterales la zona crtica se encuentra en una de las
dos cola de la distribucin muestral.
DECISIN
Una decisin, en el contexto del contraste, siempre consiste en rechazar o mantener una Ho
particular. Si la rechazamos estamos afirmando que esa hiptesis es falsa, es decir, estamos
afirmando con una probabilidad alga de equivocarnos, que hemos conseguido probar que esa
hiptesis es falsa. Por el contrario, si la mantenemos, no estamos afirmando que hemos probado que
esa hiptesis es verdadera, simplemente estamos afirmando que no disponemos de evidencia
emprica suficiente para rechazarla y que por lo tanto, podemos considerarla compatible con los
datos

Cuando decidimos mantener una hiptesis nula, queremos significar


con ello que consideraos que esa hiptesis es compatible con los
datos. Cuando decidimos rechazar una hiptesis nula, queremos
significar con ello que consideramos probado que esa hiptesis es
falsa.

ERRORES DE TIPO I Y II
Ho puede ser verdadera o puede ser falsa. Si Ho es verdadera y la mantenemos estaremos tomando
una decisin correcta; si es falsa y la rechazamos, tambin estaremos tomando una decisin
correcta. Pero si Ho es verdadera y la rechazamos, estaremos cometiendo un error e igualmente
estaremos cometiendo un error si Ho es falsa y la mantenemos.

Llamamos error de tipo I al que se comete cuando se decide rechazar


una Ho que en realidad es verdadera. La probabilidad de cometer ese
error es alfa.
Llamamos error de tipo II al que se comete cuando se decide mantener
una Ho que en realidad es falsa. La probabilidad de cometer ese error
es beta.

Por tanto I alfa ser la probabilidad de tomar una decisin correcta cuando Ho es verdadera. Y 1beta ser la probabilidad de tomar una decisin correcta cuando Ho es falsa. La probabilidad de
cometer un error I con nuestra decisin es una probabilidad conocida, pues el valor de alfa lo fija el
propio investigador. Sin embargo, la probabilidad de cometer un error de tipo II, es un valor
desconocido que en un contraste depende de tres factores: la verdadera Hi, el valor de alga y el
tamao del error tpico de la distribucin muestral utilizada para efectuar el contraste.
POTENCIA

La potencia (1-B) de un contraste es la probabilidad de rechazar una


hiptesis nula que en realidad es falsa.
Cuando hablamos de la potencia de un contraste, por tanto, nos estamos refiriendo a la capacidad
de ese contraste para detectar que una hiptesis concreta es falsa. Para poder calcular la potencia
de un contraste necesitamos referirnos a una afirmacin de las muchas definidas en Hi.
NIVEL CRTICO Y TAMAO DEL EFECTO.
La probabilidad de cometer un error de tipo I se establece antes de efectuar el contraste para evitar
que influya en la decisin final. En ese sentido, podemos entender el nivel de significacin como el
riesgo mximo que estamos dispuestos a asumir al tomar la decisin de rechazar la hiptesis
concreta. Efectuar un contraste estableciendo previamente un nivel de significacin es lo que se
hace, aunque trae inconvenientes:
1. La decisin sobre Ho puede depender decisivamente del nivel de significacin
establecido. Podemos decidir mantener la hiptesis con alfa = 0.01 y rechazarla con
alfa = 0.05.
2. Decidir si Ho es o no falsa no proporciona ningn tipo de informacin sobre el grado en
el que la evidencia muestral se muestra incompatible con esta hiptesis.
Si consideramos que cometer un error de tipo I es muy grave, adoptaremos para alfa un valor ms
pequeo que si consideramos que cometer ese error no tiene consecuencias graves. Pero
recordemos que al hacer ms pequeo el valor de alfa, la potencia del contraste disminuye
automticamente (que es igual que decir que la potencia de que se produzca un error II se
incrementa). Eso puede llevar a cometer un error II por querer evitar el I.

Llamamos nivel crtico y lo representamos por p, al nivel de


significacin ms pequeo al que una hiptesis nula puede ser
rechazada con el estadstico de contraste obtenido.

Podemos definir el nivel crtico, ms brevemente, como la probabilidad asociada al estadstico de


contraste. en trminos generales, en un contraste unilateral, el nivel crtico es la probabilidad
asociada a los valores mayores o menores que el estadstico de contraste obtenido; en un contraste
bilateral, el nivel crtico es la probabilidad asociada a los valores que se encentran tan alejados de
Ho como, al menos, el estadstico de contraste. Segn esto, e nivel crtico se obtiene, a diferencia de
lo que ocurre con el nivel de significacin, despus de efectuar el contraste, es decir, una vez
obtenido el estadstico de contraste. Decidir si una hiptesis es o no falsa no constituye, en la mayor
parte de las situaciones experimentales, un criterio suficiente para determinar si el experimento
realizado contribuye o no de la forma significativa al desarrollo de una teora o de una lnea de
investigacin. Esto es as porque la decisin a la que se llega en un contraste de hiptesis sobre la
base del grado de discrepancia existente entre la Ho planteada y la evidencia muestral observada
depende directamente, segn hemos sealado ya, del tamao de la muestra utilizada. Tamaos
muestrales grandes pueden llevarnos a considerar estadsticamente significativas discrepancias muy
pequeas y tamaos muestrales muy pequeos pueden llevarnos a considerar estadsticamente
insignificantes discrepancias tericamente relevantes.

Contraste de Hiptesis sobre Medias


El contraste de hiptesis sobre una media sirve para tomar decisiones acerca del verdadero valor
poblacional que corresponde a la media de una variable. Sabemos que si extraemos una muestra
aleatoria de tamao n de una poblacin normal, y calculamos la media, esa media es un estadstico
distribuido normalmente. Sabemos tambin, por el teorema central del lmite, que, aun
desconociendo la forma de la poblacin de donde extraemos la muestra, el estadstico tiende a
distribuirse normalmente a medida que el tamao de la muestra n va aumentando. Precisamente el
conocimiento de esas probabilidades es el que nos proporciona la posibilidad de tomar decisiones
respecto al parmetro u. al contrastar hiptesis sobre la media de una poblacin, la situacin con la
que generalmente nos encontraremos ser aquella la cual los parmetros poblacionales (tanto u
como o) sern desconocidos.
DOS MEDIAS INDEPENDIENTES
El contraste sobre dos medias independientes es el idneo para comparar dos grupos de sujetos en
alguna variable de inters. Al trabajar con dos medias independientes, lo estamos haciendo con dos
poblaciones distintas de las que extraemos, independientemente, dos muestras aleatorias de
tamaos ni y n2. En cada una de esas muestras medimos la variable aleatoria, calculamos el
estadstico en cada una de ellas y utilizamos esa informacin muestra para determinar si las dos
poblaciones poseen o no la misma media u. Dado que Yi y Y2 son valores muestrales, difcilmente
sern iguales, pero la cuestin que interesa responder es si esas medias muestrales son lo bastante
diferentes como para pensar que proceden de poblaciones con diferente media. Es decir, si esas
medias muestrales son lo bastante diferentes como para pensar que los grupos comparados difieren
significativamente en la variable estudiada. Del mismo modo que la media muestral nos proporciona
la mejor estimacin de la media poblacional, la mejor estimacin que podemos obtener sobre la
diferentes entre dos medias poblacionales es justamente la diferencia de dos medias muestrales.
SUPONIENDO VARIANZAS IGUALES
Si suponemos que las varianzas poblacionales son iguales (homocedasticidad), slo ser necesario
estimar un parmetro o2. Y puesto que los dos estimadores insesgados de que disponemos so
independientes, lo apropiado ser utilizar ambos estimadores para obtener una nica estimacin de
o2, pues lo ms probable es que la combinacin ponderada de ambos estimadores nos proporcione
una estimacin ms exacta de o2 que la de uno por separado.
Prueba sobre diferencia de medias: es necesario que las poblaciones originales sean normales. Si los
tamaos muestrales son razonablemente grandes, e iguales o aprox iguales, el incumplimiento de
esta condicin no tiene consecuencias relevantes sobre las conclusiones del contraste. De manera
que con tamaos apropiados, el procedimiento sigue siendo vlido independientemente de la forma
de las poblaciones de origen. En lo relativo al supuesto de homocedasticidad, si los tamaos
muestrales son iguales y el supuesto de normalidad no se incumple, el procedimiento es vlido
incluso con varianzas poblacionales muy diferentes. Es conveniente que los tamaos muestrales
sean grandes para poder garantizar que, independientemente de la forma de las poblaciones de
origen, la distribucin muestral se aproxime al modelo de distribucin de probabilidad normal.
SUPONIENDO VARIANZAS DISTINTAS
Si las varianzas poblacionales no son iguales, carece de sentido obtener una nica estimacin de las
mismas a partir de la combinacin ponderada de los dos estimadores disponibles. Ms bien, cada
uno deber ser considerado un estimador de la varianza de su propia poblacin.

La prueba X2 de Pearson.
La prueba permite estudiar diferentes aspectos del anlisis de datos referidos a variables
cualitativas. Estos aspectos son la bondad de ajuste, la independencia y homogeneidad de

proporciones. En el primero se trabaja con una sola variable y se trata de averiguar si unos datos
empricos concretos se ajustan o no a una determinada distribucin terica. En el segundo, se
estudian dos variables con el objetivo de contrastar si son o no independientes. En el tercero, se
trabaja tambin con dos variables, pero poniendo el nfasis en la distribucin condicional de una de
ellas para los diferentes niveles de la otra.
TABLAS DE CONTIGENCIA
Cuando se trabaja con variables de ndole cualitativa, los datos suelen presentarse en tablas de
contingencia: conjunto organizado de frecuencias clasificadas segn uno o ms criterios. Cuando una
tabla de contingencia slo incluye dos variables las llamamos bidimensional; si incluye tres,
tridimensional, etc.
BONDAD DE AJUSTE
Los contrastes de hiptesis sobre bondad de ajuste permiten comprobar si la forma de la distribucin
de probabilidad de una variable se ajusta a una determinada distribucin de probabilidad terica.
Puesto que estamos tratando con variables cualitativas, esas distribuciones tericas sern la
uniforme, la binmial y la multinomial. El procedimiento se trata de comparar las frecuencias
observadas o empricas con las frecuencias esperadas o tericas, es decir, con las frecuencias que
cabra esperar encontrar en la muestra si realmente la distribucin de probabilidad terica o
poblacional fuera la propuesta.
INDEPENDENCIA
La segunda importante utilidad del estadstico X2 se refiere al estudio de la relacin entre dos
variables cualitativas. Disponemos ahora, no de una nica variable como en el anterior, sino de dos.
La estrategia consiste en comenzar planteando la hiptesis nula de que las variables Xi e Yi son
independientes. Si mantenemos esa hiptesis, concluiremos que los datos disponibles no nos
permiten afirmar que las variables Xi e Yi estn relacionadas. Si rechazamos esa hiptesis,
concluiremos que las variables Xi e Yi estn relacionadas. Necesitamos comparar las frecuencias
observadas ni con las esperadas que deberamos haber encontrado en la muestra si fueran
independientes. Dos sucesos A y B son independientes si la probabilidad de su interseccin es igual
al producto de sus individuales probabilidades.
IGUALDAD DE PROPORCIONES
Las categoras de una de las variables son grupos o muestras de sujetos cuyo comportamiento
interesa comparar en la otra variable. El inters del anlisis en el estudio de J proporciones
independientes se centra, no en determinar si las dos variables consideradas son o no
independientes, sino en si los diferentes grupos definidos por las categoras de una de las variables
se distribuyen de la misma manera en las diferentes categoras de la otra variable.
COMPARACIONES MLTIPLES
Si llegamos a la conclusin de que no todas las proporciones poblacionales son iguales, podemos
estar interesados en averiguar que poblaciones en concreto difieren entre si. Para ello, puede
utilizarse la prueba de X2 de Pearson para efectuar comparaciones entre dos poblaciones. No slo se
averigua que poblaciones difieren entre si sino en qu categora de la variable difieren.

Razn de Correlacin
Es una medida de la relacin entre la dispersin estadstica entre categoras individuales y la
dispersin entre la muestra o la poblacin completa. La razn de correlacin n toma valores entre 0 y
1. El limite n = 0 representa el caso especial de la no dispersin entre la medias de las diferentes
categoras, mientras n = 1 se refiere a la no dispersin dentro de las respectivas categoras.

Tau de Kendall
Es un estadstico usado para medir la asociacin entre dos cantidades medidas. El coeficiente de
rango de Kendall es a veces usado como una prueba estadstica en una prueba de hiptesis
estadstica para establecer si dos variables deben ser consideradas como estadsticamente
dependientes. Esta prueba no es paramtrica, y no descansa en ninguna suposicin sobre las
distribuciones de X o Y o la distribucin de (X,Y)
Tau A: las pruebas de Tau-a demuestran la fuerza de la asociacin de cross tabulations (?). Ambas
variables deben ser ordinales. Tau - a no har ningn ajuste para los vnculos.
Tau b: hace ajustes para vnculos. Valores para el rango tau-b desde -1 (100% de asociacin
negativa o inversin perfecta a +1 (100% de asociacin positiva o acuerdo perfecto). Un valor de
cero indica la ausencia de asociacin

Teorema central del lmite


Si X es una variable, u la media de todos sus valores y s su varianza o2, la media X de muestras de n
observaciones tiene distribucin aproximadamente normal con la misma media u y la n-sima? Parte

de la varianza. La distribucin de X ser tanto ms normal cuanto mayor sea el tamao de la


muestra.