Estadstica Descriptiva.
Botella
Captulo 1: Conceptos Generales.
La estadstica actual no slo es un conjunto de tcnicas para resumir y transmitir informacin
cuantitativa, sino que sirve tambin, y fundamentalmente para hacer inferencias, generalizaciones y
extrapolaciones de un conjunto relativamente pequeo de datos a un conjunto mayor. Clsicamente
la estadstica se ha dividido en dos partes, la estadstica descriptiva y la estadstica inferencial.
Para hacer un estudio inferencial primero hay que hacer un estudio descriptivo de los datos. Es decir,
un estudio descriptivo se agota en la descripcin, mientras que uno inferencial comienza por la
descripcin y luego aborda la inferencia. Mientras que la estadstica descriptiva puede abordarse sin
conocimientos tcnicos previos, aparte del lgebra elemental, para el estudio de la estadstica
inferencial es imprescindible adquirir nociones bsicas de probabilidad.
La muestra nos va a ofrecer una serie de datos que podemos ordenar, simplificar y describir. Pero el
objetivo fundamental es el poder describir la poblacin de partida mediante lo que podamos
encontrar en la muestra. Y para poder extraer esas conclusiones lo ms importante es que las
muestras de observaciones sean representativas. Existe todo un campo de la estadstica, llamado
muestreo, dedicado a estudiar los procedimientos de extraccin de muestras encaminados a
maximizar la representatividad de las mismas. Por ello un primer objetivo de la estadstica
descriptiva consiste en conseguir resmenes de los datos en ndices compactos y de gran calidad
informativa.
Las poblaciones pueden caracterizarse a partir de unas constantes denominadas parmetros.
Como normalmente los parmetros son desconocidos, una de las tareas de la estadstica es la de
hacer conjeturas lo ms acertada posibles acerca de esas cantidades. Para ello se utilizan cantidades
anlogas obtenidas en las muestras, que se denominan estadsticos.
La asignacin de nmeros a las caractersticas se hace siguiendo unas reglas; del estudio de los
modelos mediante los cuales conocemos las reglas para una correcta atribucin de los nmeros se
ocupa la Teora de la Medida. El objetivo de la medicin de una caracterstica es conectar un sistema
relacional emprico y un sistema relacional numrico, de tal forma que las relaciones entre las
entidades se reflejen en las relaciones entre los nmeros que los simbolizan. Slo si se consigue este
objetivo ocurrir que de las relaciones entre los nmeros podrn hacerse inferencias vlidas acerca
de las relaciones entre las entidades. La medicin estudia las condiciones de construccin de
representaciones numricas, y los modelos desarrollados para la medicin se llaman escalas.
Se utiliza una clase por cada una de las modalidades que adopta la caracterstica que se est
estudiando. Las clases son mutuamente exclusivas y exhaustivas, es decir, cada observacin es
incluida en una y slo una clase. Se tiene un conjunto de objetos cuya caracterstica nos interesa
para su estudio. sta adopta un nmero k de modalidades distintas; representamos por m a la
modalidad del objeto. Asignamos nmeros a los objetos en funcin de la modalidad que presentan
en esa caracterstica; representamos por n al nmero asignado al objeto. Al tipo de medicin que
cumple con estas condiciones se la llama escalamiento cualitativo o nominal, y al conjunto de
clases que las integran se le llama escala nominal. Podran tambin utilizarse otros smbolos, como
letras, palabras, etc, puesto que los nmeros asignados no se van a utilizar como tales, sino como
simples cdigos de identificacin.
Supongamos que contamos de nuevo con un conjunto de objetos que difieren en una caracterstica
que cada uno posee en una cierta cantidad. De nuevo el proceso de medicin debe consistir en la
aplicacin de una regla de asignacin de nmeros a las diferentes cantidades, pero ahora de tal
forma que los nmeros asignados a los objetos reflejen esos distintos grados en los que se presenta
la caracterstica. A aquellas escalas de medida que cumplen estas caractersticas se les llama
escalas ordinales.
Para poder extraer conclusiones ms precisas, como la de en cunto ms presenta la caracterstica
un objeto sobre otro, hay que contar con una unidad de medida, y para ello hay que pasar al
siguiente tipo de escala, escala de intervalo. Esta unidad de medida y su origen son arbitrarios. La
principal limitacin de este tipo de escalas es que, aunque cuenta con una unidad de medida, no
tiene un cero absoluto. Es decir, el nmero cero no representa realmente la ausencia de esa
caracterstica.
En la siguiente escala, escala de razn, cumple la funcin de preservar el significado del valor cero,
de forma que siempre represente la ausencia de esa caracterstica. La consecuencia fundamental de
la presencia de un origen absoluto, y no arbitrario, es que a dems de poder extraer conclusiones
acerca de la igualdad o desigualdad de diferencias, tambin puede hablarse de desigualdad o
igualdad de razones.
Un concepto ligado al concepto de escala, y que las caracteriza, es el de transformacin
admisible, que hace referencia al problema de la unicidad de la medida. La cuestin de la unicidad
puede plantearse de la siguiente manera: es la representacin numrica que hemos construido la
nica posible? En general la respuesta ser negativa. Sern muchas las representaciones
alternativas que seran correctas. De un conjunto de valores correctamente atribuidos se puede
pasar a otro tambin correctamente atribuido mediante una transformacin admisible. Se dice que
una transformacin de los nmeros asignados en una escala es una transformacin admisible si
preserva las caractersticas que definen a esa escala, es decir, si los nmeros transformados tambin
representan al sistema emprico.
Tipo
Nominal
Ordinal
Intervalo
Razn
Informacin
deducible
Relaciones igual
que o distinto que
Relaciones mayor
que o igual que
Igualdad o
desigualdad de
diferencias
Igualdad o
Trans. Admisible
Ejemplos
Aplicaciones
inyectivas
Funciones crecientes
A + b x (b > 0)
B x (b > 0)
desigualdad de
razones
VARIABLES.
En el proceso de medicin se asignan nmeros a los objetos segn unas reglas, y el conjunto de
valores numricos atribuidos a las modalidades de una caracterstica constituyen lo que llamamos
variable estadstica.
Captulo 2
Luego de obtener un conjunto de valores tomados en una o varias variables hay que empezar por
inspeccionar los datos. Cuando la cantidad de nmeros recolectados es demasiado grande, se hace
difcil hacer una inspeccin directa que sea realmente comprensiva. Por eso el primer paso suele
consistir en reorganizar los datos. Un instrumento para conseguir esa ordenacin es la denominada
distribucin de frecuencias, y a partir de ella es frecuente tambin construir representaciones
grficas.
DISTRIBUCIN DE FRECUENCIAS.
La distribucin de frecuencias es un instrumento diseado para cumplir tres funciones: a)
proporcionar una reorganizacin y ordenacin racional de los datos recogidos, b) ofrecer la
informacin necesaria para hacer representaciones grficas y c) facilitar los clculos necesarios para
obtener los estadsticos muestrales. Representaremos por X a la variable con la que trabajamos, y
que puede adoptar distintos valores (X1, X2, X3) pero cada uno de esos valores puede aparecer
repetido ms de una vez en los n elementos que componen la muestra.
Se llama intervalo a cada uno de los grupos de valores que ocupan una
fila en una distribucin de frecuencias.
Se llaman lmites aparentes o informados de un intervalo a los valores
mayor y menor que puede adoptar la variable dentro de ese intervalo.
Se llaman lmites exactos de un intervalo a los valores mximo y
mnimo incluidos en el intervalo.
Se llama punto medio de un intervalo a la suma de sus lmites exactos
partido por dos.
Se llama amplitud de un intervalo a la diferencia entre su lmite exacto
superior y su lmite exacto inferior. Se representa por la letra I.
Hay tres reglas y algunas directrices para hacer una distribucin: a) el intervalo superior debe
incluir al mayor valor observado, b) el intervalo inferior debe incluir al menor valor observado, c)
cada intervalo debe incluir el mismo nmero de valores. Pero al ser muchas las agrupaciones
diferentes que se pueden realizar, para decidir entre ellas hay que tener presentes algunas
directrices basadas en dos guas principales: a) dado que el objetivo de una distribucin es conseguir
una ordenacin manejable que ayude a comprender el significado de los datos, no es conveniente
que el nmero de intervalos sea demasiado grande, b) el nmero apropiado de intervalos debe ser
tal que, simultneamente, con ella se consiga una agrupacin operativa y que cumpla los objetivos
para los que ha sido diseada la distribucin, pero sin distorsionar los valores con el error de
agrupamiento.
2.2.1 Supuestos de distribucin intraintervalo 2.3.2 convenciones sobre las
representaciones grficas, 2.3.3 tendenciosidad de las representaciones
grficas.
REPRESENTACIONES GRFICAS.
A partir de las distribuciones de frecuencias se pueden construir representaciones grficas. La
funcin de stas es dar informaciones globales mediante un solo golpe de vista.
a) Diagrama de rectngulos: para hacer un diagrama de rectngulos se colocan en el
eje de abscisas las modalidades (o los nmeros que las representan), y en el eje de
ordenadas las frecuencias (puede ser absolutas o relativas simples o acumuladas).
Sobre cada modalidad se levanta un rectngulo cuya altura es la frecuencia
correspondiente. Para variables nominales u ordinales.
b) Perfil octogonal: se utiliza mucho en informes psicopedaggicos o de rendimiento.
c) Pictograma: son representaciones en forma de crculos en los que stos son divididos
en secciones cuya superficie es proporcional a la frecuencia de la modalidad
correspondiente.
d) Diagrama de barras: se utiliza en variables cuantitativas discretas. En el eje de
abscisas se colocan los distintos valores de la variable y en el eje de ordenadas las
frecuencias. Sobre cada valor de la variable se traza una lnea o barra perpendicular
cuya altura debe ser igual a la frecuencia.
e) Histograma: se utiliza para variables cuantitativas continuas con datos agrupados en
intervalos. En el eje de abscisas se colocan los lmites exactos de los intervalos, y en el
eje de ordenadas las frecuencias. Sobre cada intervalo se levanta un rectngulo cuya
altura sea igual a la frecuencia correspondiente.
f) Polgono de frecuencias: para variables discretas, el polgono es la figura que resulta
de unir los extremos superiores de las que hubieran sido las barras.
g) Diagrama de barras acumuladas: se utiliza en variables discretas. En el eje de
abscisas se colocan los valores de la variable y en el de ordenadas las frecuencias
acumuladas, ya sean absolutas o relativas. Sobre cada valor se traza una perpendicular
cuya longitud sea igual a la f. acumulada. Desde el extremo superior de cada una de
estas barras se traza una lnea horizontal que se une con la barra situada a su derecha.
h) Polgono de frecuencias acumuladas: se utiliza en variables continuas. El eje de
abscisas se construye igual que en los histogramas, pero en el de ordenadas se
incluyen las f. acumuladas, ya sean absolutas o relativas. Sobre cada lmite se levanta
una perpendicular cuya longitud sea idntica a la f. acumulada y se une con los
extremos superiores de dichas perpendiculares.
i) Otros dibujos: muchas veces se utilizan otras representaciones figuritas, en las que
se incluyen los objetos de los que se estn haciendo recuentos de frecuencias, a algn
smbolo que los identifique de forma muy expresiva.
PROPIEDADES.
Deciles: son nueve puntuaciones que dividen a la distribucin en 10 partes, cada una
conteniendo al 10 por 100 de las observaciones. Se representa por D k, donde k indica el
nmero del decil al que se refiere. As, el decil cuarto, es la puntuacin que deja por
debajo de si al 40 por 100 de las observaciones y por encima de si al 60 por 100.
Cuartiles: son tres puntuaciones que dividen a la distribucin en cuatro partes, cada
una conteniendo al 25 por 100 de las observaciones. Se representan por Q k donde k
indica el nmero del cuartil al que se refiere
Existe una equivalencia directa entre los distintos cuantiles. Gracias a esta equivalencia, las frmulas
de clculo de los cuantiles se resumen en la de los centiles correspondientes al cuantil que se quiera.
La razn por la que la suma de las diferenciales es igual a cero es que unas son positivas y otras
negativas (las que superan la media y las que quedan por debajo de ella) y se compensan con otras.
Pero las puntuaciones no slo pueden transformarse sumando constantes, tambin lo pueden hacer
multiplicando constantes.
En algunos casos contamos con la media de varios grupos en una variable y nos interesa conocer la
media de todas las observaciones juntas. Su frmula suele denominarse media ponderada.
MEDIANA.
Es el ndice, la puntuacin que es superada por la mitad de las observaciones pero no por
la otra mitad. Para su clculo podemos encontrarnos en dos casos generales, aquel en el que
contamos con un nmero impar de observaciones y aquel en que nos encontramos con un nmero
par de ellas. En el primero se toma como mediana el valor central, en el segundo se da la
circunstancia de que cualquier valor comprendido entre los dos centrales cumple con la definicin de
la mediana.
MODA.
Una tercer va para representar la tendencia central de un conjunto de valores consiste en informar
del valor ms frecuentemente observado. En esta idea se basa nuestro tercer ndice de tendencia
central, la moda, que se representa por Mo, y se define sencillamente como el valor de la variable
con mayor frecuencia absoluta.
COMPARACIN.
Con qu criterios elegimos uno sobre los dems para representar la magnitud general observada en
unos valores o para comparar la de dos o ms grupos de valores? Si no hay ningn argumento de
peso en contra, se preferir siempre la media. Hay dos razones para apoyar esta normal general.
La primera es que en ella se basan otros estadsticos y la segunda es que es mejor estimador de su
parmetro que la mediana y la moda. Este segundo argumento significa que, en trminos generales,
las medias halladas sobre muestras representativas se parecen ms a la media poblacional que lo
que se parecen las medianas y modas muestrales a la mediana y la moda poblacional. Hay al menos
tres situaciones en las que se preferir la mediana a la media: a) cuando la variable est medida en
una escala ordinal; b) cuando haya valores extremos que distorsionen la interpretacin de la media y
c) cuando haya intervalos abiertos. Este tercer y ltimo caso se refiere a situaciones en las que el
intervalo superior carece de lmite superior, el intervalo inferior carece de lmite inferior, o ambas
cosas a la vez.
La mediana ser la segunda candidata para representar la tendencia central y por tanto, si no hay
argumentos de peso en contra, se preferir la mediana a la moda. Pero hay al menos dos situaciones
en las que se dar esa preferencia: a) cuando se trate de una variable medida en una escala
nominal, b) cuando haya intervalos abiertos y la mediana pertenezca a uno de ellos.
En algunos casos los tres ndices de tendencia central dan valores parecidos, o incluso pueden
coincidir exactamente.
En ciertas ocasiones conocemos las varianzas de varios subgrupos y se quiere obtener la varianza
del grupo total. Esto se puede conseguir aplicando una propiedad que relaciona la varianza de todas
las puntuaciones juntas con las varianzas, medias, y tamaos de los subgrupos.
OTRAS.
Una forma muy sencilla el grado de dispersin consiste en calcular la distancia entre el mayor y el
menor de los valores observados. Este ndice se llama amplitud total, rango o recorrido y se
obtiene sencillamente hallando la diferencia entre los valores extremos. Distincin entre ambos tipos
de amplitud, que se denominan rango excluyente y rango incluyente, usadas en variables discretas y
continuas. Esto es muy sensible a los valores extremos y nada sensibles a los intermedios, pudiendo
carecer de toda representatividad. Otro inconveniente de este ndice es que est ligado al tamao de
la muestra utilizada. Si se quiere comprara la variabilidad de las dispersin de dos conjuntos de
datos de tamao marcadamente distinto, es probable que la muestra de mayor tamao presente
una mayor amplitud aunque las poblaciones de referencia tengan la misma variabilidad.
Si
transformamos
linealmente
las
puntaciones
tpicas,
multiplicndolas por una constante a, y sumando una constante b,
entonces las puntuaciones transformadas tendrn como media la
constante sumada b, como desviacin tpica el valor de la constante
multiplicada, |a| y como varianza el cuadrado de esta constante, a2.
En resumen la construccin de una escala derivada parte de unas puntuaciones directas, stas se
tipifican, y despus se transforman linealmente en otras puntuaciones.
La cuestin fundamental de las escalas derivadas consiste en transformar las puntuaciones
originales, Xi, en otras puntuaciones transformadas, Ti, tales que sean ms cmodas de tratar e
interpretar, pero que a la vez retengan las relaciones comerciales entre los valores, es decir, que
sean puntuaciones equivalentes.
Hay otras dos caractersticas con las que se pueden describir y comparar las distribuciones de
frecuencias.
NDICES DE ASIMETRA
El grado de asimetra de una distribucin hace referencia al grado en que los datos se
reparten equilibradamente por encima y por debajo de la tendencia central. Se han
propuesto diferentes ndices con los que cuantificar esta propiedad.
relacin entre la media y la moda, y se define como la distancia entre la media y la
moda, medida en desviaciones tpicas, es decir: la media es inferior a la moda, y por
tanto este ndice dar un valor negativo; la media es superior y el ndice dar positivo;
coinciden los dos ndices de tendencia central y por tanto el ndice de asimetra dar
cero. Las distribuciones como las primeras tienen asimetra negativa y el ndice da
valores menores que cero; las del segundo tipo asimetra positiva, y este ndice da
valores mayores que cero. En las ltimas se dice que son distribuciones simtricas,
puesto que no estn inclinadas hacia ningn lado; este ndice da en ellas valores en
torno a cero y si la simetra es perfecta entonces da exactamente cero. Slo se puede
calcular en distribuciones unimodales.
ndice de asimetra de Pearson: es igual al promedio de las puntuaciones tpicas
elevadas al cubo. Los valores menores que cero indican asimetra negativa, los
mayores que cero asimetra positiva y los valores en torno a cero indican distribuciones
aproximadamente simtricas. Es el ndice ms utilizado.
ndice de asimetra intercuartlico: se basa, en los cuartiles. La interpretacin es
similar a la de los ndices anteriores. Los valores mayores de cero indican asimetra
positiva, los menores indican asimetra negativa y los valores en torno a cero reflejan
distribuciones simtricas. Tienen una ventaja sobre los ndices anteriores, y es que
tiene un valor mximo y mnimo con lo que se facilita su interpretacin en trminos
relativos.
NDICES DE CURTOSIS
Se basa en el promedio de las tpicas elevadas a la cuarta potencia.
Una distribucin en la que el ndice sea igual a cero tienen un grado de curtosis similar al de la
distribucin normal, y se dice que es mesocrtica, mientras que si es positivo su grado de
apuntamiento es mayor que el de la distribucin normal, y se dice que es una distribucin
leptocrtica y si es negativo su apuntamiento es menor que el de la distribucin normal y se dice
que es platicrtica.
Al hacer una representacin grfica conjunta de dos variables pueden apreciarse visualmente estos
tres tipos de relacin. Para ello se identifican los pares de valores y se sealan los correspondientes
puntos en unos ejes de coordenadas. Estas nubes de puntos reciben el nombre de diagramas de
dispersin.
CUANTIFICACIN
Un primer procedimiento consistira en hallar el promedio de los productos cruzados de las
puntuaciones diferenciales. Al hablar de productos cruzados nos referimos al producto, para cada
sujeto o caso, de sus valores en las dos variables, es decir Xi Y. Estos productos pueden obtenerse
con puntuaciones directas, diferenciales o tpicas. Cada figura est separa en cuatro cuadrantes, y
los puntos estarn en uno u otro dependiendo de que la observacin supere o no la media de X y/o la
media de Y. En concreto, si supera ambas medias, el punto aparecer en el cuadrante superior
derecho (NE), si supera la media de X pero no la de Y, como el par aparecer en el cuadrante inferior
derecho (SE); si supera la de Y pero no la de X, aparecer el cuadrante superior izquierdo (NO); sino
supera ninguna de las medias, aparecer en el cuadrante inferior izquierdo (SO). Al tratar con
puntuaciones diferenciales, stas sern positivas si superan la media y negativas en caso contrario.
Por tanto, aquellas observaciones que aparezcan en los cuadrantes NE o SO tendrn productos
cruzados positivos, mientras que las que aparezcan en los cuadrantes NO o SE tendrn productos
cruzados negativos. El promedio de productos cruzados de diferenciales tender a dar positivo si la
relacin es directa, negativo si es inversa, y en torno a cero si es nula, y a dems su valor absoluto
ser mayor cuanto ms acusada sea la tendencia a la linealidad en el diagrama de dispersin.
PROPIEDADES
La razn principal por la que la covarianza no llegaba a satisfacer completamente la necesidad de un
ndice de la asociacin lineal era la dificultad de su valoracin, dado que careca de un mximo y un
mnimo estables. Puesto que hemos destacado su alternativa principal, el coeficiente de correlacin
de Pearson, precisamente porque no tiene esa dificultad
Reuchlin
examinar algunos mtodos que permiten describir una serie de observaciones en forma resumida y
que pueden tener significaciones diferentes. La eleccin de uno u otro de estos mtodos depender
del problema que se plantee el psiclogo.
Niveles de medida: tres niveles, estando definido cada nivel por las propiedades del conjunto de los
valores que pueden obtener mediante las operaciones de medida. Hay una jerarqua entre estos tres
niveles: en cada uno de ellos los nmeros gozan de todas las propiedades del nivel inferior y de otras
propiedades.
Construccin de la escala nominal: para construir una escala nominal basta que el psiclogo sea
capaz de repartir sus observaciones en un cierto nmero de clases, el conjunto de las cuales
constituye la escala, y que deben poseer las dos propiedades siguientes: cada observacin debe
entrar en una clase y solamente en una. El que dos observaciones entren o no en la misma clase de
equivalencia no se sigue de un criterio estadstico, sino de un criterio emprico. Se producen
dificultades, ya que hay que definir el conjunto de clases de manera tal que toda observacin entre
dentro de una clase, luego hay que conseguir que cada observacin no pueda entrar ms que en una
nica clase. Se necesitar adoptar una definicin precisa de cada clase y verificar que los criterios
as propuestos los comprenden de la misma manera utilizadores diferentes.
Propiedades de los nmeros en una escala nominal: una vez realizada esta particin de una serie de
observaciones se van a poder utilizar nmeros para describir y resumir esta serie. Pero cada uno de
estos nmeros designar aqu una clase de observaciones. Estas operaciones slo permiten decir
que una observacin que pertenece a una clase es diferente de una observacin que pertenece a
otra clase; no permiten decir que la primera es mayor o menor que la segunda. El nmero de
observaciones que pertenecen a una clase es el efectivo de esta clase.
Entropa: la informacin de la distribucin no permite saber si las posibilidades de pertenecer a otra
clase son muy diferentes o solamente poco diferentes, dicho de otro modo, si las observaciones son
muy diferentes o poco diferentes, si su distribucin est muy dispersada o poco dispersada. Se
admitir que la dispersin podr ser tanto mayor cuanto mayor sea el nmero de clases. Para un
nmero fijo de clases, ser mayor si las observaciones se reparten igualmente sobre todas las clases
en vez de concentrarse solamente sobre algunas clases. Se puede explicitar y cuantificar esta nocin
definiendo y calculando la entropa de la distribucin.
Glosario de Conceptos
Elementos o Unidades: son las entidades acerca de las que se renen datos. Por ejemplo: 1) si se
evala la memoria de los aspirantes a un puesto de mozo en el restaurante X, las unidades son cada
uno de los aspirantes.
Poblacin de Individuos: es el conjunto de todos los elementos sobre los cuales se observa una o
ms caractersticas de inters.
Muestra de Individuos: es un subconjunto o parte de una poblacin de individuos.
Como generalmente las muestras se extraen con fines inferenciales; esto es, para tener
conocimiento de lo que acontece a nivel poblacional, es de desear que sean representativas de las
respectivas poblaciones. Para favorecer la representatividad de las muestras, la llamada Teora de
Muestreo ha desarrollado diversidad de mtodos. Uno de ellos es la eleccin al azar de las unidades
muestrales.
Variables o Caracterstica: es una caracterstica de un fenmeno observable en los individuos de
una poblacin. Es una variable propiamente dicha cuando presenta diferentes modalidades (dos o
ms) entre los individuos. Si se presenta bajo una nica modalidad se dice que es una caracterstica
constante.
Variable Estadstica: es una representacin, a travs de nmeros u otros smbolos, de una
variable. Esta representacin se obtiene mediante algn procedimiento de medicin. Las variables
estadsticas se clasifican de acuerdo con el tipo de valores que pueden tomar en: Variable
cualitativa: es aquella cuyos valores expresan atributos; Variable cuasi-cuantitativa: es aquella
cuyos valores indican un orden de jerarqua; Variable cuantitativa: es aquella cuyos valores
expresan cantidades numricas. Dentro de las variables cuantitativas se diferencian las llamadas
discretas de las continuas. Se consideran discretas aquellas cuyos valores son puntos aislados, esto
es, cuando todo valor tiene un consecutivo. Se consideran continuas a las variables que, al menos
tericamente pueden tomar cualquier valor dentro de un intervalo numrico.
Constructo y Operacionalizacin: cuando se alude a estas variables es necesario explicitar que
se entiende por ellas, o que aspectos se estn considerando y qu relaciones se verifican entre
ellas. De all surge una construccin terica, hipottica que toma el nombre de constructo. Estos
constructos o variables complejas no son directamente observables como son y esto es lo que
dificulta el proceso de medicin, para poder obtener valores de estas variables a travs de la
medicin es necesario hacer un recorte adecuado del constructo; es decir, considerar un solo
aspecto del mismo y explicitar cules son las manifestaciones observables que dan cuenta de l. En
estos casos se recurre a una definicin operacional (operacionalizacin) del constructo permite
asignar sin ambigedad un valor a la variable a travs del proceso de medicin. A las variables que
no son directamente observables tambin se las denomina rasgos latentes.
Continuo o discreto: el hecho de que una variable estadstica sea discreta o continua determina el
tipo de tratamiento estadstico que se le dar. Sin embargo muchas veces es decisin del
investigador si la tratar de un modo y otro dependiendo de la naturaleza de la variable estadstica y
de su correspondiente variable latente. Es importante considerar que para que una variable discreta
pueda ser tratada adecuadamente como continua, es conveniente que tome una gran cantidad de
valores diferentes.
Poblacin de Observaciones: es el conjunto de todos los valores que pueden tomar una variable
estadstica sobre la poblacin de individuos. Ntese que sobre una misma poblacin de individuos se
pueden definir muchas poblaciones de observaciones, tantas como variables de inters.
Muestra de Observaciones: es el conjunto de de valores que toma una variable estadstica sobre
una muestra de individuos; es decir, es un subconjunto de la poblacin de observaciones.
Estadstica Descriptiva: es la parte de la estadstica que proporciona mtodos para organizar,
representar, resumir y analizar la informacin contenida en un conjunto de datos muestrales o
poblaciones.
Estadstica inferencial: es la parte de la estadstica que proporciona mtodos para extraer
conclusiones sobre las poblaciones a partir de sus muestras controlando el margen de error que se
pueden cometer en esa extrapolacin de lo muestral a lo poblacional. Los mtodos de inferencia
estadstica se agrupan fundamentalmente en dos clases: estimacin de parmetros y contraste de
hiptesis.
Poblaciones reales o hipotticas, finitas o infinitas: una muestra de observaciones siempre es
eral porque consiste de datos efectivamente recolectados; pero la correspondiente poblacin de
observaciones puede ser real o hipottica. Por otra parte, una poblacin de observaciones puede ser
finita, esto es con una cantidad grande o pequea pero limitada de elementos. Pero una poblacin
puede ser infinita. La importancia de reconocer con que tipo de poblacin se est trabajando radica
en la pertinencia de los mtodos estadsticos que se utilizan para recoger los datos, analizarlos y
sacar conclusiones.
Parmetro: es una caracterstica fija, generalmente numrica, de la poblacin de valores de una
variable.
Estadstico: es una caracterstica muestral y como tal, es una variable porque sus valores dependen
de la muestra que salga seleccionada. Cada valor del estadstico se obtiene como funcin de las
observaciones de una muestra.
Estimador: es un estadstico cuyos valores se consideran prximos a un parmetro que, por ser
generalmente desconocido, se desea estimar.
Frecuencia Absoluta: es la cantidad de veces que cada valor de la variable aparece en un conjunto
de datos. La suma de todas las frecuencias absolutas coincide con la totalidad de los datos.
Estadstica Inferencial.
Botella
Captulo 11.
El azar tiene que ver con aquellos eventos cuyo resultado no podemos predecir con certeza, y a los
que nosotros llamaremos experimentos aleatorios. Lo que depende del azar, y por tanto, da
sentido al trmino aleatorio en este contexto, es el procedimiento de extraccin de un individuo y
slo uno, de los que componen la poblacin. Todo experimento aleatorio tiene dos o ms resultados
posibles, que nosotros llamaremos sucesos elementales. En un experimento que tuviera solo un
resultado posible no habra incertidumbre y por tanto, no podramos hablar de experimento
aleatorio. La realizacin de un experimento aleatorio da lugar a un suceso elemental, y slo uno, de
entre los posibles. Al conjunto de los resultados posibles de un experimento aleatorio, o sucesos
elementales, se le llama espacio muestral y se representa por E. Se llama verificacin de un
suceso elemental al hecho de que la realizacin del experimento aleatorio produzca ese suceso
elemental. Sobre los espacios muestrales, como conjuntos que son, se pueden definir subconjuntos,
que denominaremos sucesos y los representaremos por letras maysculas. Aunque para definir un
suceso basta con definir un subconjunto cualquiera de E, normalmente los sucesos con los que
trabajaremos se constituiran con los sucesos elementales que cumplen alguna condicin, y no de
forma arbitraria. Un suceso se verificar cuando el experimento aleatorio de lugar a uno de los
sucesos elementales que integran el subconjunto que lo define. En algunas ocasiones se definen
sucesos a partir de subconjuntos vacos. Este tipo de sucesos reciben el nombre de suceso
imposible. En otras ocasiones definen sucesos cuyo subconjunto constituyente est formado por
todos los elementos del espacio muestral. Este tipo de sucesos reciben el nombre de suceso
seguro. Vamos a definir operaciones sobre sucesos que utilizaremos a partir de aqu:
a) Llamaremos unin de dos sucesos al subconjunto E formado por sucesos elementales
que integran los subconjuntos de al menos uno de esos sucesos.
b) Llamaremos interseccin de dos sucesos al subconjunto de E formado por los sucesos
elemtanles que pertenecen simultneamente a ambos sucesos. Cuando la interseccin
de dos sucesos es un subconjunto vaco se dice que son sucesos incompatibles o
exclusivos.
c) Llamaremos diferencia de dos sucesos al subconjunto E integrado por los sucesos
elementales que pertenecen al primero, pero no al segundo.
d) Llamaremos complementario de un suceso al subconjunto de E integrado por los
sucesos elementales no incluidos en ese suceso.
En trminos generales representaremos por n al nmero de sucesos elementales que integran el
espacio muestral, y por na al nmero de sucesos elementales que constituyen el suceso A.
Un suceso sin opcin alguna tendra una probabilidad igual a 0, y un suceso con todas las opciones
tendran una probabilidad igual a 1. Cualquier suceso con un nmero de opciones intermedio entre
esos dos tendr como probabilidad asociada un nmero intermedio cuya magnitud represente
cuantitativamente esas opciones. No obstante a veces se utilizan porcentajes para indicar
probabilidad, que es lo mismo, pero estrictamente hablando esos valores no son probabilidades, sino
porcentajes de posibilidades que expresan cuantas de cada cien veces se espera que ocurra el
suceso.
ENFOQUE CLSICO
La aplicacin del enfoque clsico o a priori exige la aceptacin del llamado principio de indiferencia,
segn el cual todos los elementos del espacio muestral tienen las mismas opciones de ser
verificados al realizar un experimento aleatorio. Desde el enfoque clsico que exige asumir el
principio de indiferencia se define la probabilidad de un suceso como la frecuencia relativa de ese
suceso en el espacio muestral. Desde este enfoque la probabilidad de un suceso es igual al cociente
entre el nmero de casos favorables y posibles. Los procedimientos habitualmente utilizados para
determinar estas cantidades reciben los nombres de tcnicas de contar o combinatoria. De la forma
de definir la probabilidad de este enfoque se deducen:
a) La probabilidad de un suceso es un valor que oscila entre 0 y 1.
b) Un suceso que no contiene ningn suceso elemental tiene una probabilidad igual a 0, y
por ello recibe el nombre de suceso imposible.
c) Un suceso que contiene todos los sucesos elementales del espacio muestral tiene una
probabilidad igual a 1 y por ello recibe el nombre de suceso seguro.
d) La suma de las probabilidades de un suceso y su complementario es igual a 1.
ENFOQUE FRECUENCIALISTA
La probabilidad se determinara mediante una operacin ideal de repeticin sistemtica del
experimento aleatorio y de cmo del nmero de veces que se verifican los sucesos. Las opciones de
verificacin de un suceso se manifestaran en el nmero de veces que se repite este al realizar una y
otra vez el experimento aleatorio. Representa proporcionalmente a su probabilidad, el nmero de
veces que se realiza el experimento debe ser infinitamente grande. Por tanto, desde el enfoque
frecuencialista la probabilidad de un suceso A se define como el lmite de la frecuencia relativa de
apariciones de ese suceso cuando el nmero de repeticiones del experimento aleatorio tiende a
infinito.
La diferencia fundamental entre este enfoque y el anterior es que mientras en el primero n era el
tamao del espacio muestral, en este representa el nmero de repeticiones del experimento
aleatorio. De esta definicin se deducen las mismas consecuencias y propiedades que exponamos
en conexin con el enfoque clsico.
Captulo 12.
En ciencia resulta extremadamente til representar a los sucesos elementales por nmeros, creando
lo que se denominan variables aleatorias. Una funcin es cualquier conjunto de pares ordenandos de
elementos, en los cuales se repite el primer elemento. As, el siguiente conjunto de pares ordenados
es una funcin. Las variables aleatorias son funciones que cumplen con ciertos requisitos.
Entonces la variable X se ajusta a un modelo binomial con parmetros n y
y se representa por: B(X; n, )
De la forma de generar una variable aleatoria binomial se deducen algunas de sus caractersticas:
a)
Los valores de una variable binomial oscilan entre 0 y n. El nmero ms pequeo posible de
casos en los que se verifica la condicin es ninguno y el mximo de todos.
b)
Si representamos el resultado de cada ensayo dicotmico con ceros y unos, el valor que
adopta la variable X no es ms que la suma de esa secuencia de unos y ceros.
c)
El valor esperado de una variable binomial se obtiene a partir de las propiedades de la suma
de variables aleatorias y de la definicin del valor esperado. Dado que una binomial es la suma de
una secuencia de n valores, y cada uno de ellos puede considerarse una variable aleatoria
dicotmica, su valor esperado ser igual a la suma de los valores esperados de cada una de ellas.
TRANSPARENCIAS
Una distribucin de probabilidades es un modelo de distribucin de frecuencias relativas tericas;
esto es, una variable que toma ciertos valores y a cada uno de estos valores se les asigna una cierta
frecuencia relativa que no proviene de la observacin de un hecho realizado sino que es deducida a
partir de ciertas condiciones tericas. La probabilidad de un valor de la variable puede interpretarse
como una medida de la posibilidad de que dicho valor sea observado.
MODELO BERNOULLI: una variable se distribuye segn el modelo Bernoulli, cuando toma slo dos
valores. Los dos valores de un variable Bernoulli, suelen denominarse xito o fracaso y
codificarse respectivamente con 1 y 0. La probabilidad asignada al xito se la denota con la letra p
por lo que la del fracaso con 1-p ya que deben sumar 1. Una variable Bernoulli queda totalmente
caracterizada conociendo el parmetro p, es decir, la probabilidad de xito o, equivalentemente, la
probabilidad de fracaso.
BINOMIAL: la distribucin binomial depende de dos valores fijos o parmetros a saber: un nmero
natural n y una probabilidad p. Una variable binomial es aquella cuyos valores son 0, 1, 2 n, por
tanto es un modelo para una variable discreta y las probabilidades asociadas a cada uno de ellos
resultan de la aplicacin de una frmula matemtica que involucran a n y a p.
RELACIN: una variable binomial de parmetros n y p puede generarse, bajo ciertas condiciones
que mencionaremos despus, a partir de n observaciones de una variable Bernoulli de parmetro p.
(n es la cantidad de observaciones de una variable Bernoulli y p la probabilidad de xito en cada
observacin de la variable Bernoulli)
CONDICIONES NECESARIAS PARA LA RELACIN.
Estabilidad: la probabilidad de xito debe permanecer constante en las n observaciones de la
variable Bernoulli.
Independencia: la probabilidad de obtener xito en una observacin no aumenta ni disminuye si se
conoce el resultado de otra observacin.
DISTRIBUCIN MULTINOMIAL
En ocasiones se trabaja con ensayos que en lugar de dar lugar a dos resultados alternativos
(dicotoma) puede dar lugar a ms de dos (politoma). En estos casos las probabilidades asociadas a
cualquier combinacin de resultados pueden obtenerse mediante el modelo multinomial.
MODELOS PARA VARIABLES CONTINUAS.
La mayor parte de las tcnicas inferenciales que se utilizan para la investigacin en psicologa tienen
distribuciones de probabilidad que se ajustan a las de los modelos tericos para variables continuas.
La curva normal, a dems de ser un instrumento para la inferencia estadstica, es el modelo al que
se ajustan muchas variables de inters en psicologa.
DISTRIBUCIN RECTANGULAR: es la equivalente a la uniforme de las variables discretas. Una
variable aleatoria se ajusta a este modelo si todos los valores con probabilidad no nula tienen la
misma funcin de densidad de probabilidad. Representacin grfica: un rectngulo.
DISTRIBUCIN NORMAL: la importancia de la curva normal estriba no slo en su utilidad para el
anlisis estadstico, sino que en muchas variables de inters para los psiclogos. La estatura, el
peso, la agudeza visual, la fuerza son variables que se ajustan a este modelo. Ya dentro de la
psicologa, variables como el cociente intelecutal, la extraversin son variables con distribucin
normal. En la mayor parte de las variables existe un valor central (la media) en torno a la cual se
concentran la mayor parte de los individuos, y a medida que nos vamos fijando en valores ms
alejados de la media observamos que stos son menos frecuentes. Esta reduccin gradual en la
frecuencia no es lineal, sino que es mayor al principio y menor despus (pasa de convexa a cncava
al alejarse de la media). Una variable aleatoria se distribuye segn el modelo nomral, con
parmetros u y o. Las variables cuya distribucin se ajusta al modelo normal adoptan una
representacin grfica en la que se pueden apreciar algunas de las propiedades que vamos a
enumerar:
a)
Es simtrica con respecto a un valor central (u) y en ese valor central coinciden la media, la
mediana o la moda.
b)
Es asinttica con respecto al eje de abscisas, es decir, por mucho que se extienda, nunca
llega a tocar los ejes.
c)
Hay toda una familia de curvas normales, dependiendo de los valores de u y o. De entre
ellas, la ms importante es aquella que tienen media 0 y de desviacin tpica 1.
d)
Los puntos de inflexin se encuentran en los puntos correspondientes a la media ms/menos
una desviacin tpica (u +- o)
e)
Cualquier combinacin lineal de variables aleatorias normales se ajusta tambin al modelo
normal.
La mayor parte del trabajo prctico con variables aleatorias normales consiste en hallar
probabilidades asociadas a valores. Esto significara integrar la funcin de densidad entre los valores
de inters. Para evitar tener que resolver este tipo de operaciones se han construido tablas
apropiadas con las reas ya halladas y cuyo eso se basa en el teorema de tipificacin. Segn este
teorema, la funcin de distribucin asociada a un valor de una variable aleatoria, X, con distribucin
normal, es la misma que la funcin de distribucin de la tipificada de ese valor en la normal unitaria.
Para obtener las reas asociadas a un valor de cualquier otra distribucin normal basta con tipificar
ese valor y acudir con la z obtenida en la tabla correspondiente.
El trabajo con variables aleatorias normales, al igual que con otras variables continuas, se reduce a
la obtencin de las probabilidades de obtener un valor menor o igual que uno concreto, la de obtener
un valor mayor o igual que uno concreto, o la de obtener un valor comprendido entre dos valores
concretos.
HIPTESIS ESTADSTICA
Una hiptesis estadstica es una afirmacin sobre una o ms distribuciones de probabilidad; ms
concretamente, sobre la forma de una o ms distribuciones de probabilidad, o sobre el valor de uno
o ms parmetros de esas distribuciones. La hiptesis estadstica se suele representar por la letra H
seguida de una informacin que le da contenido. Surge a partir de una hiptesis cientfica. La
primera proporciona la base para la formulacin de la segunda, pero no son la misma cosa. Mientras
una hiptesis cientfica se refiere a algn aspecto de la realidad, una hiptesis estadstica se refiere a
algn aspecto de una distribucin de probabilidad. Existen varias formas de expresar
estadsticamente una hiptesis cientfica correcta. El primer paso en el proceso de verificacin de
La condicin que debe cumplir un resultado muestral para poder ser utilizado como estadstico de
contraste es la de poseer una distribucin muestral conocida. Un estadstico, es una variable
aleatoria y como tal, tiene su propia funcin de probabilidad a la que denominamos distribucin
muestral. Una vez planteada la hiptesis, es necesario seleccionar el estadstico de contraste capaz
de proporcionarnos informacin relevante sobre ellas y establecer los supuestos necesarios para
conseguir determinar la distribucin normal del estadstico.
REGLA DE DECISIN
La regla de decisin es el criterio que vamos a utilizar para decidir si la hiptesis nula planteada
debe o no ser rechazada. Este criterio se basa en la particin de la distribucin muestral del
estadstico de contraste en dos zonas mutuamente exclusivas: la zona de rechazo y la zona de
aceptacin. La zona de rechazo tambin llamada zona crtica, es el rea de la distribucin muestral
que corresponde a los valores del estadstico de contraste que se encuentran tan alejados de la
afirmacin establecida en Ho, que es muy poco probable que ocurran si Ho, como se supone, es
verdadera. Su probabilidad es alfa (nivel de significacin). La zona de aceptacin es el rea de la
distribucin muestral que corresponde a los valores del estadstico de contraste prximos a la
afirmacin establecida en Ho. Es, por tanto, el rea correspondiente a los valores del estadstico de
contraste que es probable que ocurran si Ho como se supone, es verdadera. Su probabilidad es 1
alfa, valor llamado nivel de confianza.
fijando el valor de significacin con el que se desea trabajar. La forma dividir la distribucin muestral
en zonas depende de si el contraste es bilateral o unilateral. La zona crtica debe estar situada all
donde puedan aparecer los valores muestrales incompatibles con Ho, es decir, all donde puedan
aparecer los valores muestrales que apunten en la direccin propuesta en H. En los contrastes
bilaterales, la zona crtica se encuentra, generalmente repartida a partes iguales entre las dos colas
de la distribucin muestral. En los contrastes unilaterales la zona crtica se encuentra en una de las
dos cola de la distribucin muestral.
DECISIN
Una decisin, en el contexto del contraste, siempre consiste en rechazar o mantener una Ho
particular. Si la rechazamos estamos afirmando que esa hiptesis es falsa, es decir, estamos
afirmando con una probabilidad alga de equivocarnos, que hemos conseguido probar que esa
hiptesis es falsa. Por el contrario, si la mantenemos, no estamos afirmando que hemos probado que
esa hiptesis es verdadera, simplemente estamos afirmando que no disponemos de evidencia
emprica suficiente para rechazarla y que por lo tanto, podemos considerarla compatible con los
datos
ERRORES DE TIPO I Y II
Ho puede ser verdadera o puede ser falsa. Si Ho es verdadera y la mantenemos estaremos tomando
una decisin correcta; si es falsa y la rechazamos, tambin estaremos tomando una decisin
correcta. Pero si Ho es verdadera y la rechazamos, estaremos cometiendo un error e igualmente
estaremos cometiendo un error si Ho es falsa y la mantenemos.
Por tanto I alfa ser la probabilidad de tomar una decisin correcta cuando Ho es verdadera. Y 1beta ser la probabilidad de tomar una decisin correcta cuando Ho es falsa. La probabilidad de
cometer un error I con nuestra decisin es una probabilidad conocida, pues el valor de alfa lo fija el
propio investigador. Sin embargo, la probabilidad de cometer un error de tipo II, es un valor
desconocido que en un contraste depende de tres factores: la verdadera Hi, el valor de alga y el
tamao del error tpico de la distribucin muestral utilizada para efectuar el contraste.
POTENCIA
La prueba X2 de Pearson.
La prueba permite estudiar diferentes aspectos del anlisis de datos referidos a variables
cualitativas. Estos aspectos son la bondad de ajuste, la independencia y homogeneidad de
proporciones. En el primero se trabaja con una sola variable y se trata de averiguar si unos datos
empricos concretos se ajustan o no a una determinada distribucin terica. En el segundo, se
estudian dos variables con el objetivo de contrastar si son o no independientes. En el tercero, se
trabaja tambin con dos variables, pero poniendo el nfasis en la distribucin condicional de una de
ellas para los diferentes niveles de la otra.
TABLAS DE CONTIGENCIA
Cuando se trabaja con variables de ndole cualitativa, los datos suelen presentarse en tablas de
contingencia: conjunto organizado de frecuencias clasificadas segn uno o ms criterios. Cuando una
tabla de contingencia slo incluye dos variables las llamamos bidimensional; si incluye tres,
tridimensional, etc.
BONDAD DE AJUSTE
Los contrastes de hiptesis sobre bondad de ajuste permiten comprobar si la forma de la distribucin
de probabilidad de una variable se ajusta a una determinada distribucin de probabilidad terica.
Puesto que estamos tratando con variables cualitativas, esas distribuciones tericas sern la
uniforme, la binmial y la multinomial. El procedimiento se trata de comparar las frecuencias
observadas o empricas con las frecuencias esperadas o tericas, es decir, con las frecuencias que
cabra esperar encontrar en la muestra si realmente la distribucin de probabilidad terica o
poblacional fuera la propuesta.
INDEPENDENCIA
La segunda importante utilidad del estadstico X2 se refiere al estudio de la relacin entre dos
variables cualitativas. Disponemos ahora, no de una nica variable como en el anterior, sino de dos.
La estrategia consiste en comenzar planteando la hiptesis nula de que las variables Xi e Yi son
independientes. Si mantenemos esa hiptesis, concluiremos que los datos disponibles no nos
permiten afirmar que las variables Xi e Yi estn relacionadas. Si rechazamos esa hiptesis,
concluiremos que las variables Xi e Yi estn relacionadas. Necesitamos comparar las frecuencias
observadas ni con las esperadas que deberamos haber encontrado en la muestra si fueran
independientes. Dos sucesos A y B son independientes si la probabilidad de su interseccin es igual
al producto de sus individuales probabilidades.
IGUALDAD DE PROPORCIONES
Las categoras de una de las variables son grupos o muestras de sujetos cuyo comportamiento
interesa comparar en la otra variable. El inters del anlisis en el estudio de J proporciones
independientes se centra, no en determinar si las dos variables consideradas son o no
independientes, sino en si los diferentes grupos definidos por las categoras de una de las variables
se distribuyen de la misma manera en las diferentes categoras de la otra variable.
COMPARACIONES MLTIPLES
Si llegamos a la conclusin de que no todas las proporciones poblacionales son iguales, podemos
estar interesados en averiguar que poblaciones en concreto difieren entre si. Para ello, puede
utilizarse la prueba de X2 de Pearson para efectuar comparaciones entre dos poblaciones. No slo se
averigua que poblaciones difieren entre si sino en qu categora de la variable difieren.
Razn de Correlacin
Es una medida de la relacin entre la dispersin estadstica entre categoras individuales y la
dispersin entre la muestra o la poblacin completa. La razn de correlacin n toma valores entre 0 y
1. El limite n = 0 representa el caso especial de la no dispersin entre la medias de las diferentes
categoras, mientras n = 1 se refiere a la no dispersin dentro de las respectivas categoras.
Tau de Kendall
Es un estadstico usado para medir la asociacin entre dos cantidades medidas. El coeficiente de
rango de Kendall es a veces usado como una prueba estadstica en una prueba de hiptesis
estadstica para establecer si dos variables deben ser consideradas como estadsticamente
dependientes. Esta prueba no es paramtrica, y no descansa en ninguna suposicin sobre las
distribuciones de X o Y o la distribucin de (X,Y)
Tau A: las pruebas de Tau-a demuestran la fuerza de la asociacin de cross tabulations (?). Ambas
variables deben ser ordinales. Tau - a no har ningn ajuste para los vnculos.
Tau b: hace ajustes para vnculos. Valores para el rango tau-b desde -1 (100% de asociacin
negativa o inversin perfecta a +1 (100% de asociacin positiva o acuerdo perfecto). Un valor de
cero indica la ausencia de asociacin