Está en la página 1de 79

ema 1: La investigación

1 Introducción

1.1 Investigación, generación de conocimiento, la ciencia en Psicología

1.2 Conceptos estadísticos básicos

2 Función de la Estadística en Psicología

3 El proceso de investigación

3.1 Teorías, Modelos, Preguntas/problemas, hipótesis

3.2 Variables: Definición, tipos y escalas de medida

3.3 Métodos y diseños de investigación

3.4 Análisis de datos, interpretación y valoración de resultados

3.5 El informe de investigación

1.1 La investigación

La investigación es una actividad que se lleva a cabo con la finalidad de generar


conocimiento. El conocimiento es la información que hemos adquirido sobre las
cosas (la naturaleza) y sobre nosotros mismos. Dependiendo de cómo se realiza la
investigación, el conocimiento puede ser científico, intuitivo, de sentido común, etc.
Las principales características del conocimiento científico son:

a) Lógica. El conocimiento científico asume que todo fenómeno tiene explicación


(aunque haya fenómenos para los cuales no la tenemos en este momento).

b) Sistematización. (El conocimiento forma un cuerpo interrelacionado de "leyes",


que son enunciados de validez general).

c) Objetividad. Cualquier individuo puede replicar el proceso y verificar los


resultados.

d) Parsimonia. Se debe recurrir al menor número posible de factores explicativos.

e) Autocorrección. El procedimiento de generación de conocimiento científico hace


posible la rectificación cuando es erróneo.

La ciencia es el cuerpo de conocimientos adquiridos con el método científico. Tiene


como finalidad general ayudar a mejorar las condiciones de la existencia mediante
la profundización en el conocimiento de los fenómenos y las causas que los
generan. Las funciones de la ciencia son describir, predecir, explicar y ser
susceptible de aplicación.

Función descriptiva: El conocimiento científico tiene carácter descriptivo cuando


se utiliza para definir, clasificar y caracterizar el objeto de estudio (por ejemplo
cuando se describe los síntomas de un trastorno de la personalidad).

Función predictiva: El conocimiento tiene carácter predictivo cuando el


conocimiento de un fenómeno (o fenómenos) permite prever lo que ocurre con otro
fenómeno. Para predecir es suficiente el conocimiento de que los fenómenos están
relacionados.

Función explicativa: Explicar supone mucho más que predecir, pues supone
establecer cuáles son las causas de los fenómenos. La aplicabilidad del
conocimiento significa que éste puede ser aprovechado para mejorar las condiciones
de vida. Las ciencias aplicadas (como buena parte del conocimiento psicológico)
pretenden aportar soluciones (o al menos paliar) a los problemas y mejorar las
condiciones de la existencia. En cambio, el objetivo de las ciencias básicas es
profundizar la comprensión del objeto de estudio.

A modo de resumen, incluimos la definición que ha dado Feynman sobre la


investigación científica: "La investigación científica tiene como objetivo explicar los
fenómenos para derivar predicciones contrastables sobre la realidad, construyendo
teorías que relacionen consistentemente los fenómenos".

1.1 La investigación

La investigación es una actividad que se lleva a cabo con la finalidad de generar


conocimiento. El conocimiento es la información que hemos adquirido sobre las
cosas (la naturaleza) y sobre nosotros mismos. Dependiendo de cómo se realiza la
investigación, el conocimiento puede ser científico, intuitivo, de sentido común, etc.
Las principales características del conocimiento científico son:

a) Lógica. El conocimiento científico asume que todo fenómeno tiene explicación


(aunque haya fenómenos para los cuales no la tenemos en este momento).

b) Sistematización. (El conocimiento forma un cuerpo interrelacionado de "leyes",


que son enunciados de validez general).

c) Objetividad. Cualquier individuo puede replicar el proceso y verificar los


resultados.

d) Parsimonia. Se debe recurrir al menor número posible de factores explicativos.


e) Autocorrección. El procedimiento de generación de conocimiento científico hace
posible la rectificación cuando es erróneo.

La ciencia es el cuerpo de conocimientos adquiridos con el método científico. Tiene


como finalidad general ayudar a mejorar las condiciones de la existencia mediante
la profundización en el conocimiento de los fenómenos y las causas que los
generan. Las funciones de la ciencia son describir, predecir, explicar y ser
susceptible de aplicación.

Función descriptiva: El conocimiento científico tiene carácter descriptivo cuando


se utiliza para definir, clasificar y caracterizar el objeto de estudio (por ejemplo
cuando se describe los síntomas de un trastorno de la personalidad).

Función predictiva: El conocimiento tiene carácter predictivo cuando el


conocimiento de un fenómeno (o fenómenos) permite prever lo que ocurre con otro
fenómeno. Para predecir es suficiente el conocimiento de que los fenómenos están
relacionados.

Función explicativa: Explicar supone mucho más que predecir, pues supone
establecer cuáles son las causas de los fenómenos. La aplicabilidad del
conocimiento significa que éste puede ser aprovechado para mejorar las condiciones
de vida. Las ciencias aplicadas (como buena parte del conocimiento psicológico)
pretenden aportar soluciones (o al menos paliar) a los problemas y mejorar las
condiciones de la existencia. En cambio, el objetivo de las ciencias básicas es
profundizar la comprensión del objeto de estudio.

A modo de resumen, incluimos la definición que ha dado Feynman sobre la


investigación científica: "La investigación científica tiene como objetivo explicar los
fenómenos para derivar predicciones contrastables sobre la realidad, construyendo
teorías que relacionen consistentemente los fenómenos".

2 Función de la Estadística

Las técnicas de análisis estadístico tienen una función general en la investigación


psicológica de carácter empírico (empírico: Basado en evidencia observable), y es la
de obtener información de los datos. Más específicamente, la Estadística cumple
una función descriptiva, (permite precisar las características psicológicas de
individuos y grupos), y además, generaliza esas características a las poblaciones de
interés (Estadística Inferencial). Las técnicas estadísticas hacen posible la
contrastación de las teorías sobre el comportamiento con la evidencia empírica
expresada en datos.

3 El proceso de investigación
La investigación se realiza en varias etapas o fases que deben ser coherentes entre
sí. Las principales fases de la investigación empírica son: Las preguntas/el
problema, las hipótesis, selección de método, definición y medición de las variables,
diseño (selección de muestras), el análisis de datos y la interpretación y valoración
de resultados (el informe).

3.1 Teorías, modelos.

Las teorías son conjuntos de enunciados interrelacionados que definen, describen,


relacionan y explican fenómenos de interés. Las funciones de la teoría son la
descripción de los fenómenos objeto de estudio, el descubrimiento de sus relaciones
y el de sus factores causales. Las teorías que solo describen o caracterizan los
objetos de estudio son denominadas descriptivas, las que establecen relaciones
entre los objetos o fenómenos estudiados son correlacionales o asociativas, y las
que investigan los factores causales son explicativas. Las teorías son un marco de
referencia del conocimiento, guían el proceso de investigación y deben ser robustas
(superar las pruebas en contra). Las teorías pueden diferir en su alcance, las de
carácter general abarcan amplios conjuntos fenómenos (por ejemplo el
comportamiento), otras tienen un carácter específico y se refieren a dominios más
restringidos (por ejemplo las teorías de aprendizaje asociativo). Las teorías son
desarrolladas a partir de la experiencia personal, la intuición, conocimientos y
teorías previas, y la formulación de nuevas teorías requiere creatividad, espíritu
crítico y capacidad de innovación. No obstante lo veraces y adecuadas que puedan
parecer, las teorías deben ser verificadas, y este proceso comienza con la
verificación de la coherencia lógica de los enunciados, y en segundo lugar debe
contrastarse con la evidencia. Además se debe comparar su alcance, precisión,
parsimonia y facilidad de contrastación con las formulaciones teóricas alternativas.

Los modelos son representaciones simplificadas de objetos de interés y su función


es la de facilitar el tratamiento del objeto o fenómeno que representan. Los
modelos pueden ser gráficos (por ejemplo los mapas de carreteras), verbales,
teóricos, etc. Los modelos teóricos simplifican la investigación porque incluyen solo
los aspectos relevantes a un campo determinado, y no pretenden representar la
totalidad del objeto de estudio. Los modelos del comportamiento suelen ser
verbales, pero también se utiliza ampliamente modelos estadísticos.

El proceso de investigación comienza con la formulación de cuestiones para las que


no tenemos explicación satisfactoria, y en ese caso diremos que tenemos un
problema o problemas a resolver. Ejemplos de problemas que interesan a los
psicólogos son: comparaciones del efecto de intervenciones psicólogicas,
predicciones del comportamiento en base a la información que tenemos de
características psicólogicas, conocimiento del ciclo evolutivo, etc. Situaciones que
plantean estas cuestiones son: investigación para saber si nuevos tratamientos dan
mejores resultados, o el diagnóstico de trastornos de personalidad, problemas
organizacionales en las empresas, etc. Tanto el problema como las cuestiones
deben ser definidos de manera clara y precisa.

Las hipótesis son enunciados comprobables, y son explicaciones provisionales de las


cuestiones planteadas en la investigación. Ejemplo: El enunciado "el tratamiento X
es más efectivo que el tratamiento Y" puede ser verificado al comparar la
efectividad de los dos tratamientos. Hay que enunciar las hipótesis de manera que
su validación haga posible dar respuesta a las cuestiones planteadas a la
investigación.

.2 Variables

Una vez definidas las cuestiones y enunciadas las hipótesis, la siguiente fase
requiere una selección adecuada de las variables relevantes para dar respuesta a
las cuestiones planteadas. La correcta definición de las variables es esencial para
toda investigación, y si se trata de investigación empírica (basada en la evidencia
observable) las definiciones de las variables deben ser operativas.

Principales tipos de variables

Cuantitativas y cualitativas. Las modalidades de las variables cuantitativas


admiten la relación "mayor que". En cambio, las modalidades de las variables
cualitativas no lo admiten. Por ejemplo, la modalidad 50 de la variable "peso" indica
mayor magnitud de la característica que la modalidad 40. En cambio, las
modalidades de la variable "tipo de trabajo" no tienen relación cuantitativa (un tipo
de trabajo no es más o menos que otro tipo).

Discretas y continuas. Las variables continuas admiten cualquier valor, las


discretas no. Ejemplos: La variable "depresión" es continua, y la variable "número
de amigos" es discreta (porque no puede presentar valores fraccionados, con
decimales).

Medición

Las variables tienen características diferenciadas según el tipo de medición con que
obtenemos los datos, lo cual es un factor determinante para la selección de técnicas
estadísticas de análisis de datos.

Medir es asignar números a objetos o sucesos de acuerdo a un conjunto de reglas


previamente establecidas, y su finalidad es obtener datos lo más válidos y precisos
que sea posible. El proceso de medición es imprescindible y previo al de análisis de
datos. Las reglas de medición especifican el procedimiento de asignación de
números a las modalidades de la variable (codificación).

El siguiente es un ejemplo sencillo de medición: Una psicóloga desea obtener datos


que representen la opinión de un grupo de pacientes sobre la efectividad de una
terapia psicológica, y para ello elabora un cuestionario en que pide a cada paciente
que marque el enunciado que representa su opinión. La primera fase del proceso de
medición consiste en efectuar un listado de las modalidades de respuesta, y la
segunda consiste en asignar un número a cada modalidad. Las modalidades de
respuesta son:

La regla de codificación consiste en asignar un 1 a la modalidad "absolutamente en


contra", un 2 a la modalidad "bastante en contra", un 3 a la modalidad
"indiferentes", un 4 a la modalidad "bastante a favor" y un 5 a la modalidad
"Completamente a favor".

Supongamos que las respuestas obtenidas por la psicóloga son:

A continuación se codifica las respuestas, que quedan transformadas en los


siguientes datos, que ya pueden ser analizados con procedimientos estadísticos:

Principales escalas de medida:

a) Nominal. Les objetas son clasificado en categorías mutuamente exhaustivas y


excluyentes. Ejemplo: Preguntamos a un grupo de individuos el tipo de deporte que
practican, y codificamos las respuestas de acuerdo con la siguiente regla:

Los datos obtenido son:

Estos datos expresan que el primer individuo practica el fútbol, el segundo


montañismo, el tercero baloncesto, etc. (La anterior medición habría sido incorrecta
de no haber incluido la categoría "otros", porque la regla de codificación habría
excluido las actividades deportivas no incluidas en las cuatro primeras categorías).

b) Ordinal. Este tipo de medición tiene las características de la medición nominal, y


además admite la relación "mayor que". Ejemplo: Medición que consiste al atribuir
el 1 al primero que llega en una carrera ciclista, el 2 al que llega en segundo lugar,
el 3 al que llega en tercer lugar, etc.

c) De intervalo. Este tipo de medición tiene las características de la medición


ordinal, y además separa las unidades de medición por intervalos equivalentes.
Ejemplo: Los tiempo de llegada a la carrera ciclista (expresados como minutos)
están definidos de forma que la diferencia entre 5 y 4 (60 segundos) es la misma
que la que va del 2 al 3, o del 7 al 8 (60 segundos).

d) De razón. Este tipo de medición tiene las características de la medición de


intervalo, y además tiene la propiedad de que el 0 es real. Ejemplo: Número de
veces que un individuo sonríe. (El 0 indica ninguna sonrisa).

3.3 Métodos y diseños

Una vez definidas las cuestiones a que se desea dar respuesta, las variables y el
procedimiento e instrumentos de medición, la siguiente fase consiste en especificar
cómo se va a asignar los sujetos participantes a las unidades de observación
(muestras y muestreo). En general, método significa al procedimiento de realización
de una actividad. La expresión "método científico" puede utilizarse con carácter
general para referirse al procedimiento para generar conocimiento científico, pero
también se utiliza para referirse a conjuntos de técnicas particulares.

El método general que se viene aplicando en ciencias empíricas (basadas en


evidencia observable) como Psicología es el hipotético-deductivo, que se aplica en
las siguientes etapas: Fase 1. El punto de partida son cuestiones que se desea dar
respuesta o problemas que se desea resolver, para lo cual se elabora una hipótesis
explicativa. Fase 2: Deducción de consecuencias verificables de las hipótesis. Las
consecuencias son contrastadas con la evidencia para establecer si ésta respalda las
hipótesis explicativas. Si no es así se considera que las hipótesis están equivocadas,
total o parcialmente. El método científico general difiere según el tipo de
investigación, el objeto a que se aplica y el tipo de cuestiones a que se quiere dar
respuesta
Estadística Descriptiva
Tema 1: La investigación
1 Introducción
2 Función de la Estadística
3 El proceso de investigación
3.1 Teorías, modelos.
3.2 Variables
3.3 Métodos y diseños
3.3.1 Métodos
3.3.2 Diseños
3.4 Análisis de datos
3.5 El informe
Tema 2: Organización de datos
Tema 3: Caracterización de grupos
Tema 4: Medidas de posición individual
Tema 5: Correlación
Tema 6: Regresión lineal
Tema 7: Probabilidad

3.3.1 Métodos

La investigación realizada con métodos descriptivos es denominada investigación


descriptiva, y tiene como finalidad definir, clasificar, catalogar o caracterizar el
objeto de estudio. Cuando tiene la finalidad de conseguir descripciones generales
diremos que es de tipo nomotético, y cuando la finalidad es la descripción de
objetos específicos diremos que es idiográfica. Los métodos descriptivos pueden ser
cualitativos o cuantitativos. Los métodos cualitativos se basan en la utilización del
lenguaje verbal y no recurren a la cuantificación. Los principales métodos de la
investigación descriptiva son el observacional, el de encuestas y los estudios de
caso único.

Observacional

La investigación observacional consiste en registrar el comportamiento en el


entorno habitual del sujeto. Características: a) definición precisa de las condiciones
de observación, b) sistematización y objetividad y, c) rigor en el procedimiento de
registro del comportamiento. Los métodos observacionales pueden ser con
intervención o sin intervención. La observación sin intervención tiene por finalidad
observar el comportamiento tal como ocurre de forma natural, y en ella el
observador se limita a registrar lo que observa, sin manipular ni controlar.

Encuestas

La investigación con encuestas se caracteriza por utilizar cuestionarios para


registrar las respuestas de los sujetos. La finalidad más habitual de la investigación
con encuestas es la descripción de pensamientos, opiniones y sentimientos.
Procedimientos: Correo, entrevistas personales, teléfono, Internet. Correo: El
principal inconveniente es el sesgo introducido por el elevado índice de encuestas
no contestadas, especialmente si piden datos de tipo personal. Entrevistas
personales: la principal ventaja es el grado de control del investigador a la
obtención de respuestas. Inconveniente: sesgo del experimentador y coste
económico. Teléfono: la principal ventaja es la simplicidad del procedimiento.
Inconveniente: Dificultad de que la muestra sea representativa dada la relación
entre selección de sujeto, variedad de operadores telefónicos o falta de teléfono.
Internet: la principal ventaja es la facilidad de llegar a muestras grandes, y las
principales desventajas son la dificultad por trabajar con muestras representativas y
la falta de control del proceso.

Cualitativo

Tiene por objeto de estudio el comportamiento en su ámbito natural, y se propone


desvelar el significado del comportamiento más que su cuantificación.

Métodos correlacionales o asociativos

La investigación correlacional o asociativa tiene por finalidad establecer relaciones


de concomitancia o covariación entre variables en base a las cuales podemos hacer
predicciones. Las predicciones obtenidas con métodos correlacionales no tienen
valor causal dado que se basan en la ocurrencia conjunta de los hechos o variación
simultánea de las variables, y no podemos decir que la variación en la variable de la
que hacemos las predicciones es ocasionada por la variable predictora.

Métodos experimentales

Las características específicas de la investigación experimental son la manipulación


de la variable independiente y el control de las variables perturbadoras. La variable
independiente es aquella cuya manipulación es seguida de variación en la variable
dependiente. Las variables dependientes son aquellas que cambian como
consecuencia de la manipulación de la variable independiente, es decir "dependen"
de la variable independiente. Se denomina proceso interveniente el mecanismo por
el que la variable independiente influye en la variable dependiente (por ejemplo, la
depresión es el proceso o variable interviniente que explica la relación entre
variables independientes (por ejemplo acontecimientos negativos) y dependientes
como la tristeza. Las variables perturbadoras son aquellas que producen efecto en
la variable dependiente pero no son las variables independientes. Para evitar que
sus efectos confundan las conclusiones hay que controlarlas, lo que generalmente
se consigue mediante la aleatorización de la asignación de los indivíduos a las
condiciones experimentales. La investigación experimental tiene valor causal si
cumple las siguientes condiciones: variación conjunta de las variables
independientes y dependientes, temporalidad (la variación en las variables
dependientes tiene que ocurrir después de la manipulación de las variables
independientes) y la neutralización de otros posibles causas excepto la que es
manipulada.

3.3.2 Diseños

Generalmente se entiende por diseño el plan de asignación de las unidades de


observación (los individuos participantes) a las condiciones de la investigación.
Ejemplo: Si queremos comparar la efectividad de dos tratamientos, asignamos un
grupo de pacientes a los que aplican el tratamiento, y asignamos otros pacientes a
otro grupo al que aplican el tratamiento, y el diseño es el plan específico de
asignación de sujetos a ambos grupos.

Diseños de grupos independientes: Las unidades de observación (los sujetos


experimentales) son asignados aleatoriamente a cada grupo. Si cada grupo
representa una condición diferente de la variable independiente. El control de las
variables perturbadoras es obtenido mediante aleatorización de las unidades de
observación, dado que así esperamos que las variables perturbadoras tengan el
mismo efecto en todos los grupos. Si los niveles de la variable independiente son
consecuencia de la manipulación por el investigador y se cumple la condición de
aleatorización, estos diseños son experimentales. Si los sujetos son asignados
(aleatoriamente) a grupos que representan niveles observados (no resultantes de la
manipulación) de la variable independiente, los diseños son denominados ExPost-
facto o selectivos (los niveles son seleccionados, pero no manipulados).

Diseños intrasujetos o de medidas repetidas: Asignan a cada sujeto todas las


condiciones de la variable independiente. En consecuencia, la magnitud de las
variables perturbadoras es constante para cada sujeto y la variación observada en
cada sujeto es explicada por la variación de la variable independiente. Un problema
en estos diseños es el efecto de la práctica, que puede introducir cambios en el
estado de los sujetos a medida que transcurre la investigación. Estos diseños son
de utilidad cuanto hay pocos sujetos experimentales, para incrementar la eficiencia
del experimento y cuando la finalidad de la investigación es estudiar los cambios
conductuales a lo largo del tiempo.

Diseños Cuasi-experimentales: Son una alternativa a los diseños experimentales


cuanto estos no pueden ser aplicados. Se caracterizan por un control deficiente,
generalmente por la no aleatorización de los sujetos.

Diseños de caso único. La muestra está compuesta por un solo sujeto del que se
obtienen observaciones repetidas en el tiempo.

.4 Análisis de datos

El análisis de datos tiene por finalidad obtener la información contenida a los datos
y que es necesaria por dar respuesta a las cuestiones planteadas. En la etapa de
interpretación y valoración de resultados se interpreta los resultados obtenidos en el
análisis y se da una primera respuesta a las cuestiones planteadas de acuerdo a los
resultados, se valoran en relación a la teoría, se plantea nuevas explicaciones
hipotéticas y se sugiere nuevas investigaciones.

.5 El informe
El informe de investigación da cuenta de la investigación y debe incluir los
siguientes apartados: a) Título. Debe ser breve y debe acotar el objeto del informe,
por lo que no debe ser demasiado general. b) Introducción, donde se expone la
cuestión a resolver, se toma en consideración las teorías explicativas, se considera
su pertinencia y se enuncian las cuestiones que pretende dar respuesta la
investigación y se avanzan las respuestas o soluciones hipotéticas. c) Variables y
muestras: Se define las variables y se describe las muestras de participantes. d)
Método: Definición de las variables, características y codificación de los datos, las
muestras y en su caso, del plan de asignación de sujetos a los grupos
experimentales. Este apartado también debe detallar las técnicas con que se va a
analizar los datos. e) Resultados. Se ofrece y comenta los principales resultados. f)
Comentarios: En este apartado se comenta los resultados en relación a las
cuestiones planteadas en la Introducción, y también se analiza su relación con las
teorías explicativas del problema objeto del informe, así como se consideran
posibles explicaciones alternativas y se enuncia las siguientes investigaciones
relacionadas con la temática objeto del informe. El informe debe ser redactado en
un lenguaje accesible a quien va dirigido, no debe contener expresiones técnicas (a
no ser que se explique su significado) y debe recurrir a las gráficas para facilitar la
comprensión de resultados y conclusiones

Tema 2: Organización de datos

1 Introducción

2 Bases de datos

2.1 Codificación, introducción de datos, depuración, transformaciones y


tratamiento de ficheros

2.2 Valores atípicos

2.3 Valores faltantes

3 Distribución de frecuencias

4 Gráficas para variables cualitativas y cuantitativas

Introducción

Actualmente los datos suelen ser analizados con ordenador, por lo que deben ser
almacenados en archivos informáticos. Las bases de datos contienen datos
provenientes de un número de observaciones más o menos grande respecto de un
conjunto de variables que puede llegar a ser bastante grande. La generación de una
base de datos supone la codificación previa de las observaciones, la introducción
(grabación) de los datos en archivos informáticos, la depuración de los datos ya
grabados (detección y tratamiento de los errores de grabación y valores faltantes),
y eventualmente la realización de transformaciones y tratamiento de ficheros que
faciliten su posterior tratamiento estadístico.

2.1 Codificación, ...

Codificación

Codificar datos es asignar números a las modalidades observadas o registradas de


las variables que constituyen la base de datos, así como asignar código (valor
numérico) a los valores faltantes (aquellos que no han sido registrados u
observados). Ejemplo: Si la base de datos incluye la variable Sexo, hay que asignar
un número a las mujeres y otro a los hombres. Si se trata de variables
cuantitativas, hay que definir el número de decimales que van a ser registrados.

Introducción de datos

La primera cuestión a considerar es la disposición las variables y las unidades de


observación (generalmente los individuos de los que se recoge los datos). Hay dos
grandes disposiciones generales, la más frecuente consiste en disponer los casos
(generalmente los individuos) por filas y las variables por columnas. Ejemplo:

La disposición anterior es típica de los diseños transversales o estáticos (los


datos representan observaciones realizadas en un solo momento temporal). La
siguiente disposición es utilizada habitualmente para diseños longitudinales (los
datos son registrados a lo largo de intervalos temporales):
En la tabla anterior, las filas representan sujetos y las columnas (cigseg3, cigseg6 y
cigseg12, cigfin) contienen el número de cigarrillos consumidos antes, durante y al
acabar una terapia de tabaquismo.

Si el diseño es transversal pondremos las variables por columnas (una variable por
columna) y si hay más de un grupo hay que decidir entre dos posibilidades en
función de los análisis que queremos hacer: La primera consiste en introducir los
datos de los grupos en columnas (una para los datos de cada grupo) y la segunda
posibilidad consiste en introducir los datos de todos los grupos en la misma columna
y definir una nueva variable donde introducimos los código de identificación de los
grupos. Si el diseño es longitudinal lo habitual es que en las columnas representen
los momentos temporales en que se observa las variables.

El paso siguiente consiste en introducir las características de variables y datos. En


SPSS hay que activar la ventana "Vista de variables" clicando en la parte inferior de
la pantalla. A continuación hay que introducir las características de cada variable en
la fila: 1) Ajustar decimales. 2) Etiquetar las variables (en su caso). 4) Etiquetar los
valores de las variables (en su caso). 5) Definir valores perdidos (en su caso). 5)
Señalar la escala de medida.

Ejemplo: Generación de la página "Vista de variables" para una base de datos


SPSS de la siguiente encuesta:

La vista de datos tiene la siguiente apariencia: (Si no la ves bien pon el ratón en la
esquina inferior de la derecha, arrastra y haz más grande la imagen. Puedes hacer
lo mismo desde la esquina a la izquierda para hacer la imagen más pequeña)
Para introducir los datos hay que ir a la página "Vista de datos" e introducir los
datos desde las teclas numéricas (para hacer efectiva la grabación hay que pulsar la
tecla de introducción para cada dato).

Depuración

Depurar una base de datos consiste en detectar los valores anómalos y tratarlos de
manera que no distorsionen los resultados del análisis de datos. El tratamiento
puede consistir en eliminarlos o asignarles números de código que los identifiquen.
(Puedes consultar el detalle del procedimiento en el apartado "Depuración" del
documento "Manual de informática")

Transformaciones

Una vez grabados, los datos pueden ser transformados para facilitar su análisis.
Algunas de las transformaciones más corrientes consisten en recodificar variables,
definir nuevas variables a partir de variables existentes, reemplazar los valores
perdidos. (Puedes consultar algunos procedimientos en los apartados "Nuevas
variables" y "Recodificar variables" del documento "Manual de informática")

Tratamiento de ficheros

Los ficheros pueden ser tratados para facilitar el análisis de los datos. Algunas de
las operaciones más frecuentes son segmentar, añadir casos u otros archivos,
muestreo, etc.

2.2 Valores atípicos

Son observaciones cuyos valores son muy diferentes a las otras observaciones del
mismo grupo de datos. Los datos atípicos son ocasionados por:

a) Errores de procedimiento.

b) Acontecimientos extraordinarios.
c) Valores extremos. Por ejemplo, una muestra de datos del número de cigarrillos
consumidos a diario contiene el valor 60 porque hay un fumador que fuma sesenta
cigarrillos al día.

d) Causas no conocidas.

Los datos atípicos distorsionan los resultados de los análisis, y por esta razón hay
que identificarlas y tratarlos de manera adecuada, generalmente excluyéndolos del
análisis

2.3 Valores faltantes

Son aquellos que no constan debido a cualquier acontecimiento, como por ejemplo
errores en la transcripción de los datos o la ausencia de disposición a responder a
ciertas cuestiones de una encuesta. Los datos pueden faltar de manera aleatoria o
no aleatoria.

Los datos faltantes aleatorios pueden perturbar el análisis de datos dado que
disminuyen el tamaño de las muestras y en consecuencia la potencia de las pruebas
de contraste de hipótesis. Los datos faltantes no aleatorios ocasionan, además,
disminución de la representatividad de la muestra.

Tratamiento

De casos completos o eliminación por lista

Este procedimiento consiste en incluir en el análisis los casos que presentan


observaciones completas en todas las variables. Este método solo debe utilizarse
cuando el proceso de recogida de datos es aleatorio, porque en otro caso introduce
sesgo. Otro inconveniente es que el tamaño muestral puede llegar a sufrir una gran
reducción y afectar a la representatividad de la muestra.

Selección por variables

Se mantienen en la base de datos los casos con tal que tengan datos en las
variables que van a ser utilizadas para el análisis. Este procedimiento tiene el
inconveniente de generar muestras heterogéneas.

Métodos de imputación

Los métodos de imputación consisten en estimar los valores ausentes en base a los
valores válidos de otras variables y/o casos de la muestra. La estimación se puede
hacer a partir de la información del conjunto completo de variables o bien de
algunas variables especialmente seleccionadas. Usualmente los métodos de
imputación se utilizan con variables métricas (de intervalo o de razón), y deben
aplicarse con gran precaución porque pueden introducir relaciones inexistentes en
los datos realas.
Principales procedimientos:

Sustitución por la Media. Consiste en sustituir el valor ausente por la Media de los
valores válidos. Este procedimiento plantea inconvenientes como:

Dificulta la estimación de la Variáncia.

Distorsiona la verdadera distribución de la variable,

Distorsiona la correlación entre variables dado que añade valores constantes.

Sustitución por constante. Consiste en sustituir los valores ausentes por constantes
cuyo valor viene determinado por razones teóricas o relacionadas con la
investigación previa. Presenta los mismos inconvenientes que la sustitución por la
Media, y solo debe ser utilizado si hay razones para suponer que es más adecuado
que el método de la media.

Imputación por regresión. Este método consiste en estimar los valores ausentes en
base a su relación con otros variables mediante Análisis de Regresión.

Inconvenientes:

- Incrementa artificialmente las relaciones entre variables.

- Hace que se subestime la Variáncia de las distribuciones.

- Asume que las variables con datos ausentes tienen relación de alta magnitud con
las otras variables.

Ejemplos

El siguiente conjunto de datos consta de tres variables y diez casos. El conjunto es


incompleto porque en la variable 1 faltan los datos de los casos cinco y ocho. En la
variable 2 faltan los datos de los casos uno, cinco, siete y nueve. En la variable 3
faltan los datos de los casos tres, siete y nueve.
Estadísticos descriptivos (Medias) obtenidos excluyendo los casos incompletos
(selección por lista):

La muestra original ha quedado reducida a cuatro casos.

Casos excluidos por variables (por parejas):

La tabla de la izquierda muestra el número de parejas con datos en ambas


variables. Por ejemplo, el número de parejas completas en las variables 1 y 2 es
cinco, etc.

En la tabla de la derecha aparecen las Medias de cada variable obtenidas incluyendo


los casos con datos completas por parejas. Como ejemplo, la Media de la variable 1
obtenida con los datos de la variable 1 que tienen pareja en la variable 2 es 5.2

Sustitución por imputación de la Media:

Los valores ausentes de la siguiente tabla han sido sustituidos por las Medias de las
respectivas variables:

Imputación por Regresión:

Los valores ausentes de la siguiente tabla han sido han sido sustituidos por valores
estimados mediante Análisis de Regresión:
3 Distribución de frecuencias

Las distribuciones de frecuencias son tablas en que se dispone las modalidades de


la variable por filas. En las columnas se dispone el número de ocurrencias por cada
valor, porcentajes, etc. La finalidad de las agrupaciones en frecuencias es facilitar la
obtención de la información que contienen los datos.

Ejemplo: Quieren conocer si un grupo de individuos está a favor o en contra de la


exhibición de imágenes violentas por televisión, para lo cual han recogido los
siguientes datos:

La inspección de los datos originales no permite responder fácilmente a cuestiones


como cuál es la actitud mayoritaria del grupo, y resulta bastante más difícil
determinar la magnitud de la diferencia de actitud entre hombres y mujeres.

Podemos hacernos mejor idea si disponemos en una tabla los valores de la variable
acompañados del número de veces (la frecuencia) que aparece cada valor:

X: Símbolo genérico de la variable.

f: Frecuencia (también se simboliza como ni).


La distribución de frecuencias de los datos del ejemplo muestra que la actitud
mayoritaria de los individuos del grupo estudiado es indiferente.

La interpretación de los datos ha sido facilitada porque se ha reducido el número de


números a examinar (en vez de los 20 datos originales, la tabla contiene 5 valores
de la variable y 5 frecuencias).

Generalmente las tablas incluyen varías columnas con las frecuencias relativas (son
el número de ocurrencias dividido por el total de datos, y se simbolizan "fr" o "pi"),
frecuencias acumuladas (la frecuencia acumulada es el total de frecuencias de los
valores iguales o inferiores al de referencia, y se simbolizan "fa" o "na". No obstante
la frecuencia acumulada también es definida incluyendo al valor de referencia),
frecuencias acumuladas relativas (la frecuencia acumulada relativa es el total de
frecuencias relativas de los valores iguales o inferiores al de referencia, y se
simbolizan "fr" o "pa")

Ejemplo: Consideremos el siguiente grupo de datos:

La distribución de freciemcias es:

La reducción de datos mediante el agrupamiento en frecuencias no facilita su


interpretación: La tabla es F
Si una variable se obtenida según la expresión

Donde C1 y C2 se distribuyen según Ji Cuadrado con "m" y "n" grados de libertad


respectivamente, seguirá la distribución F con "m" y "n" grados de libertad.

Principales características

a) El modelo F define un conjunto de distribuciones cuya forma es diferente según


el número de grados de libertad.

b) Es una distribución asimétrica positiva, pero cuanto mayor sea el número de


grados de libertad, más se acerca la distribución F a la distribución Normal.

c) Solo puede tomar valores positivos.

Ejemplo con 2 y 5 g.l:

d) La función de distribuciónwonder00.. de la distribución t está tabulada para


algunos valores que son de interés en Estadística Inferencial.

demasiado grande. Para reducir el tamaño de la tabla agrupamos los valores en


intervalos, y las frecuencias son las de los conjuntos de valores incluidos en los
intervalos:
Ahora es más sencillo interpretar los datos. Por ejemplo, podemos apreciar
inmediatamente que el intervalo con mayor número de datos es el 34-39, o que el
75% de los datos tiene valor inferior a 46.

Este tipo de tabla es denominado "tabla de datos agrupados en intervalos".

Elementos básicos de las tablas de intervalos:

 Intervalo: Cada uno de los grupos de valores de la variable que ocupan una
fila en una distribución de frecuencias
 Límites aparentes: Valores mayor y menor del intervalo que son observados
en la tabla. Dependen de la precisión del instrumento de medida. En el
ejemplo, los límites aparentes del intervalo con mayor número de frecuencias
son 34 y 39.
 Límites exactos: Valores máximo y mínimo del intervalo que podrían medirse
si se contara con un instrumento de precisión perfecta. En el intervalo 34-39,
estos límites son 33.5 y 39.5
 Punto medio del intervalo (Mco Marca de clase): Suma de los límites dividido
por dos. Mc del intervalo del ejemplo= 36.5
 Amplitud del intervalo: Diferencia entre el límite exacto superior y el límite
exacto inferior. En el ejemplo es igual a 6.
 4.1 Variables cualitativas

 Diagrama de sectores. Consiste en un círculo subdividido en áreas cada una
de las cuales es proporcional a la frecuencia de la modalidad que representa.
 Ejemplo con los datos de exhibición de imágenes en la televisión:

 Diagrama de barras: Consiste en un conjunto de barras (tantas como
modalidades de la variable) cuya altura es proporcional al número de
frecuencias de la modalidad.
 Ejemplo con los mismos datos:


 .2 Variables cuantitativas

 Variables discretas
 Diagrama de barras.
 Variables continuas
 Histograma: Semejante al diagrama de barras, la diferencia consiste en que
las barras son adyacentes, lo cual indica que el nivel de medición es de
intervalo, cuando menos.
 Polígono de frecuencias: Se obtiene uniendo con líneas rectas los puntos
medios de los rectángulos del histograma.
 Curva suavizada: Aproxima mediante la línea curva los vértices del
histograma: La curva suavizada tiene por finalidad visualizar la forma de la
distribución eliminando la variación ocasionada por los datos particulares con
que se trabaja.
 Ejemplo de histograma con curva suavizada:


 Perfil ortogonal: Se obtiene uniendo mediante líneas rectas los puntos que
se corresponden con las magnitudes de las variables. El eje vertical contiene la
escala de la variable y el eje horizontal las modalidades de la variable o, a
veces, la escala temporal.


 4.3 Normas para gráficas

 1. Ordenada: Es el eje vertical. En la ordenada se suele disponer la escala de
frecuencias.
 2. Abscisa: Es el eje horizontal y donde se suele disponer la escala de valores
de la variable
 3. La intersección de los dos ejes es el origen
 4. El eje de ordenadas debe tener una longitud de unas tres cuartas partes de
la longitud de la abscisa.
 5. Es conveniente incluir en cada gráfica toda la información posible para su
correcta interpretación (rótulo general, rótulos que indiquen qué variables
representa la gráfica, etc.)
 6. Dar información clara y sencilla.
 Distribuciones de frecuencias. Histogramas y
polígonos de frecuencias

 La finalidad del ejercicio es facilitar la comprensión intuitiva de las
distribuciones de frecuencias y su relación con los histogramas y polígonos de
frecuencias.
 Para descargar el ejercicio, clica aquí
 ema 3: Caracterización de grupos
 1 Introducción
 2 Tendencia central
 2.1 Concepto
 2.2 Moda
 2.3 Mediana
 2.4 Media aritmética.
 2.5 Otras medias
 2.6 Criterios de uso
 3 Variabilidad
 3.1 Concepto
 3.2 Amplitud, Varianza y Desviación Típica (muestral y poblacional)
 3.3 Otras medidas: Amplitud Intercuartílica y Coeficiente de Variación
 3.4 Criterios de uso
 4 Asimetría: Introducción y principales medidas
 5 Representación gráfica: diagramas de caja y barras de error
 1 Introducción

 Una de las funciones de la Estadística es dar información sobre características
de los grupos. Las características más importantes son la tendencia central, la
variabilidad y la simetría. La tendencia central es el valor alrededor del cual se
sitúa la mayor parte de los datos. La variabilidad se refiere a las diferencias
individuales dentro del grupo. Cuanto mayores sean las diferencias entre los
individuos del grupo, diremos que mayor es la variabilidad en ese grupo. La
simetría caracteriza la forma de la distribución de datos del grupo, si la mitad
inferior se distribuye de la misma forma que la mitad superior se dirá que la
distribución es simétrica, si no es así, se dirá que es asimétrica.
 Estadística Descriptiva
 Tema 1: La investigación
 Tema 2: Organización de datos
 Tema 3: Caracterización de grupos
 1 Introducción
 2 Tendencia central
 2.1 Introducción
 2.2 Moda
 2.3 Mediana
 2.4 Media aritmética
 2.5 Otras medias
 2.6 Criterios de uso
 EJERCICIO 3.1
 3 Variabilidad
 4 Asimetría
 5 Gráficas
 Tema 4: Medidas de posición individual
 Tema 5: Correlación
 Tema 6: Regresión lineal
 Tema 7: Probabilidad
 2.1 Introducción

 Las medidas de tendencia central señalan el valor alrededor del cual se sitúa la
mayor parte de los datos del grupo, y cumplen una función doble: a) Indican
cuál es la posición del grupo (cuál es la magnitud general de la variable en el
grupo), y b) Reducen el conjunto de datos del grupo a UN solo número
(reducción de datos).
 Ejemplo: A menudo dicen que las chicas son más introvertidas que los chicos.
Para ver si es verdad un psicólogo administra un cuestionario de
Intraversión/Extraversión a un grupo de chicos y a un grupo de chicas y
obtiene los siguientes datos:


 El tamaño de los grupos comparados dificulta responder a la cuestión
planteada dado que hay muchos datos para hacerse una idea a simple vista.
Una solución consiste en reducir el número de datos al máximo, sustituyendo
los grupos de datos por valores que representen la magnitud general de la
variable en cada grupo. Lo estadísticos más habituales para obtener medidas
de tendencia central son la Moda, Mediana y la Media.
 .2 Moda

 Definición y cálculo
 La Moda es un estadístico muy sencillo: Es el valor más frecuente.


 Casos particulares:
 a) Grupos (distribuciones) bimodales: hay dos Modas.


 b) Ninguna Moda: Distribución amodal.


 d) Dos Modas adyacentes (solo en variables cuantitativas). En este caso se
calcula el promedio de los dos valores modales.


 e) Datos agrupados en intervalos. La Moda es la Marca de Clase del intervalo
cuya frecuencia es mayor.
 Ejemplo :

 Moda= 13
 Ejemplo del estudio de Intraversión en chicos y chicas:



 Hay varias Modas: 45, 54 y 55

 Principales características
 No tiene en cuenta las puntuaciones cuya frecuencia NO es la más grande.
 No le afectan las puntuaciones extremas.


 La Moda es la misma en los dos grupos comparados, que son idénticos excepto
en la puntuación más grande (8 y 800).

 3 Mediana

 Definición y cálculo
 Es el valor que deja por bajo la mitad de los datos de la distribución.
 Cálculo:
 Si el número de datos es impar, la Mediana es el valor de la puntuación que
deja por bajo la mitad de los datos.


 Si el número de datos es par, la Mediana es el promedio de los valores
adyacentes a la puntuación que deja por bajo la mitad de los datos.


 Principales características
 a) No le afectan las puntuaciones extremas.


 (Observa que la Moda tiene idéntico valor en ambos grupos pese a que las
puntuaciones extremas superiores sean muy diferentes)
 b) No depende de la Media. En el cálculo de la Moda no interviene la Media, lo
que es deseable cuando la Media no es adecuada.
 .4 Media aritmética

 Definición y cálculo
 La Media (en símbolo M) es el cociente entre la suma de los datos y el número
de datos.


 Ejemplo:


 En el estudio de Intraversión, las medias son:


 Las medias son muy semejantes, lo cual indica que los grupos ocupan la
misma posición (casi), y hay poca diferencia en la tendencia central de los
grupos comparados.
 Principales características
 a) Tiene en cuenta todas las puntuaciones (el numerador de la fórmula es la
suma de todas las puntuaciones).
 b) Es sensible a las puntuaciones extremas, y en esos casos NO representa
adecuadamente el grupo (excepto cuando las puntuaciones se sitúan en
ambos extremos y tienen la misma magnitud). Ejemplo:

 En el grupo A la mayor parte de los datos tienen valores en torno al 5, pero en
el grupo B los datos no están agrupados en torno al 84.2
 5 Otras medias

 Media ponderada
 La Media ponderada se utiliza para obtener la Media de las Medias.
 Fórmula:


 n: Tamaño de cada grupo.
 Ejemplo
 Se desea obtener la media de la variable X sabiendo que las medias obtenidas
en tres grupos son 10, 15 y 5. Teniendo en cuenta que los tamaños de los
grupos son 20, 50 y 15 y aplicando la expresión de la media ponderada
obtenemos la media total:


 Medias recortadas
 Las Medias recortadas tienen por finalidad evitar la distorsión que las
puntuaciones extremas no compensadas causan a la Media aritmética. Para
obtener la Media recortada excluimos las puntuaciones de los extremos
superior e inferior de la distribución, como el 10% de las puntuaciones del
extremo superior y el 10% de las puntuaciones del extremo inferior. Ejemplo:


 La Media recortada ha sido obtenida eliminando el 2 y el 800 de la
distribución.
 6 Criterios de uso

 - Como medidas de posición de los grupos, las medidas de tendencia central
indican la distancia que los separa. Como ejemplo, la comparación de las
Medias obtenidas con los datos de chicos y chicas en la variable
Intraversión/Extraversión muestra una diferencia pequeña (un punto
aproximadamente). Diremos que los dos grupos se sitúan en la misma
posición (salvo el punto de diferencia).
 En cambio, el siguiente ejemplo muestra dos grupos que ocupan posiciones
alejadas:

 - Por otro lado las medidas grupales representan el grupo, no al individuo. Si
nos informan que la Media es igual a 4.8 sabemos dónde está el grupo, pero
no donde están los individuos. En el grupo A del anterior ejemplo la Media es
igual a 4.8, pero no obstante, las puntuaciones individuales presentan otros
valores.
 - La observación anterior es particularmente importante a la hora de hacer
comparaciones de grupos, pues las conclusiones valen para los grupos, pero
no para los individuos. Ejemplo: Los siguientes grupos ocupan posiciones
diferenciadas y aunque el grupo A tiene una Media superior a la de B, NO
todos los individuos de A tienen presentan magnitudes mayores que todos los
individuos de B (hay solapamiento).
 Como norma general, utilizaremos la Media siempre que no haya razones en
contra.
 Utilizaremos la Mediana si la escala de medida es ordinal, hay valores
extremos, o intervalos abiertos.
 Utilizaremos la Moda si la variable está medida con escala nominal o si, siendo
cuantitativa, cae dentro de un intervalo abierto.
 Caso de haber valores extremos y razones específicas, podremos utilizar la
Media recortada.
 1 Introducción

 Las medidas de dispersión indican el grado en que los datos de un grupo
difieren entre sí.
 Como ejemplo, consideremos los siguientes grupos de datos:


 Los grupos A, B y C son diferentes: En el grupo A todas las puntuaciones son
iguales, y diremos que no hay variación. En los grupos B y C todas las
puntuaciones son diferentes, y además, la magnitud de las diferencias en el
grupo C es mayor que en el grupo B. En consecuencia, es necesario que la
descripción de los grupos tenga en cuenta la variación de los datos y disponer
de medidas específicas de esta característica.
 Los estadísticos de tendencia central no son útiles como medida de la
variación: Las Medias y Medianas de los grupos A, B y C tienen el mismo valor,
5, porque no son sensibles a la variación entre datos.
 3.2 Amplitud

 La amplitud total (AT) es la diferencia entre la puntuación de mayor valor y la
de menor valor:


 La amplitud total es un estadístico muy sencillo y fácil de calcular, pero a
menudo esta simplicidad es un inconveniente. Consideremos el siguiente
ejemplo:


 Los grupos A y B son bastante semejantes, pero no los coeficientes de
amplitud. La diferencia en los coeficientes es ocasionada por la variación
introducida por una sola puntuación con valor extremo, el 1000. Por esta
razón es conveniente disponer de otras medidas más adecuadas.
 Principales características: Además de la ya señalada, el coeficiente de
amplitud total no tiene en cuenta los valores entre extremos, que son los que
determinan su valor.
 3.3 Varianza y DT

 La Varianza y la Desviación Típica tienen en cuenta todas las puntuaciones, y
son definidas por las siguientes expresiones:


 Motivación:
 Consideremos los siguientes datos de los grupos A, B y C:


 La diferencia de cada puntuación respeto de la Media (que es igual a 5 en los
tres grupos) es igual a:


 Cuanto más grande es la magnitud de las diferencias entre los datos, más
grandes son los valores de las diferencias respecto de la Media. Una forma
sencilla de resumir la información en cada una de las columnas de diferencias
consiste en sumarlas, pero tiene el inconveniente de que las sumas de
diferencias respecto de la Media siempre son igual a 0, por lo cual no indican si
hay variación.
 Para resolver este problema se eleva al cuadrado cada una de las diferencias y
se obtiene su suma:


 La suma de cuadrados de diferencias del grupo A, donde no hay variación, es
igual a 0, la del grupo B, donde la variación es de baja magnitud, es igual a 2,
y la del grupo C, donde la variación es de mayor magnitud que en el grupo B,
toma mayor valor: la suma de cuadrados es un estadístico sensibletodos los
datos del grupo. Dividiendo por N para hacer posible la comparación entre
grupos de diferentes tamaños resulta la Varianza: a la variación entre


 Puedes comprobar que la Varianza es igual a 0 en el grupo A (en que no hay
variación) y toma valores positivos de magnitud más grande cuantas más y de
mayor magnitud son las diferencias entre los datos dentro de cada grupo.
 La Varianza mide la variación a partir de los cuadrados de las diferencias, lo
cual tiene como consecuencia que está expresada en una escala de cuadrados.
Para obtener una medida en la misma escala de la variable se obtiene la raíz
cuadrada, y resulta la Desviación Típica:


 3.4 Cuasivarianza

 La Cuasivarianza se define:


 Es semejante a la Varianza, excepto que la división es por n-1 (tamaño de la
muestra) y no por N (tamaño del grupo de datos). Este estadístico es
apropiado para obtener estimaciones de la Varianza de la población en el
análisis inferencial de datos
 Principales características
 Varianza: NO se expresa en la escala original de la variable.
 Desviación Típica: Muy sensible a las puntuaciones extremas.
 Varianza y Desviación Típica:
 a) Tienen como valor mínimo el 0, y no tienen máximo.
 b) Si se suma una constante a las puntuaciones, no alteran su valor:


 .5 Otros estadísticos

 Amplitud Semiintercuartílica
 La amplitud Semiintercuartílica es la diferencia entre los Cuartiles tercero y
primero, dividida por dos:


 La motivación de este estadístico es evitar la perturbación causada por los
valores extremos (como sucede con la amplitud total), lo cual se consigue
eliminando los valores extremos al obtener la diferencia entre el Cuartil 3
(puntuación que deja por bajo el 75% de los datos) y el Cuartil 1 (puntuación
que deja por bajo el 25% de los datos).


 El resultado obtenido (Q=1) indica que hay variación en el grupo de datos
analizado.
 Valoración general del estadístico: Es una medida rudimentaria porque
depende primordialmente de dos datos.
 Coeficiente de Variación
 El Coeficiente de Variación es indicado para comparar grupos de datos en que
la escala es muy diferente, y se define:


 Ejemplo


 En el anterior ejemplo, la variación entre datos en cada variable es semejante.
La Desviación Típica, sin embargo, da un valor diferente para cada variable
porque expresa el resultado en la escala original. En cambio, el Coeficiente de
Variación toma el mismo valor e informa correctamente que la variación es
semejante en ambos grupos.
 4.1 Introducción

 (Nota: Las denominaciones presentan disparidad según la fuente y deben
tomarse con cautela)
 La asimetría indica el grado en que los datos se distribuyen equilibradamente
alrededor del punto central de la distribución.
 Supongamos que un psicólogo interesado en Psicología Educacional quiere
comparar las puntuaciones obtenidas en tres formas diferentes de examen (A:
Prueba con cuestiones "Verdadero/Falso". B: Ejercicios de respuesta abierta y
C: Ejercicios con ordenador) para determinar si la forma de examen influye en
las puntuaciones. El investigador forma tres grupos de estudiantes
seleccionados aleatoriamente y obtiene los siguientes resultados (datos
ficticios):


 Ordenando los datos de menor a mayor se ve que los resultados del examen
han sido diferentes en cada grupo:


 Tabla de frecuencias:
 Grupo A



 Tanto en los datos directos como en las tablas se aprecia que la puntuación
más frecuente en el grupo A ha sido el 5, y que pocos estudiantes han
obtenido puntuaciones altas (puntuaciones 7 y 8) o bajas (2 y 3). En el grupo
B, la mayoría de estudiantes ha suspendido. En el grupo C la mayor parte de
los estudiantes ha aprobado, y las puntuaciones más frecuentes son las más
altas. En consecuencia, parece que el tipo de examen sí influye en los
resultados.
 Los histogramas de las tres distribuciones son:

 La comparación de los histogramas muestra que en el Grupo B los rectángulos
más altos se encuentran a la izquierda, para encima de las puntuaciones más
bajas (escala horizontal), y lo contrario sucede en el grupo C.
 Por otro lado, el análisis de datos se suele realizar con la intención de
generalizar las conclusiones. En el ejemplo, lo que interesa saber es si al
examinar a cualquier estudiante con la prueba tipo B resultan puntuaciones
más bajas que con la prueba tipo A o C: NO interesan tanto los resultados
particulares obtenidos en el estudio porque reflejan circunstancias del
momento. Por esta razón se suele operar con las curvas suavizadas del
histograma (se presentan superpuestas):


 Las tres curvas son diferentes: La del centro (grupo A) es simétrica, las otras
dos no, y se dirá que son asimétricas. El extremo de la izquierda (la cola
izquierda) de la curva que representa la distribución de datos del grupo C se
extiende hacia la izquierda y diremos que esta distribución presenta
Asimetría negativa. Para el contrario, el extremo derecho (la cola derecha)
de la curva que representa la distribución del grupo B se extiende hacia la
derecha, y diremos que presenta Asimetría positiva.

 La Asimetría es una característica importante de las distribuciones de datos y
los estadísticos que la miden informan tanto del tipo de Asimetría (positiva o
negativa) como de su magnitud.
 .2 Índice de Media y Moda

 Para definir un procedimiento para medir la Asimetría comparamos las gráficas
de los tres grupos con los estadísticos de tendencia central:

 Se aprecia que:
 En el grupo A, que es simétrico, M y Mo tienen el mismo valor.
 En el grupo B, que es asimétrico positivo, M>Mo.
 En el grupo C, que es asimétrico negativo, M<Mo.
 En consecuencia utilizaremos la diferencia entre M y Mo para definir una
medida de Asimetría:


 En la anterior expresión, la Asimetría se mide como diferencia entre Media y
Moda, corregida respeto de la Desviación Típica para que la variación entre
datos no se confunda con la Asimetría.
 Cálculo
 Los índices de Asimetría de los grupos de datos del ejemplo son:


 Principales características
 a) Depende directamente de dos valores (M y Mo).
 b) En consecuencia, solo se puede utilizar este índice en distribuciones
unimodales.
 c) El 0 indica simetría; los valores positivos, Asimetría positiva y los valores
negativos indican Asimetría Negativa.
 d) No tiene valores máximo ni mínimo.
 .3 Índice del momento de tercer orden

 El índice de Asimetría basado en el momento de tercer orden toma en cuenta
todos los datos, y se define:


 Cálculo
 Ejemplo con los datos del grupo B:



 Sustituyendo en la fórmula:


 Principales características
 a) El 0 indica simetría; los valores positivos, Asimetría positiva y los valores
negativos indican Asimetría Negativa.
 b) No tiene valores máximo ni mínimo.
 4 Índice Intercuartílico

 El índice Intercuartílico permite disponer de una medida de Asimetría que sí
tiene máximo y mínimo, y se define a partir de la relación entre los Cuartiles
1, 2 y 3 (son las puntuaciones que dejan por bajo el 25, 50 y 75% de los
datos de la distribución), cuya distancia es mayor como mayor sea la
intensidad de la Asimetría.
 En la gráfica del grupo B se ha introducido líneas verticales que señalan la
posición de los tres Cuartiles. El Cuartil 3 "se va" hacia el extremo derecho
como consecuencia de la Asimetría de los datos:

 Índice de Asimetría Intercuartílico:


 El índice Intercuartílico tiene un valor mínimo igual a -1 (Asimetría negativa) y
un valor máximo igual a 1 (Asimetría positiva). El 0 indica que la distribución
es simétrica.
 Ejemplo


 Gráficas

 Diagramas de caja y bigotes
 Indica de manera proporcional la distancia entre las puntuaciones de valor
más alto y más bajo (excluidos los valores extremos) y los Cuartiles 3 y 1
(puntuaciones que dejan por bajo el 75% y el 25% de los datos).
 Ejemplo


 En la gráfica anterior podemos ver:
 a) La casi totalidad de los datos tienen valores entre 9 y 2 (son los límites de los
"bigotes").
 b) La mitad de los datos tienen valores entre 6 y 4 (límites de la caja central).
 c) La Mediana se encuentra alrededor del 5 (barra horizontal dentro de la caja).
 d) Hay dos valores extremos (1 y 11), señalados por los dos puntos exteriores a los
bigotes.

 Barras de error
 Representación de la posición grupal y de la variabilidad:

 La gráfica anterior representa la posición de cinco grupos de estudiantes en


ansiedad (escala en el eje vertical) y la variabilidad (líneas verticales). La
variabilidad de los grupos 4 y 5 es mayor que la de los grupos 1 y 2 (indicada
por la longitud de las líneas).
 Ejemplo
 Un psicólogo desea comprobar la efectividad de una nueva terapia para la
depresión. Para llevar a cabo el estudio, forma dos grupos de pacientes de
depresión a uno de los cuales (grupo E) aplica la terapia nueva durante tres
meses, y al otro (grupo C) la terapia que venía aplicando habitualmente. A los
tres meses obtiene medidas de depresión de todos los pacientes con los
siguientes resultados (las puntuaciones con valores superiores indican más
incidencia de depresión):




 Histogramas:


 ema 4: Medidas de posición individual
 1 Introducción
 2 Cuantiles: Rangos Percentiles, Percentiles, Deciles y Cuartiles
 3 Puntuaciones típicas: Introducción, cálculo y principales características
 4 Escalas derivadas
 1 Introducción

 Los estadísticos introducidos en este tema indican la posición relativa de las
puntuaciones individuales respecto de su grupo. Por ello, son especialmente
adecuadas para comparar datos de individuos respecto de grupos no similares
en tendencia central, variabilidad u otras características, y respecto de
variables con escalas diferentes. Por ejemplo, cuando se desea comparar la
situación de un estudiante en dos exámenes de diferentes asignaturas, o la
posición relativa en dos pruebas psicológicas una de las cuales da datos en
una escala de 20 puntos y la otra 30, etc.
 .1 Rangos Percentiles

 Consideremos el siguiente ejemplo: Un psicólogo hace el seguimiento de un
estudiante de Bachillerato que ha obtenido un 5 en los exámenes de
Matemáticas (M) e Historia (H). Las puntuaciones obtenidas por los
estudiantes de los dos grupos son:


 El estudiante ha quedado muy bien en Matemáticas, y mal en Historia en
relación a los resultados obtenidos por el resto del grupo, pero la puntuación
directa (el 5) es la misma en ambos exámenes. En conclusión, las
puntuaciones directas NO miden de manera adecuada de la posición de los
datos en relación al grupo. Por tanto, es preciso considerar un procedimiento
que sí lo haga.
 Si en lugar de operar con las puntuaciones directas obtenemos el porcentaje
de puntuaciones con valores inferiores vemos que el estudiante ha obtenido
una puntuación en Matemática que deja por bajo el 80% de las puntuaciones
de Matemáticas, y en Historia el 10% de Historia. De esta forma sí podemos
comparar el rendimiento del estudiante en los dos exámenes, y se denomina
Rango Percentil de una puntuación x el porcentaje de datos con
valores inferiores a x.
 Cálculo
 Fórmula de cálculo:


 fa: Frecuencia acumulada hasta el límite inferior del intervalo donde se
encuentra la puntuación x.
 f: Frecuencia de la puntuación x.

 Ejemplo

 Obtención del Rango Percentil de la puntuación 6:


 Se dirá que el Rango Percentil de 6 es igual a 40, lo que significa que el 40%
de las puntuaciones presenta valores inferiores a 6.
 (Nota: Se asume que las cuatro puntuaciones con valor 6 se distribuyen de
manera uniforme a lo largo del intervalo 5.5-6.5)
 2 Percentiles (Centiles)

 Se denomina Centil k o Percentil k la puntuación que deja por bajo el k por
ciento de las puntuaciones de una distribución. Los Centiles son un caso
particular de Cuantiles. Un Cuantil se define como una puntuación que deja
por bajo una proporción conocida (k) de puntuaciones.
 Ejemplo: Sea la siguiente distribución

 La puntuación que deja por debajo el 25% de los datos es (aproximadamente)
igual a 10.
 Cálculo
 Si se desea un resultado más preciso se puede utilizar la siguiente expresión:
(datos agrupados en frecuencias):



 Ejemplo
 Obtención de P60 (datos ya ordenados):


 Explicación:
 1) En primer lugar hay que obtener la posición del Centil, para lo cual hay que
conocer la frecuencia acumulada por bajo del Centil, que en el ejemplo es
igual a 9.
 2) Buscamos el valor que deja por bajo la frecuencia acumulada: Es el 5
(límite inferior exacto 4.5)
 3) Sustituir los símbolos de la fórmula y calcular.
 Principales características
 Las distancias entre Centiles, expresadas en términos de las puntuaciones
directas, NO son constantes, pero las áreas entre Centiles sí lo son.
 En distribuciones simétricas, las distancias entre Centiles son menores en la
parte central de la distribución que en los extremos.
 .3 Deciles y Cuartiles

 Los Deciles (D) son puntuaciones que dividen la distribución en diez partes. El
Decil 9 (D9), por ejemplo, es la puntuación que deja por bajo las nueve
décimas partes de la distribución.
 Los Cuartiles (Q) son puntuaciones que dividen la distribución en cuatro
partes. El Cuartil 1 (Q1), por ejemplo, es la puntuación que deja por debajo la
cuarta parte de la distribución
 .4 Relación entre cuantiles

 Los diferentes tipos de Cuantiles son equivalentes. Por ejemplo, el Centil 50 es
el mismo que el Decil 5 y el Cuartil 2: Es la puntuación que deja por bajo el
50% de los datos, que es lo mismo que las cinco décimas partes o las dos
cuartas partes.
 2.3 Deciles y Cuartiles

 Los Deciles (D) son puntuaciones que dividen la distribución en diez partes. El
Decil 9 (D9), por ejemplo, es la puntuación que deja por bajo las nueve
décimas partes de la distribución.
 Los Cuartiles (Q) son puntuaciones que dividen la distribución en cuatro
partes. El Cuartil 1 (Q1), por ejemplo, es la puntuación que deja por debajo la
cuarta parte de la distribución.
 2.4 Relación entre cuantiles

 Los diferentes tipos de Cuantiles son equivalentes. Por ejemplo, el Centil 50 es
el mismo que el Decil 5 y el Cuartil 2: Es la puntuación que deja por bajo el
50% de los datos, que es lo mismo que las cinco décimas partes o las dos
cuartas partes
 3 Puntuaciones típicas

 Introducción y cálculo
 Las puntuaciones típicas son un procedimiento alternativo para expresar la
posición de las puntuaciones directas en relación al grupo, y se definen:


 En el numerador se obtiene la diferencia de la puntuación X con la media del
grupo de datos. Esta diferencia mide la distancia al punto central de la
distribución. El denominador tiene la función de normalizar el resultado
respecto de la variación de la distribución.
 Consideremos los siguientes datos, que representan las puntuaciones
obtenidas por un grupo de estudiantes en dos exámenes:


 Observamos que un estudiante ha obtenido un 6 en la prueba A y un 9 en la
prueba B. Si comparamos estos dos resultados parece mejor el resultado en el
examen B que en el examen A. Ahora bien, si los expresamos como la
diferencia entre la puntuación y la Media de cada examen, (en símbolos: x=X-
MX) tenemos que:


 es decir, las puntuaciones diferenciales muestran que el estudiante ha
obtenido el mismo resultado en las dos pruebas (en relación al rendimiento
promedio en cada examen). Por tanto, si interesa expresar la posición de las
puntuaciones respecto del grupo, un procedimiento alternativo a los Rangos
Percentiles consiste en obtener las puntuaciones diferenciales.
 Sin embargo veamos los siguientes datos:


 Las puntuaciones diferenciales del primer estudiante son diferentes. En cambio
las posiciones relativas son las mismas (tanto el 6 como el 10 son las
puntuaciones más grandes en cada grupo). La conclusión es que el
procedimiento que consiste en obtener puntuaciones diferenciales no mide la
posición relativa correctamente. Al comparar con el primer ejemplo vemos que
lo único que ha cambiado es la variación entre los datos del grupo B. En
consecuencia hay que corregir las puntuaciones diferenciales respeto de la
variabilidad, y lo haremos dividiendo por la Desviación Típica:


 Las puntuaciones directas 6 y 10 han sido transformadas en dos puntuaciones
con el mismo valor, que es 1.22, lo cual expresa adecuadamente el hecho de
que el 6 (al grupo A) y el 10 (al grupo B) tienen la misma posición relativa.
 Se denomina tipificar el proceso de obtención de puntuaciones típicas a partir
de las puntuaciones expresadas en la escala original en que han sido obtenidas
(puntuaciones directas).

Principales características
 Las puntuaciones típicas expresan la distancia entre las puntuaciones y la
Media en términos de Desviaciones Típicas, es decir, indican cuántas
Desviaciones Típicas hay desde la puntuación hasta la Media. Esta
característica resulta del hecho de dividir la distancia entre puntuaciones
expresada en la escala original de la variable (numerador de la fórmula) por la
magnitud de la Desviación Típica (denominador), que está expresada en la
escala original.
 Indican la relación entre puntuaciones con independencia del grupo, variable o
unidad de medida, lo cual permite comparar puntuaciones expresadas en
escalas diferentes.
 La Media y Varianza de las distribuciones tipificadas son siempre iguales a 0 y
1.
 Escalas derivadas

 Las puntuaciones típicas pueden tomar valores difíciles de interpretar como
son el 0 y los negativos. Las escalas derivadas tienen la función de expresar
valores tipificados en escalas de interpretación más sencillas en que no tengan
valores negativos ni decimales. La transformación se hace de acuerdo con la
siguiente expresión:



 Ejemplo
 Una puntuación z igual a 1, expresada en una escala en que la Media es igual
a 10, y la Desviación Típica igual a 2 es:


 Escalas derivadas de amplia utilización en Psicología son la de puntuaciones T
(Media 50 y Desviación Típica igual a 10) y la del Cociente Intelectual (Media
100 y Desviación Típica igual a 15).

 Ejemplo

 Introducción

 La covariación es una cualidad de la relación conjunta entre variables, y es el
grado de coincidencia de las posiciones relativas de los casos en las variables.
Presenta dos características: sentido o tipo. Cuando la covariación es positiva
(o directa) los valores más altos en una variable tienden a coincidir con los
más altos de la otra variable, y cuando es negativa (o inversa) los valores más
altos en una variable tienden a coincidir con los más bajos de la otra variable,
e intensidad o magnitud, que es el grado en que las posiciones relativas de
los datos son coincidente (en sentido positivo o inverso), y que en la gráfica es
el grado hasta el que los puntos se acercan a la línea recta que representa
máxima covariación.
 .1 Tablas

 Las tablas bivariadas muestran la distribución de frecuencias conjuntas de dos
variables dispuestas respecto de dos ejes que representan los valores de cada
variable. La frecuencia conjunta (fij o nij) es el número de casos que presentan
el valor "i" en una variable y el valor "j" en la otra variable.
 Ejemplo
 Queremos estudiar si hay relación entre Estado Civil y preferencia por
programas de TV. Pedimos a un grupo de individuos que nos digan cuál tipo de
programa prefieren, y codificamos las respuestas siguiendo la siguiente regla:
 La variable X simboliza el tipo de programa, y los símbolos significan:


 La variable Y simboliza el estado civil, y los símbolos significan:


 Agrupamos los datos en una tabla bivariada de frecuencias:

 Los números en negrita son las frecuencias conjuntas, y los obtenemos
poniendo en cada casilla el número de veces que aparece cada combinación:
por ejemplo, en la casilla 1,1 (intersección de fila 1 y columna 1) hay un 3
porque la combinación 1,1 aparece 3 veces en los datos originales. En la
casilla 2,1 (intersección de fila 2 en la columna 1) hay 0 porque no hay ningún
caso con la combinación 2,1 en los datos originales, etc.). Las tablas
bivariadas pueden incluir los totales por filas y columnas, denominados
marginales y el total de casos. También pueden expresar las frecuencias
conjuntas y marginales como porcentajes o proporciones.
 Como conclusión, se aprecia que la tabla bivariada de frecuencias informa de
la relación entre variables, y por tanto es un elemento adecuado para obtener
estadísticos que midan con precisión la relación de asociación entre variables.
 2.2 Gráficas

 Variables cualitativas
 La siguiente tabla ha sido obtenida con un conjunto de datos de mayor tamaño
que el del ejemplo anterior, y muestra las marginales de fila y columna, así
como el total:


 La figura muestra la gráfica de los datos con que ha sido obtenida la tabla:

 Variables cuantitativas
 Diagrama de dispersión
 La gráfica que representa la covariación es denominada "diagrama de
dispersión", y consiste en un conjunto de puntos (denominado nube de
puntos) cuyas coordenadas son los valores de los casos en cada variable.
Ejemplo: (Si estás leyendo el tema en ordenador puedes activar el siguiente
ejemplo clicando de forma repetida sobre la imagen y ver paso a paso la
elaboración de la gráfica)


 donde:
 a) Cada uno de los ejes representa cada variable (el orden es arbitrario).
 b) Los puntos se sitúan en la intersección de las proyecciones de las posiciones
de cada caso en cada variable.
 Interpretación: Cuanto más próximos se sitúen los puntos a lo largo de una
recta imaginaria más intensa es la covariación (correlación). Si esta recta es
ascendente significa que la correlación es positiva o directa. Si la recta es
descendente significa que la correlación es negativa o inversa. Si los puntos
aparecen dispersos o adoptan una configuración en círculo indica que no hay
covariación (correlación). Cuando la covariación es positiva significa que los
valores de las dos variables tienden a coincidir, y cuando es inversa significa
que los valores más altos de una variable tienden a coincidir con los más bajos
de la otra variable. La disposición circular o dispersa de los puntos indica
ausencia de covariación.

 Ejemplos
 Covariación directa de magnitud (intensidad) alta:
 Supongamos que queremos saber si las capacidades para la Matemáticas y
para la Literatura son la misma, es decir, si los estudiantes que destacan en
Matemáticas también lo hacen en Literatura, y si los que tienen dificultades en
Matemáticas también tienen en Literatura, etc. Para llevar a cabo una
investigación recogemos datos de un grupo de estudiantes en dos pruebas,
una de Matemáticas (X) y de Literatura (Y), y supongamos que el resultado es
que los estudiantes que han obtenido las puntuaciones más altas en
Matemáticas también han obtenido las puntuaciones más altas en Literatura, y
los que han obtenido las puntuaciones más bajas en Matemáticas también han
obtenido las puntuaciones más bajas en Literatura: (Si estás leyendo el tema
en ordenador puedes activar el siguiente ejemplo clicando de forma repetida
sobre la imagen y practicar introduciendo tus datos, pero ten en cuenta que
deben ser de la misma escala para que aparezcan en la gráfica)


 Los puntos se sitúan alrededor de una recta ascendente imaginaria que
representa máxima covariación de tipo directo.
 Covariación inversa de magnitud (intensidad) alta:
 Las puntuaciones más altas en X corresponden con las puntuaciones bajas de
Y sin que la correspondencia sea perfecta: La puntuación más alta en X se
corresponde con la segunda más baja de Y, y la más baja de X con la segunda
más alta de Y):


 Los puntos se sitúan alrededor de una recta descendente imaginaria que
representa máxima covariación de tipo inverso
 Sin covariación:
 No hay correspondencia entre las posiciones de las puntuaciones en las dos
variables: puntuaciones altas en X corresponden con puntuaciones bajas y
altas en Y (el 6 con el 7, pero el 5 con el 4); puntuaciones bajas de X
corresponden con puntuaciones altas y bajas en Y (2 con el 5 y 3 con el 8):


 3.1 Coeficiente de Pearson

 La covariación es el grado de concordancia de las posiciones relativas de los
datos de dos variables. En consecuencia el coeficiente de correlación de
Pearson opera con puntuaciones tipificadas (que miden posiciones relativas) y
se define:


 El fundamento del coeficiente de Pearson es el siguiente: Cuanto más intensa
sea la concordancia (en sentido directo o inverso) de las posiciones relativas
de los datos en las dos variables, el producto del numerador toma mayor valor
(en sentido absoluto). Si la concordancia es exacta, el numerador es igual a N
(o a -N), y el índice toma un valor igual a 1 (o -1).
 Ejemplo 1 (Máxima covariación positiva)


 Observa que los datos tipificados (expresados como puntuaciones z) en las
dos columnas de la derecha tienen los mismos valores en ambas variables,
dado que las posiciones relativas son las mismas en las variables X e Y.
 Si obtenemos los productos de los valores tipificados para cada caso, el
resultado es:


 El cociente de dividir la suma de productos (5) por N (hay que tener en cuenta
que N es el número de casos, NO el número de datos) es igual a 1:

 Ejemplo 2 (Covariación positiva de alta intensidad)



 y por tanto,


 Ejemplo 3 (Ausencia de covariación)



 Ejemplo 4 (Covariación negativa de alta intensidad)



 Ejemplo 5 (Máxima covariación negativa)

 El valor de la correlación es igual a 1 o -1 si la covariación es de intensidad
máxima, y se va acercando hacia el 0 cuanto más pequeña sea la intensidad
de la covariación. Además, el índice tiene signo positivo cuando la covariación
es directa y negativo cuando es inversa.
 (Los ejemplos anteriores los puedes practicar con otros datos -pero de la
misma escala- si estás leyendo el tema en ordenador, para la que cual hay
que clicar dos veces en la siguiente imagen)


 Características
 a) El coeficiente de correlación de Pearson puede tomar valores entre -1 y 1.
 b) La correlación de una variable con ella misma siempre es igual a 1.
 c) El valor 0 indica ausencia de covariación lineal, pero NO si la covariación es
de tipo no lineal. (Ver ejemplo en el apartado de relaciones no lineales).
 .2 Covarianza

 El índice de Covarianza es el sumatorio de productos cruzados de las variables,
dividido por N:


 Una expresión equivalente es:


 A partir de la Covarianza se ha derivado la siguiente fórmula del coeficiente de
correlación de Pearson (esta fórmula es alternativa a la de productos cruzados
de las variables tipificadas y da el mismo resultado):

 Ejemplo (puedes activarlo clicando sobre la imagen):


 Características
 a) El índice de Covarianza toma:
 - El valor 0 si no hay covariación entre las variables.
 - Un valor positivo si hay covariación directa. Será más grande cuanto mayor
sea la intensidad de la covariación directa.
 - Un valor negativo si hay covariación inversa. Será más pequeño cuanto
mayor sea la intensidad de la covariación inversa.
 b) El índice de Covarianza no tiene máximo ni tampoco mínimo.
 c) El índice de Covarianza mide la covariación en la escala original de las
variables y es sensible a la variabilidad, por tanto NO debe ser utilizada para
hacer comparaciones cuando las escalas de las variables comparadas, o la
variación, son diferentes.
 Matrices

 Cuando se obtiene correlaciones de grupos de más de dos variables se suele
presentar los resultados dispuestos en tablas de doble entrada como es:

 Cada casilla muestra el coeficiente de correlación de Pearson (parte superior)
entre las variables de la fila y columna que se cruzan en ella. Debe notarse
que la diagonal principal siempre es igual a 1, pues contiene las correlaciones
de cada variable consigo misma (en ocasiones se pone las varianzas de cada
variable u otros estadísticos de interés). El conjunto de casillas por encima y a
la derecha de la diagonal principal es denominado porción triangular
superior, y el conjunto de casillas por debajo y a la izquierda de la diagonal
principal es denominado porción triangular inferior. En las publicaciones es
frecuente que solo se ofrezca la porción triangular inferior, ya que la porción
superior es simétrica de la anterior. La misma disposición se utiliza para
presentar las varianzas y covarianzas de las variables.
 Variables semicuantitativas

 El coeficiente de correlación de Spearman (rho) es una derivación del
coeficiente de correlación de Pearson para variables cuya escala sea ordinal:


 Puede tomar valores entre -1 y 1, que son interpretados de una manera
semejante a los del coeficiente de correlación de Pearson.
 Ejemplo


 Estadística Descriptiva
 Tema 1: La investigación
 Tema 2: Organización de datos
 Tema 3: Caracterización de grupos
 Tema 4: Medidas de posición individual
 Tema 5: Correlación
 1 Introducción
 2 Tablas y gráficas
 3 Variables cuantitativas
 4 Variables semicuantitativas
 5 Variables cualitativas
 5.1 Ji Cuadrado
 5.2 V de Cramer
 6 Escalas diferentes
 7 Relaciones no lineales
 Tema 6: Regresión lineal
 Tema 7: Probabilidad
 5.1 Ji Cuadrado

 El índice "Chi (Ji) Cuadrado" se define:


 donde
 fe: Frecuencia empírica.
 ft: Frecuencia teórica.
 El índice Ji Cuadrado se basa en la comparación de las frecuencias bivariadas
obtenidas a partir de los datos (frecuencias empíricas) con las frecuencias que
resultarían si NO hubiere relación de asociación entre las variables (frecuencias
teóricas).
 Las frecuencias teóricas pueden ser obtenidas a partir de un razonamiento
sencillo: Si no hubiere asociación entre X e Y, cada una de las modalidades de
cada variable estaría emparejada con cada una de las modalidades del otra
variable. Si no hay emparejamiento significa que hay asociación entre las
variables.
 El cálculo consiste en:
 a) Sumar cada fila y cada columna, obteniendo las renombradas distribuciones
marginales (que son las de cada variable por separado).
 b) Para cada casilla del interior de la Tabla, obtener el producto de la casilla
de su marginal fila por la casilla de su marginal columna y dividir por N
(número de casos).
 Ejemplo


 A continuación se aplica la fórmula obteniendo para cada casilla del cuerpo
central de la Tabla el cuadrado de la diferencia entre la frecuencia empírica y
la teórica, dividiéndolo por la frecuencia teórica. La suma total es el valor del
estadístico Ji Cuadrado:

 Principales características
 a) El índice Ji Cuadrado tiene valor mínimo 0, que indica NO asociación entre
las variables.
 b) No hay máximo, por lo que no se puede hacer comparaciones entre
diferentes variables.
 2 V de Cramer
 5.2 V de Cramer
 La V de Cramer es una corrección que se puede aplicar al coeficiente Ji
Cuadrado, lo cual permite obtener un índice con valor máximo (que indica la
mayor asociación entre variables) igual a 1 (el valor mínimo es 0, que indica
NO asociación).
 La fórmula es


 donde
 N: el número total de observaciones en la tabla.
 m: min(f-1,c-1). Menor valor de "filas - 1" y "columnas - 1".
 Ejemplo
 Un índice Ji Cuadrado igual a 19.44 señala que hay relación, sin embargo, no
informa sobre su magnitud (si hay mucha, moderada, poca, etc). La V de
Cramer es igual a:


 A la vista de este resultado podemos decir que la relación entre las variables
es moderada.
 Escalas diferentes
 6 Asociación entre variables de escalas diferentes
 Para cuantificar la asociación entre variables de escalas diferentes se ha
derivado índices a partir del coeficiente de correlación de Pearson, y son el
coeficiente biserial-puntual y el coeficiente biserial. Estos índices son de
interés particular en Psicometría.
 Coeficiente de correlación biserial-puntual
 Este coeficiente es adecuado para cuantificar la correlación entre una variable
dicotómica y una variable medida a nivel de intervalo. Este coeficiente es una
derivación del coeficiente de correlación de Pearson. Definición:


 Donde
 Mp: Media de la variable continua para los casos con valor 1 en la variable dicotómica.
 Mq: Media de la variable continua para los casos con valor 0 en la variable dicotómica.
 sn: Desviación Típica obtenida con n en el denominador.
 n1: Número de casos con valor 1 en la variable dicotómica.
 p: Proporción de casos con valor 1 en la variable dicotómica.
 q: Proporción de casos con valor 1 en la variable dicotómica.
 Ejemplo



 Coeficiente de correlación biserial
 Este coeficiente es adecuado para cuantificar la correlación entre una variable
dicotomizada a partir de una variable normalmente distribuida y una variable
medida a nivel de intervalo.
 El coeficiente de correlación biserial se define


 Donde los símbolos tienen el mismo significado que en la fórmula de la
correlación biserial-puntual e y es la ordenada de la distribución normal
estandarizada en el punto que divide la distribución en dos partes con
proporciones de casos con valor 0 y 1 en la variable dicotomizada.
 Ejemplo


 7 Concepto de relaciones no lineales
 Sea el siguiente ejemplo: Se quiere hacer un estudio sobre la relación entre
capacidad de atención y duración de las conferencias, para lo cual administran
una prueba que mide el grado de atención según la duración de las
exposiciones orales. Los datos son:


 El diagrama de dispersión es:


 La figura sugiere que las dos variables están relacionadas pero no de la forma
que hemos visto en los ejemplos anteriores. El coeficiente de correlación de
Pearson es igual a -0.22, y por tanto señala casi ausencia de relación, lo cual
no es así a la vista de los datos y la gráfica.
 La explicación es que el coeficiente de correlación de Pearson mide la
covariación como el grado de aproximación de los puntos a la recta que
representa la correlación máxima, es decir, mide la correlación de tipo lineal,
pero los puntos adoptan una configuración curvilínea. La relación entre los
datos del ejemplo es de tipo no lineal, y para medirla hay que utilizar un
procedimiento específico, como es el índice denominado razón de
correlación.

 ma 6: Regresión lineal
 1 Introducción
 2 La ecuación de la recta
 3 El criterio de mínimos cuadrados
 4 Representación gráfica
 5 Coeficientes de regresión estandarizados
 6 El coeficiente de determinación
 7 Introducción a la Regresión Múltiple
 Introducción
 La predicción o estimación de los valores de las variables a partir de los
valores de otras variables se basa en el siguiente supuesto: Si dos variables
covarían, es decir, están relacionadas, el conocimiento de una de ellas permite
saber cómo es la otra. Por ejemplo, supongamos que estamos interesados en
estimar el peso de las personas en función de su altura, y que habiendo
obtenido repetidamente medidas de peso y altura resulta que los datos son
siempre los siguientes: (X representa la altura e Y el peso)


 es decir, los valores superiores de una variable están emparejados con los
valores más grandes de la otra variable, los inferiores de una con los inferiores
de la otra, etc. El diagrama de dispersión muestra que los puntos pueden ser
unidos por una línea recta:


 La consecuencia es que si conocemos la posición de un individuo en una
variable podemos conocer la posición que tiene en la otra variable. Por
ejemplo, si nos preguntan cuál será el peso de un individuo cuya altura es
1.70 m. y hacemos la predicción de que será 70 Kg. acertaremos (siempre que
la covariación entre las dos variables se mantenga). Ahora bien, con datos que
representan procesos del comportamiento las cosas no son tan sencillas,
porque difícilmente hallaremos variables cuya covariación sea máxima. En
consecuencia, necesitamos un procedimiento que obtenga las mejores
estimaciones o predicciones.
 Los puntos de este tema están organizados de la siguiente forma:
 Punto 2 La ecuación de la recta: Obtención de predicciones (estimaciones) por
procedimientos analíticos (transformaciones lineales).
 Punto 3 El criterio de mínimos cuadrados: Cuantificación y minimización del
error de predicción.
 Punto 4 Representación gráfica: Obtención de predicciones mediante gráficas
(diagrama de dispersión).
 Punto 5 Coeficientes de regresión estandarizados: Ecuación de Regresión con
puntuaciones tipificadas.
 Punto 6 El coeficiente de determinación: Procedimiento para valorar cuán
buena podemos esperar sea la predicción.
 Punto 7 Regresión Múltiple: Extiende la predicción con una sola variable
predictora (Regresión Simple) al caso de varias variables predictoras.
 a ecuación de la recta
 2 La ecuación de la recta
 Este punto introduce la ecuación de Regresión Simple como procedimiento
analítico para la obtención de predicciones (también denominadas
estimaciones o valores esperados). Las transformaciones lineales generan
variables que incorporan la información proveniente de otras variables, y por
ello son la base para definir procedimientos de predicción o estimación de
variables habida cuenta de la covariación de las variables entre sí. El Análisis
de Regresión se basa en definir la variable estimada (predicha) como
transformación lineal de la variable predictora:


 donde:
 Y' (A veces se simboliza como en la fórmula y otras veces se utiliza el apóstrofo):
Variable predicha o estimada.
 a: Constante (también denominada interceptal). También simbolizada como "c" o "m".
 b: Coeficiente de la variable predictora (también denominado pendiente)
 X: Variable predictora
 Ejemplo
 En el siguiente ejemplo la correlación entre las variables es grande, pero no
perfecta: Estamos interesados en obtener predicciones de la sensación de
malestar (variable Y) a partir del número de sesiones de una terapia (variable
X), dado que hemos observado que las dos variables covarían (rxy = -0.97,
datos ficticios). Si asignamos valores arbitrarios a los coeficientes, como b= -
0.08 y c= 3.7, la ecuación con la que obtenemos los valores esperados (o
predichos) es:


 Los valores de la variable predictora X son:

 Sustituimos la X de la ecuación por los valores de los que queremos obtener
los valores esperados y resulta:


 En consecuencia diremos que la sensación esperada de malestar de un
paciente que no ha hecho ninguna sesión (X=0) es igual a 3.7; el valor
esperado para un paciente que ha hecho una sola sesión es igual a 3.6; etc.
 Las estimaciones (o predicciones) del ejemplo del apartado 2.1 han sido
obtenidas con una ecuación concreta. Sin embargo se podría haber utilizado
otra ecuación asignando otros valores a los coeficientes. Por ejemplo,
podemos hacer a= 4.8 y b= -0.2, y los valores esperados con esta ecuación
son diferentes a las del ejemplo anterior, y por ello hay que definir un criterio
para obtener las mejores predicciones que sea posible.
 3.1 Cuantificación del error de predicción
 Una forma sencilla de cuantificar el error de predicción consiste en obtener las
diferencias entre los valores predichos y los valores reales:


 donde:
 e: error de predicción o estimación
 Y: Valor reales de la variable a predecir
 Y': Predicción o estimación
 Ejemplo
 Si las medidas reales de sensación de malestar de los pacientes que han
realizado 1 y 7 sesiones de terapia son 4.6 y 3.1 respectivamente, hemos
cometido un error cuya magnitud es igual a 1 para X=1, y 0 para X=7 en las
predicciones obtenidas con la primera ecuación. En las predicciones obtenidas
con la segunda ecuación, los errores son iguales a 0 y -0.3 respectivamente:


 (Y'1 y Y'2 simbolizan las puntuaciones estimadas con la primera y segunda
ecuación respectivamente).
 Se comete menos error de predicción con la segunda ecuación, y por tanto es
preferible a la primera. No obstante, debemos tener en cuenta el resto de las
predicciones:


 (e1 y e2 son los errores de estimación con las ecuaciones 1 y 2
respectivamente)
 Las sumas de diferencias entre puntuaciones reales y estimadas (columnas
con símbolo e) son, respectivamente 4.2 y 1.5 para cada ecuación. Pero
observamos que algunas diferencias en la columna de la derecha son
negativas y en consecuencia las sumas de errores NO miden correctamente la
magnitud del error. Por ello se trabaja con la suma de cuadrados de
diferencias entre puntuaciones reales y puntuaciones estimadas, y se dirá que
el error de predicción es cuantificado según el criterio de mínimos cuadrados:


 (La suma de cuadrados de errores se divide por N para hacer posible
comparaciones entre grupos de diferente tamaño)
 .2 Minimización del error de predicción
 Minimizar el error de predicción significa obtener los coeficientes de la recta de
Regresión con los que la suma de cuadrados de errores de predicción es la
menor posible. Sea el siguiente ejemplo:


 La suma de cuadrados de errores es más pequeña con la segunda ecuación
que con la primera, y por tanto diremos que la segunda ecuación es preferible.
Podríamos definir arbitrariamente más ecuaciones y calcular el error de
predicción, pero interesa saber cuál es la ecuación que da el menor error de
predicción.
 Los valores de los coeficientes a y b que definen la mejor ecuación según el
criterio de mínimos cuadrados son obtenidos con las siguientes fórmulas:


 Con los datos del ejemplo, la mejor ecuación según el criterio de mínimos
cuadrados es:

 El sumatorio (suma) de cuadrados de los errores con esta ecuación es igual a
0.14, más pequeño que los sumatorios de cuadrados obtenidos con las otras
ecuaciones.
 (Clicando de forma repetida puedes activar la siguiente hoja de cálculo si tu
ordenador dispone de Excel. Prueba a introducir otros valores a los
coeficientes b y a y observa cómo cambian: Las predicciones, los errores de
las predicciones y el valor del coeficiente Q. Haz la comparación con los
resultados obtenidos con los coeficientes dados por las fórmulas de
Regresión).


 4 Representación gráfica
 Las predicciones pueden ser obtenidas con el diagrama de dispersión. El
procedimiento consiste en proyectar los valores de la variable predictora
(generalmente en el eje horizontal) a la recta que más se acerque a los
puntos, y desde la recta proyectar al eje de la variable a estimar
(generalmente en el eje vertical): El punto de corte señala el valor estimado.
 Ejemplo
 Por obtener las predicciones de la sensación de malestar a partir del número
de sesiones de terapia dibujamos el diagrama de dispersión y añadimos una
recta con pendiente igual a -0.08 e interceptal (punto donde la recta corta el
eje vertical) igual a 3.7. Si queremos obtener cuál es la sensación esperada de
malestar para un paciente que ha hecho 7 sesiones proyectamos este valor
desde el eje horizontal hasta la recta, y desde la recta hasta el eje vertical,
que corta al punto 3.1 (aproximadamente). Diremos que la sensación de
malestar esperada del paciente que ha hecho 7 sesiones es 3.1. De la misma
manera, la sensación de malestar esperada del paciente que ha hecho una
sesión es 3.6.


 Coeficientes estandarizados

 La forma de la ecuación de Regresión con puntuaciones típicas es:


 La ecuación de regresión para puntuaciones típicas presenta dos
particularidades: a) La interceptal siempre es igual a 0 por la misma razón que
ha sido explicada para las puntuaciones diferenciales, y por tanto no aparece
la constante. b) La pendiente de la recta de Regresión (el coeficiente de
regresión) con puntuaciones típicas es igual al coeficiente de correlación de
Pearson.
 Ejemplo
 Estamos interesados en estimar las puntuaciones finales de los estudiantes de
Análisis de Datos (la definimos como variable Y), y disponemos de las
puntuaciones típicas en el primer parcial (variable X). También sabemos que el
coeficiente de correlación de Pearson entre las dos variables es igual a 0.8. La
ecuación de Regresión es:


 La puntuación estimada en Junio de un estudiante que ha obtenido un 6 en el
primer parcial (cuyo valor tipificado es -0.5) es:


 Coeficiente de Determinación


 La bondad de la predicción depende de la relación entre las variables. Si dos
variables no covarían, no podremos hacer predicciones válidas, y si la
intensidad de la covariación es moderada, las predicciones no serán
demasiado buenas. En consecuencia, hay que disponer de alguna medida de la
capacidad de la ecuación de Regresión para obtener predicciones buenas (en
el sentido de que sean lo menos erróneas posible).
 Esta medida es el Coeficiente de Determinación, que es el cuadrado del
coeficiente de correlación de Pearson, y da la proporción de variación de la
variable Y que es explicada por la variable X (variable predictora o explicativa).
Si la proporción es igual a 0, significa que la variable predictora no tiene NULA
capacidad predictiva de la variable a predecir (Y). Cuanto mayor sea la
proporción, mejor será la predicción. Si llegara a ser igual a 1 la variable
predictora explicaría TODA la variación de Y, y las predicciones NO tendrían
error.

 Ejemplo
 En el siguiente cuadro puedes comprobar:
 a) que la Varianza total de la variable Y (0.76) es igual a la suma de las
Varianzas de las puntuaciones estimadas (Y') y de los errores de predicción (Y-
Y').
 b) Que el coeficiente de determinación (r2xy) es igual a la proporción de la
Varianza explicada (s2y') respeto de la Varianza total (s2y)


 Aplicación

 Los pasos a seguir para obtener predicciones o estimaciones con la Recta de
Regresión son:
 a) Valoración. Obtenemos el Coeficiente de Determinación y decidimos si vale
la pena hacer el resto de cálculos. Si el valor es bajo (como regla general,
menos de un 20% o 25% de variación explicada) no tiene demasiado sentido
hacer las predicciones. Si es un valor moderado (porcentaje de variación
explicada entre 25 y 50%) las predicciones tendrán un error considerable,
pero generalmente darán mejor resultado que hacerlas al azar. Cuanto más
grande sea el porcentaje de variación explicada, mejor serán las predicciones.
 b) Identificación de la Recta de Regresión. Consiste en obtener los valores de
los coeficientes según las fórmulas que minimizan el criterio de mínimos
cuadrados.
 c) Aplicación. Especificada la ecuación de Regresión, obtenemos las
predicciones sustituyendo la X por los valores de la variable predictora.
 d) Hay que tener en cuenta que las predicciones obtenidas con la técnica de
Regresión NO pueden ser interpretadas como lo que necesariamente ha de
ocurrir, sino como lo que se ESPERA que ocurra si las circunstancias no varían.
Por ejemplo, es conocida la covariación moderada entre el rendimiento
educativo en los estudios de secundaria y en la Universidad, pero un
pronóstico individual de resultado en la Universidad no quiere decir que
necesariamente vaya a ser así.
 Regresión Múltiple: Introducción

 La ecuación de Regresión Simple permite hacer predicciones de una variable
en función de otra. El comportamiento es muy complejo, y hacer predicciones
con una sola variable predictora es demasiado simple. Mejoraríamos la
posibilidad de predicción (o explicación) del comportamiento si utilizamos más
de una variable predictora. Para resolver esta cuestión se define la ecuación de
Regresión Múltiple (puntuaciones directas):


 donde
 Xi: Variable predictora (o explicativa).
 Bi: Coeficiente de la variable predictora Xi
 A: Interceptal o constante
 La valoración de la capacidad predictiva de la ecuación de Regresión Múltiple
se puede hacer con el Coeficiente de Determinación, que se interpretado de
forma semejante a como ha sido explicado para la ecuación de Regresión
Simple: Da la proporción de variación explicada por el conjunto de variables
predictoras (o explicativas). El Coeficiente de Determinación es el cuadrado del
coeficiente de Correlación Múltiple, que es la correlación de Pearson entre la
variable Y y la variable Y' (la variable que contiene las predicciones de Y):


 donde el primer subíndice indica cuál es la variable criterio y los otros indican
cuáles son las variables predictoras (o explicativas).
 Coeficiente de determinación:



 ema 7: Probabilidad
 1 Introducción
 2 Variables aleatorias
 3 Funciones de probabilidad y de distribución
 4 Principales distribuciones: Normal, Ji Cuadrado, t y F
 « Anterior | Si
 Introducción

 El objeto del tema es la cuantificación de la incertidumbre, lo cual tiene mucho
que ver con la previsibilidad del comportamiento. Hemos visto que el Análisis
de Regresión es una técnica para obtener predicciones, y que, excepto en el
caso de covariación perfecta, las predicciones son más o menos erróneas. En
consecuencia, hay incertidumbre en las predicciones, y esta es la situación
habitual. La imprevisibilidad genera incertidumbre.
 Los matemáticos vienen estudiando esta cuestión ya hace muchos años, y han
facilitado herramientas precisas que dan resultados exactos en situaciones
relativamente sencillas y fácilmente formalizables. Cuando se estudia el
comportamiento, sin embargo, las cosas son diferentes porque el
comportamiento se caracteriza por la complejidad, y su estudio requiere
frecuentemente técnicas complejas. Los conceptos básicos de la probabilidad
son de interés porque son el fundamento de procedimientos más sofisticados
que sirven para cuantificar la incertidumbre.
 Los matemáticos no son los únicos que miden la incertidumbre: Todo el
mundo lo hace cada día. Por ejemplo: Un conocido nos pide un préstamo por
una cantidad importante, y de una manera intuitiva evaluamos la probabilidad
de que nos devuelva el préstamo y decidimos en consecuencia. Otro ejemplo:
Tenemos un trabajo seguro en una empresa, y nos ofrecen un trabajo mejor
pagado en otra; generalmente evaluamos la incertidumbre de la nueva
situación antes de tomar una decisión. Estas evaluaciones son más o menos
intuitivas, y no suponen una cuantificación precisa de la incertidumbre, pero el
fundamento de como suelen hacerse se asemeja a algunas aproximaciones
formales a la probabilidad, que la definen como la frecuencia en que ocurre el
acontecimiento.
 Los matemáticos definen la probabilidad de ocurrencia de un acontecimiento A
(hay también otras definiciones) como la razón entre la frecuencia de A
(número de veces que es observado) y el número de veces en que podría
ocurrir:


 Pero difícilmente podemos medir la incertidumbre del comportamiento aunque
la fórmula sea sencilla. Volviendo al ejemplo, es difícil recoger datos exactos
de todas las ocasiones en que un individuo ha tenido la oportunidad de
engañar, y la de todas las veces que la ha hecho; en consecuencia difícilmente
podremos obtener una medida precisa de la probabilidad de que devuelva el
préstamo. En otras situaciones sí podemos obtener una aproximación más
precisa a la probabilidad. Por ejemplo, la de que un estudiante seleccionado al
azar obtenga "Notable". Esta probabilidad es el número de estudiantes que
obtienen "Notable" dividido por el número total de estudiantes del curso:


 En el ejemplo, diremos que la probabilidad de que un estudiante seleccionado
al azar obtenga "Notable" es igual a 0.2 (dado que 100 estudiantes han
obtenido Notable en un curso en 500 estudiantes).

 Teorema de Bayes
 El teorema de Bayes es un procedimiento para obtener probabilidades
condicionales (probabilidades de ocurrencia de acontecimientos condicionadas
a la ocurrencia de otros acontecimientos). La expresión del teorema de Bayes
para dos variables discretas es:


 Para variables que toman más de dos valores, la expresión es:


 El teorema de Bayes da respuesta a cuestiones de tipo causal, predictivas y de
diagnóstico. En las cuestiones causales queremos saber cuál es la probabilidad
de acontecimientos que son la consecuencia de otros acontecimientos. En las
cuestiones predictivas queremos saber cuál es la probabilidad de
acontecimientos dada información de la ocurrencia de los acontecimientos
predictores. En las cuestiones de tipo diagnóstico queremos saber cuál es la
probabilidad del acontecimiento (o acontecimientos) causales o predictivos
dado que tenemos información de las consecuencias. Para resumir, en las
situaciones causales o predictivas desconocemos las consecuencias y tenemos
evidencia de las causas. Por el contrario, en las situaciones de diagnóstico
desconocemos las causas y tenemos evidencia de las consecuencias.

 Ejemplo
 Unos psicólogos especializados en el tratamiento de trastornos de personalidad
están interesados en diagnosticar el trastorno que afecta un paciente, en el
que observan un conjunto de síntomas que indican que el paciente podría
sufrir el trastorno A o el trastorno B. Además saben que los porcentajes de
individuos afectados por los trastornos A, B o ningún trastorno son 10, 30 y
70. También saben que el porcentaje de individuos afectados por el trastorno
A y que muestran el síntoma X es igual al 60%, el porcentaje de individuos
que sufren el trastorno B y muestran el síntoma X es el 30% y el porcentaje
de individuos no afectados que muestran los síntomas de trastorno es el 10%.
Resumiendo, la información que disponemos es:


 Sustituyendo en el teorema de Bayes:


 la probabilidad de que el individuo padezca el trastorno A es 0.27. Las
probabilidades de que esté afectado por el trastorno B o el C son:


 La conclusión es que lo más probable es que el individuo padezca el trastorno
B, pero es un valor moderado y los psicólogos piensan que hay que obtener
más evidencia.
 El teorema de Bayes es especialmente adecuado para actualizar las
conclusiones a medida que disponemos de nueva información. Pasado un
tiempo observan que el paciente muestra un nuevo síntoma (Y), y saben que
presentan Y el 70% de los individuos que sufren el trastorno A, el 20% de los
individuos que sufren B y el 10% de los individuos que padecen el trastorno C.
Para obtener las probabilidades incorporando la nueva información hacemos
que las probabilidades posteriores pasen a ser las probabilidades previas:

 Una vez hechos los cálculos la probabilidad de que el individuo esté afectado
por el trastorno A ha pasado de 0.27 a 0.62
 Variables aleatorias

 Las variables aleatorias son aquellas a cuyos valores podemos asignar
probabilidades. De una manera semejante a como hemos hecho con las
distribuciones de datos agrupados en frecuencias, podemos medir
características de las distribuciones de probabilidad, como son la Esperanza y
la Varianza.
 La Esperanza se define:


 Ejemplo


 La Esperanza de X es igual a 1.95
 Interpretación: La Esperanza de una variable aleatoria es el valor promedio
que obtendríamos si N fuera infinito.
 La Varianza de una distribución de probabilidad se define:


 Ejemplo


 En las variables dicotómicas, la Esperanza y la Varianza toman formas
especialmente sencillas, y son:

 Donde p simboliza la función de probabilidad de una de las categorías. En
efecto, si aplicamos la fórmula de la Esperanza tendríamos:


 Por tanto la suma de la columna Xp(X) siempre es igual a p(X=1) (dado que el
producto de 0 por p(X=0) siempre es igual a 0). p(X=1) es la probabilidad de
ocurrencia de una de las dos modalidades, y se simboliza p.
 La probabilidad puede tomar valores entre 0 (posibilidad nula de ocurrencia
del suceso) y 1 (suceso cierto).
 En variables aleatorias continuas la Esperanza y Varianza se definen con
integrales, pero en la práctica los cálculos se hacen como si fueran variables
aleatorias discretas.
 Funciones de probabilidad y distribución


 Función de Probabilidad
 La Función de Probabilidad es la probabilidad de que la variable aleatoria tome
un valor particular:


 Ejemplo
 Podemos obtener las frecuencias relativas de las calificaciones de un curso y
disponerlas en una tabla:


 Asignando un número a cada calificación, y sustituyendo el símbolo de
frecuencia relativa por el de probabilidad:


 Finalmente tenemos la distribución de probabilidad de la variable "calificación
académica en la asignatura X". La distribución de probabilidad de una variable
aleatoria se define como el conjunto de valores de la variable acompañados de
sus probabilidades.

 Función de Distribución
 La Función de Distribución es la probabilidad de que la variable tome valores
iguales o inferiores a x:


 Si añadimos una nueva columna con las probabilidades acumuladas, tenemos
la función de distribución de la v.a. Ejemplo:


 Tanto la Función de Probabilidad como la de distribución pueden ser
representadas gráficamente con el diagrama de barras:
 Función de probabilidad:


 Función de distribución:


 Modelos

 Una de las razones por la que interesan las técnicas descriptivas es su
capacidad para representar los datos originales. Hemos visto que lo hacen
cuantificando características que describen los grupos (tendencia central,
variabilidad, asimetría y apuntamiento). Si la representación es fiel, los valores
de los estadísticos descriptivos nos da mucha información de los datos, pero
no toda la información. Por ejemplo, la Media representa la tendencia central,
pero no informa de la variabilidad de los datos.
 La representación de los datos se puede mejorar si se modeliza las
distribuciones de las variables, es decir, si las sustituimos por un modelo. Un
modelo es una representación de las características fundamentales de un
objeto. Modelos que interesan especialmente en Psicología son los que
representan relaciones entre variables o los que representan distribuciones de
datos.
 Las principales razones por las que los modelos son especialmente útiles son:
 a) Facilitan el tratamiento del objeto que representan (relaciones entre
variables, distribuciones, etc.).
 b) Son una forma mucho compacta/eficiente de transmitir información.

 Modelos de distribuciones
 Consideremos los siguientes datos:


 Podemos caracterizar los datos con procedimientos que representan sus
características más importantes. Así, podemos sustituirlos por gráficas como el
Histograma:


 La gráfica nos da una representación intuitiva, pero no nos informa de manera
precisa: Hemos perdido información. Otra posibilidad consiste en obtener
estadísticos descriptivos, por ejemplo:


 De esta manera tenemos información de la tendencia central, la variabilidad,
pero hemos perdido casi toda la información individual.
 Los modelos de distribuciones representan de forma compacta y precisa
(dentro de ciertos límites) las distribuciones de las variables. Por ejemplo, el
modelo


 donde m y s simbolizan la Media y la Desviación Típica, representa
distribuciones de datos cuya forma es:

 Si superponemos la curva anterior al Histograma que representa los datos del
ejemplo podemos apreciar que la curva se acerca bastante bien a la
distribución de los datos:


 La conclusión es que el modelo representa (aproximadamente) la distribución
original y por tanto nos da información más completa de los datos que si solo
obtenemos estadísticos descriptivos.
 De la misma manera que ha sido definido el modelo del ejemplo han sido
definidos otros, que podemos utilizar para representar los datos si el modelo
las acerca razonablemente. En los siguientes apartados son introducidos los
modelos de distribuciones más frecuentemente utilizados.
 3 Normal


 El modelo de distribución Normal es el más utilizado en Estadística, ya que:
 a) Muchas distribuciones de datos reales pueden ser representadas por la
distribución Normal.
 b) Tiene propiedades que la hacen especialmente útil.
 c) Representa la distribución de muchos de los acontecimientos que ocurren al
azar.
 La forma general de la función de densidad (la función de probabilidad en
variables aleatorias continuas) del modelo de distribución Normal es:


 La distribución Normal se simboliza

 Donde la "mu" y la "sigma" simbolizan la Media y Desviación Típica de la
distribución.

 Principales características
 a) Simetría. La distribución Normal es simétrica.
 b) Las distancias tipificadas de los valores de la variable a la Media están
asociadas a los porcentajes de casos entre los valores y la Media. En
particular, el intervalo definido entre mu+-1 sigma incluye el 68%
(aproximadamente) de los datos y el intervalo definido entre mu+-1.96
sigmas incluye el 99% (aproximadamente) de los datos. En consecuencia,
podemos obtener los Centiles y Rangos Percentiles aunque no dispongamos de
los datos.
 c) Con datos reales, la casi totalidad de los casos están dentro del intervalo
mu+-3 sigmas, pero teóricamente, la distribución Normal no tiene límites.
 d) El modelo de distribución Normal define no una, sino un conjunto de
distribuciones normales. Todas tienen en común la forma y las propiedades,
pero difieren en los valores de mu y sigma, es decir, en tendencia central y
variabilidad.
 e) Es de interés especial la denominada distribución Normal estandarizada en
la que mu=0 y sigma=1, que se utiliza como referencia del conjunto de
distribuciones normales.
 Binomial

 El modelo anterior es un modelo de distribución de probabilidad. Hay modelos
de distribuciones de probabilidades de variables aleatorias discretas y de
variables aleatorias continuas. A continuación se introduce el modelo de
distribución Binomial:
 La forma general del modelo es


 donde
 p: probabilidad de ocurrencia de un suceso.
 r: Número de ocurrencias del suceso cuya probabilidad queremos obtener.

 Ejemplo
 La probabilidad de obtener 5 aciertos respondiendo al azar en un examen que
consta de 10 cuestiones, cada una con 4 alternativas, es:


 El modelo Binomial se aplica a variables que presentan las siguientes
características:
 a) Son variables dicotómicas (presentan solo dos modalidades, como sexo) o
dicotomizados (presentan más de dos modalidades pero han sido agrupadas a
dos. Ejemplo: Agrupación en las categorías "solteros" y "otros" de las
modalidades "soltero, casado, divorciado, viudo" de la variable "Estado Civil").
 b) "r" representa el número de ocurrencias del suceso cuya probabilidad se
desea.
 c) La forma de la distribución se acerca a la Normal como mayor sea N.
Ejemplo con N= 100, r= 10 y p= 0.5:

 Ejemplo
 Obtención de la distribución de la variable "puntuación en una prueba objetiva
cuando las respuestas se emiten al azar". Aplicamos el modelo a todos los
posibles valores de X y obtenemos las probabilidades de los valores de la
variable. Estos valores son 0, 1, 2, . . . , 10 (número de aciertos posibles en
una prueba de 10 cuestiones). La función de probabilidad (conjunto de valores
con sus probabilidades) es:
 (Puedes activar la hoja clicando una vez; al aparecer el cuadro, clica dos
veces más. Puedes variar los datos, como p(x) y comprobar qué efecto tiene
variar el número de alternativas en las probabilidades, la Esperanza, la función
de distribución etc.)


 (El número esperado de aciertos al azar es igual a 2.5)
 i Cuadrado

 Los modelos de las distribuciones t, Ji Cuadrado y F son más complejos que los
modelos Binomial y Normal, por lo que es más práctico definir estas
distribuciones de la siguiente manera.
 Si una variable es obtenida según la expresión


 donde
 a) Las puntuaciones z han sido obtenidas de datos que se distribuyen segun el
modelo Normal, y
 b) Cada puntuación z es independiente de las otras.
 la variable T se distribuirá según el modelo Ji Cuadrado con "k" grados de
libertad.
 Principales características
 a) La forma de la distribución es asimétrica positiva, y se acerca a la
distribución Normal como mayor sea el número de grados de libertad (g.l.).
Ejemplo con 5 g.l.:

 b) Las puntuaciones Ji Cuadrado no pueden tomar valores negativos.
 c) La función de distribución de la distribución Ji Cuadrado está tabulada para
algunos valores que son de interés en Estadística Inferencial.
 5t

 Si una variable es obtenida según la siguiente expresión


 donde
 X: Variable que se distribuye N(0,1), es decir, según el modelo Normal con Media igual a
0 y Desviación Típica igual a 1.
 Y: Variable que se distribuye según el modelo Ji Cuadrado con k grados de libertad.
 se distribuirá según el modelo t con k grados de libertad.
 Principales características
 a) La forma de la distribución es simétrica, y se acerca a la distribución Normal
como mayor sea el número de grados de libertad. Ejemplo con 10 grados de
libertad (g.l.):


 b) La Media es siempre igual a 0.
 c) Los valores de la distribución t pueden ser positivos y negativos.
 d) La función de distribución de la distribución t está tabulada para algunos
valores que son de interés en Estadística Inferencial.
 F

 Si una variable se obtenida según la expresión

 Donde C1 y C2 se distribuyen según Ji Cuadrado con "m" y "n" grados de
libertad respectivamente, seguirá la distribución F con "m" y "n" grados de
libertad.
 Principales características
 a) El modelo F define un conjunto de distribuciones cuya forma es diferente
según el número de grados de libertad.
 b) Es una distribución asimétrica positiva, pero cuanto mayor sea el número
de grados de libertad, más se acerca la distribución F a la distribución Normal.
 c) Solo puede tomar valores positivos.
 Ejemplo con 2 y 5 g.l:


 d) La función de distribución de la distribución t está tabulada para algunos
valores que son de interés en Estadística Inferencial.

También podría gustarte